咱们前面聊了数据是AI的“粮食”没数据AI就玩不转但光有粮食还不够——就像咱们做饭得考虑米新不新鲜、会不会浪费AI用数据也得解决“数据从哪儿来”“数据干不干净”“能不能随便用”这些问题。
要是这些问题没处理好就算有再多数据AI也可能“吃坏肚子”甚至闯祸。
接下来咱们就接着唠看看数据给AI“供能”的背后还有哪些不得不说的关键事儿。
一、数据从哪儿来?AI的“粮食”不是天上掉的 很多人可能觉得“AI用的数据随便找一找就有”但其实不是——要收集到足够多、足够相关的数据可不是件容易事儿得靠不同的“渠道”去“找米”而且每个渠道都有自己的门道。
最常见的一种渠道是咱们“主动给的”。
比如你用社交软件发朋友圈、发评论用购物APP下单、收藏商品用导航软件查路线、记常用地址这些行为都会产生数据而平台会把这些数据收集起来用来训练AI。
就像你在外卖平台点了几次奶茶平台收集到“你爱喝三分糖、去冰的奶茶”这个数据AI就能给你推荐同类型的新品;你在短视频APP上总给宠物视频点赞平台收集到这个数据AI就会多推宠物内容给你。
这些数据都是咱们在使用软件时不知不觉“贡献”出去的也是AI数据的重要来源。
还有一种渠道是“专业团队专门采的”。
比如要做一个能识别农作物病虫害的AI光靠用户上传的照片不够——得有农业领域的团队去田间地头拍不同作物(小麦、水稻、玉米)、不同病虫害(蚜虫、白粉病、锈病)的照片而且得拍清楚病变部位、不同发病阶段的样子还得标注好“这是小麦蚜虫病”“这是水稻白粉病”。
这种数据专业性强要求高不能随便凑数得花大量时间和人力去采集。
之前有个做医疗AI的团队为了训练AI识别肺癌花了3年时间从全国几十家医院收集了十几万张肺部CT影像还得让医生一张张标注“这是良性结节”“这是早期肺癌”可见多不容易。
另外还有“公开数据集”可以用。
行业里有些机构会整理好数据免费或低价开放给大家用比如咱们之前提到的ImageNet还有用于自然语言处理的“中文维基百科数据集”、用于语音识别的“Common Voice数据集”。
这些数据集就像“公共粮仓”AI开发者不用自己从头收集能省不少事。
但这类数据集也有缺点——可能不够“贴合具体需求”比如公开的语音数据集大多是标准普通话要是想做一个针对某地方言的语音AI还得自己额外收集方言数据。
总之AI的“粮食”不是天上掉的要么是咱们用户在使用中“贡献”的要么是专业团队辛苦采集的要么是从公开渠道获取后再加工的。
每一份数据背后都有不少人力和时间的投入。
二、数据得“干净”:不然AI会“学歪” 咱们做饭的时候米要是有虫、有石子得先淘干净才能煮不然煮出来的饭没法吃;AI用数据也一样得先把数据“洗干净”要是数据里有错误、有杂质AI学了之后就会“学歪”做事情出错。
啥是“不干净”的数据?比如数据里有“错误标注”——本来是猫的图片却标成了狗;本来是“用户不喜欢吃辣”的记录却标成了“喜欢吃辣”。
AI学了这些错数据就会跟着犯错:看到猫的图片会当成狗认;给不喜欢吃辣的用户推荐超辣的火锅。
还有一种是“重复数据”——比如同一张猫的图片在数据集中出现了100次。
AI学的时候会反复学这张图误以为“猫就长这样”等遇到其他样子的猫(比如无毛猫、三花猫)就认不出来了。
这就像咱们学认字要是只反复写同一个字的一种写法遇到行书、草书的写法就不认识了。
还有“偏见数据”这个更麻烦。
比如要做一个“招聘AI”用来筛选简历结果收集的数据里大部分“优秀员工”的简历都是男性女性简历很少而且标注的时候还把“女性”和“不适合加班”“不稳定”这些标签绑在一起。
AI学了这种数据就会产生“偏见”筛选简历时会优先选男性甚至直接把女性简历筛掉这就造成了性别歧视肯定是不行的。
之前国外就发生过这样的事:某公司用AI筛选求职者结果发现AI对女性求职者很不友好后来查原因才发现训练数据里过去十年录用的员工中男性占比很高数据本身就有偏见AI自然就“学歪”了。
最后公司只能停用这个AI重新清理数据。
所以数据收集来之后必须得“清洗”:先把重复的数据删掉再把错误标注的数据改对最后还要检查有没有偏见尽量让数据更公平、更准确。
这一步就像咱们做饭前淘洗米、挑拣菜虽然麻烦但必不可少——只有“干净”的数据才能让AI学好做事情不出错、不跑偏。
小主这个章节后面还有哦请点击下一页继续阅读后面更精彩!。