今年上半年,一线城市的科技圈被人工智能激活了。
文心一言、通义千问、光年之外等大模型一波接着一波地输送热度,手握顶级资源的大佬们站在这场盛会的核心地带,他们相继发出英雄帖,有关大模型人才的争夺也摆上了牌桌。
作为与AI产业链紧密相扣的一环,距离北京500公里的山西太原数据产业基地却波澜不惊,这里聚集了上千名人工智能标注师。他们谈论的话题停留在项目进度、拉框达标率和一日三餐。
(相关资料图)
“热闹是他们的,我们只有数不尽的拉框。”一位数据标注师向时代财经说道。
在数据标注公司老板何晴记忆里,热闹发生在四五年前。人工智能的春风第一次刮向这个中西部城市,敏感的商人开始划地盘、招人,向人工智能源源不断地提供“养料”。他们大多是人工智能的门外汉,因为突如其来的庞大用工需求,与前沿科技产生了奇妙的联结。
“当时很多老板把自家人全都拉过来,随便动动手指都能赚到钱。”何晴听说过数据标注行业内不少振奋人心的消息——有人在三个月内收入百万,也有人抢到的订单能排到第二年。
但这样的好日子正在逐渐远去。
体面的“流水线”
上午8点45分,黑压压的人流堵在了电梯口,只有三分之一的人挤上了第一趟电梯,所有人最终的目的地都在6楼。
电梯门缓缓打开,人群一下子向四面八方散开,走进一个个看不出任何差别的办公室——100平米左右的空间摆满了上百台电脑,主机、鼠标、键盘线密密麻麻缠绕在员工脚边。
“只要顺着门牌号,一家家问过去,全是做数据标注的。”园区内底楼的商贩如此形容道。
这座吸纳近千人的数据标注基地像是藏在园区内的隐秘网吧,坐在电脑前的人熟练地点击着键盘和鼠标,一平方米左右的桌子被体积庞大的电脑霸占。
正在工作中的数据标注师 图源:时代财经摄
唯一能彰显个性的,是戴在头上五彩缤纷的耳机,他们有着一个共同的身份:数据标注师。
鼠标在左右键来回敲击,屏幕上的图片跟着放大缩小,光标飞快地描绘出一个个大小不同的框框……重复的动作持续半小时后,美玲稍稍扭了一下脖子,脊椎处的骨头发出咯吱咯吱的声音。
“新人熬过第一周就行了,做熟练了上手很快。”美玲一边仍继续盯着屏幕,一边对时代财经说道,第一周就放弃的人高达30%。
每隔两周,领班周姐就会带着十几个新人开启学徒生涯,这样重复无聊的工作劝退了不少年轻人。
两年前,美玲从幼师转型成了一名数据标注师。她的老家——吕梁的工作岗位很少,电话销售是其中一个比较体面的归宿,如今在人工智能浪潮的影响下,数据标注师为县城女性提供了另一种选择。
半年前,由于标注基地的变动,美玲从老家来到了省会太原。“自动驾驶、人脸识别哪一个不需要大规模标注员的参与。”她流露出骄傲的神情,在家里人看来,坐在办公室操作电脑、月收入超过3000元,待遇已经超过县城大多数工作了。
2005年,计算机视觉专家朱松纯从美国回到故乡湖北鄂州,创办了莲花山研究院,并由此组建了中国最早的大数据标注团队。随后,数据标注厂逐渐在二三线城市生根,河北、河南、山东、山西等地区出现产业集群地。
通过重复的标签训练,让人工智能走到“觉醒”时刻,在美玲看来,这和之前的幼师工作一样。
数据标注是人工智能产品诞生的第一个环节,接下来,还要经历模型训练与优化、模型管理、推理应用等。喂养人工智能产品需要数以亿计的数据,这些数据会最先流向“美玲们”的电脑。
不过,美玲对“高科技”的幻想,在重复机械的鼠标声中一点点被打碎。她测算过,1500个框是每天工作量的极限,一旦越过这条警戒线,眼球就会一阵阵酸痛。
下班后,即便对着电视机,她看到的也是一片斑驳的马赛克,像极了一张张放大后需要标注的模糊图片。
“隔壁座位上总是陌生的面孔,同事之间很少交流。”工作了一年半后,在同一基地上班的吴霞还没有习惯办公室的沉默。
大专毕业后,原本她跟着同学一起进厂,后来因为项目变动、同学离职,她成了“独行侠”。工作一开始,办公室就变成了自动化流水线启动的“车间”,冷冰冰的工业化气息,没有多少人情味。
单独计件、不需要团队协作是数据标注行业的特性之一,由此形成不同于普通白领的管理方式。
在这里,标注师没有固定的工位,而是根据项目变动随机分配几百号人的流向。最长的项目2-3个月,短期项目只有2-3天,十几个人的项目小组设置一个管理员,时刻紧盯每个人的工作进度。
标注师也不会把精力用于经营同事关系,计件工种讲究效率和专注度,时间和金钱挂钩,要完成平均标准的1000个框,意味着平均每分钟要完成2个框。
“跟别人说话的间隙,就会少赚好几框的钱。”美玲说道。
富士康工人流向标注厂
在数据标注园区内,还零散分布着技术研究院和留学生创业基地。在孟然看来,这些“高端”岗位都离他很遥远。
上大学前,他没有离开过老家临汾,大学毕业后,家里人希望他不要离开本省。基地两公里以外,是富士康太原科技工业园。这个厂区吸纳了当地最活跃的用工人群,巅峰时期,有近6万人活动在厂区的流水线上。
不管如何折腾,大学生孟然的求职流动半径从没超过5公里。他曾经从数据标注基地二期搬到三期;在正式成为数据标注师之前,隔壁的富士康曾是他燃烧青春的地方。
距离数据标注基地不到2公里的富士康园区 图源:时代财经摄
孟然曾经连续两个假期进厂赚钱,每次在拿到一笔大几千元的报酬后,便匆匆离开。
每到寒暑假,富士康园区门口都站满了拎着大包小包行李的大学生,所有人的目标都指向了全年最高的返费和小时费。“大家都是过来赚快钱的,旺季一过就打包走人,工厂忙起来太辛苦了,很难长期坚持干下去。”
孟然不喜欢富士康的工作氛围。进入车间前,要把电子设备上交,每天面对的的只剩下着装相似的赶工人潮和萧瑟冷峻的厂房。当遇到脾气暴躁的班组长时,每天受到劈头盖脸的谩骂也是家常便饭。
伴随着生产线启动的轰鸣声,工人需要不停安装某个零件,这样的动作往往要持续10个小时以上。在完全封闭的空间内,连出神都是奢侈的事情。等到领班稍微放松管理,孟然才敢和身边的工友聊上几句话。
2018年,在旁边的数据标注基地落成后,孟然的工作有了第二种选择。仅仅在只隔了一条街的距离外,就有一个更舒适的工作唾手可得。
王菲曾是富士康的招聘专员。工厂淡旺季和人员变动,加上模糊的返费报酬和经常变卦的收入,让她经常陷入和打工者的无止尽拉扯中,标注师对她来说是更好的选择。
“前几年数据标注门槛低、单价高,每个月能保持4000元收入,而且做的项目都是大厂有关的业务,比较有保障。”王菲见过有不少熟练工离开基地另谋出路,但又兜兜转转回来的。
不少标注师有着和孟然相似的工作轨迹,电子厂的工作经历是他们简历的共同点,数据标注工厂成为他们离开电子代工厂的下一站。
用工数量大、收入可观、操作简单的共同点,无形中搭起了一座两公里的天桥,将两座超级工厂连接在了一起。
消失的项目和公司
对于标注师来说,一个直观的感受是:好日子快到头了。
单价几毛钱的项目不见了,一个标注框的价格卷到了几分钱;简单的平面描点拉框消失了,取而代之的是需要多维度标注的点云项目;正式员工逐渐从项目组离开,性价比更高的实习生撑起了一半以上的用工量。
数据标注公司老板何晴长达半年没有来过基地,她逐步减少了对公司的投入。
去年下半年开始,她的团队再也没能接到客单价高的项目,客户账期也从三个月拖到了半年。“很多现金流不够、不具备垫资能力的小厂倒闭了,我们的团队成员也少了三分之一。”
三年前,标注框一度点燃了李薇的热情,慢热、不擅长沟通的她感觉自己找到了“天选”工作。
李薇接过单价为0.25元的项目,效率高的时候,她一天能拉框1200个,一个月赚近8000元,“为了能多赚一些钱,有人买来主机在家开工,任何人只要做得熟练了,都会收入变多”。
和其他人一样,李薇隐隐觉得淘金时代结束了。
公司启动了全新的项目,呈现在眼前的不再是真实世界的路况图,而是由成千上万个绿色的、紫色的、蓝色的点构成的模型图,一张完工的图片中包括近百个标注框,而一整套题又是由几十张只有细微差别的图片构成的。
“需要反复在平面图和3D切换,一些被遮挡住的画面得靠脑补,边框精确度也要求控制在0.01米,工作性价比越来越低了。”只要与要求的范围偏差多出1毫米,就会被审核无情地打回去。
数据、算力、算法是人工智能的三大基石,数量越多、质量越高的数据,往往能够训练出更加成熟的大模型,表现在标注师的工作上就是不断被拔高的精确度。
“这几天又在调整规则,精确度要求提高到80%以上。”精确度成了标注师的“死穴”,也是他们抱怨时出现的高频词汇。
一张标注完成的图片还要经过审核、质检等2-3个环节,否则不能进入结算周期。
有时候,吴霞感觉自己像被困在复杂的迷宫里,怎么都出不去。她曾被一个新项目磨了近一周——一边上交题目,一边被不断打回,这让她陷入焦虑。“如果题目被打回的频次太多,就会被分配给其他人,前面的精力全白费。”
孟然的焦虑则是另一种。从去年8月开始,他的工作变得清闲起来,过去5分钟内积压上万的数据量,现在半个小时也不会有负载红线。
“可能是平台数据量变少了,也有可能是机器审阅的效率提高了。”孟然的不安全感很快得到了印证,由于工作量被迫减少,他每天的收入从一两百元降到了几十元。
一场淘汰赛在各大代理商中蔓延开来。孟然见过有团队一夜之间解散,十几名被拖欠薪资的员工把公司告到劳动局;情况稍微好一点的,会连同电脑和员工转让给下一个代理商。
“保险起见,还是要去人员规模超过30人的团队。”这是孟然给新人的忠告。
标注师正退出历史舞台
熬过了一周的培训期、挺过了半个月的生手期,今年5月,身在湖南的晓婷终于适应数据标注师身份,却见证了公司的快速下坠、直至消亡。
“入职一个月,公司就撑不下去了,老板请大家吃了散伙饭,但工资还要等几个月再发。”在晓婷看来,当前数据标注行业遍布“地雷”,风险远大于收益。
无论是数据标注的创业者,还是数以万计的标注师,都无法回避一个事实:在大模型施展拳脚的舞台上,人工数据标注逐渐无足轻重。
和美玲想象的幼师工作不一样的是:学生不会那么快抢走老师的工作。如今,被标注师哺育起来的大模型技术正迅速反哺数据标注流程。
以特斯拉为例,其自2018年以来不断发展自动标注技术,从2D人工标注转为4D空间自动标注。技术的进步,吞噬了人工标注的操作空间,2021年特斯拉人工标注团队超过1000人,2022年则裁员超过200人。
其他车企公司包括小鹏汽车和毫末智行也纷纷推出自动标注工具。毫末智行CEO顾维灏公开表示,目前获取车道线、交通参与者和红绿灯信息,人工标注成本约每张图5元,而毫末DriveGPT的成本仅为0.5元。
2019年,在一线城市从事AI数据训练师吴迪便预感到自己职业生涯的天花板,他所在公司负责研发电商平台智能客服项目。比他设想的进度更快,不到一年,他负责的数据标注10人团队便被全部砍掉,只保留了零星运营人员。
“项目不断成熟的那天,就是我们不被需要的时候了。”
大模型的进化像是一条奔腾不息的河流,总在某一个瞬间奇袭,把人工团队甩在身后。
在苏黎世大学今年3月份的一份调查报告中,研究人员通过实测发现,ChatGPT在15项标注任务中的处理能力高于众包人员。
今年4月初,在校医学生李捷在一个月内完成了某大厂在医药领域的文本标注,该项目将用于提供智能诊断对话服务,这也让李捷第一次感受到大模型进化的速度。
“一开始,我们不断给平台投喂分类医学名词,到了第二周,系统就能自动实现基本的名词分类了,而且正确率超过90%。”
在山西太原,基地领班周姐开始劝新人接手难度更高的项目,因为公司很难再承受项目一次次被搁置的压力。“目前越简单的标注业务利润越薄,有的项目做到一半就黄了,人力成本完全覆盖不了项目的收益”。
一位数据标注行业招聘人士告诉时代财经,今年以来,招聘门槛逐渐从专科生向本科生倾斜。“之前对标注师基本没有经验要求,现在很多公司都希望新员工可以直接上手做项目,这样能减少前期的培训成本。”
目前,智能标注能大致捕捉到物体的基本形状和位置,但是在精准度上,仍然落后于专业的标注师。
没有人知道智能标注会在什么时候迎来大爆发,但一种不安全感始终伴随着李薇。每当她打开新项目页面,代表智能标注的红框总是率先跳出来,仿佛无时不刻地提醒屏幕前的人:
终有一天,它会取代她的位置。
(文中受访者皆为化名。)
关键词: