【新华企业资讯3月12日】2025年2月底澳鹏发布的年报显示:2024年公司中国业务营收突破4.2亿元,年增长达到71%,其中的大模型/AIGC业务增长了526%,几乎所有AI龙头,特别是大模型AI企业都成为了澳鹏的客户。
澳鹏Appen全球高级副总裁、大中华及北亚区总经理田小鹏博士表示,在大模型启动AI数据服务超级周期的大门时,全球“知识”资源+高速技术迭代+高安全合规正在重新定义AI数据服务行业,所有的供应商都被重新洗牌,传统人力资源型服务商正被迅速边缘化。全力投入高质量技术研发和产品、实现供给全球“知识”资源、确保国内外数据合规和安全的AI数据服务商才能真正接住超级周期的大盘。澳鹏中国将持之以恒地全力投入技术研发、垂直领域、全球资源布局和数据合规与安全等方向,与AI龙头企业一起夯实新十年的增长路径。
图片来源:Appen公司2024年财报,单位:百万美元
行业井喷成就龙头企业
在ChatGPT阶段,大模型的瓶颈已经从算力和算法推进到了数据;在DeepSeek阶段,高质量数据进一步成为大模型的“燃料”。2024年底,中国国家发改委等部门发布了《关于促进数据标注产业高质量发展的实施意见》,引发了全社会对于数据标注的关注,迅速引爆了数据标注行业的热度,市场认为数据标注行业井喷在即。
作为AI数据服务行业龙头企业,澳鹏Appen公司的2024年全年报显示,经调整后的公司年营收增长16%、2024年下半年大模型收入占28%。在澳鹏中国,大模型及大模型相关业务已经占据了营收的40%。澳鹏自2023年中旬推出大模型相关产品和服务,仅仅一年多的时间发展成为了第一大业务,用“爆发”形容并不为过。2024年,澳鹏中国全年实现了4.2亿元人民币营收,其中大模型及大模型相关业务营收达到1亿人民币。
在被大模型“泼天富贵”砸中的同时,澳鹏清醒地看到了整个AI数据服务行业的洗牌。过去AI数据标注行业是手工作坊模式,国内有上千家服务商,主要是人力资源密集型,技术含量低,市场竞争激烈。
田小鹏博士表示,“大模型对于AI数据服务的综合能力的要求比过去上了几个台阶,亿量级别数据(知识)的采集标注、数据高质量的精细化管理、数据复杂度和多样性与模型泛化的矛盾、国内外数据安全与合规风险的升级、海外标注交付能力等等,都要求服务商具备更强的技术能力、平台与产品,‘全球+技术+管理+垂类知识’的多维AI数据服务模式将逐步淘汰过去的单纯的低端人力资源、单一区域密集型模式。”
“出海”和全球化是中国AI客户的战略布局之一。澳鹏中国目前在全球有9大高信安交付基地,布局北美、欧洲、东南亚、中国等,同时更有覆盖170+国家,290+种语言的超百万的众包资源,已经是中国头部的AI客户在海外市场的“攻城略地”的长期和信任AI数据合作伙伴。田小鹏博士认为:“真正的AI市场,不仅在国内,更在广阔的全球。”
澳鹏(中国)在2024世界人工智能大会(WAIC2024)
澳鹏是少数最早投资技术和技术平台的AI数据标注服务商之一,澳鹏中国自2019年成立以来十分坚定投资技术,成立5年以来向技术研发投资了1.1亿元人民币,先后开发了MatrixGo企业级高精度数据标注平台以及大模型智能开发平台,通过双技术平台的建设,实现了效率、质量和安全性方面的显著优势,抢得了市场先机。
大模型对于标注数据的范围、量级和复杂性要求,远远超过了之前的AI小模型。田小鹏博士认为:原先的AI小模型都是项目制,而大模型是一个世界通用模型,要解决所有人类的问题甚至是对未来的思考,涉及范围“匪夷所思”、远超想象;大模型对于标注数据量级要求则是上亿条甚至是几十亿条的海量级,远超之前AI小模型的几百、几千条;而基础大模型的学习速度非常快,一两年内就能消耗完所有的公开信息,接下来的难点在于专业和私域数据。
正是由于大模型对于标注数据的要求直接从TB级跃升到PB级、从单一模态和简单标注跨越到多模态数据(文本、图像、语音等)和复杂的标注任务(如多轮对话、思维链标注等),急需金融、法律、医疗、音乐、文学、数理、代码、美学艺术等垂直领域的更高水平的专业知识等,这些都要求数据标注服务商具有强大的技术平台和研发能力,通过智能化的标注平台承载大模型“匪夷所思”的需求。除了开发智能标注工具和平台外,澳鹏对技术的投资还包括构建多模态数据湖,统一管理文本、图像、音频等异构数据,支持灵活的数据组合与实验,以及强化伦理与合规框架等。
自2023年率先在AI数据服务行业中推出大模型智能开发平台以来,几乎所有的互联网、科技、AI和大模型头部客户都找到澳鹏,与澳鹏团队捆绑式紧密合作,共同应对大模型的数据洪流。例如,基于澳鹏大模型平台多模态数据处理能力,澳鹏为某AI科技厂商提供图像文本描述数据服务工作,提供高质量图文对超过50亿对,充分满足了图文大模型的数据需求。正是“笨鸟先飞”,提前“押注”投资技术和研发,让澳鹏在行业洗牌中脱颖而出,跃升为行业龙头。
布局下一个十年
虽然公司在2024年取得了跨越式发展,但田小鹏博士认为,以DeepSeek等大模型为代表的大模型红利才刚刚开始,AI数据服务行业将进入10-20年的景气周期,澳鹏中国将在技术、交付、安全和渠道等方向持续布局,其中的战略重点是技术和交付。而澳鹏作为AI数据服务行业的龙头,其面向未来十年超级周期的布局,也将影响整个行业的发展方向。
技术和研发是澳鹏中国持续性战略投资的重要方向。田小鹏博士表示,技术是绝对生产力,未来5年,澳鹏中国将向研发再投入2亿-3亿元人民币,以确保公司在大模型超级周期中的持续竞争力,公司也将持续转型为算法辅助型、深化垂直领域的数据服务能力,同时通过人机协同模式提升数据标注的专业性和准确性。
澳鹏中国研发负责人、产品和工程副总裁钱程介绍,公司目前80%以上的研发人员都参与了大模型相关的研发任务,主要研发方向包括面向大模型的数据服务平台、面向大模型的数据标注工具以及大模型相算法的研发和应用等。2025年,澳鹏中国将投入研发资源打造智能化成品数据集生产管理平台,通过自动化的数据标注、清洗挖掘和质量评估快速构建大规模高质量成品数据集,为大模型的模型训练提供高质量数据养料。