高质量数据供给,让行业大模型应用落地更“有料”
《数字中国发展报告(2023年)》显示,我国数据生产总量达到32.85ZB(泽字节),为国产大模型的爆发提供了丰富的“底层原料”。算力、数据、算法、场景,是决定大模型能力的四个要素,随着大模型发展由“通用”逐渐走向“垂直行业”,数据的质量直接影响了模型的性能和可靠性。
更庞大的数据量、更高的数据质量,将推动大模型在企业侧实现应用的爆发。浪潮卓数大数据董事长张帆认为,当前高质量中文语料资源短缺问题初现端倪,且随着时间推移,优质数据的获取难度将进一步加大,这是必须要正视的问题。面对大模型产业化的挑战,市场需要具备较强算法能力和稳定训练资源的数据基础服务供应商。
《数据要素×三年行动计划(2024-2026年)》实施后,国家鼓励科研机构、龙头企业开展行业共性数据资源库建设,打造高质量大模型训练数据集,提升数据供给水平。“我们强调以数据治理为突破口提升数据质量。”张帆表示,浪潮卓数大数据基于完善的数据资源体系,通过自主研发的标注工厂系统,结合自有的数据治理模型工具,智能化提升数据治理的质量和效率,形成高质量语料训练数据集,支撑多模态融合的数字化场景。
行业大模型“术业有专攻”,在面向行业的“封闭场景”中,大模型所需的优质数据集并不容易获得。加速破局尚需多方合力,鼓励市场力量挖掘商业数据价值,才能为行业大模型成长提供充足“养料”。
浪潮卓数大数据一直在积极推动完善数据服务生态发展。一方面依托天元数据网和各地签约的数据交易所,提供电商、生活服务、企业、农业、资源能化等10大类数据的API、数据集、数据报告、数据应用等的购买和个性化定制服务,旨在解决供需不匹配、数据难获得等制约大模型进一步发挥赋能效用的痛点;另一方面利用数商身份,依托自主研发的数据资产服务平台,帮助越来越多沉淀在企业内、产业端的高质量数据入表、交易。数据“流得动”,才能“喂饱”迭代升级的大模型。
未来,在大模型的上游和下游都有很多机会。据张帆介绍,助力更多企业拥有高质量数据,打造行业或特定领域、任务的专用大模型,实现生产力革新和产业升级,已成为目前浪潮卓数大数据聚焦的重要方向。