/ 财经新闻

从传统市场到大模型驱动,AI时代的数据交易革命

发布时间:2025-07-15 20:37:56

随着大模型技术的迅猛发展,对大量高质量数据集的需求呈现出爆发式增长的态势。根据北京国际大数据交易所董事长李振军在2025全球数字经济大会上的介绍,2024年人工智能数据仅占交易所交易量的10%,而到2025年目前累计起来已接近80%。这一爆炸性数据的背后是AI产业从通用模型向行业垂直应用的快速演进,以及随之而来对专业化、高质量数据的迫切需求。

大模型兴起之前,数据交易市场已走过十余年的发展历程,但始终处于相对初级和分散的状态。传统数据交易主要服务于商业分析、精准营销、科研等有限场景,交易规模和影响力远未达到今日水平。这一阶段的数据交易呈现出明显的“三低”特征:市场集中度低、数据标准化程度低、交易透明度低。总体而言,大模型时代前的数据交易市场处于“叫好不叫座”的状态,数据要素的价值并没有得到真正的释放。

人工智能大模型的崛起彻底改写了数据交易市场的游戏规则。2023~2025年间,随着ChatGPT、DeepSeek等生成式AI的爆红,高质量训练数据从“有用资源”一跃成为“战略资产”,市场需求呈现指数级增长,人工智能数据成为数据流通最活跃的领域。这场变革不仅扩大了数据交易的规模,更是从根本上重塑了数据的价值标准和获取方式。

首先,高质量数据集成为大模型时代的“新石油”。与传统AI应用不同,大模型训练需要覆盖行业核心专业知识和生产经营活动的多模态、专业化的数据资源。这种需求催生了“高质量数据集”的明确定义——用于训练、验证和优化大模型而收集、整理、标注形成的数据资源集合,其价值取决于专业性、多样性和清洁度。

其次,行业知识底座构建成为竞争焦点。随着AI产业从通用模型向垂直应用下沉,对细分行业理解深度直接决定模型性能。这种转变使得金融、医疗、法律等专业领域的数据集价格水涨船高。同时,数据模态需求多元化也日趋明显。以自动驾驶为例,训练数据不仅需要高清图像和视频,还需同步激光雷达点云、毫米波雷达信号、车辆控制参数等多维信息,以及极端场景下的数据。这种复杂需求使单一模态数据的价值大幅降低,跨模态关联数据集成为稀缺资源。

最后,数据获取渠道正在发生结构性变化。互联网公开数据的比例正在下降,私域数据的生产日益受到重视,头部企业纷纷建立从采集、清洗到加工、治理的完整数据产线,并着手建设企业级RAG知识库。未来企业的专业数据将成为数据获取的主要渠道,数据也将正式成为企业可入表、可交易的资产。

大模型从根本上提升了数据的战略地位,将其从辅助性资源转变为AI产业的核心生产资料。这种转变不仅重塑了数据交易市场的规模与结构,也对数据基础设施建设提出了全新要求,从而推动数据交易体系进行全面的革命。未来的数据交易将呈现以下特点:

一是,去中心化与中心化混合架构或将成为主流。纯中心化的数据交易所面临效率瓶颈,而完全去中心化的模式又难以确保质量和合规,未来可能形成“监管沙盒 市场化平台 去中心化网络”的多元结构。

二是,多元化的定价与激励机制将出现,以激活数据供给。传统“一次性买断”模式难以适应AI训练数据的特性,采用类似代币式的新型激励机制,数据贡献者不仅能获得即时收益,还可分享模型后续产生的长期价值,将进一步为数据交易注入新活力。此外,深圳设立的“语料券”制度通过政府补贴的方式,促进语料的开放共享和交易。多元化的激励工具有助于释放各类主体的数据供给意愿。

三是,垂直行业共同体(如行业数据联盟)将不断出现,逐步突破数据壁垒。AI时代下,通用数据市场难以满足专业领域的特殊需求。金融、医疗、制造等行业正在形成各种形式的数据联盟,共同建设行业知识库。这种行业自发组织的共享机制能够降低单个企业的数据获取成本,同时避免敏感信息过度扩散。

未来的五到十年,数据交易生态将在AI驱动下经历深刻重构。一方面,技术进步和制度创新将解决当前面临的许多瓶颈,释放数据要素的巨大潜力;另一方面,伦理、法律和地缘政治因素可能带来新的不确定性。成功的企业和政策制定者需要保持战略定力,在把握大方向的同时灵活应对变化。对中国而言,庞大的市场规模、丰富的应用场景和积极的政策引导构成了独特优势,有望在全球数据要素市场发展中扮演重要的引领角色。

(作者系清华大学硕士、美国杜克大学访问学者、浙江省可持续发展研究会ESG专委会专家组专家)

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com