在当今数字化时代,人工智能技术的迅猛发展正深刻改变着各个行业的格局。数据作为人工智能的核心要素,其重要性日益凸显。国家发改委等六部门在2024年12月30日发布的《关于促进数据产业高质量发展的指导意见》,明确提出:“支持企业面向人工智能应用创新,开发高质量数据集,大力发展“数据即服务”“知识即服务”“模型即服务”等新业态。”这一政策导向为数据产业的发展指明了方向,也为企业提供了新的发展机遇。
一、数据集定义与分类
数据集是由标准化数据元素组成的集合,通常以表格、数组或特定格式存储,便于检索和分析。其核心要素包括数据元素、变量与模式、元数据。从数据类型来看,可分为结构化数据集、非结构化数据集、跨模态数据集。结构化数据集具有清晰的数据结构,便于计算机处理和分析;非结构化数据集则包括文本、图像、音频、视频等多种形式,蕴含着丰富的信息;跨模态数据集则融合了多种类型的数据,能够提供更全面的视角。
数据集的应用场景广泛,涵盖人工智能训练、行业分析、政策协同等多个领域。在人工智能训练中,高质量的数据集是训练出高性能模型的关键;在行业分析中,数据集能够为企业提供有价值的市场洞察和决策支持;在政策协同方面,数据集有助于政府更好地了解行业动态,制定更科学的政策。
根据不同的应用场景和用户需求,数据集可分为通识数据集、行业通识数据集和行业专识数据集。
通识数据集包含面向社会公众、无需专业背景即可理解的通用知识,主要用于支撑通用模型落地应用。例如,一些常见的自然语言处理数据集,包含了大量的文本数据,可用于训练通用的语言模型。
行业通识数据集包含面向行业从业人员、需要一定专业背景才能理解的行业领域通用知识,主要用于支撑行业模型落地应用。比如,在医疗领域,行业通识数据集可能包含大量的医学文献、病例数据等,用于训练医疗行业模型。
行业专识数据集包含面向特定业务场景相关人员、需要较深的专业背景才能理解的行业领域专业知识,主要用于支撑业务场景模型落地应用。例如,在金融风控领域,行业专识数据集可能包含特定的风险评估指标、历史风险案例等,用于训练针对该业务场景的模型。
二、数据集建设与价值评价

高质量数据集建设是数据产业发展的基础,强调完整性、准确性、规范性、均衡性、及时性、一致性、相关性等较高标准。完整性要求数据集包含足够多的数据样本,能够覆盖各种可能的情况;准确性确保数据的质量可靠,没有错误或噪声;规范性要求数据的格式、结构等符合统一的标准,便于处理和分析;均衡性保证数据在不同类别或场景下的分布合理,避免出现偏差;及时性要求数据能够及时更新,反映最新的情况;一致性确保数据在不同来源或不同时间点上保持一致;相关性要求数据与特定的应用场景或问题密切相关,能够提供有价值的信息。
数据集价值评价是一个多维度的过程,包括数据采集、标注清洗、整合发布、维护等环节。在数据采集阶段,需要评估数据的来源、采集方法和采集效率;标注清洗环节则关注标注的准确性和清洗的效果;整合发布要考虑数据的整合方式和发布的渠道;维护环节则涉及数据的更新、管理和安全保障。此外,数据即服务、分析能力、模型即服务、计算能力、知识即服务、学习能力等方面也是评价数据集价值的重要维度。数据即服务强调数据的采集、整合、发布、维护等环节的服务化,能够为用户提供便捷的数据访问和使用方式;分析能力评估数据集支持数据分析的能力,包括数据分析的准确性、效率和可解释性;模型即服务关注通过数据提供模型服务的能力,如支持人工智能训练等,评价模型的性能、可扩展性和易用性;计算能力考察数据处理和计算的基础设施,如计算资源的充足性、计算效率等;知识即服务强调通过数据提供知识服务的能力,评估知识提取的准确性、知识的丰富性和实用性;学习能力则关注数据集支持模型持续学习和优化的能力,评价学习算法的效果和效率。
三、高质量数据集开发
国家政策积极推动高质量数据集建设。2025年2月19日,国家数据局在北京召开高质量数据集建设工作启动会,旨在推动高质量数据集建设,高效赋能行业发展。这一举措体现了国家对高质量数据集建设的重视,为企业开发高质量数据集提供了政策支持和指导。
中央企业在高质量数据集开发方面取得了优秀成果,首批有10余个行业的30项央企高质量数据集建设成果。这些成果涵盖了多个领域,为行业发展提供了有力的数据支持。例如,在能源领域,央企可能开发了关于能源生产、消费、价格等方面的数据集,为能源行业的决策和规划提供依据;在交通领域,可能开发了交通流量、事故数据等数据集,用于优化交通管理和提升交通效率。
四、数据即服务、知识即服务、模型即服务
数据即服务是高质量数据集建设的一个重要方面,强调数据的采集、整合、发布、维护等环节的服务化。在数据即服务的模式下,企业可以将数据作为一种服务提供给用户,用户无需关心数据的存储、处理等细节,只需通过简单的接口或平台即可获取所需的数据。例如,一些数据服务提供商提供了丰富的API接口,用户可以通过调用这些接口获取各种类型的数据,如天气数据、金融数据等。数据即服务不仅提高了数据的可访问性和可用性,还降低了用户使用数据的门槛和成本。
知识即服务作为高质量数据集建设的一个评价维度,强调通过数据提供知识服务的能力。知识即服务是将数据中的信息进行提炼、整合和加工,形成有价值的知识,并以服务的形式提供给用户。例如,在医疗领域,通过对大量的医学文献、病例数据等进行分析和挖掘,可以提取出疾病的诊断方法、治疗方案等知识,为医生提供决策支持。知识即服务能够提升数据的附加值,帮助用户更好地理解和应用数据。
模型即服务同样作为高质量数据集建设的一个评价维度,提到通过数据提供模型服务的能力,如支持人工智能训练等。模型即服务是将训练好的模型以服务的形式提供给用户,用户无需自己训练模型,只需提供输入数据,即可获得模型的输出结果。例如,在图像识别领域,一些企业提供了图像识别模型的服务,用户可以将图像上传到平台,平台返回图像中的物体识别结果。模型即服务能够降低用户使用人工智能技术的门槛,促进人工智能技术的普及和应用。
五、具体数据集示例
体外诊断产品招采动态数据集是一个典型的数据集示例。该数据集提供高频次、多管线、高可靠的体外诊断产品采购商机动态信息。其基本信息包括产品名称、面向对象、数据来源、数据主题、产品类型、数据专区、更新频率、存储大小等。输入输出字段详细列出了地区、医院、品类、招采预期、采购规模、信息来源等输入字段,以及统计例数、品类查询、日程计划、商机定价等输出字段。这个数据集可以为体外诊断产品的生产企业、经销商等提供有价值的市场信息,帮助他们了解市场需求、制定营销策略。
呼吸道诊断产品管线注册研发数据集是另一个重要的数据集示例。该数据集依据呼吸道诊断产品从试制样品到获批等多个流程节点过程中需要的模板、规则、指标等生成注册过程小模型,用以人工智能场景训练和知识服务。其基本信息包括产品名称、面向对象、数据来源、数据主题、产品类型、数据专区、更新频率、存储大小等。输入输出字段详细列出了产品管线、样品批次、抽样编号、注册申请、初审材料、现场核查、现场抽样、样品复检、资料评审、批准注册等输入字段,以及流程总览、节点值、规则值、模板样例等输出字段。这个数据集可以为呼吸道诊断产品的研发企业提供注册流程的指导和支持,提高注册效率和质量。
来源:数据资产最前线公众号