国内多数AI模型训练使用的中文数据占比已超60%_热资讯
时间:2025-08-23 12:45:09来源:新华网


【资料图】

中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数据局近日发布的数据显示,目前国内多数AI模型训练使用的中文数据占比已经超过60%,有的模型达到80%。中文高质量数据的开发和供给能力持续增强,推动我国人工智能模型性能快速提升。

国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。

“在人工智能时代,Token,也就是大家通常所说的词元,是处理文本的最小数据单元,如同互联网时代大家所说的‘流量’。”刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,到今年6月底,日均Token消耗量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。

据介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片),400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。

人工智能模型的训练也推动了数据交易需求的攀升。截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。

下一步,国家数据局将通过体系化布局持续推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动全社会强化数据要素价值认同,加快推进数据要素价值共创,培育“为优质数据买单”的市场共识。

标签:

最新
  • 国内多数AI模型训练使用的中文数据占比已超60%_热资讯

    中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数

  • 山西祁县:“真金白银”惠农 助农家好物“走出去”_信息

    近几年,通过直播带货,我们的苹果在与辉同行、东方甄选等直播间都

  • 速看:孔子的死亡原因是什么?孔子死亡原因

    关于孔子的死亡原因,正史中并无详细的医学诊断记载,但结合《论语

  • 焦点资讯:退休人员基本养老金,上调2%!

    日前,人力资源社会保障部、财政部印发 《关于2025年调整退休人员

  • 三问新能源汽车下乡:需求大吗?充电桩够吗?服务好吗?

    6月15日,由工业和信息化部、国家发展改革委等五部门组织的2025年新

  • 2025中国汽车重庆论坛:从新能源化、智能化、全球化,看中国汽车产业变革

    6月6日上午,在2025中国汽车重庆论坛(CACS2025)开幕全体会议上,

  • 2025年中国汨罗江国际龙舟邀请赛汨罗开赛

    2025年中国汨罗江国际龙舟邀请赛24日在湖南汨罗开赛,12支国际组龙

  • 甲减孕妇拒吃海产品和碘盐 小心影响胎儿智力

    碘是新陈代谢和生长发育必需的微量营养素,是人体合成甲状腺激素的

  • 清华大学成立人工智能医院

      清华大学近日宣布成立人工智能医院,初期将在学校AI全

  • 问记者|“数智”生活是什么样的?

    第八届数字中国建设峰会在福州开幕现场体验区汇聚了超过400家参展单

  • 气得“肝疼”,到底是哪里疼?

    很多人生气的时候,常常会脱口而出:气得我肝疼!传统医学里也有所

  • 红旗渠通水60年累计引水超过130亿立方米

    4月5日是红旗渠主干渠通水60周年。据水利部消息,60年来,红旗渠已

  • 当300斤年轻人说出“我觉得还好”:一场关于生命重量的全民战役

    一年做600-800台减重手术,且这类病人的平均年龄只有32岁。这是来自

  • 十五运会U18女篮资格赛A组收官:鲁、陕两队晋级决赛阶段

    17日,第十五届全国运动会篮球项目资格赛女子18岁以下A组(陕西西安

  • 与时代同行 与产业共进 平安租赁赓续致远

    2025年是十四五规划收官之年,也是进一步全面深化改革的重要一年。

  • 乔纳斯·考夫曼巡演至上海 唱响经典德语艺术歌曲

    世界著名男高音歌唱家乔纳斯·考夫曼携手钢琴家赫尔穆特·多伊奇,1

  • 旅游
    • “浓妆”变“淡抹”,月饼市场刮起“简约风” 每日热文

    • 泰国总理下令严控线上和线下进口产品的质量

    • 杭州单身女子买1850万元黄金交给骗子 警惕诈骗新模式“线上诈骗+线下取钱”

    • 确山县竹沟镇:回眸一载耕耘路 蓄力扬帆再出发