数据告急？大模型真的会耗尽数据吗？

Original 邓思敏人民数据

2024-09-16

近日，有专家预警称，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”，通过收集大量文本来训练机器人的技术“开始遇到困难”。数据真的会被大模型耗尽吗？数据告急是真的吗？这一话题引起了业内的极大关注和担忧。

AI迅速发展

数据要被耗尽了？

当前，大数据、云计算等新技术深刻演变，智能产业、数字经济蓬勃发展，极大地改变着全球要素资源配置的方式、产业发展的模式和人民的生活方式。据第52次《中国互联网络发展状况统计报告》数据显示，截至2023年6月，我国网民规模已经达到了10.79亿人。同时，据公开数据显示，约26%的中国用户已开始将生成式AI应用于业务之中。如此庞大的用户群体极大地推动AI技术迅速发展，这也推动了AI需要更多的数据来学习，需要更多样的数据源去适应不同的应用需求。

今年7月初，加州大学伯克利分校计算机科学教授、《人工智能——现代方法》作者斯图尔特·罗素（Stuart Russell）发出警告称，ChatGPT等人工智能驱动的机器人可能很快就会“耗尽宇宙中的文本”，通过收集大量文本来训练机器人的技术“开始遇到困难”。

人工智能研究人员小组Epoch在2022年11月进行的一项研究估计，机器学习数据集可能会在2026年前耗尽所有“高质量语言数据”。而这项研究发布时全球范围内的大模型潮还没有出现。根据该研究，“高质量”集中的语言数据来自“书籍、新闻文章、科学论文、维基百科和过滤的网络内容”。

有专家提出，在数据耗尽前可能会出现新的解决办法。例如，可以让大模型自己持续生成新数据，然后经过某种质量过滤，反过来再用于训练模型，这被称为自我学习或“反哺”。

不过，根据牛津大学、剑桥大学、伦敦帝国学院等机构的研究人员今年5月在预印本平台arXiv上发表的论文，AI用AI生成的数据进行训练，会导致AI模型存在不可逆转的缺陷，他们将其称之为模型崩溃（Model Collapse）。这意味着未来模型训练使用的高质量数据将会愈来愈昂贵，网络走向碎片化和封闭化，内容创作者将会竭尽全力防止其内容被免费抓取。

“数据被耗尽”本质是

对数据质量和开放程度的担心

人民数据研究院分析认为，“数据即将被大模型耗尽”这一论述的确引起了一部分关注数据和大模型企业的人士担忧。其本质是对数据质量和数据开放程度的担心。

数据已成为未来人工智能竞争的关键性要素，未来需要的数据量也越来越大。当前，大模型应用所需要的语料数据不充足，数据质量不高，无法满足深度学习的要求；同时，公共数据、企业数据、个人数据的开放程度到底有多大目前还不确定，顶层制度上数据的权属问题怎么确定还没有定论。因此，人们对数据耗尽的担忧有其现实基础。

国家数据局的挂牌组建，对AI大模型的发展无疑是一个积极的影响。这将有利于更好地进行数据治理，确保数据的规范性、安全性和合规性。而有了更多优质、可靠的数据作为支撑，AI大模型也能得到更充足的训练，从而取得长足的进步。这样的背景，无疑为AI大模型的持续发展提供了强大的后盾。

人民数据积极探索

助力数据确权、开放、流通

“现在一天产生的数据可能是过去10年产生的数据量。”今年7月，人民数据研究院发布了《AI大模型综合能力测评报告》，从六个维度评测当前大模型的综合能力，发现目前AI大模型确实还存在数据语料喂养不充分的情况，需要大规模、高质量的数据。

解决了数据质量和数据开放的问题，就可以从根源上解决“数据耗尽”的难题。

一方面，AI大模型是未来的重要方向，提高数据质量势在必行。10月，人民数据针对AI市场提供的语义语料数据库，包括新闻数据、问答数据等近3亿条数据，针对当前大模型普遍回答不了，回答不好又必须直面，不容回避的重大问题、敏感问题、疑难问题、复杂问题，该语义语料库梳理了1万余个重点问题，并精心编撰建成优质问答语料库，助力解决大模型在语料方面的刚性需求、紧急需求、安全需求。

另一方面，以数据确权推动数据进一步开放，是促进AI大模型源源不断获得数据的重要途径。当数据确权得到保障，权属关系明确时，就可以扩大数据的开放程度。为此，人民数据向全国数据要素市场发放“数据资源持有权证书”“数据加工使用权证书”“数据产品经营权证书”（“三证”）、打造第一家全国性的数据要素公共服务平台，进一步推动数据确权，从而夯实大模型的发展的数据基础。

来源：人民数据研究院

作者：人民数据研究院研究员邓思敏

编辑：李昭彤

责编：王晓彤李熠超

喜欢本文，请点这里

修改于

继续滑动看下一个

人民数据

向上滑动看下一个

张庆方律师拟被吊销律师证的处罚告知书

张庆方律师拟被吊销律师执业证：本人回应“自我选择，欣然接受”

张庆方律师拟被吊销律师执业证：本人回应“自我选择，欣然接受”

我们能为死去的孩子做点什么？｜二湘空间

如同“山川异域”一样的感动

数据告急？大模型真的会耗尽数据吗？

您可能也对以下帖子感兴趣

张庆方律师拟被吊销律师证的处罚告知书

张庆方律师拟被吊销律师执业证：本人回应“自我选择，欣然接受”

张庆方律师拟被吊销律师执业证：本人回应“自我选择，欣然接受”

我们能为死去的孩子做点什么？｜二湘空间

如同“山川异域”一样的感动

生成图片，分享到微信朋友圈

数据告急？大模型真的会耗尽数据吗？

您可能也对以下帖子感兴趣