图片来源@视觉中国

文 | 陈根


(资料图片仅供参考)

人工智能的发展应用离不开数据。比如,训练当前大火的ChatGPT,就需要大量的数据——根据OpenAI披露,ChatGPT的训练使用了45TB的数据、近1万亿个单词,大概是1351万本牛津词典所包含的单词数量。

基于庞大数据集训练而成的ChatGPT获得了前所未有的成功,而ChatGPT想要向前迭代,就需要更多的数据进行训练。但真实世界的数据总归是有限的,并且面临着难以获取、质量差、标准不统一等诸多问题。在这样的情况下,计算机模拟技术或算法生成的合成数据受到了愈发广泛的关注。作为真实世界数据的廉价替代品,合成数据正日益被用于创造精准的AI模型。

为什么需要合成数据?

顾名思义,合成数据就是通过计算机模拟或人工智能算法合成的数据,这样的数据并不基于现实世界的现象和事件,但由于在数学上或统计学上,合成数据也能够反映真实世界数据的属性,因此,合成数据可以作为真实世界数据的替代品,来训练、测试、验证AI模型。

2022年以来,Forrester、埃森哲(Accenture)、Gartner、CB Insights等研究咨询公司都已经将合成数据列为人工智能未来发展的核心要素,认为合成数据对于人工智能的未来而言是“必选项”和“必需品”。

比如,Forrester将合成数据和强化学习、Transformer网络、联邦学习、因果推理视为实现人工智能2.0的五项关键技术进展,可以解决人工智能1.0所面临的一些限制和挑战,诸如数据、准确性、速度、安全性、可扩展性等。

Gartner预测称,到2024年,用于开发人工智能和分析项目的数据 60% 将是生成式合成数据,到2030年合成数据将彻底取代真实数据,成为AI模型所使用的数据的主要来源。MIT科技评论将AI合成数据列为2022年十大突破性技术之一,称其有望解决AI领域的数据鸿沟问题。

数据对于人工智能发展的意义不言自明——如果说以深度学习为代表的智能算法是人工智能应用和发展的“引擎”,那么数据就是用于驱动“引擎”的“燃料”。而合成数据之所以在今天会受到关注,正是因为目前现实世界的数据已经难以满足人工智能继续迭代,并向前发展的数据需求。

要知道,现实世界的数据收集和处理是一种昂贵且缓慢的过程,公司通常无法在短时间内获取大量的数据来训练准确的模型,就算是获取现实世界的数据也要符合隐私规定,然而,除去获取成本高昂以外,特定领域的数据集还受限于用户隐私,极难采集。可以说,现实世界数据的稀缺性已经成为人工智能发展的最大瓶颈——如何高效、廉价并在不侵犯隐私的情况下获取大量数据,成为当前人工智能领域的关键问题之一。

合成数据就是这个关键问题的解法。首先,合成数据能够实现数据增强和数据模拟,解决数据匮乏、数据质量等问题,包括通过合成数据来改善基准测试数据的质量等;其次,避免数据隐私问题,利用合成数据训练AI模型可以避免用户隐私问题,这对于金融、医疗等领域而言尤其具有意义;第三,合成数据还能最大限度地确保数据多样性,更多反映真实世界,提升AI的公平性,以及纠正历史数据中的偏见,消除算法歧视;第四,合成数据能够应对长尾、边缘案例,提高AI的准确性、可靠性,因为通过合成数据可以自动创建、生成现实世界中难以或者无法采集的数据场景,更好确保AI模型的准确性。

不仅如此,合成数据还具有低成本的特点。合成数据服务商AI.Reverie指出,人工标注一张图片可能需要6美元,但人工合成的话只需要6美分。总的来说,利用合成数据可以更廉价、更高效、更准确、更安全可靠地训练AI模型,进而极大扩展AI的应用可能性,将人工智能推向新的发展阶段。

用计算机训练计算机

2021年,尼日利亚数据科学公司的研究人员就注意到,旨在训练计算机视觉算法的工程师可以选用大量以西方服装为特色的数据集,但却没有非洲服装的数据集。于是,这个团队通过人工智能算法成功实现了人为生成由非洲时尚服装的图像组成的数据来解决这一不平衡问题。

可以说,合成数据真正实现了用计算机训练计算机,这也让机器智能向前更进一步。实际上,人类的学习正是遵循着这样的方式,一方面,我们可以从外部信息来源收集知识和观点,比如,通过阅读一本书。但我们也可以通过思考一个问题,自发产生想法和见解,换言之,我们能够通过内部反思和分析来加深对世界的理解,而不直接依赖于任何新的外部输入。

而人工智能通过合成数据来自我训练,就像是人工智能也无需任何新的外部输入,而是通过合成数据来有效地引导它们自己的智能。

试想一下,今天的人工智能大模型吸收了世界上存在的大量信息和数据,比如维基百科、书籍、新闻文章等。如果人工智能能够根据这些数据合成新的数据,然后再将这些合成数据进一步训练来改进自己,那人工智能就将不断迭代,且功能愈发强大。换言之,AI在合成数据构建的虚拟仿真世界中自我学习、进化,这将极大扩展AI的应用可能性。

实际上,用计算机训练计算机的想法并不新鲜,例如,无人驾驶汽车已经在虚拟街道上进行了许多训练。要知道,由于实际道路交通场景千变万化,因此,让自动驾驶汽车通过实际道路测试来穷尽其在道路上可能遇到的每一个场景是不现实的,必须借助于合成数据才能更好地训练、开发自动驾驶系统。

为此,许多自动驾驶企业都开发了复杂的仿真引擎来“虚拟地合成”自动驾驶系统训练所需的海量数据,并高效地应对驾驶场景中的“长尾”问题和“边缘案例”。比如,腾讯自动驾驶实验室开发的自动驾驶仿真系统TAD Sim 可以自动生成无需标注的各种交通场景数据,助力自动驾驶系统开发。

在安全的、合成的仿真环境中,计算机可以模拟任何人类想象得到的驾驶场景,诸如调节天气状况、添加或移除行人、改变其他车辆的位置等等。可以说,合成数据和仿真技术是自动驾驶的核心支撑技术。实际上,最早涌现的一批合成数据创业公司就瞄准的是自动驾驶汽车市场,帮助自动驾驶企业解决其在自动驾驶系统开发过程中所面临的数据和测试难题。

目前,合成数据还在向金融、医疗、零售、工业等诸多产业领域拓展应用,用计算机训练计算机正在成为人工智能发展的必经之路。

下一次飞跃

由于对人工智能未来发展的巨大价值,合成数据也加速成为AI领域的一个新产业赛道。

一方面,国外的主流科技公司纷纷瞄准合成数据领域加大投入与布局。微软的Azure云服务则推出了airSIM平台,可以创建高保真的(high fidelity)的3D虚拟环境来训练、测试AI驱动的自主飞行器,微软还开发了可以生成合成和聚合数据集的开源工具Synthetic Data Showcase,并创建了合成人脸数据库,和国际移民组织(IOM)合作打击人口贩卖。亚马逊则在多个场景探索合成数据的应用,例如使用合成数据来训练、调试其虚拟助手Alexa,以避免用户隐私问题;其合成数据技术Wordforge工具可以用来创建合成场景(synthetic scenes)。

另一方面,合成数据作为AI领域的新型产业,相关创新创业方兴未艾,合成数据创业公司不断涌现,合成数据领域的投资并购持续升温。据国外研究者统计,目前全球合成数据创业企业已达100家。在过去的18个月,公众视野中已知的合成数据公司融资总额达到3.28亿美元,比2020年高出2.75亿美元。

看起来,合成数据是对真实数据稀缺性的重要解法,但这并不代表合成数据毫无问题。首先,虽然高质量的合成数据集不仅可以作为真实数据集的补充,更可以作为训练人工智能模型的主要数据来源,但在全面应用合成数据集之前,需要充分研究合成数据集与真实数据集的差异,从而避免应用合成数据集带来的偏差。因此,如何评估合成数据集与真实数据集的差异仍是一个有待解决的问题。

其次,合成数据仍存在“非自然数据”的问题。目前大多合成数据技术是基于统计机器学习方法的,由于经典统计学只关注了数据中蕴含的相关性,而忽视了因果性,因此有可能会生成不合逻辑的数据。比如,合成图像中可能会出现具有异常背景的图像,这类数据被称为“非自然数据”。“非自然数据”对智能算法的影响目前仍然未知。刻画影响的边界并提早思考应对办法将会是合成数据能否进入风险敏感领域的关键。

最后,合成数据仍然涉及的隐式隐私泄露问题。虽然“合成数据”并不由某个用户产生,但是目前的合成数据仍然需要借用数据来训练用于合成数据的模型,比如生成对抗网络。由于生成对抗网络结构的复杂度较高,因此在模型训练的过程中,存在记忆原始训练样本分布的可能。已经有最新研究结果表明,可以通过合成的数据反向推断出原始训练样本。所以,数据合成技术存在上述“隐式隐私”泄露问题,如何更严密地保护隐私仍是有待探究的问题。

从数据到合成数据,当人工智能能够合成数据,并使用它来继续自我改变,这可能会使迫在眉睫的数据短缺变得无关紧要。对于人工智能来说,这将代表下一次的飞跃。

推荐内容