字数:7,986

LLM、AIGC浪潮,将OpenAI推到台前,这家创立不到10年的公司,肉眼可见的将整个科技界卷入新范式迁移之中。OpenAI可以说是几个天才科学家、工程师,在资本支持下坚定不移探索AGI的结果。

本篇文章编译自Greg Brockman和Lex Fridman在2019年4月的一次访谈。Gerg Brockman,既是OpenAI的核心创始人之一,也是OpenAI重要灵魂人物,在OpenAI人才招聘、愿景塑造、内部Infra构建、工程文化打造等方面,提供了决定性作用。

这篇访谈的2个月前,OpenAI刚推出GPT-2,Greg认为GPT-2还可以在未来被扩大到上千倍,虽然不确定最终会得到什么,但GPT-20能力一定是实质性的。

AGI的发展,要比Greg预测得更快:3年后,GPT-3就已经将AGI愿景带入现实。除了惊讶于Greg Brockman的预言,在回看历史的过程中,我们也能够对OpenAI内部是如何认知AGI、以及如何一步步实现AGI这件事的理解更加深刻。

AGI是由人类创造的最具变革性的技术

Lex Fridman:你如何看待人类大脑?它是一个信息处理系统、不可知的魔法或者生物化学的视角?

Greg Brockman:把人类看作是信息处理系统,是非常有趣的视角,这也是很好的视角描述世界如何运作、大脑怎么工作。

比如目前最具变革性的创新,计算机或互联网,并不只是光缆等物理结构,而是我可以立即跟地球上任何一个人联系,能够立即检索到人类图书馆里存在的任何信息。

Lex Fridman:所以作为人类智慧的延伸,整个社会也可以被看作是智能系统?

Greg Brockman:这也是非常有趣的视角,经济本身也是能自我优化的超级机器,每家公司都有自己意志,每个人也有自己追求的目标。某种程度上,人类总觉得自己是地球上最聪明、最强大的生物,但有些东西比我们更重要,就是我们所组成的系统。

阿西莫夫《基地系列》有心理史学Psychohistory的概念,如果有数万亿或数千万亿生物,那么我们也许可以从宏观上预测这个生物系统会做什么,这几乎跟个人想要什么无关。

技术决定论Technological determinism也是很有趣的角度,没有人能发明出别人发明不出的技术,最多改变的是变革发生的时间。对于同类产品,某一个最终能成功的原因,可能在于初始条件不同。

比如电话是2个人在同一天发明,这意味着什么?大家都同样在巨人肩膀上创造,你不会真的创造出别人永远创造不出来的东西。如果爱因斯坦没有出生,那也会有其他人提出相对论,只是时间线不一样,可能还需要20年,但这并不会改变人类注定发现这些真理的事实。

人们正在进入通用智能技术快速发展的时代,革命性的变革一定会在某个时间点发生。我认为核心是要保证AI在正确方向上发展,放大正面效应。这也是我们在设定 OpenAI的非营利属性、以及提出OpenAI LP结构的出发点,我们需要保证AGI发生。

Lex Fridman:AGI将如何影响世界?

Greg Brockman:回顾AI发展史,基本上在过去60~70年中,人们一直在思考,如果人类智力劳动可以自动化,会发生什么?

如果我们可以创建这样的计算机系统,世界会变成什么样?很多科幻小说讲述各种反乌托邦Anti-Utopia的故事,也有越来越多像“Her”这样的电影像我们展现乌托邦视角。

在思考AI可以带给世界什么样影响之前,我们可以先想想自行车、计算机对人类世界产生的影响,尤其是计算机对互联网影响远超过我们所能预测的,所以,如果能构建AGI,它将是人类所创造的最具变革性的技术,但我们还在寻找创建AGI系统的方法。

60~70年来,人们普遍对AI愿景感到兴奋,但现实进展并不顺利,经过两个AI寒冬后,人们似乎不再谈论AGI,但我认为这并不是AGI不存在,而是因为人们从过去AI发展的历史上吸取了足够多教训,变得更加审慎。

1959年,世界上最早的神经网络之一感知器Perceptron诞生,随即引起大规模关注,当时纽约时报发布一篇文章,认为感知器有一天可以识别人类,喊出他们名字,可以在不同语言间来回翻译。当时人们都不相信,甚至花了10年时间反对感知器发展方向,最后结果是资金枯竭、大家开始转向其他技术方向。

感知器Perceptron,是弗兰克·罗森布拉特在1957年就职于康奈尔航空实验室时,所发明的一种人工神经网络,它可被视为最简单形式的前馈神经网络,是二元线性分类器。

一直到20世纪80年代,开始新一轮技术复兴,有人说这种复兴是因为反向传播Backpropagation等算法的出现,但实际上是因为我们计算能力更加强大。

从80年代文章可以看到,计算能力民主化,意味着我们可以运行更大的神经网络,进行更多尝试,反向传播算法因此诞生。当时运行的神经网络很小,可能只有20个神经元,因此系统的学习效果并不好。直到2012年,这种在50年代就提出的最简单、最自然的方法,才突然成为解决问题的最佳方式。

反向传播Backpropagation:误差反向传播的简称,常见的人工神经网络训练方法,在1986年提出,缺点是所需计算量较大,会随网络层数加深呈平方级提高。

20世纪80年代,是计算元器件发展的重要时期,英特尔系列微处理器与内存条技术广泛应用,让神经网络逐渐步入繁荣,并出现深度学习、卷积神经网络、循环神经网络等新技术和应用。

我认为深度学习有3个值得关注的核心属性:

1、泛化Generality,我们用少数几个深度学习方法解决大部分问题,比如梯度下降、深度神经网络,以及一些强化学习,解决语音识别、机器翻译、游戏等所有问题。

2、能力Competence,深度神经网络可以解决计算机视觉40年研究中的任何问题,甚至有更好效果。

3、可扩展性Scalability,实验一次又一次向我们证明,如果有一个更大的神经网络,有更多训练数据,它工作效果会更好。

这三个属性是建立AGI基础,但并不代表只要扩大神经网络规模就能实现AGI。但重点在于,这让我们第一次感受到AGI是可以实现,虽然时间点并不确定,但我认为肯定在我们有生之年内,并且会比人们预期早很多。

在这样远景之下,我们2015年创立OpenAI。我认为AGI可能比人们想象中更快到来,我们需要尽最大努力确保一切顺利进行,所以我们花了几年时间试图弄清楚我们需要怎么做。

OpenAI的创立与设计:确保AGI顺利发生

Lex Fridman:OpenAI如何成立?

Greg Brockman:通常情况下,一家公司发展路径,往往先需要联合创始人构建并推出自己产品,基于产品积累到一些用户,得到相应市场反馈,如果发展顺利的话,可以通过融资,雇佣更多人,来扩大公司规模。这个过程中,几乎每家创业公司都需要面对大公司带来的潜在威胁,大公司注意到你的存在,并试图杀死你。

但OpenAI完全把这条路反过来,这和OpenAI在起步时的现实情况有关。

第一个问题,OpenAI起步太晚。

2015年OpenAI成立时,AI已经从纯粹的学术研究转变为商业领域所期待的某种具体产品或工具,和业界结合得很深。因此即便有很多优秀的学者都想建立自己实验室,但他们作为个人所积累的资源不论到达怎样的高度,都很难跟大公司相媲美,OpenAI作为初创团队更要考虑这样的问题。

我们也在担心一个现实问题,OpenAI想要建立的东西,是否真能落地?这需要一个临界质量critical mass(核物理学术语,刚好可以产生连锁反应的组合,称为已达临界点),而不只是由我和联合创始人们,合作推出一个产品即可,需要至少5~10人团队,这可能不容易,但值得尝试。

Lex Fridman:如何看待在AGI发展中,不同公司间的竞争以及合作?

Greg Brockman:做AGI的开发工作,弄清楚如何部署它,让它继续下去,要回答一个关键问题。

第一个是构建第一个AGI的过程。拿自动驾驶作为对比,自动驾驶是竞争非常激烈的赛道,该领域内玩家在选择自己技术路线时面对极大压力。如果要保证技术安全性,就意味着技术实现周期会被拉长,导致的直接结果,就是很大可能落后于其他竞争者,所以大部分参与者选择相对更快的方式。

OpenAI的选择是不竞争,即便其他人领先,我们也不会走快速而危险的道路去试图跨越。只要他们想做的和我们使命一致,我们就承诺与他们合作,帮助他们成功。如果大家都认为AGI是让每个人都受益的东西,那么哪个公司构建它并不重要。从而形成良性的合作,实现AGI。

Lex Fridman:如果OpenAI成功创建AGI系统,你会问它的第一个问题是什么?

Greg Brockman:如果我们真的建立了强大到足以影响人类未来的AGI系统,我会问它的第一个问题是,如何确保AGI诞生之后,世界仍旧在正常轨道上运转。

就像核武器诞生后,全世界面临的最重要问题,是它会给世界带来什么样变化?如何保证核武器时代世界和平?

对于AGI来说,虽然它和核武器不同,但作为全新的变革性技术,我们同样也要确保它不会给既定的世界和社会秩序带来负面影响。

在关注新技术负面性同时,人们常常也会忽略正面影响。

既然如果我们有足够强大的AGI系统,我们肯定也需要它为我们提供建议,询问AGI,并不代表必须听从AGI的建议,但当AGI足够强大时,它所输出的信息可以被人类作为参考。

如果它像人类一样聪明,甚至它能力可扩展,人们肯定也希望它能阅读并吸收人类所有的科学文献、为绝症治疗提供方案、利用新技术创造更加丰富的物质、在保护环境等重要问题上给出建议、甚至方案。

Lex Fridman:如何看待关于AGI可能带来的负面效应?

Greg Brockman:这里涉及到2个问题.

首先是,如何向大众描绘新技术带来的新世界。

放在1950年,我们要向别人介绍什么是Uber,是相当困难的事情。因为我们首先需要让对方理解什么是互联网、什么是GPS,以及每个人都拥有一部智能手机这些基础前提。

所以要让大众客观评价某个变革性技术的第一个难点是,如何让他们想象出这些变革性的技术,如何在世界上发挥作用。而AGI会比之前出现过的技术都更具变革性,这一定程度上提高了人们理解门槛。

第二点,人们天然更倾向支持负面,摧毁新事物总比创造容易,不仅是在物理层面,更在思想层面,大部分人可能一看到负面消息就走进死胡同。

所以面对AGI负面效用的更积极心态,或者办法,是坦然承认AGI优点和缺点,这也是OpenAI看待AGI的态度,我们根据现实来判断风险,并基于这些判断来构建我们组织和系统。

为保证AI能够更多发挥积极效应,在OpenAI构建中,我们主要关注三方面:

第一、推进系统迭代更新能力。

在Sam Altman的AGI宣言中,Sam提到,短期内,采用快速学习和谨慎迭代的紧密反馈循环,长期看,过渡到拥有超级智能的世界。

第二、确保安全AI Safety。

OpenAI正在研究技术机制,来确保AGI系统符合人类价值观。

OpenAI一直对外强调使命是确保AGI造福全人类,AGI如果被成功创造出来,可增加世界丰富度,推动全球经济发展,帮助发现改变可能性极限的新科学知识,来帮助提升人类。

第三、政策Policy。

确保我们有一个治理机制,来反馈系统可能出现的问题。技术安全,可能是人们谈论最多的问题,比如那些反乌托邦的AI电影,很多都是由于没有良好的技术安全导致的问题。

很多人之所以认为技术安全是个棘手的问题,是因为安全本身很难被精确定义和描述的问题,在人类社会治理中,我们有很多明确的规则,例如法律、国际条约等,但同时也有一些无形的规则。如何告诉系统哪些是安全的信息、哪些是不安全的信息,变得十分困难。

这也是OpenAI技术安全团队的重点,让系统能从数据中学习人类价值观,从而与人类伦理道德观念保持一致。可以类比到人类个体成长,婴儿会成长成好人还是坏人,很大程度取决于成长环境,以及接收到的信息质量,如果看到正面榜样,就会接收到正面反馈。我认为AGI也一样,系统可以从数据中学习,以得到符合人类伦理道德的价值观。

目前,OpenAI系统已经可以学习人类自己也无法明确描述的规则,虽然仍处于概念验证早期阶段,但OpenAI模型已经具备学习人类偏好的能力,它能够从数据中了解人类想要什么。

Lex Fridman:《人类简史》书中一个观点,是人类世界并不存在客观真理,如果没有绝对的对与错的标准,要如何保证模型、算法持续正确?

Greg Brockman:OpenAI政策团队Policy Team,在做的工作是让模型更了解什么是对的。

GPT的确已经强大到可以回答任何用户想要知道的问题,但最重要的问题是,我们用户是谁,他们想要什么,这又会如何影响到其他人?

我们只需要类比到现实世界,就知道这件事情有多难。现实世界中不同国家、人种、文化背景的人,对世界如何运作和所崇尚的价值观,都有着不同理解。

所以对OpenAI团队,这件事不亚于新的社会治理议题,但一个强大的系统也会赋予人类更多权利。

这种情况正以不同方式发生,有一些定律也正在被改变,比如摩尔定律,摩尔定律被工业界整整信奉了50年,但最后发现还是失效。

2018年,OpenAI发布 AI and Compute,这篇研究中,提出2012年以来,最大的AI训练运行中使用的计算量呈指数级增长,从2012年到2018年研究提出该指标,增长了30多万倍,3.4个月翻一倍,摩尔定律翻倍期为2年,如果按2年翻一番,AI训练的计算量只会产生7倍增长。

我们不能抱希望自己能发明出别人发明不出的东西,最多只能改变时间线。如果你真的想有所作为,唯一能做的就是在技术诞生之初,设定一些初始条件来确保它顺利发生。

比如,在互联网刚被发明时,也有很多竞争对手发明出类似于互联网的产品,但互联网之所以能成功,离不开它最初设定的初始条件,互联网允许人们成为任何人,以非常开放的心态联系沟通。我相信下一个40年也会继续这样发展,或许过程中也会转向,但这些初设条件对互联网成功非常重要。

如何构建真正的AGI

Lex Fridman:OpenAI最近发布GPT-2,但没有发布完整的模型,官方说明是因为担心可能会产生负面影响,这也引发社会层面讨论,这里的负面影响和积极影响分别是什么?

Greg Brockman:我们现在正处于扩大模型的道路上,并且随着模型规模扩大而实现更好性能,GPT-2只是2018年6月GPT-1放大版。我们未来要扩大它到上千倍,不知道最终会得到什么。可能GPT-2不具有负面应用,但GPT-20能力会是实质性的。

GPT-2潜在负面影响,在于它可能会导致产生假新闻或滥用内容。比如一定会有人尝试在GPT-2基础上使用自己Facebook消息历史记录,来生成更多Facebook消息,进一步,这种行为就会带来生成制作虚假的社会性、政治性议题政治家内容的可能性。

正面影响是,GPT-2的确带来有很多很棒的应用程序。开发者可以使用GPT-2来衍生出很多很酷的想法。很多人写信给我们,希望能把它用于各种不同创意应用。

GPT-2推出后带来的应用场景包括:

1、文本生成:GPT-2 Poetry;GPT-2 Dungeons and Dragons character bios。

2、聊天机器人:Thomas Wolf团队在PERSONA-CHAT数据集上微调了GPT-2,建立了带有角色个性的聊天机器人。

3、机器翻译。

4、文字总结:在CNN、《每日邮报》的数据集上进行测试。

所以如果要真正考虑安全性,对于GPT-2,是否公开发布各有利弊,但未来模型的到来可能比预期要快,扩大模型并不需要很长时间,未来模型是绝对不能公开发布的内容。我们把不公开发布GPT-2视为测试,实现社会心智的过渡。

GPT-20是Greg在当时对模型能力能够达到质变节点的预测,从后视镜视角来看,Greg对于模型参数量扩大后的能力提升预测还是相对保守,因为在3年后,GPT-3就已实现这样的目标。

Lex Fridman:你认为到GPT-20的时候,世界是什么样?就像在20世纪50年代,人们试图描述互联网或智能手机。我们将成功设计识别机器人与人类系统,还是人类不得不接受并习惯充斥着假新闻的世界?

Greg Brockman:有个十分流行meme可以用来回答这个问题:一只机器人物理手臂,正在点击我不是机器人的身份验证按钮。

我认为人类最终无法区分机器人和人类。不可否认的是,人们在未来所获取的信息中,有一部分一定是通过自动生成的,因为AI足够强大,以至人们无法分辨出人类和人工智能分别产出的信息间的差异,甚至最有说服力的论点反而是由AI提出。

Lex Fridman:你认为语言模型最终可以发展到什么程度?类似于电影Her里面。人类与AI通过自然语言的多轮对话,可以通过这种无监督模型来实现吗?

Greg Brockman:大语言模型应该能真正理解微积分,并解决新的微积分问题。我们需要的不仅是语言模型,而是解释和推理的方法。

语言建模实际上已经走得比许多人预期的要远。GPT-2还没有来自于自身的动态经验,只是一些可供学习的静态数据,所以它对物理世界的理解程度很浅。如果我们能让它真实理解物理世界,就已经相当常令人兴奋。

但如果仅只是扩大GPT-2,也并不足够让模型具备推理能力。人类是通过思考产生新的想法、获得更好答案,并且思考的过程一定会花费大量计算能力,这种模式没有被编码在GPT中。分布式泛化distribution generalization也很有趣。对人类来说,即便有些时候没有经历过某件事,但也会对这件事有基本的思考与理解,这与推理有关。

为真正构建AGI,一方面需要在计算规模上尽可能推进,另一方面还需要在人类自身思考和认知的实质性推进。

我们应该找到可扩展的方式,投入更多计算、更多数据,让它变得更好。我们之所以对深度学习、构建AGI潜力感到兴奋,部分原因是因为我们研究出了最成功的AI系统,并且意识到如果扩大这些系统的规模,它们会更好工作。可扩展性给了我们构建变革性系统的希望。

Lex Fridman:创建AGI或一些新的模型过程中,如何在它们还只是原型阶段时,就发现它们潜在价值?如何能够在没有规模化情况下坚持这些想法?

Greg Brockman:我们自己就是很好的案例。OpenAI在2018年6月28日发布GPT,后来我们将其放大到GPT-2。在小范围内,GPT创造了一些记录,它不像GPT-2那样令人惊艳,但它很有希望。

但有时规模化后,与我们在小范围内看到的内容有质的不同。最初发明者会说,我不认为它能做到这一点,这就是在Dota看到的。Dota基本上只是大规模运行近端策略优化算法PPO(Proximal Policy Optimizaion,PPO提出了新的目标函数,可以在多个训练步骤实现小批量更新,解决了Policy Gradient算法中步长难以确定的问题)。长期来看,这些行为在我们认为不可能的时间尺度上真正发挥作用。

Lex Fridman:随着GPT规模不断扩大,可能人们会看到更加令人惊讶的结果,很难看到一个想法在规模化后会走多远。

Greg Brockman:Dota和PPO是一个非常具体的例子。关于Dota,有一件事非常令人激动,人们并没有真正注意到,那就是分布中泛化的法令(the decree of generalization out of distribution),它被训练来对抗其他AI玩家。

Lex Fridman:未来几年,深度学习将走向何方?强化学习的方向在哪?对于OpenAI,2019年你会更关注哪些方面?

Greg Brockman:规模化的开展更多创新的项目。

OpenAI内部有一个项目的生命周期。先从几个人开始,基于一个小的idea展开工作,语言模型就是好的例子。一旦在过程中得到一些有意思的发现和反馈,我们就扩大规模,让更多人参与其中,同时投入更多计算资源。最终状态会像Dota,由10或15人组成的大型团队,以非常大的规模运行事情。将工程和机器学习科学结合在一起,形成一个系统,展开工作,并获得实质性结果。整个生命周期,端到端,需要2年左右时间才能完成。

OpenAI内部也有更长生命周期项目。我们正在组建一个推理团队去解决神经网络推理这件事,这会是长期、但一定有超预期回报的项目。

Lex Fridman:讲讲Dota的训练过程。

Greg Brockman:Dota项目,是我们迈向现实世界的重要一步,相对象棋、围棋等其他游戏,Dota作为一个复杂游戏,连续性更强,在45分钟游戏中,玩家可以进行不同动作和策略组合。Dota的所有硬编码(hard coding,将数据直接嵌入到程序或其他可执行对象的源代码中的软件开发实践,而不是从外部获得数据或在运行时生成数据),机器人都很糟糕,因为它太复杂了。所以这是一个推动强化学习最新技术的好方向。

我们在2017年在Dota 1V1对战中,成功击败世界冠军。

学习技能曲线,是一个指数函数,我们一直在扩大规模,修复错误,从而获得稳定的指数级进展。

Lex Fridman:Dota是非常受欢迎的游戏,在全世界有很多资深的人类玩家,所以在OpenAI和人类的Dota 1V1对战中,要获得成功的基准,是非常高的,最初是怎么训练这些AI的?

Greg Brockman:我们使用的方法是自训练。我们设置了两个没有任何经验的Dota AI玩家,他们互相争斗,不断发现新的对战技巧、继续斗争。之后我们从1V1扩大到5V5,继续学习团队行动中需要做的协调,在5V5版本游戏中达到专业水平,难度指数级上升。

这件事与昆虫的训练方式有很多共同点。但昆虫在这种环境中生活了很长时间,并且有很多经验。站在人类角度看,昆虫并不聪明,但昆虫其实能够很好驾驭它所处的环境,甚至处理周围环境中从未见过的意外事情,我们在AI Dota玩家上,看到了同样事情。这个游戏中,他们能够与人类对战,这在其进化环境中从未存在过。

人类与AI的游戏风格完全不同,但AI依然能很好处理这些情况。这没有从较小规模的PPO中出现。之后,我们运行10万个CPU内核、数百个GPU,这个规模是巨大的,我们开始从算法中看到非常不同的行为。

Lex Fridman:Dota在1V1比赛中打败世界冠军,但目前还没有赢得5V5的多人比赛。2019年接下来几个月,会有什么变化?

Greg Brockman:OpenAI Dota团队,一直在与比我们模型更好的玩家进行比赛,虽然我们最终输掉两场比赛,但这也确实表明我们已处于专业水平。我们内部很相信它在未来会取得进一步胜利。

但其实赢或输,与我们思考即将发生事情的方式无关。因为我们目标并不是在Dota比赛中击败人类,而是推动强化学习达到最先进水平,所以某种程度上我们已经做到这一点。