对话杨植麟：Moonshot AI即将完成超10亿元融资，公司最终目标并非超越OpenAI

机器之心原创

作者：姜菁玲

【资料图】

今年年初，杨植麟手机里来自投资人的微信好友验证请求开始爆发。急迫寻找人工智能标的的众多投资人听闻了一个消息——杨植麟，开始大模型创业了。

在GPT创业群星中，拥有清华系背景以及广泛学术影响力的杨植麟无疑是耀眼的一颗，拥有漂亮且合适的履历：2015年从清华计算机系毕业后，杨植麟前往美国卡内基梅隆大学攻读博士，师从苹果AI研究负责人Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen，常规六年的博士之路被缩短至四年完成。

博士期间，先后以一作身份，发表 Transformer-XL 和 XLNet两项工作，谷歌学术被引次数近两万。Transformer-XL成为首个全面超越 RNN 的注意力语言模型，论文成为NeurIPS 2019与ACL 2019的最高引论文之一；XLNet则在20项任务上超越谷歌BERT模型，一鸣惊人。

杨植麟从2020年开始确定“大模型是未来”这个观点。当时，OpenAI推出GPT3。这个拥有超过1750亿个参数的模型，在当时成为人类历史上最大的神经网络模型。斯坦福大学的研究认为它已经拥有大约7岁儿童的心智水平。

而这更重要的意义在于，GPT3的出现，让AI的第一性原理逐渐清晰——“足够多的证据证明，只要下一个token预测越来越准确，就会有更多的智能产生。”

“第一性原理”源自古希腊哲学家亚里士多德的观点，指的是用来回归事物基本条件，将其拆分成各要素解构分析，最终得出实现目标的最优路径。

在这一年之前，杨植麟的论文Transformer-XL曾一度被ICLR 2019拒绝，理由是评审不认为大语言模型的提升在实际场景会有更多的价值。

共识的形成需要花费大量的时间。

回到中国，2020年之后，坚信自己已经看到AI的第一性原理的杨植麟，开始希望在做尝试。但此地距离风投机构向大模型频繁开枪，高端人才向大模型公司聚集的场景，还有三年时间。

杨植麟选择了一个折中的方案——寻找合作，自己团队提供技术，对方提供算力资源。但这条路可能要比想象地难走。在一个非共识的环境下，他发现需要重投入的大模型事业运行效率很低，十分坎坷。这一点对大厂、对研究院、对创业公司都是一个很大的挑战。

转机直到去年年底ChatGPT的爆发才开始出现，太平洋的两岸在很短的时间里相继被点燃。在内心回答“此地此时究竟有没有机会”这个问题前，杨植麟去海外考察了两个月，彼岸的“疯狂”让他坚信：很快，在亚洲做一个大模型公司，有机会了。

杨植麟终于开始单独创业了，一切进展地很快。机器之心得到的最新消息显示，杨植麟成立的大模型公司Moonshot AI已经组建了超过40人的团队，即将完成第二轮融资，累计融资金额有望超过2亿美元。在机器之心的专访中，杨植麟首次向外界披露了Moonshot AI的工作目标和未来愿景。

时隔多年，道路上的冰山开始瓦解，布道多年的“天才AI科学家”终于迎来了他的magic moment。

时机到来

机器之心：公司名为什么是“Moonshot”？

杨植麟：我们今年3月1日正式成立，正好是Pink Floyd专辑Dark Side of the Moon发行50周年。月之暗面意味着神秘，令人好奇和向往，但登月又是一件难度很大很有挑战的事情，这是我们名字的来源。

同时我认为摇滚精神也是我们公司一个很重要的底色。我一直觉得搞研究是歌剧，阳春白雪，很高大上，很纯粹，但不太好规模化，而技术创业是摇滚，从零到一，从最小的状态开始做起，不断革新自我，不给自己设置边界，最终做出很好的音乐改变世界，给一代人带来能量。

机器之心：目前公司最新情况是怎样的？

杨植麟：我从去年年底开始基本明确要单独做一个大模型公司。

目前Moonshot AI已经完成首轮融资，公司技术团队已有数十人规模，拥有2位联合创始人，公司在中国和海外各设立了一个办公点。我们预期，Moonshot AI的团队将持续补充技术、产品、运营等方面的人才。

我们的当前的工作重点是研发下一代跨模态大模型。我们即将完成的第二轮融资将用于以保证有足够的资金进行GPT-4以及下一代模型的研发。

机器之心：能否详细介绍一下你们目前的团队？

杨植麟：目前我们整个团队人数超过了四十人，绝大部分是拥有世界级影响力工作的大模型专家。

两位联合创始人，周昕宇和吴育昕，也都是清华背景，五位数的Google Scholar引用，在大模型方面有非常丰富的工程和算法经验。

我们半数以上的成员拥有海外经历，从海外吸收了先进的人才和认知，团队核心成员也参与了Google Gemini、Bard、盘古、悟道等多个大模型的开发。

整体团队包括了NLP, CV, RL, Infra方面新生代人才，有很多有世界影响力的工作都是我们团队成员主导的：

在大模型方向，我们的团队成员发明了RoPE相对位置编码，是Meta LLaMa和Google PALM等大多数主流模型的重要组成部分；我们发明了group normalization，是Stable Diffusion等AI模型成功的关键组件；同时，我的工作Transformer-XL，是历史上第一个在词级别和字级别都全面超越RNN的注意力语言模型，解决了语言建模上下文长度的关键问题，定义了语言建模的新标准；我们曾与DeepMind和CMU合作研究，首次实现小样本性能逼近全监督学习的高效对齐方法。

在视觉领域，我们团队成员包括发明了MoCo，引爆了基于对比学习的视觉预训练范式，也是过去三年CVPR引用量最高的工作；发明了ShuffleNet，最高效的视觉网络结构之一；主导开发了detectron2，一个被广泛使用的视觉开源项目并被集成到Meta全线VR/AR产品中。

在基础设施方面，团队核心成员曾带领数十人从零开发世界领先的深度学习框架，也具备数千卡集群全自动化硬件运维告警、数百亿特征检索、大规模（数十PB数据、百万台机器）分布式系统数量级性能优化的经验。

在强化学习方面，团队成员作为一作提出了基于关系学习的少样本方法，得到斯坦福大学、Google、MIT、Amazon等团队的使用和扩展，并获得过OpenAI RL联创及负责人John Schulman亲自邀请加盟。

机器之心：下定决心创业的时机是什么？

杨植麟：本质上我认为，今年以前，亚洲可能并不存在做大模型公司的机会。

如果更早之前开始做的话，在资本和人才方面很难说有足够的资源去支持。

不过，去年年底，我的判断开始发生很大变化。当时，GPT已经在美国市场引起了很大的关注，一般来说美国以外的市场会有一点时间差，但是肯定会跟上。果不其然，到了第二年春节，美国以外的市场也开始爆发，几乎所有VC开始关注（这个赛道）。所以我们发现，果然是有机会的。

机器之心：我们知道那个时候你去海外考察了两个月，你给自己的任务是什么？

杨植麟：对，我是在去年12月份去的海外。当时我给自己的任务是，一是尽可能多的提升认知，二是为后续的招聘储备一部分人才。

当时在国外，我觉得情况可能比我想的还要疯狂。除了在推特在讨论，无论是不是技术人员，餐厅、咖啡馆你处处都能听到人们在讨论GPT。当时可能是美国最狂热的时候，有点类似处于Gartner Hype Cycle（技术成熟度曲线）的上升阶段，公众对这项技术的预期非常高，似乎一夜之间大家觉得通用人工智能已经可以实现了的感觉。这是远远超出我预期的部分。

整体上这趟行程是比较顺利的，这一趟应该说坚定了我们认为现在是个合适时机的信念。

所以我们加速了融资和招人的节奏。我们在一个月之内敲定了首轮融资，拿到了来自红杉等头部机构6000万美元的启动资金。并且在三个月内组建起了大约四十人的极高人才密度的技术研发团队，虽然在海外招聘的难度比较大，也成功招募到了一些核心研发人才，在海外设立了一个办公点。目前我们也即将完成第二轮融资。

机器之心：在这之前的几年，你怎么做大模型的工作？

杨植麟：我们选择了一种折中的方式去做这件事，找一些合作方，我们提供技术，他们提供算力。我认为这种形式可能是当时的最佳选择。因为在那个时期，单独成立一家公司来做这个事情并不能获得足够的资金支持。

2020年下半年，我们开始与华为合作，为其中一个版本的盘古大模型做了核心的技术研发。2021年，我带领团队一起参与了智源研究院的悟道大模型研发。

这两段经历，让我了解了大模型研发过程中各种可能的问题，并且积累了经验。但是这种合作方式也让我意识到，你可能只有自己创建一家公司才能真正意义上去实现这个目标。

机器之心：为什么说自己单独做一家公司才能真正去实现这个目标？

杨植麟：在大组织当中，如果公司对这个项目的投入不够，那么你项目的优先级会被放低，而且组织中的多方合作如果在KPI上没有足够对齐，就无法取得合力，效率很低。

我们意识到，在大模型的研发中，只有正确的组织才能完成这项工作。也就是说，这所有人都高度集中，人才密度很高，工作效率非常高，并且目标完全一致。

在之前的合作中，实现这些非常困难，所以在很大程度上阻碍了我们的创新。因此，我认为创新需要找到正确的人并找到正确的组织方式，这是可能成功的唯一方法。这也是为什么我认为必须创立一家公司的原因。

大模型公司最重要的是人才与组织

机器之心：今年年初开始很多VC找你，你都没有见。为什么？

杨植麟：实质上我们认为，直到6月前，我们最核心的任务是招人，组建团队。

今年以来，我们看到市场上大模型相关的人才非常稀缺，真正有相关经验、有计划有认知、愿意创业且在合适的年龄的人其实并没有那么多。

至少在这个阶段，我认为人才的稀缺性比资本稀缺性更高。因为一个这个团队到底能不能达到GPT 4这个里程碑以及做出来下一代模型，可能关键的指标就是你的团队是不是一个对的团队。

我们了解到，其他一些公司，其实过去几个月并没有怎么进人，公司的人才结构并没有变化，我认为这本身是有问题的，因为人才市场已经产生了很大的流动性，我认为我们是应该抓住这个机会的。

这里需要规避两种情况，一是低效的团队结构，比如说设置了十个合伙人又缺少能够真正拍板的人，因此合作的效率会很低。另一种情况，是你完全不补人，可能你仍然完全按照传统AI公司的组织结构，没有抓住人才市场这一波流动性，那么你可能后面的发展也会有很多问题。

所以我们是想尽量避免这两种，在一个合理的组织结构下，然后去把人才密度去做到很高，去抓住这一波的红利。

机器之心：人才流动性指的是什么？

杨植麟：人才从从细分的AI技术领域NLP、CV、RL等开始向大模型公司集中。

机器之心：你说大模型人才目前很稀缺，算法以及工程两个方面的人才稀缺程度是否有所不同？

杨植麟：整体上来讲，行业人才确实非常稀缺。全世界范围内，有大模型训练经验的人才很少。这意味着，在工程实现方面，比如能够在开源框架上去做优化和提升的人并不多，能应对超大规模集群的人才也很稀缺。

而在算法创新方面的人才稀缺程度则比之更甚。比如在强化学习方面，能够做强化学习的人非常少，但是对于一个大模型公司来说，强化学习能够让AI自主去探索，没有强化学习就无法实现更高水平的技术跃升。我们除了有在短期内要去超过GPT4这个目标，还需要去思考更前沿的技术方向，比如GPT5可能是怎样的，我们的机会在哪里，这些都需要算法创新。

这两方面的人对我们都非常重要，我们都有所储备。我们认为，工程实现能力决定了你技术能力的下限，而算法创新能力决定了技术上限。

机器之心：在招聘过程里，你用什么来吸引前面提到的这些人才？

杨植麟：核心包括三点，极大的上升空间、长远的愿景以及人才密度。

我们希望早期团队中的人认可我们长期的Vision，不论是具体的技术路线，还是AI带来的社会价值。另外，顶尖的技术人才会带来“滚雪球”效应。很多人是知道了我们团队中的一些很强的人，他会觉得“哎？这几个人竟然都在那！我确实也蛮想跟他们一起工作的”，这是一种很大的激励。在早期加入创业公司，他们的主动性和实际上升空间都很大。

机器之心：创造一个大模型公司，组织上你认为最重要的是什么？

杨植麟：我认为最重要的是人才密度和文化。你需要有优秀的人才，然后给他们一个好的文化环境，让他们在一个既定的目标和方向下能够自由创新。

大模型有点类似登月计划，本身需要自顶向下的规划和统筹，但同时，我们需要鼓励自下而上的创新，保持一定程度的开放性和组织的扁平化，这样创新就更容易发生。

所以我觉得，本质上就是要招最好的人，然后给他们提供一个好的系统，让他们在这个系统里面能够去创新，并且他们的很多创新能够成为系统的一部分，这样你的系统就能继续前进，我觉得这可能是我们现在想做的事情。

机器之心：所以你们的Vision是什么？

杨植麟：我认为每项技术基本都会历经原理探索期、技术创新期以及纯产品应用阶段三个阶段。

第一阶段意味着公众对于技术的第一性原理还不清晰，一切刚刚开始萌芽；第二阶段则指的是第一性原理已经清晰，但是仍然存在技术创新的空间，领先的公司会有显著的技术优势；最后一个阶段，当技术已经足够成熟了，可获得性很高了，就是纯产品的机会，网络效应建立。

两三年前，NLP、CV这些技术都处于第一阶段。如今，我们已经来到第二阶段，AI的第一性原理已经被大量证据所证明——从GPT1到GPT4，我们会发现，人类文明的总和，数字化之后都可以变成硬盘上的数据，无论是文字、语音还是视频，只要我们有合适的办法，去对这些数据做最大限度的规模化无损压缩，就能实现非常高程度的“智能”。

我最喜欢的例子是等差数列。假设说目前我有1万个数字要去压缩，在我一无所知的情况下，我所能做的仅仅只是把这1万个数字存下来。但是，如果我能够知道这些数的底层运行规律，我知道等差数列，那我就只需要存两个数字，其他9998个数字就能被还原出来。

这就是AI的第一性原理。在第二阶段，第一性原理已经清晰的情况下，理论上我们只需要一条道走到黑，去想更好的办法尽可能地去对整个人类文明进行压缩，然后就能在技术上实现较高程度的智能化。

而“更好的办法”也是第二阶段与第三阶段的分野。在这个方向上，我们看到大约5年的窗口期之中，我们需要去解决目前看到的问题，不断技术创新，让技术变得更加通用和低门槛，最终推动大规模的产品化。

在这个阶段，更好的模型质量通常会直接带来更好的用户体验，通过技术驱动的公司会拥有更大的产品优势。如果我们去看美国市场，目前领先的公司例如OpenAI, Anthropic, Inflection, Character AI, Midjourney，无一不是通过Model as an application的方式，通过技术优势来形成产品上的体验优势。

我们本身是一个技术很强的团队，也拥有很强的创新文化。对于我们来讲，我们看清楚了当下AI所处的技术阶段。在这个阶段当中，我们可以用一个技术驱动方式，实现产品上的优势，最终实现网络效应。所以这对于我们来说，就是一个合适的时机。

机器之心：想要去解决的“目前看到的问题”指的是什么？

杨植麟：我们看到，即使对于OpenAI本身来说，现在GPT需要解决的问题仍有很多。比如怎么训练出一个好的视频模型，能够让文本和视频实现真正意义上的跨模态交互。当下的跨模态模型更像是一个单任务模型，它只知道怎么去生成这个图像，但是大脑部分非常薄弱。

基于Diffusion Model的技术路径，一个重大问题是你没有办法去做真正的跨模态建模，只能基于很简单的文本向量去做decoding。本质上，它并没有对不同模态的联合概率去做一个可规模化的建模，这制约着这些模型去发挥更大的价值。从可规模化这个点上，我个人认为，长期来看，可能Autoregressive model（自回归模型）能够更通用得对不同模态去建模，长期会有更大的上升空间。

除了跨模态问题，另一个很关键的问题是，未来的大模型肯定不会停留在压缩现有的数据，而是会自主进行探索、在探索过程中生成和筛选数据、并进行压缩。一个很典型的例子是围棋，如果AI通过压缩已有的棋谱，很难在围棋水平上超越最顶尖的人类棋手。

相同地，如果是我们想训练一个能达到IOI金牌水平的编程AI，那么仅仅通过压缩现有的题解也是很难做到的。我们需要让编程AI自己去搜索不同的解法，在搜索的过程中评判解法的可行性，从而对解空间进行更全面的探索。

在科学领域也是一样，如果AI可以自主探索解空间，那么就可以发现人类还未发现的新知识。长期来说，通用地解决这个问题会产生超级智能（super intelligence）。

机器之心：如果说是AI技术的发展要经历上述三个阶段。我们看到ChatGPT的成功应该是技术和产品并行的一次尝试。

杨植麟：对于ChatGPT而言，确实是在技术的创新和产生网络效应两个阶段是一个并行的过程。在技术创新阶段，它占据了优势并形成了壁垒，然后在尽可能早的时候，将技术转变为具有网络效应的产品。

所以我刚刚虽然提到会有三个阶段，但是并不是说这一定是线性的。如果能够利用好自己技术优势，那么越早将它变成一个具有网络效应的产品越好。这之后，因为用户反馈和生态系统建设等方面会给你带来巨大的提升。因此，并不是要等待技术完全普适化才去产品化，而是要尽早地放出有用的产品让用户去投票。

最终目标不是超越OpenAI

机器之心：你们目前的初始目标是实现GPT4的开发，现在进展如何？

杨植麟: 我们首先要做的是预测，然后才能做规模化。在投入大量的资金去规模化前，我们需要知道规模化后会发生什么。通过很多预测工作，总结规律，然后预测规模化后的情况。这样可以涵盖大概主要的影响因素，剩下的少部分可以通过一些经验和试错来推断。

目前我们前期已经验证完，开始去用更大的数据集去训练，以使训练更稳定，保证代码的正确性，以及优化损失函数，训练大模型。

机器之心：很多大模型创业公司的初期目标都是超过GPT4，“达到或者超越”的标准会是什么？

杨植麟：我认为最重要的标准其实是模型的压缩比。

如果基于第一性原则来思考，智能的首要任务就是优化压缩，那么提升压缩比就意味着智能的增强。在一个足够大的数据集上，模型的压缩比有多大就能衡量出模型的优劣。例如，OpenAI的GPT-4可能在某些领域已经达到了30多的压缩比，而一些开源的模型的压缩比可能只有10出头，所以空间还是非常大的。

至于用户眼中的模型在应用里的表现，实际上也是由你的模型压缩比所决定的。模型的压缩比如果非常好，剩下的问题就是工作量问题，时间允许你肯定能把它调地很好。

所以我觉得压缩比是最关键的指标。例如，我们现在去监测我们的模型的进展，我最主要看的指标也是压缩比，我可以通过算出来的压缩比去预测它的趋势，什么时候能达到GPT-4的压缩比，这是可以被预测出来的。

机器之心：和如今在创业的公司一样，OpenAI也在往前走、快速迭代自己的模型。如果说目标是追赶GPT4的话，你认为超越OpenAI的可能性大吗？

杨植麟：有可能，但这个过程需要时间和技术创新。

对于我们来说，一方面，后发优势可以节省时间，即利用OpenAI等先行者已经做出的工作和探索成果。比如我们不用再像他们之前一样，花几年的时间去确认AI的第一性原理，而是可以直接沿着这条路往前走。

但客观上，确实目前的差距很大。短期来看，我们要看到这个差距，而不是说现在就说要马上“赶英超美”。我认为如果真的能够实现“超越”这个目标的，应该需要依靠接下来还没有出现的模型，要去思考下一代模型怎么做。

长期来看，我是比较乐观的。因为和电力不一样，AI是异质化的。全世界各国的电力都是一样的，都可以用来给手机充电。但是对于一个记者、一个程序员以及一个画家，这三者所面向的人工智能的智能维度完全不一样。

因此，最后可能人工智能模型不会存在一个超越与不超越的问题。比如虽然OpenAI在某些智能领域做得很好，但可能在某些特定场景中，比如生成图片的美学价值上，它暂时还无法超过Midjourney。即使OpenAI在某些领域超过了，可能还会有其他领域存在差距。因此，有很多维度可以用来定义智能水平。

由于人工智能的异质化，每个公司可能都有自己擅长的部分。通用能力上做得很好是一个前提，但在每个细分领域里，还是存在专业化的差异。例如，character.ai在角色扮演这个场景中，可能会做得比GPT-4更好，这就是专业化的体现。虽然它们的训练路径和OpenAI很接近，但产品的出发点可能会决定了它在这个领域里专业化的位置。

通用人工智能会存在技术门槛，这个世界上只会有少数的通用人工智能公司，但每个跨过一定技术门槛的公司可以在某些具体的场景或类型的智能上有专业化优势，并在这些领域做得比其他公司更好，最终形成一些网络效应。因此，未来并不会只有一家AI公司能包办所有的智能。

机器之心: 你有没有想过，可能我们永远无法追赶上

杨植麟：就像上面所说的，追赶可能并不是我们的最终目标，总体上这个领域有很多维度需要探索，需要很多公司一起。

爬楼梯，而不是看风景

机器之心：大模型是个非常新的技术方向，从你接触的情况看，投资人对这件事的理解程度怎样？

杨植麟：我觉得一个关键需要理解的点是AI-native产品跟传统产品的区别。

在大模型时代，以往基于移动互联网的产品逻辑和交互方式已经在发生巨大改变。以往，用户使用移动互联网产品的使用路径非常确定和清晰。但对于Chat-based UX来说，所有交互都基于对话，是完全开放性的，用户可能看到的结果出现了指数级的增长。这对产品经理的能力提出了新的要求，需要在无限的可能性中去通过有限的评测来定义产品。UX有两个重要的维度，一个是灵活度，一个是直观度，chat-based UX相比于传统的GUI显得非常灵活，但直观度相对下降，所以怎么在保持灵活度的前提下提升直观度，也是一个重要命题。

很多人比较在意公司的商业模式，我认为商业模式不会成为特别大的问题。目前有很多可以借鉴成熟经验的地方，比如可以做订阅，或者通过聊天方式推荐商品或广告，以一种更自然且精准的方式来实现。又比如，类似游戏的商业模式也可以借鉴，比如抽卡等等。

相比于商业模式，我认为现阶段的核心议题还是产品创新，重要性远大于商业模式。

我们需要通过技术创新来实现出色的产品，而一旦我们拥有产品，就能将流量和用户关联起来，产生良好的数据去驱动模型更加智能。

因此，理解这个事情需要大量的学习。在这个时代变化非常快的情况下，我认为每个人都需要快速学习，吸收新知识，持续更新自己的认知是非常重要的。

机器之心：整体来看，在大语言模型的研究中，比较难的是什么？

杨植麟：整体上都很难。你可以看到美国不少大厂投入了很多资金，但还没有做出能看的东西，因为这里面本身难度确实非常大。如果我们仔细去拆分，或许包括三个方面：

首先，算法创新是必需的，这需要大量的投入与研发；其次，很大一部分情况是算法并不是新的，但是你要怎么调，让它更有效地工作，这是一个很具体的问题。

第三，工程实现是不是正确的，这个难度也很大。很多时候你搞了很多bug，非常容易你的loss就炸了。

所有这些挑战最后都反映到一个核心指标——人才密度。

人才密度决定了以上提到的各个问题的解决程度，能做到多好。这里的人才密度可能又分为几个方面：

第一，团队有没有训练过这些东西的经验。因为经验本身就是一个踩坑的过程，你可以从你以前的经验里面去学习。

其次，团队有没有信息，比如说你跟这个圈子离得比较近一点，可以更及时地获得一些有价值的信息。

第三，团队有没有面对未知的问题的创新能力。因为你不可能说所有东西都是已知的，所有东西都被你的经验或者信息覆盖，这个基本不可能。那么面对新的情况的时候，你这个团队有没有能力去针对这些新的情况去做很多调整？比如说，你发现你可能把模型的batch size加大之后，它的loss就特别差，那么你的团队有没有办法去解决这个问题？

对于一个公司来说，最难的是在爬楼梯和看风景之间做出取舍。可能有的人爬了一两层楼之后就快速选择看风景，用能力比较基础的模型去做大肆宣传，去做商业化，对于我们来说，更重要的是以终为始，坚持爬楼梯，攀登高峰。即便中间也会看看风景，最终也是为了爬楼梯服务的。

机器之心: 你在学术界最广为人知的成就是Transformer-XL与XLnet这两篇论文，产生了很大的影响。不过，2019年你提到一个故事——XLnet这篇论文曾经被ICLR 2019大会拒绝，理由是评委不认为大语言模型的效果提升在应用上会有很大的影响。现在从大模型行业整个发展阶段来看，这件事可能代表了什么？

杨植麟：现在看这个观察挺有意思。

当时，我觉得就是大模型的第一性原理还没有清晰，或者说第一性原理还没有真正成为共识。因为现在的第一性原理就是，只要你有更好的压缩比，你就会有更好的智能，这个其实对应的就是大语言模型的目标函数。所以当时（提出Transformer-XL），我们其实是在原模型的基础上取得了一个比较大的提升，让它的智能程度提升了很多。但当时，对于这件事情是有用的，显然还没有出现一个共识。

那其实，本质上，我们可以看到一般共识是要落后于非共识的思维的。正因为这样，非共识可以产生很大的价值。比如我们现在正在做的事情，虽然是非共识，但是我一点都不care。我直接做工业化，把这个东西做出来效果之后，那么很多人就会来跟进和关注。

OpenAI通过工业化的方式，而不是一个纯研究的方式去证明了第一性原则是对的。我觉得这见证了时代的变迁，一共有三个阶段。第一阶段是2018年之前，所有人不知道大语言模型有什么用，到第二个阶段是18到19年，BERT时代，大语言模型可以提升各种任务，到第三个阶段，20年往后，只剩下一个任务就是语言模型。

GPT3的发布为第一性原理提供了足够多的证据，虽然距离真正形成共识还需要一段时间，但是它给出了一个底层依据，明确了优化的目标。因为方向很清楚，所以它适合做工业化，而不仅仅是学术研究。这也标志着从学术研究阶段向工业化阶段的过渡。在工业化阶段，目前还处于一个需要创新的阶段，因为如何让预测越来越准确，现在还有一些问题没有完全解决。

机器之心：在我们看来，最近几年在基础模型的架构上的研究似乎并不多。你认为Transformer架构将来会不会被替代？

杨植麟：我认为如果时间足够长，Transformer肯定会被替代。

但在短期三到五年内，更大的可能性是在Transformer的核心思想上进行优化。比如，如果你想处理10万的context，你肯定不能使用原始的Transformer。如果你想处理分钟级别的长视频，使用原始的Transformer可能不是最优方案。

所以，我认为在接下来的三到五年内，我们可能更倾向于针对特定问题对Transformer结构进行优化，但核心的思想我认为应该还是比较通用的。

在这个过程中，量变产生质变，比transformer更好的模型会自然通过组合演进的方式产生。

机器之心：

现在许多公司在做行业大模型的研发，你的看法是什么？

杨植麟：我觉得行业大模型在短期内有其存在的道理，利用专有数据的优势，可能在某些非常封闭的行业有所作为。

但从长期看，当一个赛道开始接入更多来自B端和C端的参与方，再封闭的行业，都很难阻止数据的扩散，超级入口会变成数据黑洞把各种数据吸纳进来，行业模型的优势会消失。

另一个方面看，行业大模型的计算量本质上是一个能源转化成智能的过程。如果我投入了更多的能源，我就会有更多的智能，中间转化率取决于我的算法的有效性。如果我假设你算法是一样的，那么你有多少智能就完全取决于你有多少能源。

而客观上，这种行业大模型消耗的能源是要比通用的模型要少好几个数量级，长期来说这个差距还会扩大。这样的话它产生的智能最终提供的增量价值会趋近于0。

在一些超级封闭的行业，如果通用模型还没有触及，或者数据吸纳的效应还没有出现，这种情况下短期可能存在一些机会，但长期来看我觉得会回归到通用模型。

行业大模型的唯一优势也就是专有数据壁垒最终会被打破，因此我认为不是一个可持续性的东西，最终肯定不是靠专有数据壁垒，而是靠销售渠道或者提供更好的定制服务。

但不同的通用大模型之间的分化是有可能的。这由你的产品的起点决定，通过对不同类型的用户的吸引，吸收他们所供应的数据，让模型在哪些方面更强。

机器之心：作为一个在业内评价较高的人，大家对你寄托的期望是否给你带来了压力？

杨植麟：我更多的是感到兴奋，因为我觉得能有机会做这个事情本身就很幸运，我对这个机会充满了感激。

并不是所有人都有机会去做这个我非常想做的事情，我会抓住这个机会并把它做好。所以，我觉得从心态上说，我并不感到过多的压力，更多的是珍惜这个机会。