看到一份《OpenAI闭门讨论会V3纪要》,启发很多。遂把内容分类整理,加了少量自己的延伸,没有特别标注。建议研读原文

大语言模型能力边界

  1. 非要类比ChatGPT及后继者带来的冲击的话:

    • 是应用商店的出现,而不是某个应用的出现
    • 是从纸质文档到Word的改变,而不是从Word到Notion的改变
    • 是超文本标记语言的出现,而不是新的浏览器内核
    • 是PC被发明的改变,而不是从PC到移动互联网的改变
  2. 大胆的设想:如果所有知识数据都记录到大模型中,那就不需要数据库。如果一切问题大模型都能解决,那么也就不需要开发新软件。但目前的问题是大模型还需要参数,而且不能实时更新和反馈。未来如果该问题被解决,实际上只需要一个公用大模型和一个私人大模型。

  3. 大语言模型所依赖的分布式训练,建立在单卡算力和网络带宽基础上:

    • 单卡算力方面,从前两年的V100到如今的A100,再到刚发布的H100,看起来是每一两年提升两三倍。最新的H100是4nm的工艺,实际上2nm的工艺已经就绪了,就差产品落地。
    • 网络带宽则直接限制了分布式能做多大,能连接多少张显卡。如今核心网带宽800G,在平衡好性能和成本的情况下,两三年后到1.6T,以后再到3.2T都不是问题。目前谷歌可以5-10万张卡一起训练,英伟达可以2万张。
    • 国内现在的情况是高端卡被限购,单卡之间的连接技术也不成熟。
  4. 大语言模型和个人的绑定,也就是更理解某个用户的需求、语言习惯等的私人AI助理,在技术上并不难,而且开源社区已经有实现。就看公司什么时候官方发布,或开源社区什么时候降低部署的门槛。另一方面,手机、可穿戴设备的传感器要多得多,而这些数据还完全没被利用。未来一旦做这样的尝试,AI到底能多“懂”一个人?目前还看不到天花板

  5. 我们可能低估了大语言模型“人情世故”的能力,现在ChatGPT表现出来的坦诚甚至“直男”,其实是被调出来的——避免它有太强的谈判、战略能力。在这方面模仿人类,可能没想象中那么难。

OpenAI动态

  1. 围绕着模型训练和评估,OpenAI内部有分工明确的小组。他们可以做到只训练模型的一小部分,就估测整体模型的表现,也可以在训练出现意外时剔除脏训练。这些训练策略的SOP,后来者可能要花很大的代价才能摸索出来
  2. OpenAI是一家有很多存货,且对未来发展非常有野心的公司。想想看GPT-4是去年8月训练完成的,现在很可能GPT-4.5已经做好了,他们正在搞GPT-5。OpenAI内部对GPT3.5的评价只有60分,GPT-4是80分。所以,OpenAI的领先可能是一骑绝尘的。此外,在人才方面,现在GPT团队只有几十人,还有无数的顶尖人才都想去OpenAI
  3. OpenAI有员工透露,今年会出一个DALL-E的升级版,效果远超Stable Diffusion和Midjourney。他们也在做ChatGPT的to B私有化部署方案

行业冲击

  1. 考虑到模型的迭代速度,这段时间涌现的应用大多数将非常短命。即便很小的垂直领域,也会出现一波波的后浪拍死前浪。比较重要的是快速拿到细分场景的业务,做出很好用、能快速跟随基础模型进化的应用
  2. 大语言模型抹平了很多算法、代码方面的行业积累,大家起跑线的差距将会变小。另一方面,产品经理的重要性会被放大,之后的中小企业或许只需要CTO和少量的产品经理,未必需要很多工程师。
  3. 最先落地的垂直领域,可能有翻译、客服、写作、平面/三维设计、建筑/室内设计、儿童陪伴、心理咨询、游戏、特效、VR/AR。输入法软件作为内容输入的媒介,可能会有大的变化

大模型民主化

  1. 大模型民主化的可能路径:OpenAI模型有巨量参数,只有寥寥无几的公司有实力训练。但,模型里非常多的参数是用于知识记忆的。有可能开源社区共同维护一个庞大的知识库,用一个中等规模的模型实现基础的语言理解,另一个实现数值计算,另一个实现编程等,允许用户按需添加不同的模块。这种模块化天然和开源社区的特点相契合
  2. 无论如何,大模型民主化依赖领跑者开源模型、或模型的一部分。OpenAI显然没这个意愿,但Meta、Google最近被折磨惨了,可能有比较强的动力去做这件事
  3. 关于大模型领域中美竞争的问题,回顾原子弹、超级计算机的历史,会很有启发