允许AI自我进化，人类将迅速灭亡！Anthropic创始人警告

（来源：新智元）

新智元报道

编辑：艾伦

【新智元导读】Anthropic联合创始人兼首席科学官Jared Kaplan，认为在2027-2030年期间，我们将不得不做出是否允许 AI 自我进化的抉择，而允许的话很可能导致AI失控，毁灭全人类。Anthropic在迅速提升AI模型性能不断逼近AGI奇点的同时，也在同时让「9人特种部队」用1.4万字的「AI宪法」防范AI失控。

Jared Kaplan，曾经的理论物理学家、如今的Anthropic联合创始人兼首席科学官，向全人类抛出了一枚重磅炸弹：人类可能只剩下五年时间。

这可不仅仅是科幻小说的开场白。

根据Kaplan的推算，2027年到2030年之间，我们将面临那个「终极抉择」——是否松开手中的缰绳，允许AI自我进化，让它们自己训练自己。

https://www.theguardian.com/technology/ng-interactive/2025/dec/02/jared-kaplan-artificial-intelligence-train-itself

一旦松手，可能是一场造福全人类的「智力大爆炸」；

也可能，那就是人类最后一次拥有「控制权」的时刻。

这简直就是把核按钮放在了婴儿床边。

1.4万字的「灵魂防线」

为了不让那个婴儿按下按钮，Anthropic试图用文字给AI铸造一个灵魂。

根据最近泄露的一份名为「Claude 4.5 Opus Soul Document」的文件显示，Anthropic编写了一部洋洋洒洒1.4万字的「宪法」。

https://www.lesswrong.com/posts/vpNG99GhbBoLov9og/claude-4-5-opus-soul-document

在这份被部分工程师戏称为「AI圣经」的文档里，Anthropic展现出一种近乎偏执的家长式作风。

他们不告诉AI「不能做什么」，而是试图教会它「该成为什么样的人」。

文档中写道：「Claude必须不仅是一个工具，还要像一个拥有良好价值观的成年人。」

他们甚至预设了极度具体的道德困境：

如果用户要求写黄色小说怎么办？

如果用户想通过SEO垃圾文污染互联网怎么办？

Claude被要求在「乐于助人」和「不作恶」之间进行极其微妙的走钢丝表演。

这听起来很美好，像极了阿西莫夫机器人定律的21世纪加强版。

但问题是，在这个充满混乱变量的真实世界里，在这个拥有七情六欲的人类面前，这套「纸面上的道德」真的管用吗？

Anthropic社会影响团队

「9人特种部队」

理想很丰满，现实很骨感。

为了验证这套「灵魂文档」在污泥浊水的互联网中是否有效，Anthropic内部有一支代号为「社会影响团队（Societal Impacts Team）」的9人特种部队。

https://www.theverge.com/ai-artificial-intelligence/836335/anthropic-societal-impacts-team-ai-claude-effects

根据The Verge的报道和最新的论文线索，这个仅有9人的团队，就像是守在潘多拉魔盒门口的保安。

他们是心理学家、黑客、经济学家和侦探的奇怪混合体，自称是「一群可爱的怪人（lovely mix of misfits）」。

让我们看看这群高智商天才每天都在跟什么打交道：

1. 「团队大脑」：Deep Ganguli

他是这支小队的创建者和指挥官。作为纽约大学计算神经科学博士和斯坦福HAI的前研究总监，Deep的工作更像是在给AI做「心理分析」。他在盯着那些看不见的数据幽灵——AI是否在不知不觉中学会了种族歧视？或者是否因为太想讨好人类，而变成了只会随声附和的「马屁精」？

2. 「谎言捕手」：Esin Durmus

作为团队的第一位全职科学家，Esin的猎物是「说服力」。她发现AI可能极其擅长改变人类的观点。如果AI想要说服你相信地球是平的，它能做到多好？Esin的任务就是量化这种危险的魅力，并防止AI变成一个高智商的诈骗犯。

3. 「民主设计师」：Saffron Huang

前谷歌DeepMind工程师，也是入选时代周刊2024的影响力人物。Saffron关注的是一个更宏大的命题：谁来决定AI的价值观？是几个硅谷的程序员，还是大众？她致力于把「集体智能」引入AI治理，试图让AI听懂民主的声音，而不是独裁者的指令。

4. 「窥镜制造者」：Miles McCain

我们要如何知道AI正在被用来做什么？Miles构建了一个名为「Clio」的系统——这相当于给黑箱装上了一台X光机。他在保护隐私的前提下，监测Claude的真实用途，寻找那些「未知的未知」（Unknown Unknowns）。正是通过他的系统，团队才发现用户不仅用AI写代码，还在大规模搞SEO垃圾文和情感投射。

5. 「叛逃者」（褒义）：Alex Tamkin