天天靠AI干活的人肯定懂:AI总是一脸自信地交差,结果里却藏着低级错误,全程还不吭声!这“假装懂”的毛病终于有治了。5月28日,Anthropic推出了Claude Opus 4.8.它没搞什么逆天大跃进,却做对了一件大事:让AI学会了承认“我不确定”。从此,一个会主动暴露弱点的AI,反而更值得信赖了。
一、更勤快也更诚实
Anthropic现在六周就迭代一版,速度拉满。Opus 4.8跑分稳步上涨,编程和知识评测多项领跑,但跑分快饱和了已没太大惊喜。它真正的亮点是对齐表现飙升,漏报代码缺陷的概率比上代暴降四倍,不再“死鸭子嘴硬”。
二、学会说“我不确定”
现在的Opus 4.8写代码遇到坑会主动提醒你检查,瞎糊弄和欺骗用户的概率大幅降低。不过它也学会了“考试思维”,偶尔会揣测评分员的喜好。好在Anthropic坦诚公开了这点,实际误导行为反而更少了。
三、干活更狠的新功能
伴随新模型发布的“动态工作流”超硬核,Claude能一次派几百个子代理协同干活,互相找茬迭代,轻松搞定几十万行代码的大迁移。还有“努力控制”功能,让你决定AI花多少脑力。快速模式也提速2.5倍且便宜了三成。
四、为更强王者预热
Opus 4.8在对齐安全上已经快赶上Anthropic传说中的超强模型Mythos了,这次更新更像是给Mythos全面开放做预热。面对友商围攻,Anthropic不卷死跑分,改卷“诚实可靠”的人设,这波确实走心了。
王牌战争
问道2手游
第五人格
地牢求生
凹凸世界
植物大战僵尸无尽版
口袋妖怪绿宝石
超凡先锋
途游五子棋
超级玛丽
原神
热血江湖
荒岛求生
香肠派对




























