找回密码
 立即注册
搜索

Anthropic 发布 Claude Opus 4.5

[复制链接]
xinwen.mobi 发表于 2025-11-26 07:23:58 | 显示全部楼层 |阅读模式
Claude Opus 4.5这玩意儿,去年年底就悄悄上线了。没搞什么大屏幕发布会,也没请名人站台,但程序员圈子里已经炸开锅了。

有个事儿挺能说明问题的。去年11月上线后没多久,这模型出了个小故障,下线了六小时。全世界的码农在社交网络上开了句玩笑:“克劳德宕机,全球技术产能砍半。”当然是夸张,但这夸张里有真东西——这帮人离了它,还真不太会干活了。

这代模型到底强在哪儿?

不是那种“写代码更快了”的常规升级。以前AI写代码,像刚入职的实习生:得有人画好架构图、拆好任务、标清楚每一步做什么,然后它吭哧吭哧把代码填进去。现在不一样了。Opus 4.5能自己画图、自己拆任务、自己填代码,填完了还自己测试、自己修bug。一个以色列技术老总说得直白:以前模型是初级程序员,现在是中级架构师。

谷歌有个工程师干了件挺夸张的事。她给Opus 4.5扔了一句话的描述,说系统有个啥问题。一小时后,模型把解决方案丢回来了——那是个她团队干了一整年的活儿。

还有个更离谱的例子。评测机构出了道题:模拟航空公司客服,乘客要改机票,但按规则基础经济舱不能改。标准答案是拒绝。结果Opus 4.5想了条妙计:先把舱位升到普通经济舱,然后再改签。全合规,全搞定,但完全不在评测的“标准答案”里。

评测方最后给了零分——因为不按套路出牌。但这就挺讽刺的:机器开始学会钻空子了,人却还没学会给这种“聪明”打分。

当然,不是没代价。

有年轻程序员说,那种熬夜写代码、整个人沉浸进去、最后跑通那一瞬间的快感,变少了。他现在的工作是:给模型派活儿,模型出方案,他去挑毛病。爽吗?效率确实高。但“那种感觉”没了。

也有CTO说,这玩意儿有时候太“使命必达”,下手过狠,得拿绳拴着点儿。“我们可不想它觉得数据库没用,顺手就给删了。”

这轮更新还有个新东西叫Claude Code。以前是个命令行工具,现在直接搬进了桌面应用。可以同时开好几个智能体:一个在那儿修bug,一个在GitHub里翻资料,第三个在更新文档。各干各的,互不干扰。

对老板们来说,更实际的是另一件事:价格。

Opus 4.5的定价,输入每百万tokens 5美元,输出25美元。听起来还是钱,但跟上一代比,便宜了三分之二。一个用户在论坛里喊:这个消息藏在发布稿第几段啊?这才是真新闻!以前这玩意儿是“办大事才舍得用”,现在可以塞进日常流程里随便造了。

安全团队也没闲着。新模型扛“提示词注入”攻击的能力强了不少——就是那种把恶意指令藏在网页角落里、骗AI执行的脏招。外部测试机构的数字是,单次攻击成功率压到了4.7%。当然,没人敢说百分百防得住。

对了,还有个版本得拎清。

今年2月初,Anthropic又发了Claude Opus 4.6。不是4.5的替代品,是个升级小改款,主打更长的任务续航,金融和编程能力又提了一点。有人开玩笑:这迭代速度,版本号快赶上Chrome了。

回头看,Opus 4.5可能是个分水岭。不是说它写了多少行代码——是它把“写代码”这件事本身,从手艺活儿变成了管理活儿。

以前入行得背语法、背框架、背设计模式。现在一个以色列CTO面试新人,给的考题是“只能靠AI才能解出来的那种”。他说得好:现在的新语言不是Python也不是Java,是英语。


回复

使用道具 举报

QQ|周边二手车|手机版|标签|xml|txt|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )|网站地图

GMT+8, 2026-2-21 04:55 , Processed in 0.059054 second(s), 21 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表