我用真金白银测评了国内外编程大模型,这些大实话终于有人敢说了

先说在前头,这篇文章不恰饭,纯个人主观体验。我不是什么科技博主,就是一苦逼程序员,每天AI编程时间超过5小时,同时开7到8个窗口是常态。所以这篇文章的结论,都是我用时间和money堆出来的。
如果你正在纠结选哪个AI编程工具,看这一篇就够了。
我的AI编程姿势:只用CLAUDE CODE
先表明一下我的立场。在AI编程这件事上,我不迷信什么AI IDE,什么Cursor、Windsurf、Trae,这些花里胡哨的东西我通通不用。我就认准CLAUDE CODE这个工具,然后用它去对接各种大模型。
为什么?因为CLAUDE CODE够纯粹,够灵活。它就像一个万能插座,哪个大模型都能接进来让你试试。这才叫真正的“用脚投票”。
好了,废话不多说,直接上硬货。

王者篇:CLAUDE OPUS 4.6 THINK —— 天花板还是那个天花板
讲道理,在AI编程这个领域,我一直坚持一个观点:只有CLAUDE和其他。
CLAUDE OPUS 4.6 THINK搭配CLAUDE CODE,那就是当下VIBE CODING的天花板,没有之一。这话我撂这里了,谁不服气谁来辩。
为什么这么说?用过的人都知道,CLAUDE对代码的理解能力、对上下文的记忆能力、对复杂逻辑的处理能力,至今没有一个竞品能够企及。它不是那种“你问一句它答一句”的工具,而是真的能“懂你”的那种存在。你写代码的时候,它知道你在做什么;你重构的时候,它知道你要什么;你遇到bug的时候,它甚至能猜到你为什么会写错。
但问题来了,CLAUDE最大的问题不是能力,而是它根本不让你用。
ANTHROPIC这家公司对中国区用户的态度,简直就是“封建余孽”级别的。我算是被封出经验了,静态IP?没用。机场?死的更快。各种验证码、区域限制、账号封禁,玩的就是一个心态。
你可能会说,国内不是有很多中转站吗?呵,对轻度用户来说确实是个办法,但对我这种深度用户来说,中转站的费用简直是天价。
所以我的建议是:如果你真的想用CLAUDE,要么找个靠谱的平台帮你代订阅,要么直接买成品号。一个月1600到2000块的支出,具体渠道我就不推荐了,毕竟都是私人在做,踩坑了别来找我。
进阶篇:那些“其他”大模型,排名分先后
说完王者 CLAUDE,接下来聊聊那些所谓的“其他”。我按实际体验排了个名,从高到低,一个一个说。

第二名:OPENAI CODEX —— 性价比之王
OPENAI的CODEX,确实有点东西。大概5小时50~150次请求吧,额度和GLM的pro额度差不多。
很多人可能不知道,CODEX要搭配OPENAI官方的CODEX工具一起使用才行。我之前也是本着试试看的心态,结果发现,这玩意的某些方面,甚至超越了CLAUDE CODE。
没开玩笑。在某些特定场景下,CODEX的代码生成质量和速度,确实能和CLAUDE打的有来有回。
那怎么最便宜地用上它?我的方案是:海鲜市场拼车。
具体操作:去海鲜市场(闲鱼)找一个business拼车链接,加入团队组,每个月大概10块钱左右。10块钱,你就能拥有独立空间、独立账号,还能同步使用CHATGPT。
10块钱啊朋友们,这是什么概念?这可是本次测评中综合性第一名的方案。又便宜、又好用、还不封号。我愿称之为AI编程界的“拼多多”。

第三名:智谱GLM-5 —— 国内编程模型的天花板
说完了国外的,再来说说国内的。
如果你是那种不愿意折腾环境的人,那我告诉你,智谱GLM-5就是国产编程模型的天花板。这点毫无争议。
CLAUDE CODE + GLM-5这个组合,在国产方案里找不到对手。准确率高,理解能力强,虽然速度确实比CLAUDE慢,但再慢也比CODEX快那么一丢丢。
但是,智谱有个致命的坑:额度虚标。
我是最早一批智谱用户,早在他们还是4.5版本的时候就买过lite订阅。当时用的还挺爽的,结果后来买了PRO版额度,反而还没当初lite用的多。你敢信?
现在我买了MAX版,按照我的用量,都有点不够用。重度使用的话,建议直接上MAX,否则大概率会被周限卡脖子。
还有一点,智谱最近太火了,火到算力严重不足。之前是偶尔慢,现在是经常慢。高峰期排队那是常态。所以且用且珍惜吧。

第四名:KIMI FOR CODING —— 额度大方但容易写冗余
这里有个槽点不得不吐。
为什么我不写KIMI 2.5而是写KIMI FOR CODING?因为我根本不知道KIMI调用的是哪个模型。
这货的订阅做得非常迷惑,不管你怎么换模型名称,哪怕你输入一段乱码去配置,照样不影响使用。官方文档也没说清楚到底该配置哪个模型名。所以我严重怀疑,月之暗面内部压根就没有给用户暴露模型选择权,具体用的是什么版本,只有他们自己知道。
不过有一说一,KIMI在编程上的表现还是及格的。
对比GLM-5,KIMI的速度稍微快一点点,但在自然语言理解上不如GLM-5。编程能力差不多,都是能写,但都有各自的问题。
KIMI最大的问题是:它会写冗余代码。
举个例子:你已经写好了一个公共函数,新需求只需要调用这个函数就行。KIMI不,它会再写一个功能几乎一样的公共函数,专门给这次需求用。久而久之,你的代码库就会变成一座屎山,到处都是重复的代码。
但整体来说,KIMI还是能用的。毕竟额度大方、价格便宜,对重度用户很友好。选99元/月的足够,我买的是199元/月的,额度太多了。

第五名:MINIMAX —— 一本正经的乱写代码
MINIMAX这个模型,争议比较大。
我的评价是:它比KIMI聪明,但聪明得让人头疼。
KIMI是那种“虽然写得烂,但至少不乱改”的类型。MINIMAX不一样,它确实会复用你写好的公共函数,不会无脑写新的。听起来是不是挺聪明?但问题在于,MINIMAX的“聪明”是小聪明——它喜欢乱改你以前写好的代码。
改什么?把它认为“不对”的地方改成它认为“对”的。问题是它改完往往更烂。有时候甚至会删你代码,虽然这种情况比较少,但遇到了真的很窝火。
所以我现在看到有人无脑吹MINIMAX就想怼:如果你收了钱替人办事,那OK没问题;如果你没收钱在那无脑吹,那我是真的不理解。
但MINIMAX有一个优点:速度最快。
我订阅的是极速版,那速度是真的快。而且199元/月的订阅,额度根本用不完。我这种超级重度用户,5小时同时开7到8个窗口对话,一个月下来额度都没用到30%。对于预算有限又追求速度且追求量大管饱的用户来说,MINIMAX是个选择。
第六名:GEMINI 3.1 PRO —— 乐色中的乐色
这个真的是跌破我的眼镜。
按理说,GOOGLE不应该啊。GEMINI在很多场景下都挺好用的,尤其是多模态方面。但接入CLAUDE CODE之后,它就彻底降智了。
怎么形容呢?你给它加的SKILLS越多,它越傻。如果你在一个空白项目里用,可能会稍微好一点点,但也仅仅是一点点。整体表现甚至不如国产三剑客。
这点确实出乎我的意料。我原本以为GOOGLE,好歹是全球顶尖的科技公司,做出来的东西再差也差不到哪里去。结果在编程这个领域,GEMINI确实资质平平。
当然,如果你想用GEMINI也有便宜方案:海鲜市场几十块订阅一年学生号,然后用反代工具反代GEMINI CLI和反重力里面的模型。这个组合是所有方案里最便宜的,而且还能用上DEEPRESEARCH和NANO BANANA。算是穷人的福音吧。
Others篇:提都不想提
剩下的这些,真的没什么好说的了。
- 阿里QWEEN:别买,阿里的qwen我认为综合来说是国内的天花板了,但是就编程这个垂类领域其实还是差点意思。。
- 百度文心一言:中规中矩,编程能力一般,什么都很一般。差很多意思。
- 腾讯混元:最让我震惊的存在,一家全球知名科技公司,做出的大模型在编程领域居然是垫底的。你敢信?但凡腾讯稍微争点气,也不至于这样。
- 字节豆包:emm,怎么说呢,有进步空间,能比文心一言好一点点儿。依然差很多意思。
- DEEPSEEK:2025年年初确实猛了一段时间,之后就一路拉胯。V4还没出呢,营销号已经吹上天了。我反正是不看好。我觉还不如豆包了,和文心一言一个水平。
购买建议:花最少的钱,办最大的事
最后一部分,说说国内CODING PLAN怎么买。
方舟:直接pass,能力和官方版本差距太大。速度慢的一批!!!
阿里:同上,速度还特别慢,属于花钱买罪受。非阿里模型更慢,慢到离谱。
智谱:可以买,一定要买官方的。但最近要抢,中度用户强烈建议,因为额度太虚了,真的不经用。
KIMI:可以买,额度比智谱大方,价格也更友好。
MINIMAX:重度用户建议买PLUS版,49元/月,5小时100次PROMPT足够用了。极速版看心情,反正速度差别不是特别大。这个性价比是最高的。
总结
这篇文章的目的,不是给你推荐一个“完美方案”,而是告诉你每个方案的坑在哪里。
- 有钱任性能抗封号:直接上CLAUDE
- 追求性价比:海鲜市场拼车CODEX
- 不想折腾求稳定:智谱GLM-5或KIMI
- 省钱第一:MINIMAX PLUS
就这些,自己选吧。
感谢观看,点个关注,不迷路。



