Logo

GLM-4.7:炒作还是真香?我看到了中国 AI 的另一种可能

GLM-4.7 很火,但我要先泼一盆冷水——数字再漂亮,也掩盖不了一个事实:它在某些场景下的幻觉问题,可能让你的生产环境直接炸掉。

但话说回来,这并不妨碍它成为 2026 年初最值得关注的开源模型之一。

先说争议:为什么有人说它只是炒作?

2025 年 12 月 22 日,智谱 AI(现在改名叫 Z.ai)发布了 GLM-4.7。发布当天,各种标题就炸了:

  • "GLM-4.7 击败 Claude 和 GPT"
  • "开源模型终于追上闭源了"
  • "中国 AI 的里程碑时刻"

听起来很燃,对吧?但如果你仔细看数据,会发现事情没那么简单。

数字会说谎

GLM-4.7 在 LiveCodeBench V6 上确实拿到了 84.9 分,远超 Claude Sonnet 4.5 的 64.0 分。这个数字看起来很炸裂。

但换个赛道呢?

在 SWE-bench(一个测试模型解决真实 GitHub issues 能力的基准)上,Claude 4.5 得分 77.2%,而 GLM-4.7 只有 68.0%。这意味着什么?在真实的软件工程任务中,Claude 依然更靠谱。

更关键的是幻觉指数。GLM-4.7 的幻觉指数是 -36,而 Gemini 是 +13。这个差距不是小问题——在生产环境中,一个幻觉可能意味着错误的代码、错误的决策,甚至系统崩溃。

"内部测试"的尴尬

GLM-4.7 的很多性能数据都来自 Z.ai 的内部评测。这不是说他们造假,但独立的第三方验证还很少。

这就像你去买车,销售跟你说"我们内部测试油耗特别低",你会不会想:"那实际开起来呢?"

目前社区的态度是:谨慎乐观,但需要更多验证

但也要看到真实的进步

泼完冷水,该说点正面的了。因为 GLM-4.7 确实有它的亮点。

代码能力是真的强

84.9 分的 LiveCodeBench 成绩不是假的。很多开发者在实际使用中反馈,GLM-4.7 在以下场景表现不错:

  • 代码补全和生成: 尤其是常见的前端/后端任务
  • 多步骤任务: 比如"读取文件 → 分析数据 → 生成图表"这种工作流
  • 工具调用: 在需要频繁调用外部 API 或命令行工具的场景下很稳定

Z.ai 自己也做了个测试:在 Claude Code 环境中跑了 100 个真实编程任务,覆盖前端、后端和指令遵循,GLM-4.7 的任务完成率和行为一致性都比上一代 GLM-4.6 有明显提升。

开发者社区的真实反馈

从 Reddit、Hacker News 到 V2EX,开发者对 GLM-4.7 的讨论主要集中在几点:

支持派:

  • "在本地跑 GLM-4.7,体验接近 Claude,但完全免费"
  • "处理并发 bug 时,GLM-4.7 的推理过程跟高端模型没啥区别"
  • "终于有个能在 Claude Code、Cline 等工具里用的开源替代品了"

质疑派:

  • "基准测试是一回事,实际生产又是另一回事"
  • "幻觉问题在关键业务中完全不可接受"
  • "还是得等更多独立测试"

有意思的是,即使是质疑派也承认:如果只是辅助开发、原型验证,GLM-4.7 完全够用。

PPT 生成从 52% 到 91% 的飞跃

Z.ai 公布的一个细节特别有意思:GLM-4.7 生成的 PPT 在 16:9 比例的兼容性上,从上一代的 52% 提升到了 91%。

这听起来像个小优化,但对实际使用来说意义重大。想象一下,你让 AI 帮你做个汇报 PPT,结果版式全乱了,还得手动调整半天——这种体验简直灾难。

91% 的兼容性意味着生成即可用,这才是真正的生产力工具。

GLM-4.7 背后的中国 AI 故事

把 GLM-4.7 单独拿出来看,可能会觉得"不过是又一个大模型"。但如果放在更大的背景下,你会发现它代表的东西不太一样。

从追赶到并跑

2025 年,中国开源模型出现了两个标志性产品:

  1. DeepSeek R1(2025 年 1 月发布): 推理能力炸裂,MIT 许可证完全开源
  2. GLM-4.7(2025 年 12 月发布): 代码能力突出,同样 MIT 许可证

这两个模型有个共同特点:不只是追赶,而是在某些维度上已经并跑甚至领跑。

DeepSeek R1 发布时,整个 AI 圈都震惊了——一个中国团队居然能做出接近 GPT-4 的推理模型,而且完全开源。GLM-4.7 则在代码生成领域证明了同样的事。

价格战的商业逻辑

GLM-4.7 的定价很有意思:

  • API 调用: 每百万 token 11 美分(DeepSeek R1 是 14 美分)
  • 订阅服务: GLM Coding Plan 只要 3/(ClaudePro3/月(Claude Pro 是 20/月)
  • 本地部署: 完全免费,MIT 许可证随便用

这不是简单的"价格战",而是用低价门槛推动技术普及

想想看:

  • 一个创业团队,每个月 AI 成本从 200降到200 降到 30,能省下多少钱?
  • 一个个人开发者,本地跑 GLM-4.7,不用担心 API 调用费用
  • 一个研究机构,可以在 GLM 基础上做二次开发,不用担心许可证问题

这才是开源的力量。

开源策略的深层考量

为什么 Z.ai 选择完全开源?

表面上看,是为了吸引开发者、建立生态。但更深层的原因可能是:技术主权的另一种表达。

在 AI 领域,如果所有顶级模型都掌握在美国公司手里(OpenAI、Anthropic、Google),那意味着什么?意味着其他国家在技术栈的最底层就受制于人。

GLM-4.7 和 DeepSeek 这样的开源模型,给了全世界一个选择:不用完全依赖美国的闭源模型,也能用上先进 AI。

这不是民族主义,而是技术多样性的必然要求。

到底该不该用?给你三个场景判断

说了这么多,最实际的问题来了:GLM-4.7 到底适合谁?

✅ 适合场景:代码辅助、原型开发、本地部署

如果你是:

  • 个人开发者,需要一个代码助手,但不想每月花 $20 订阅 Claude
  • 创业团队,在做原型验证,需要快速迭代,对偶尔的错误可以容忍
  • 注重隐私,想把 AI 跑在本地,不希望代码上传到云端

那 GLM-4.7 是个很好的选择。

⚠️ 谨慎场景:关键业务、金融医疗、需要高可靠性的场景

如果你是:

  • 金融公司,用 AI 做风控或交易决策
  • 医疗机构,用 AI 辅助诊断或生成医疗建议
  • 关键基础设施,系统出错会造成严重后果

那你需要更可靠的模型。-36 的幻觉指数在这些场景下是不可接受的风险。

在这些领域,多花点钱用 Claude 或 GPT,是值得的。

❌ 不推荐场景:完全替代人工的自动化系统

如果你想:

  • 让 AI 完全自主做决策,没有人工审核
  • 在生产环境中自动部署 AI 生成的代码
  • 把 AI 的输出直接给客户,不做任何检查

那请三思。

目前所有大模型(包括 GPT、Claude)都做不到 100% 可靠,GLM-4.7 更不行。AI 是助手,不是替代品。

更大的图景:AI 民主化的新可能

回到开头的问题:GLM-4.7 是炒作还是真香?

我的答案是:两者都是。

说它是炒作,因为:

  • 幻觉问题真实存在
  • 独立验证还不够充分
  • 在某些场景下确实不如 Claude

说它真香,因为:

  • 性能已经接近顶级闭源模型
  • 价格只有 1/7,甚至可以免费本地跑
  • MIT 许可证,想怎么用就怎么用

但更重要的是,GLM-4.7 代表了一种趋势:AI 不再是少数公司的专利,而是可以被更多人触达、改造、使用的工具。

3/vs3/月 vs 20/月 的意义

这不只是价格差异,而是准入门槛的差异

$20/月 对硅谷工程师可能不算什么,但对发展中国家的开发者、学生、个人爱好者来说,可能就是"用不起"和"用得起"的区别。

当 AI 从"少数人的玩具"变成"大多数人的工具",会发生什么?

会有更多创新,更多可能性,更多意想不到的应用。

开源模型对行业格局的冲击

OpenAI 和 Anthropic 的商业模式建立在"闭源领先"的基础上:我的模型比你强,所以你得付费用我的 API。

但如果开源模型性能接近、价格更低、还能本地部署呢?

这个商业模式就会受到挑战。

我们可能会看到:

  • 闭源模型被迫降价
  • 更多公司选择开源模型做定制化
  • AI 能力从"买服务"变成"买算力"

这对整个行业来说,是好事。

技术主权的另一种表达

最后说点"大"的。

AI 是这个时代最重要的技术之一。如果所有先进 AI 都掌握在少数几家美国公司手里,会怎样?

  • 其他国家的企业和开发者,永远依赖这些公司的 API
  • 一旦出现地缘政治冲突,AI 服务可能被切断(就像芯片禁令一样)
  • 技术发展的方向,完全由这几家公司决定

GLM-4.7、DeepSeek R1 这样的开源模型,提供了另一种选择:

不用完全依赖美国公司,也能用上先进 AI。

这不是对抗,而是平衡。技术越多样化,世界越安全。

结语

GLM-4.7 是不是炒作?是,也不是。

说它是炒作,因为它确实还有明显的短板——幻觉问题、独立验证不足、在某些任务上不如 Claude。

说它不是,因为它代表了一种趋势——AI 不再是少数公司的专利,而是可以被更多人触达、改造、使用的工具。

这才是 GLM-4.7 真正的价值所在。

如果你只是想找个完美无缺的 AI 助手,GLM-4.7 可能让你失望。但如果你相信开源、相信技术应该更普惠、相信多样性比垄断更健康,那 GLM-4.7 值得你关注。

毕竟,改变世界的,从来不是完美的产品,而是足够好、足够开放、足够多人能用的产品


相关资源:

分享内容