DeepSeek 更新了，我更期待量化版

雪夜 2025-12-09 00:00:00 次阅读

大家好，我是专注 ai 学习的老章

昨天大模型圈异常热闹，其实近期新版本层出不穷，尤其是 Qwen 系列，我也抽空做了一些测试，只是时间有限没来得及出文分享

DeepSeek-V3.1-Terminus

这是对 V3.1 的一次小幅迭代更新，主要修复了此前曝光的“极”字漏洞以及多语言混合输入的问题

基准	DeepSeek-V3.1	DeepSeek-V3.1-Terminus
无工具使用推理模式
MMLU-Pro	84.8	85.0
GPQA-Diamond	80.1	80.7
huanity's last test	15.9	21.7
LiveCodeBench	74.8	74.9
Codeforces	2091	2046
Aider-Polyglot	76.3	76.1
代理工具使用
BrowseComp	30.0	38.5
BrowseComp-zh	49.2	45.0
SimpleQA	93.4	96.8
SWE Verified	66.0	68.4
SWE-bench 多语言	54.5	57.8
Terminal-bench	31.3	36.7

Terminius 最亮眼的提升在于 Agent 能力，在 Code Agent 和 Search Agent 场景下的表现均有增强。

不过细心的朋友可能已经注意到，升级后的模型在 Codeforces 和 Aider-Polyglot 两个编程竞技类评测中分数反而略有下滑。但整体影响不大，关键是“极”bug 已被修复，实际使用体验更加稳定可靠。

目前访问 https://chat.deepseek.com/ 使用的就是最新的 Terminius 版本

该模型也已开放开源：https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.1-Terminus

模型大小高达 689 GB！整整 689 GB！

这个体积实在太大，本地部署对我来说基本不可能。我倒是准备了一台拥有 500GB 内存的高性能机器，打算用 llama.cpp 尝试纯内存运行量化版模型。

不过还得等 unsloth 发布 Terminius 的量化版本才行，我还是挺期待的。之前 unsloth 对 V3.1 做的量化效果惊人：

1 位 Dynamic 量化将 DeepSeek-V3.1 从 671GB 压缩到仅 192GB（减少超 75%），在无思考模式下性能甚至超过 GPT-4.1（2025 年 4 月版）、GPT-4.5 和 DeepSeek-V3-0324。3 位 Unsloth DeepSeek-V3.1（思考模式）GGUF 版本，性能还能超越 Claude-4-Opus（思考模式）。最后，V4 会不会在国庆节发布？按照以往规律，每逢重大节日，DeepSeek 总会推出新模型。