WorkBuddy别再只用Auto了,自创内置模型挑选口诀了解一下

WorkBuddy别再只用Auto了,自创内置模型挑选口诀了解一下

关于WorkBuddy我介绍过很多了:

腾讯的WorkBuddy,可能是目前最便捷的小龙虾

解锁完整体验:腾讯WorkBuddy必备12个技能插件

实例:微信+ima+WorkBuddy产出分析报告工作流(已避坑)

好用而且免费,它已经成为我每天工作必备的工具了,这里也感谢当初使用我的推荐注册的朋友们,也给了我增加了许多免费的额度。

可惜4月30日邀请活动结束了,不知道还会不会有。前几天官方通知签到送积分截止到5月10日,如果或许不再推出类似活动,一个月就只有500积分了,那就远远不够用了,所以现在可千万别错过签到。

不过我发现官网上了个新活动,之前我没看官网,错过了领勋章的活动,这次官网活动一共可以领800积分,还可以开盲盒:

https://www.codebuddy.cn/profile/growth-space

其中有个活动5月10日结束,得抓紧了!具体参见上面的链接,感觉美团赞助了,总之能领积分就行。盲盒分4个等级(UR/SSR/SR/R),可以展示在对话框右上角,展示一下我的SR:

还有一个新消息是刚听说DeepSeek出V4了,然后就在WorkBuddy上看到了DeepSeek-V4-Flash,不愧是合作伙伴,给的就是快啊!

说回模型,不知道各位使用WorkBuddy的时候,模型是选Auto呢,还是自选内置的其他模型呢?

之前和朋友在微信群讨论各个模型的优劣时,我贴过当时用WorkBuddy做尽调分析的时候出现的一幕,目的是告诉他们复杂任务一定要自选模型,千万不要什么用Auto。

所有才有今天的文章,这里也以此给新人们提个醒。

当时,我上传了一个股权结构图,可能是分辨率不太高,或者是WorkBuddy没有调用OCR技能,直接给了我一堆图片中根本不存在的公司。看截图,这货倒是很诚实,承认自己编造:

之前在网页上用通用大模型的时候经常遇到AI幻觉,甚至给我编造许多不存在的法律法规,这是我第一次在小龙虾上遇到AI幻觉。

也是从那时起,我开始自选模型使用了,毕竟WorkBuddy内置了10个模型。


这些模型我也都是网上搜评测再加自己逐一试用慢慢摸出来了一套适合自己的选择,接下来,我就主观的介绍一下WorkBuddy目前内置的所有模型,希望能够对你有所帮助。

先叠个甲:本文所述各模型表现基于本人实际测试与公开信息检索,仅供参考,不代表任何官方立场或最终结论,建议读者结合自身需求进一步验证。

当然,本文不是反对使用Auto模式,问个问题、跑个脚本、整理个文档等这些简单任务,Auto是绝对够用的,至于复杂任务,尤其是需要多轮对话、上下文关联、长链路执行的时候,还是建议根据场景自选模型使用。

还有就是提醒各位,在WorkBuddy默认模型中,选用不同的模型,积分消耗程度不一样,一般情况下,同样一个问题,你问Kimi-K2.6会比问DeepSeek-V3.2消耗更多的积分。

这也是我们需要挑选模型的重要原因之一。


首先上场的是尊贵的KIMI,前几天在调用Kimi-K2.6的时候后面还有个提示,大概意思是消耗积分要乘以系数,这几天又没看到了,总之KIMI模型最少,但可能因为是精品打磨吧,所以价格相对比较高。

但贵自然有贵的道理,少也有少的好处,之前玩小龙虾的时候,看到一长列千问的模型我就头疼。既然贵些积分消耗自然就快一些,所以好刀一定用在刀刃上,批量任务就不建议用KIMI了,即使是免费积分用起来也很快的。

Kimi-K2.5多模态能力强,AIME 2025数学推理96.1%,SWE-Bench Verified(AI编程能力测评基准,2025年9月前使用) 76.8%,适合图像和视频驱动的代码生成。

什么是多模态就不多说了,值得注意的是,不是所有模型都是原生多模态的,但在WorkBuddy中每个模型都被封装成了多模态

Kimi-K2.6算是目前WorkBuddy里编程能力最强的模型之一。支持超长上下文,核心优势是长时序编程,连续工作好几个小时,跨多种语言,前端也都能接住,而且不会在中途丢上下文。


接下来是GLM系列,综合能力测评比肩KIMI,价格要更合适一些。可能是我需求没那么高吧,个人实际用下来感觉比KIMI更好用,身边很多程序猿都买了他们家的coding plan,即使起步价比别家高。

其中最强的是GLM-5.1,编程能力和Kimi-K2.6不相上下,绝对的性价比之王,Claude Code评测得分45.3,要知道顶级模型Claude Opus 4.6也才47.9,且价格要比GLM-5.1贵了30倍有余。

有意思的是,GLM-5.0原生是纯文本模型,据说GLM-5.1增加了识图,但我在使用5.1时看到流程中识图又调用的GLM-4V-Plus。3月发布至今,我在它身上消耗的积分最多,虽然我基本不编程。

GLM-5V-Turbo,标准多模态,视觉编程能力突出。一般人用多模态主要就是看图,视觉采集能力其实还挺重要的,我之前的例子就是因为AI识图的问题。DeepSeek也是最近才有识图功能,凭借V4和识图又火了一波

跟5VT配对的是GLM-5.0-Turbo,5VT管眼睛,5T则是管手,它是把纯文本的好手(不过在WorkBuddy中它也被封装了识图功能),工具调用稳定、长链任务完成率高,几个小时基本也不会翻车。之所以叫5Turbo,因为是在5的基础上,针对龙虾专门进行了优化。


然后是DeepSeek,最早出名的国产大模型,价格也一直非常亲民,一般问答我也是用这个模型比较多,毕竟省一些,最近终于是推出V4和识图了。

DeepSeek-V3.2没啥好说的,元老级国产大模型,绝对成熟的通用选项,日常辅助任务用它,就突出一个稳。

DeepSeek-V4-Flash是新上的,定位也很清晰,超低成本大上下文,价格低到离谱,但能力一点也不弱,几百页的报告丢进去,能分析好的不多,V4算一个,而且推理性能接近V4 Pro,就突出一个香。


再说MiniMax,性价比很高的多模态模型,这是当年小龙虾刚出来的时候,OpenClaw官方推荐的唯一国产大模型,他家coding plan一直卖的很好。

M2.5善长编码和工具调用,也是代码修复批量任务的极致低价选项,适合你有一堆bug要修、不需要每个都精细处理的场景,而且自动化Agent场景用它非常合适,号原生Agent生产级模型

M2.7也是3月发布的新模型,是M2.5的升级版,SWE-Bench Pro(AI编程能力测评基准,目前通用)到56.22%,约为GLM-5.1的94%,但成本只相当GLM-5.1的四分之一左右。图中的ML就是Machine Learning(机器学习,说白了就是说这个大模型算法好,性价比高。

MiniMax的上下文能力一直是强项,他们家还有个MiniMax-Text-01,具备超长文档处理能力,可以在百万级Token中精准检索,据说创意写作能力比GPT和Gemini都要强,什么时候能上WorkBuddy就好了。


后说一下腾讯自家的Hy3 preview,也是现在你打开WorkBuddy就给你推荐的模型,这姚顺雨从OpenAI过来后带团队孵化出的第一个产品,八卦一下,据说这个不到30岁的小伙儿年薪过亿,太牛了!

这个模型推理能力很强,复杂推理能力前段时间还拿了个国产第一。仅凭这两个光环,这个模型就不会差,而且和腾讯生态配合得很好。不过毕竟是preview版本,目前还是建议重要的生产环境慎用。


说了这么多,做一个不算总结的总结。

为什么Auto模式会成为大多数人的默认选择?因为选模型这件事本身就有门槛。你得知道每个模型擅长什么、不擅长什么,你得记住哪个是执行型、哪个是分析型、哪个是专项型?

因此,为了选模型,每次任务前可能得花几秒做个判断,而Auto可以帮你省这几秒,但代价是你的任务结果的不可预测。

毕竟AI本相当于抽卡,Auto则是抽卡中再抽卡,运气好则一切顺利,运气不好,像会像我之前一样返工,当然可能返工还不算运气最不好的。

不过,在这里还是再次强调一下,即使自选模型,也千万别全部依赖AI。

说到底,工具好不好用,从来不取决于工具本身,取决于用它的人有没有搞清楚自己的需求场景。

就好像自动驾驶,高速上各家车企能力大差不差,但在市区复杂路况里,各家又有各家善长的场景。

不是每个任务都需要最强的模型,但每个任务都需要最合适的模型。

最后分享一个自用的速查口诀:

复杂任务看场景,普通任务Auto启

Agent 长跑不停歇,Kimi K2.6 来扛旗

图文多模算数学,Kimi K2.5 样样齐

高质量编程性价比,GLM-5.1 数第一 

截图设计变代码,GLM-5v-Turbo 最省力

工具长链稳执行,GLM-5.0-Turbo 很犀利

超长文档省成本,DeepSeek V4-Flash 最经济

日常通用不折腾,DeepSeek V3.2 妥妥滴

机器训练写循环,MiniMax M2.7 请考虑

批量代码要省钱,MiniMax M2.5 价最低

复杂推理哪家强,Hy3 preview 腾讯系