推广 热搜:全国客服热线  全国统一服务热线  24小时服务热线  附近服务网点  全国报修  全国报修网点  24小时服务电话  家电上门服务  附近上门服务网点  故障原因分析及处理 

万亿参数Kimi K2开源 月之暗面研发工程师亲述幕后故事头条热点

   更新时间: 2025-10-06 09:10  发布时间: 2小时前   2840
核心提示:【TechWeb】7月14日消息,日前,国内大模型独角兽月之暗面正式发布并开源了其最新一代MoE架构基础模型Kimi K2,总参数量达到1万亿(1T) ,引发圈内热议。Kimi内部则将K2研发群戏称为“接生群”,多位参与“接生”的Kimi研发人员随后在知乎展开“亲自答”,从多个角度深入讲述了其背后研发历程。作为月之暗面 Infra侧推理方面研发人员,知乎答主刘少伟谈及了K2模型

【TechWeb】7月14日消息,日前,国内大模型独角兽月之暗面正式发布并开源了其最新一代MoE架构基础模型Kimi K2,总参数量达到1万亿(1T) ,引发圈内热议。Kimi内部则将K2研发群戏称为“接生群”,多位参与“接生”的Kimi研发人员随后在知乎展开“亲自答”,从多个角度深入讲述了其背后研发历程。

作为月之暗面 Infra侧推理方面研发人员,知乎答主刘少伟谈及了K2模型结构的设计宗旨。他称K2模型是在DeepSeek V3结构的框架之下,如何选择合适的参数,使得模型在训练、推理成本与v3相当的前提下,获得明显更低的loss。“综合以上四个相比v3的改动,我们能够得到一个在相同EP数量下,虽然总参数增大到1.5倍,但除去通信部分,理论的prefill和decode耗时都更小的推理方案”。

月之暗面研究员、知乎答主Flood Sung则表示,Kimi K2最值得关注的信息,除了MuonClip带来的漂亮得起飞的loss曲线,还有就是Agent能力。他透露,为了实现更好的通用Agent能力,构建了一个大规模的agent合成数据pipeline:简单的说是一个完全自动化的agent数据生产工厂,通过全流程的模拟来过滤出好的Agent轨迹数据。Flood Sung称,“这个生产线非常符合老子的思想:’一生二,二生三,三生万物’。”

另一位月之暗面研发人员、知乎答主Justin Wong谈到Kimi K2为何会选择开源时称,开源意味着能够借助社区力量完善技术生态,“在我们开源不到24小时就看到有社区做出K2的MLX实现、4bit量化等等,这些凭我们这点人力真的做不出来”。月之暗面研究员、知乎答主Dylan则表示,K2实际上就是一个刚出生的baby,虽然略显“灵性”,但和很多已久的frontier model(前沿模型)相比,还是有很多、很明显的缺点,“作为posttrain(后训练)相关的同学,还是略感惭愧,希望后面的版本迭代里面能够持续释放K2 base model的潜力”。

据了解,开发者在AI成果发布的同时,越来越多选择来知乎发布背后的详尽思考。6月,月之暗面也曾发布一款Agent产品,Kimiresearcher两位主要研发人员也在知乎亲自答,解读产品背后的技术思考和亮点。更早之前,月之暗面开源MoBA框架研发人员鹿恩哲、苏剑林分别在知乎上讲述了研发思路,引发了业界对“稀疏注意力”框架的讨论。(周小白)



 

 
反对 0举报 0 收藏 0 打赏 0评论 0
 
更多>同类资讯频道
推荐图文
推荐资讯频道
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020015483号-5