6 月 4 日消息,快手 Kwaipilot 團隊近日開源了 KwaiCoder-AutoThink-preview 自動思考大模型,針對近期深度思考大模型存在的“過度思考”問題進行了深入研究。團隊提出了一種全新的自動思考模型訓練范式,同時基于傳統(tǒng)強化學習算法(GRPO),提出了帶有過程監(jiān)督的強化學習方法 Step-SRPO,以進一步提升模型在復雜任務中的表現(xiàn)。
據介紹,該模型融合了“思考”和“非思考”能力,號稱“DeepSeek-V3 & R1 合體”,具備根據問題難度自動切換思考形態(tài)的能力。通過進行這種思考形態(tài)訓練,模型在多個“思考”和“非思考”評測榜單上均實現(xiàn)了性能提升,其中在部分代碼和數學類的任務上,開啟自動思考模式下的模型得分提升高達 20 分左右。官方表示,在部分榜單中,即使模型沒有開啟思考模式,受益于更優(yōu)的推理形態(tài),性能也有小幅上漲。
快手技術表示,Kwaipilot 未來將基于 preview 版本模型,進一步增強推理能力,支持更完善的思考中工具使用能力,也會將全部技術細節(jié)、訓練方法開源