Free **** - 搜索 News

X上63万人围观的Training-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。GRPO ...

大模型虽强，但在专业领域表现往往不尽如人意。常见的解决方案是通过监督微调或者强化学习更新模型参数，但这背后是高昂的代价与新的局限：算力黑洞：单次训练动辄消耗数万美元，每一次迭代都是真金白银的投入 ...

一些您可能无法访问的结果已被隐去。