原创综合 2026-06-12

Google DeepMind 发布 DiffusionGemma，本地推理速度提升四倍

Google DeepMind 开源了 DiffusionGemma 模型，在图像生成和文本输出的本地推理速度上实现了四倍加速。这不是又一个需要云端 GPU 集群才能运行的模型，而是可以直接在消费级硬件上部署的轻量级方案。

扩散模型长期以来在图像生成领域占据主导地位，Stable Diffusion 和 DALL-E 都基于这个架构。DeepMind 的创新在于将扩散机制扩展到文本生成任务，通过并行去噪的方式替代传统自回归模型的逐个词生成模式。自回归模型必须等待前一个词生成完毕才能预测下一个词，扩散模型则可以从噪声中一次性生成全部内容。

模型基于 Gemma 架构构建，参数量控制在适合本地部署的范围内。这意味着个人开发者和小型团队可以在自己的机器上运行完整的文本生成管线，不再依赖 API 调用或昂贵的云服务。对于注重数据隐私的企业场景，这是一个实质性变化。

扩散文本生成的核心挑战在于训练稳定性。传统语言模型使用交叉熵损失逐词优化，扩散模型需要设计专门的扩散过程来匹配文本的离散特性。DeepMind 的方法采用了连续松弛技术，在训练阶段将离散词映射到连续空间，在推理阶段再通过量化操作还原为文本。这个转换过程引入了少量误差，但在多数应用场景中影响不大。

速度提升的直接受益者是需要大量文本生成的应用。自动化报告生成、长文档翻译、批量内容创作这些场景的计算量巨大，四倍加速意味着同样的硬件可以处理四倍的吞吐量。对于边缘计算设备，这意味着原本不可能完成的推理任务变得可行。

开源策略也很关键。DeepMind 选择将权重和训练代码一并开放，社区可以直接在上面微调出特定领域的版本。Gemma 系列之前已经积累了不错的开发者生态，DiffusionGemma 的加入让这个生态多了另一种推理范式。

不过扩散文本生成并非万能解药。在需要严格逻辑推理的任务上，自回归模型仍然更可靠。扩散模型的并行生成特性使得它在创意写作和内容生成上表现更好，但在数学证明或代码调试这种需要逐步推导的场景中，自回归的逐步推理过程仍然不可替代。

从技术演进的角度来看，扩散文本生成代表了一条与自回归模型完全不同的技术路线。自回归模型的发展依赖于 Transformer 架构的不断优化，通过增加模型规模和训练数据来提升生成质量。扩散模型则走了一条物理启发的路线，借鉴了热力学中的扩散和逆扩散过程，将文本生成建模为一个从噪声到有序结构的去噪过程。这两种路线各有优劣，未来可能会出现混合架构，结合自回归的逻辑严谨性和扩散模型的并行效率。