原创综合 2026-06-02

Google 发布第六代 TPU v6e：AI 算力竞争进入新周期

Google 正式发布第六代张量处理单元 TPU v6e，这是自 2021 年 TPU v5 发布以来的首次重大架构升级。v6e 采用台积电 3nm 工艺，单芯片矩阵乘法单元规模比 v5 翻倍，理论上可提供超过 400 TFLOPS 的 BF16 算力。Google 声称其训练吞吐量相比 v5 提升 2.5 倍，推理延迟降低 40%。 Google 并没有单独销售 TPU 硬件。v6e 主要通过 Google Cloud 的 Vertex AI 平台向企业客户提供服务。这是一种「算力即服务」的商业模式，客户无需采购昂贵的专用硬件，按需付费即可获得大规模 AI 训练和推理能力。 v6e 的定位很有意思。Google 并没有把它定位为最高性能产品，而是在性能和成本之间找了一个平衡点。v6e 的 FLOPS 价格比 v5 更低，这意味着 Google 试图在 AI 基础设施的价格战中保持竞争力。面对英伟达的 H100 和 AMD 的 MI300，Google 需要一个能在性价比上说服企业客户的方案。一个值得关注的变化是 v6e 开始支持更多主流 AI 框架。Google 这次明确优化了 PyTorch 和 JAX 的原生执行效率，试图降低从英伟达生态迁移过来的开发者的适配成本。这不是技术问题，而是生态问题。Google 很清楚，让开发者留在自己的云上，比卖出多少 TPU 更重要。 Google 还宣布 v6e 将支持多芯片互联集群，最高可扩展至 256 芯片。这意味着企业可以租用足够大规模的算力来训练千亿参数级别的大模型，而不需要自建数据中心。对于中小型 AI 公司来说，这是一个有吸引力的选项。但挑战依然存在。英伟达的 CUDA 生态已经形成了强大的网络效应，绝大多数 AI 开发者的工作流程都是围绕英伟达硬件优化的。Google 的 TPU 在某些特定场景下确实有优势，但要改变开发者的使用习惯，需要的不仅是更好的硬件，还有更完善的工具链和更低的迁移成本。