AI 推理芯片光谱 — 通用 GPU 到模型刻片的七档专用化

如果只用一句话概括 2025-2026 年 AI 推理芯片的格局,它是一条光谱:从 NVIDIA GPU 的「什么都能跑」到 Taalas HC1 的「只能跑一个模型」,中间精确地排着七档梯度。每往右一档,速度涨 3-10×,但能跑的模型种类切掉一块

这不是 NVIDIA 一家通吃的故事。AI 推理在 2026 年占到全部 AI 工作负载的约三分之二,体量大到能养活一批专用芯片公司;大模型架构在 2022 年后意外地收敛到 Transformer,让「为某一种神经网络专门设计电路」第一次有了商业意义;同时数据中心的电力瓶颈让能效比绝对算力更值钱 — 这三件事同时发生,才把过去二十年只在学术论文里出现的非通用架构推到了商业舞台中央。

这篇文章不按厂商分类,按架构原理分类。我们会沿着光谱从左往右走,看每一档分别用什么物理机制把「专用化」往前推一步、又付出了什么代价。最后再单独讨论光子路线 — 它不在主光谱上,但在「光计算 vs 光互联」这条平行分支上有着完全不同的命运。

概览 — 一条光谱压缩七条路线

一张光谱图 — GPU 到 Taalas 的七档梯度

把七档梯度并排放在一根轴上,你会看到一个很整齐的渐变 — 颜色从冷色(通用)到暖色(专用)线性过渡,速度从左侧的几十 tok/s 一路冲到右侧的几万 tok/s。

AI 推理芯片光谱 · 通用 → 专用灵活性递减 · 速度递增 · 估值梯度GENERALSPECIALIZEDNVIDIA GPUCUDA + Tensor~50 tok/s任意算子Cerebras WSE-3晶圆级~2,000大模型 · 通用Google TPU脉动阵列~150 (Trillium)主流稠密模型Groq LPU静态数据流~600编译期固化图d-Matrix Corsair数字存内~500 (2ms/tok)Transformer 家族Etched SohuTransformer ASIC~60,000 (L70B)仅 TransformerTaalas HC1模型刻片~17,000 (L8B)单一模型颜色梯度:通用计算领域专用 (DSA)架构专项 (存内 / 数据流)模型刻片速度 = 单用户单流 tok/s · 基准 Llama 70B (除 Taalas 标注外)灵活性 = 能跑的模型范围 · 越右越窄估值梯度 = 越右越「赌」单一架构 · 越左越「赌」生态
七档梯度从通用并行(NVIDIA GPU)一路推到模型刻片(Taalas HC1)。每一档的色块代表一种独特的电路组织方式 — 砍 / 锁 / 烧的程度递增,速度与灵活性形成精确的反向梯度。

这条光谱的一个微妙之处:Cerebras 不在「专用化光谱」上,它是「另一种物理实现」的通用并行 — 用一整片晶圆解决片间通信瓶颈,而不是改电路拓扑。但因为它跟 NVIDIA GPU 在「通用度」这一维上几乎并列,所以我把它放在最左侧靠近 GPU 的位置。后面会专门解释这个区分。

为什么是 2025-2026 — 四个条件同时成立

这条光谱不是 2026 年才有的。脉动阵列 1979 年就有了论文,存内计算从 2010 年代起一直在学术界打转,光子计算可以追溯到 1980 年代的光学神经网络。新的不是技术,是它们突然同时变得商业可行。背后是四个条件同时成立:

少任何一个条件,这条光谱都不会成立。比如 2018 年的算力市场规模养不起专用 ASIC,2020 年的 FP32 主导让模拟计算精度不够,2014 年的 RNN/Transformer/CNN 共存让没人敢「赌一种架构」。2025-2026 是窗口期 — 这个窗口大概持续 5-7 年,即 Transformer 的主导地位稳定期。

七档梯度对比 — 速度 vs 灵活性

把七档梯度的关键参数放在一张表里 — 这是后面所有讨论的「速查表」:

档位代表产品架构核心Llama 70B 单流 tok/s灵活性状态
1NVIDIA H100 / B200CUDA + Tensor Core~50任意算子 + 训练 + 推理 + HPC占据 >80% 训练市场
2Cerebras WSE-3晶圆级集成~2,000任意模型 + 训练 + 推理2026/5 IPO,~490 亿估值
3Google TPU v7脉动阵列 ASIC~150 (Trillium)主流稠密模型已规模化,Anthropic 100 万 TPU
4Groq LPU静态数据流~600任意 Transformer估值 69 亿,NVIDIA 200 亿背书
5d-Matrix Corsair数字存内计算~500 (2ms/tok)Transformer 家族已出货,估值 20 亿
6Etched SohuTransformer ASIC~60,000 (8 卡)仅 Transformer早期客户出货
7Taalas HC1模型刻片~17,000 (Llama 8B 单用户)单一模型2026/2 发布,2 个月流片对冲

注意第 6、7 档的 tok/s 是不同基准下的数字 — Etched 的 60K 是 8 卡服务器在 Llama 70B 的总吞吐,Taalas 的 17K 是单芯片在 Llama 8B 的单用户吞吐。两者都不能直接拿来横向比 — 越往右专用化程度越高,「公平比较」就越没意义,因为它们能跑的范围已经不同了。

通用并行 — NVIDIA GPU 与 Cerebras 晶圆

光谱最左侧的两档都属于「通用并行」 — 能跑任意算子、训练和推理通吃。但它们的物理实现路线完全不同:NVIDIA 押注「单卡极致 + 高速互联组集群」,Cerebras 押注「整片晶圆消除片间通信」。两条路都没改神经网络计算的本质,只是从不同角度优化「通用并行架构」的物理形态。

NVIDIA GPU — CUDA + Tensor Core 的双轨

NVIDIA 数据中心 GPU 的演化已经在 GPU 架构十年演化 一文里详细拆过 — 这里只点出跟光谱定位相关的两个关键点。

NVIDIA DGX B200 服务器
NVIDIA DGX B200 — 8 颗 Blackwell GPU 通过 NVLink 互联,代表「单卡极致 + 高速互联」路线的当前旗舰(来源 · NVIDIA DGX B200 产品页)。光谱最左侧的「通用」一档 — 同一颗芯片能跑训练、推理、HPC、图形。

第一,NVIDIA GPU 是双轨架构:CUDA Core 负责通用并行计算(任意指令、任意数据类型),Tensor Core 负责矩阵乘加速。一颗 B200 的 CUDA Core 算力只有 80 TFLOPS,但 Tensor Core 在 FP4 下能跑到 9,000 TFLOPS — 同一颗芯片里有两套完全独立的电路。这意味着 NVIDIA GPU 在「通用 vs 专用」这条光谱上其实是个混合体,Tensor Core 那部分已经很专用了,但因为 CUDA Core 这部分极其通用,整体定位仍然是「最左侧」。

第二,NVIDIA 在推理上的「浪费」是它最大的劣势。一个 Llama 70B 推理任务,主要就是矩阵乘 + softmax + LayerNorm + 激活函数 — CUDA Core 的通用部分基本闲置,RT Core(光线追踪)和视频编解码引擎完全没用上。整颗 GPU 大半的硅片预算其实在「待机」,只有 Tensor Core 在干活。这就是为什么其他六档敢挑战 GPU — 它们都瞄准了「砍掉所有不为推理服务的部分」这一根本浪费。

NVIDIA 自己也意识到了。从 Hopper 开始的 Transformer Engine、Blackwell 的 FP4 数据流、Rubin 的 SM 内 Tensor Core 占比继续上升 — NVIDIA 在悄悄把自己往光谱右侧拖,只是出于生态考虑必须保留 CUDA Core 这条「通用退路」。

Cerebras WSE-3 — 整片晶圆消除片间通信

Cerebras 选了一条很反常识的路 — 别人都是从晶圆上切出小芯片,Cerebras 直接把一整片 300 mm 晶圆当一颗芯片用

Cerebras WSE-3 晶圆级芯片
Cerebras Wafer-Scale Engine 3 — 一整片 300 mm 晶圆做成一颗芯片,46,225 平方毫米,4 万亿晶体管,90 万核心,44 GB 片上 SRAM(来源 · cerebras.ai/chip)。它解决的不是「计算更快」,是「片间通信瓶颈」 — 让整个模型住在一颗「芯片」上。

WSE-3 占据整个 300 mm 晶圆,46,225 平方毫米,比 H100 大 57 倍,包含 4 万亿晶体管、90 万核心、44 GB 片上 SRAM、21 PB/秒 的片上内存带宽。它解决了几十年来被认为不可解的工程难题 — 晶圆级良率(用冗余 + 互联重路由)、供电(液冷 + 高密度供电网格)、散热(片上液冷管道)。

但 Cerebras 的关键洞察跟「计算更快」无关,而是 跨芯片通信比片上通信慢 100 倍:

这就是为什么 Cerebras 在低延迟推理上能跑出 ~2,000 tok/s 的成绩 — 不是单位算力比 GPU 快,是节省掉了「等数据从隔壁芯片到达」这一大块时间。

但 Cerebras 仍然是「通用并行」 — 芯片内部的计算单元能跑任意 PyTorch 算子,不锁定 Transformer。OpenAI 2026 年初签下的超过 100 亿美元、750 兆瓦合同就是看中这一点 — 不想被某种特定架构绑死,但又要极低延迟。这是 Cerebras 跟后面那些 Transformer 专用芯片最大的差异。

为什么把 Cerebras 放在「通用」一侧 — 工艺创新 vs 架构专用

容易踩的坑是把 Cerebras 归类成「专用 ASIC」 — 因为它「不像传统芯片」。但 Cerebras 的创新维度完全不在「专用化」这条轴上:

维度NVIDIA GPUCerebras WSE-3TPU / Groq / d-Matrix…
架构创新点通用并行 + 异构加速器晶圆级集成(物理形态)砍掉通用部分,专做矩阵乘
能跑什么任意算子任意算子矩阵乘 + 主流神经网络算子
解决的问题算力提升片间通信瓶颈通用硬件能效浪费

Cerebras 的物理形态创新跟「专用化」是正交的两条轴 — 你完全可以做一颗「晶圆级 + 存内计算」的芯片,既消除片间通信,又消除片内 SRAM 到计算单元的搬运。只是工程上太难,目前没人能同时做两个激进的事。Cerebras 选了晶圆级这一边、d-Matrix 选了存内计算这一边,各自先把一边吃透。

所以光谱最左侧并列的两档不是「优劣比较」,是「不同瓶颈各自有人攻」 — NVIDIA 攻「单卡极致」,Cerebras 攻「片间通信」。

砍掉通用部分的脉动阵列 — Google TPU

从这一档开始,我们进入真正的「专用化」 — TPU 是把 GPU 里的 Tensor Core 单独拎出来放大,砍掉 CUDA Core 等通用计算部分,硅片面积全部留给矩阵乘。

脉动阵列电路 — Tensor Core 的「放大版」

Google TPU v7 Ironwood 芯片
Google TPU v7 Ironwood,SC25 大会展示 — 第七代 TPU,首次分化为训练专用(TPU 8t)和推理专用(TPU 8i)两款不同芯片(来源 · ServeTheHome)。TPU 8i 配 288 GB HBM + 384 MB 片上 SRAM,专门针对 MoE 和长上下文优化。

脉动阵列(systolic array)的核心思想是 1979 年 H.T. Kung 提出的:数据像「心跳」一样在固定的处理单元(PE)阵列中流动,每个 PE 同时做一次乘加,结果传给邻居或累加在本地。这样:

但脉动阵列也有它的死穴 — 只适合规则的矩阵乘。一旦运算涉及不规则的内存访问(稀疏注意力、动态形状、复杂的 control flow),脉动阵列就跑得很糟。这就是为什么 TPU 跑 Transformer 推理顺,跑 Mamba 这类状态空间模型就吃力。

第七代 Ironwood 把这种「专用化」推到了 Google 自己都觉得需要分化的程度 — 推出了 TPU 8t(训练专用)+ TPU 8i(推理专用) 两款不同的芯片。TPU 8i 配 288 GB HBM 加 384 MB 片上 SRAM,专门为 MoE 和长上下文模型优化。这意味着连 Google 都承认了「训练和推理需要不同硬件」 — 这件事在 2018 年 TPU v3 时代还是不可想象的。

TPU 8t / 8i 训练推理分化 — 第一次承认两端要不同硬件

为什么分化?因为训练和推理的 workload 形态根本不同:

用同一颗芯片做两件事就会有严重浪费 — 训练芯片在做推理时,大部分电路闲置;推理芯片在做训练时根本带不动反向传播。TPU 8t / 8i 是 Google 第一次把这两个 workload 物理切开 — 推理芯片极致优化「单流低延迟 + 长上下文 KV cache」,训练芯片极致优化「集群协同 + 大批量吞吐」。

这件事对整个产业有信号意义:专用化已经分化到「同一种算子在不同 workload 下需要不同硬件」的精度。我们后面会看到,Groq、d-Matrix、Etched 都只做推理 — 训练这件事在专用化光谱上根本没出现,因为算法还在演进,你不敢为某个特定训练流程流片。

同路线玩家 — AWS Trainium · 华为昇腾 · Meta MTIA

脉动阵列这条路线上不止 Google,几乎所有云厂商都走了这条路:

把这些放一起看会发现一个产业级规律 — 所有「自家有云 + 模型规模够大」的公司都在做脉动阵列 ASIC。原因很简单:绕过 NVIDIA 的高毛利(40-70%),把这部分利润内部消化掉。这条路线的护城河不是技术 — 脉动阵列本身没那么神秘 — 而是 「自家云的内部出货量足以摊薄流片成本」。这是为什么独立的脉动阵列公司很难活,但云厂商做这事都赚钱。

编译期写死调度 — Groq LPU

往光谱右边再走一档,就到了 Groq LPU(Language Processing Unit) — 它在脉动阵列的「砍掉通用部分」基础上,又砍掉了一样东西:运行时调度

确定性数据流 — 没有动态调度的代价

Groq LPU 卡
Groq LPU(Language Processing Unit)— 创始人 Jonathan Ross 是 Google TPU 原作者之一,认为 TPU 还不够极致。LPU 把数据流路径在编译期完全写死,运行时没有动态调度、没有缓存未命中、没有分支预测错误(来源 · ServeTheHome)。

Groq 创始人 Jonathan Ross 是 Google TPU 的原作者之一。他认为 TPU 还不够极致 — TPU 虽然砍掉了 CUDA Core,但保留了「按指令执行」这套传统 CPU 模型,运行时仍然有 warp 调度、缓存层级、分支处理这些复杂度。Ross 的洞察是:对于神经网络推理,所有这些「动态行为」都是浪费

Groq LPU 的核心架构叫「静态调度的张量流处理器」(TSP):

这种「确定性」带来了三个直接好处:

代价是:编译时间长、模型切换贵。换一个模型相当于重新设计一台纺织机。但 Groq 解决得很巧妙 — 把编译当成一次性投资,然后把编译好的模型作为「服务」对外提供(GroqCloud API),开发者按 token 付费,完全不需要自己跑编译。

全片上 SRAM — 没有 HBM 的设计哲学

Groq LPU 还有一个反常识的设计:完全不用 HBM

每颗 LPU 自带 230 MB SRAM,没有 HBM 也没有 DRAM。SRAM 容量很小,但带宽是 HBM 的好几倍,而且能耗低一个数量级。问题是 230 MB 一颗芯片装不下大模型 — 一个 Llama 70B 要 140 GB(FP16)。Groq 的解法是 组集群:几百颗 LPU 用专有的高速互联组成一个集群,每颗 LPU 装模型的一小片。

这就回到了 Cerebras 同样在解决的「片间通信」问题 — Groq 的答案是「自研超低延迟互联」,不像 NVLink 那么通用,但足以让几百颗 LPU 像一个整体工作。

不依赖 HBM 是 Groq 的一个隐藏优势。在 2024-2026 年 HBM 紧缺(三星 / SK Hynix / Micron 产能都被 NVIDIA 锁死)的大背景下,不需要 HBM 等于不需要排队。Groq 可以独立扩产,这是它能在 2024-2025 年快速放量的硬件原因之一。

200 万开发者 + 英伟达 200 亿背书 — 最强的商业验证

Groq 的商业进展是这条光谱上最猛的:

但最重磅的事件是 2026 年初的 NVIDIA-Groq 交易:NVIDIA 与 Groq 达成约 200 亿美元的协议,授权 Groq 的 AI 推理技术,并把多名 Groq 高管收编进 NVIDIA。这个动作的含义非常清楚 — NVIDIA 自己也想要 Groq 这条路线的能力,但不想竞争,所以选择「收购技术 + 招人」而不是「正面竞争」。

这是整条光谱上 NVIDIA 唯一一次正式认可一条非 GPU 路线的价值。它意味着 Groq 代表的「编译期写死 + 全片上 SRAM」路线,在低延迟推理场景下有 GPU 怎么改都比不上的优势 — 这个判断是 NVIDIA 用 200 亿美元投票的。

存储与计算物理融合 — d-Matrix 数字存内计算

光谱的中间一档是个看起来「反直觉」的设计 — 让存储单元自己做计算,或者让计算单元和存储单元物理融合在一起。这就是 d-Matrix 走的数字存内计算(DIMC)路线。

内存墙问题 — 数据搬运耗能是计算的 10 倍

要理解为什么有人愿意做这件事,先得理解传统芯片的一个根本浪费 — 「内存墙」问题:

冯诺依曼 vs 数字存内计算 (DIMC)权重该「住」在哪 · 决定能耗主成本传统冯诺依曼 / GPU权重在外 · 反复搬运HBM (权重存储)SRAM 缓存Tensor Core (计算)搬运能耗≈ 10 × 计算能耗数据走 ~几厘米 (off-chip)每 token 都要重读全部权重结果写回 SRAM数字存内计算 (DIMC)权重永久驻留 · 输入广播SRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MACSRAM+MAC输入 x(广播)输出 y(直接)权重永久驻留 · 距离 < 1 mm数据搬运 → 几乎消除GPU 路径:取权重 → 算 → 写回 → 下一层重读DIMC:输入广播 → 整片同时炸开 → 输出
左 · 传统 GPU 的「冯诺依曼」结构 — 权重住在 HBM,每个 token 都要走「取权重 → 算 → 写回」的循环,搬运能耗 ≈ 10 × 计算能耗。右 · DIMC 把存储单元和乘加器物理融合在小芯粒里,权重永久驻留,推理时只有输入广播 — 数据搬运几乎消除。

一颗 GPU 跑 Llama 70B 推理,每生成一个 token,理论上要把 700 亿个权重参数从 HBM 全部读到计算单元里走一遍。搬运这些数据消耗的能量是乘加运算本身的 10 倍以上。NVIDIA H100 大半的硅片预算都在解决「怎么把权重数据更快地搬到计算单元」 — HBM3、L2 缓存、TMA 异步搬运,层层优化但本质都是「缓解」,不是「根治」。

d-Matrix 的核心反思是:反正每次推理都要读权重,能不能直接在存权重的地方就把计算做了?

把乘加器塞进 SRAM 旁边 — chiplet 网格

d-Matrix Corsair 推理加速卡
d-Matrix Corsair — 全长全高 PCIe Gen5 推理加速卡。基于 6nm 的 Nighthawk 和 Jayhawk II 芯粒,每个 Nighthawk 集成 4 个神经核心和一个 RISC-V CPU,通过 chiplet 封装(来源 · d-matrix.ai/product)。单卡 Llama 70B 跑出 30,000 tokens/秒,每 token 2 毫秒延迟。

d-Matrix 的具体做法是数字存内计算(DIMC) — 不让存储单元自己做计算,而是把计算单元紧贴在存储阵列旁边。两者物理上交错排布在一颗芯粒(chiplet)里,权重永久驻留,不需要反复搬运。

跟「模拟存内计算」(Mythic、EnCharge AI 走的路线)对比 — 模拟方案试图用 ReRAM 等器件的电导值直接表示权重,让电流流过阵列时用欧姆定律 + 基尔霍夫电流定律物理完成矩阵乘。能效理论上可以高一个数量级,但工程难点极大(ADC 太贵、写入精度差、温度漂移、寿命有限)。

d-Matrix 一开始其实也试过模拟方案(2020 年的 Nighthawk 概念芯片),但很快放弃 — 「把 ADC 塞进每条 bitline 太难」。最终选了数字 IMC(DIMC)路线,牺牲一部分模拟方案的极致能效,换取工程可落地 + 精度可控。这是个非常诚实的判断。

工程上,d-Matrix Corsair 的具体设计:

d-Matrix 的下一代路线图比这更激进 — 与 Alchip 合作打造全球首款 3D 堆叠 DRAM 方案 3DIMC,将首发于 Corsair 的继任者 Raptor 推理加速器上,号称比 HBM4 方案快 10 倍。这是把「存内」思想从 SRAM 推到 DRAM 的进一步演化。

层内并行 + 层间流水 — 同时炸开 · 流水推进

DIMC 跟 GPU 在「计算如何发生」这件事上有一个微妙但关键的区别 — 层内同时炸开,层间流水推进:

层内并行 + 层间流水每层瞬间完成 · 多层流水推进L1L2L3L4h₁h₂h₃xy所有 PE 同时点亮所有 PE 同时点亮所有 PE 同时点亮所有 PE 同时点亮PIPELINE · T1 → T2 → T3T1T2T3L1:L2:L3:xx’h₁x”h₁’h₂→ 时间 (clock)层内 = 同时炸开 (~1 clock)·层间 = 流水推进 (k clocks for k layers)·稳态吞吐 = 1 tok/clock
每层内部所有 PE 同时点亮(权重已经驻留,输入广播进来即刻乘加),一个时钟完成一层。层间数据流水推进 — T1 时 token x 在 L1 算,T2 时 h₁ 在 L2 算,同时 x’ 在 L1 开始算。稳态下每个时钟产出一个 token,这是 d-Matrix 能跑到「每 token 2 毫秒」的根本原因。

这跟 Google TPU 的脉动阵列完全不同:

脉动阵列的「流」是细粒度的 — 单元和单元之间数据真的在一步步移动。存内计算更粗粒度 — 层和层之间数据在流动,但一层内部是瞬间完成的。层间像传送带,一层接一层;层内像爆破,一瞬间整层完成

模型大于硬件时的时间复用 — 把模型切段

DIMC 的一个隐含限制:芯片硬件容量决定了能装多大的模型部分。一颗 Corsair 卡的总存储是 2 GB 高性能内存 + 256 GB 容量内存,塞不下整个 Llama 70B 的所有层同时驻留。

实际工程做法是「时间复用」(time multiplexing):

这听起来又退化成 GPU 了 — GPU 也是用有限的计算单元算无限层。但关键差别在搬运频率:

DIMC 的核心优势不是「完全消灭权重搬运」,而是把搬运频率从「每 token 一次」降到「每 batch 一次」或更少。这是为什么 d-Matrix 能在保留「能跑任意 Transformer」灵活性的前提下,跑出 GPU 几倍到 10 倍的能效优势。

商业进展上,d-Matrix 是这条光谱中游中最成熟的一档:

Transformer 算子图刻进硅 — Etched Sohu

再往光谱右侧推一档,就到了一个更激进的设计 — 把整张 Transformer 算子图烧成硬连线电路。Etched Sohu 是这条路线的代表。

把整张算子图烧成专用电路 — 砍掉所有非 Transformer 硬件

Etched Sohu Transformer ASIC 渲染图
Etched Sohu 渲染图(芯片尚未量产,目前只有官方渲染)— TSMC 4nm,144 GB HBM3e,专门为 Transformer 设计的 ASIC。一台 8 卡 Sohu 服务器跑 Llama 70B 超过 500,000 tokens/秒(来源 · Jon Peddie Research)。不能跑 CNN、RNN、状态空间模型 — 只能跑 Transformer 类。

Etched 的核心反思跟前面所有路线都不同 — 既然 Transformer 已经赢了,为什么要为「未来可能出现的其他架构」预留硬件?

具体做法:

这样的「砍法」非常激进。Etched 通过移除所有非 Transformer 神经网络所需的硬件,把更多 Transformer 专用计算塞进相同硅片 — 同样的 TSMC 4nm 工艺,Sohu 的「有效 Transformer 算力」比 H100 高一个数量级。

8 卡 Llama 70B 跑出 500K tok/s — 20× H100 服务器

Etched 的性能数据非常震撼:

这个数字大到让人怀疑可信度,但底层逻辑是站得住脚的:H100 的硅片大约 70-80% 的面积花在「不为 Transformer 服务」(CUDA Core 的通用部分、RT Core、图形相关电路、各种调度逻辑)。Sohu 把这些全部砍掉,纯粹为 Transformer 推理服务的硅片占比从 ~20% 提升到接近 100% — 算力翻 5 倍是合理的,再叠加专用化的能效优势,综合 10-20 倍并不离谱。

风险 — Transformer 一旦被替代芯片归零

Sohu 的风险非常清楚:如果 Transformer 在 5-7 年内被某种根本不同的架构替代,所有 Sohu 芯片瞬间归零

潜在威胁:

但 Etched 自己的判断是 — Transformer 已经赢得太彻底了。GPT/Claude/Gemini/Qwen/DeepSeek/Llama 全是 Transformer 变体,数百亿美元的训练投资全押注在这上面,改架构的「转移成本」高到行业不会主动去推。这是一个高 beta 的押注:对了估值翻倍,错了归零

商业上,Etched 估值约 8 亿美元,2024 年起向早期客户出货。比 d-Matrix 估值低不是因为技术差,是因为专用化更深 → 风险更大 → 市场给的折价。这是后面我们会看到的一个普遍规律 — 估值精确对应光谱位置

把权重物理铸进硅 — Taalas HC1

光谱最右侧的一档是个真正「核选项」 — 不只把架构刻死,连模型的权重也物理铸进硅片。这是 Taalas 走的路。

结构化 ASIC 路线 — 改 2 层 mask · 2 个月流片

Taalas HC1 Hardcore Model 芯片
Taalas HC1 — 加拿大公司 2026 年 2 月从隐身状态出来,首款产品 HC1 把 Llama 3.1 8B 的权重物理铸进硅片。TSMC 6nm,815 mm²,约 530 亿晶体管,功耗约 250W(来源 · taalas.com)。一颗芯片只能跑这一个模型,换模型要重新流片。

Taalas(加拿大公司,2026 年 2 月从隐身状态出来,融资 1.69 亿美元)的核心做法:

「只改 2 层 mask」是 Taalas 的关键工程突破。一颗芯片通常有 10+ 层 mask,正常流片要全部重做。Taalas 把所有可重用的电路做成「基础平台」,只为特定模型改 2 层互联 mask — 这让流片成本和时间降了约 10 倍,从拿到一个新模型到造出硬件只需要 2 个月

首款产品 HC1 的具体参数:

单芯片单模型 17,000 tok/s — 28× B200

Taalas 在「单一模型」基准下的性能数字很炸裂:

这是整条光谱上单点性能最极致的一档。但代价已经清楚 — 这一颗芯片只能跑 Llama 3.1 8B,跑不了 Llama 3.2,跑不了 Qwen 2.5,更跑不了任何非 8B 的模型。

用「快速流片」对冲模型迭代 — 30 次流片支持 R1-671B

Taalas 的商业模式很特别 — 拿「快速流片」对冲「模型迭代」:

Taalas 自己宣称 30 次流片就能支持 DeepSeek R1-671B 这种大模型(因为 671B 太大,要分散到多颗芯片上,每颗芯片承载一小段权重)。这本质上是一种「反摩尔定律」的产品策略 — 不靠工艺进步赚钱,靠「快速适配模型变化」的工程能力赚钱。

Taalas 路线的最大风险:

但 Taalas 的存在本身证明了 — 行业愿意在最极端的「专用化」方向投入实物资本。即使大部分客户最终不会选这条路,光是「这个选项存在」就足以反向施压所有更通用的方案 — d-Matrix、Etched 必须证明自己的灵活性溢价值得几倍的速度差距。

光子路线的分裂 — 计算暂缓 · 互联爆发

到这里七档梯度走完了。但有一条平行的路线值得专门讨论 — 光子(photonic)芯片。它不在主光谱上,但跟主光谱有重要交集:光子在「计算」方向被衍射极限卡住,但在「互联」方向已经规模化

光子计算的物理优势 — 乘加自然实现 · 能效 · 距离独立

光子矩阵乘 · MZI 网格光的干涉 = 乘法 + 加法 · 自然并行输入 + 调制MZI 三角网格 (Reck)探测 (Σ)x₁调制器x₂调制器x₃调制器x₄调制器MZIθ₁MZIθ₂MZIθ₃MZIθ₄MZIθ₅MZIθ₆PD · I=Σy₁PD · I=Σy₂PD · I=Σy₃PD · I=Σy₄乘法← 调制器 (光强 × 透光率)加法← 探测器汇合 (光强叠加)并行← 波分复用 (16 波长同时跑)瓶颈← 衍射极限 → 单 MZI ≥ 100 μmReck 三角分解:N×N 酉矩阵 = N(N−1)/2 个 MZI 级联θ 由热调 / 电光相位偏置控制
光子矩阵乘的物理原理 — 输入信号通过调制器变成不同强度的光,经过 MZI(马赫-曾德尔干涉仪)三角网格后,在探测器处通过光强叠加实现「加法」。一次矩阵乘几乎不耗能 — 能耗主要花在两端的电光/光电转换。Reck 1994 年证明任何 N×N 酉矩阵可分解为 N(N-1)/2 个 2×2 旋转矩阵,正好对应 MZI 数量。

光子计算的核心洞察很简单 — 矩阵乘法的本质是「乘」和「加」,而这两个操作光天生就会:

这听起来非常美好。光子计算的几个真正吸引人的物理优势:

衍射极限 — 为什么光子永远做不到纳米级密度

但光子计算有一个根本性的物理瓶颈 — 衍射极限:

光子器件的尺寸不能小于光的波长的一半 — 这是物理定律,叫衍射极限。数据中心光通讯主流用 1310nm 或 1550nm 红外光,衍射极限就是 ~700 nm(半微米)。实际工程中考虑制造容差、损耗控制、波长偏移,光子器件实际尺寸要大得多:

光子器件典型尺寸对比电子
单个光波导(一根导光线)宽 500 nm, 间距 1-2 μm单个晶体管 20-30 nm
微环调制器(MRM)直径 5-10 μm-
马赫-曾德尔调制器(MZM)长 100 μm 到几 mm-
单个 MZI 计算单元几十到几百 μm单 Tensor Core ~10 μm

密度差距约 200-500 倍。这导致一个直接的工程现实 — 一颗 H100 大小的硅片(800 mm²),电子能塞下几十个 1024×1024 的矩阵乘法器,光子能塞下的最大矩阵乘法器大约只有 128×128。

更糟的是 — 这个差距是物理定律决定的,工艺进步解决不了。即使把光子工艺从当前的 45nm/90nm 推到 3nm,光子器件的密度也提升不了多少(因为不是受工艺限制,是受光的波长限制)。除非用 X 射线波长(几纳米),但那个能量太高会破坏硅本身。

光子计算 — 仍在协处理器阶段

Q.ANT Native Processing Unit
Q.ANT NPU(Native Processing Unit)第二代 — 德国斯图加特公司,2018 年从工业激光巨头 Trumpf 拆分出来,全球首款商业出货的全光子 AI 协处理器。运行功耗 30W vs GPU 700-1000W,部署在德国 Leibniz 超算中心和欧美数据中心(来源 · Q.ANT 官方新闻稿)。

光子计算目前的真实状态 — 协处理器,不是替代品。Q.ANT 是这条路线最有 demo 价值的代表:

但光子计算的本质短板还是没解决:

所以光子计算路线短期(5 年内)的最优定位就是协处理器 — 让 CPU/GPU 干它擅长的事(控制、调度、非线性运算),把矩阵乘外包给光子。这是 Q.ANT 的实际部署模式。

光子互联 — 已规模化的 GPU 集群升级

Lightmatter Passage M1000 光子互联超级芯片
Lightmatter Passage M1000 — 超过 4,000 平方毫米的有源光子中介层,3D 封装中容纳 34 个集成芯粒、1,024 条 SerDes 通道、256 根光纤,提供高达 114 Tbps 总带宽(来源 · ServeTheHome · Hot Chips 2025)。这不是用光做计算,是用光替代铜线做芯片间互联。

光子的另一条命运完全不同 — 光子互联(photonic interconnect)已经规模化商业应用。它解决的不是计算瓶颈,是 GPU 集群越来越大、电互联带宽撑不住的「互联墙」问题。

光子互联的几个关键优势:

为什么 AI 时代逼出了光子互联?数据非常清楚 — 模型参数 3 年涨了 240 倍,集群规模涨了 10 倍,但电互联带宽只涨了 2 倍。这个缺口越来越大,铜线在 224 Gbps 已经接近物理极限(再快串扰严重)。光是不得不上的。

商业进展极猛:

当 NVIDIA 自己也下场做光子互联时,这条路线就不再是「另类选项」了 — 它是 AI 集群规模化的必经之路

能耗对比 — 4-5 pJ/bit vs 7-15 pJ/bit

把光子互联和电互联的关键指标放一起:

维度电互联(铜 SerDes)光互联(硅光 CPO)
当前最新单 bit 能耗7-15 pJ/bit4-5 pJ/bit
最佳实验室记录1.41 pJ/bit (224 Gb/s, 2022)0.7 pJ/bit (112 GBaud, 2023)
带宽天花板~224 Gbps/通道几十波长复用
距离衰减严重几乎无
工艺成熟度极成熟GF 45nm/90nm 量产
单 die 集成上限数十 Tbps>100 Tbps(单封装)

光子互联的能效优势不是「碾压」(只有 2-3 倍),它的真正优势是带宽密度 + 距离独立性

综合判断 — 灵活性 vs 效率的取舍光谱

走完七档梯度 + 光子分支,可以把所有数据放在一起做一次综合判断。

七档梯度的速度对比 — Llama 70B / 8B 实测数据

把光谱上所有产品的实测吞吐数据放一起:

路线代表产品状态Llama 70B (8 卡)Llama 70B (单流)物理实现
通用 GPUNVIDIA H100已规模化~23,000 tok/s~50 tok/sCUDA + Tensor Core
通用 GPUNVIDIA H200已规模化~31,712 tok/s~70 tok/s同上 + HBM3e
通用 GPUNVIDIA B200已规模化~45,000 tok/s~120 tok/sBlackwell
晶圆级Cerebras WSE-3已商用-~2,000 tok/s整片晶圆
静态数据流Groq LPU已规模化-~600 tok/s编译期写死
数字存内d-Matrix Corsair已出货-~500 tok/s数字存内计算
Transformer ASICEtched Sohu早期客户>500,000 tok/s~60,000 tok/s算子图刻片
模型刻片Taalas HC1刚发布-17,000 tok/s (L8B)权重铸进硅

注意:这些数字来自厂商公开材料和第三方报道,不同测试条件下口径不完全可比 — 但量级关系是清楚的。每往光谱右走一档,速度涨 3-10×,累计跨度接近 1000×。

估值精确对应光谱位置 — 越专用估值越低

把光谱上所有公司的估值排一起,会发现一个很整齐的梯度:

公司路线估值估值与最专用的距离
NVIDIAGPU(最通用)4 万亿+ 美元最左
Cerebras晶圆级~490 亿美元(2026/5 IPO 估值)已规模化
Groq静态数据流~69 亿美元NVIDIA 200 亿背书
d-Matrix数字存内~20 亿美元(C 轮 2.75 亿)C 轮超额认购
EtchedTransformer ASIC~8 亿美元早期客户出货
Taalas模型刻片<5 亿美元(估算)刚发布,融资 1.69 亿

这不是巧合 — 是市场对「专用化风险」的精确定价。越专用的方案,越担心未来模型架构变化导致硬件归零,所以市场给的折价越大。NVIDIA 之所以值 4 万亿,部分原因就是它的「通用性溢价」 — 不管 AI 未来怎么演化,GPU 永远不会归零。

反过来看也合理 — Taalas 估值低不是因为技术差,是因为「赌单一模型」的下行风险天然就大。

未来 3-5 年的稳态格局 — 训练 / 推理 / 互联三块市场

整个 AI 推理芯片格局,未来 3-5 年的稳态大致是这样:

训练市场(70-30 分布) — 这块基本定了:

推理市场(分裂成几个细分赛道) — 这才是真正多元的地方:

互联市场(新出现的细分) — 光子互联会成为「必选项」:

这是个非常少见的产业窗口 — 没有谁取代谁,而是不同方案吃不同细分。这跟「GPU 一统天下」的过去十年是完全不同的格局,也是这一波 AI 推理芯片创业潮真正有意思的地方。

最后一个值得关注的变量 — 大模型架构会变吗?如果 Transformer 在未来 5-7 年内被 Mamba、xLSTM、或者某种全新架构替代,Etched、Taalas 这类「赌单一架构」的方案就会归零;d-Matrix、Groq 会受损但还能撑;Cerebras、TPU、NVIDIA 几乎不受影响。估值梯度的核心逻辑就是市场对这个风险的定价

如果你信「Transformer 至少还能撑 5 年」 — Etched / Taalas 的押注就是好交易。如果你觉得「3 年内必有新架构」 — 应该把钱押在光谱左侧。这是这条光谱给投资人提供的最核心的决策框架。

参考资料 — 公司资料 · 行业报告 · 技术论文

公司官网与官方公告

行业报告与新闻

技术论文与博客