Blackwell / Hopper / Ada | 交叉验证版 | 来源: NVIDIA 官方 Datasheet / TechPowerUp / Spheron / AceCloud 等
* 标注 "est." / "*" 的数据为基于公开数据的估算值。RTX 5090 FP8 Dense 数值存在来源不一致(419 vs 838),本表取保守值 419/838。RTX 5090 FP16 Dense * 号标注数值为 FP16 accumulate 值(约 419 TFLOPS),标准 FP16 Dense 值为 209.5 TFLOPS(NVIDIA RTX Blackwell Architecture PDF)。
| GPU | 类型 | VRAM 带宽 (GB/s) | NVLink GPU-GPU | PCIe P2P (实测) | 8卡聚合 GPU-GPU |
|---|---|---|---|---|---|
| HGX B300 | 数据中心 | 8,000 GB/s | ✅ 1.8 TB/s | — | 14.4 TB/s |
| HGX H200 141G | 数据中心 | 4,800 GB/s | ✅ 900 GB/s | — | 900 GB/s (全互联) |
| RTX 5090 32G | 消费级 | 1,792 | ❌ 无 | ~28 GB/s (Patch 后 ~56 GB/s) | N/A |
| RTX PRO 6000 96G | 专业级 | 1,792 | ❌ 无 | PCIe 5.0 x16 (~128 GB/s 理论) | N/A |
| RTX PRO 6000D 84G | 专业级 | ~1,500* | ❌ 无 | PCIe 5.0 x16 | N/A |
| RTX 4090 24G | 消费级 | 1,008 | ❌ 无 | ~24 GB/s (实测 P2P) | N/A |
说明: RTX 5090 / RTX 4090 / RTX PRO 6000 等消费/专业卡无 NVLink,多卡并行受 PCIe 带宽限制,不适合大模型张量并行 (TP) 推理。
KV Cache 估算基于 Kaitchup 计算值 (GLM-5 MLA 结构, 256K, FP8, ~12.41 GB/用户)。添加 Activation 等开销后实际需求约 1,000–1,100 GB。
* 以上卡数仅满足 VRAM 容量估算,未计入 PCIe 多卡并行的通信瓶颈。消费/专业卡不建议用于大模型多卡并行推理。
| 规格 | HGX B300 | HGX H200 141G | RTX 5090 32G | RTX PRO 6000 96G | RTX PRO 6000D 84G | RTX 4090 24G |
|---|---|---|---|---|---|---|
| GPU 代号 | GB202 | GH100 | GB202 | GB202 | GB202 | AD102 |
| 架构 | Blackwell Ultra | Hopper | Blackwell | Blackwell | Blackwell | Ada Lovelace |
| 制程 | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 4N | TSMC 8N |
| CUDA 核心 | 20,000+* | 16,896 | 21,760 | 24,064 | 19,968 (-17%) | 16,384 |
| Tensor Core | 5th Gen | 4th Gen | 5th Gen | 5th Gen | 5th Gen | 4th Gen |
| 单卡 VRAM | 288 GB HBM3e | 141 GB HBM3e | 32 GB GDDR7 | 96 GB GDDR7 | 84 GB GDDR7 | 24 GB GDDR6X |
| VRAM 带宽 (GB/s) | 8,000 | 4,800 | 1,792 | 1,792 | ~1,500* | 1,008 |
| FP16 Dense (TFLOPS) | 2,250 | 1,979 | 419* | ~1,001 | ~816* | 165.2 |
| FP8 Dense (TFLOPS) | ~7,000 | ~3,958 | ~419* | ~1,001 | ~816* | — |
| FP8 Sparse (TFLOPS) | ~14,000 | ~7,916 | ~838* | ~2,003 | ~1,632* | — |
| FP4 Sparse (TFLOPS) | 14,000 | — | — | 4,004 | ~1,632* | — |
| INT8 (TOPS) | — | 39,583 | 1,321 | 4,000 (AI TOPS) | — | 1,321 |
| 单卡 TDP | ~1,000–1,400W | 700 W | 575 W | 600 W | ~500 W* | 450 W |
| NVLink | ✅ NVLink 5 | ✅ NVLink 4 | ❌ | ❌ | ❌ | ❌ |
| PCIe | Gen 5 | Gen 5 | Gen 5 | Gen 5 | Gen 5 | Gen 4 |
| 8-GPU 节点 VRAM | ~2.3 TB | ~1.1 TB | — | — | — | — |
| 8-GPU GPU-GPU (NVSwitch) | 1.8 TB/s | 900 GB/s | — | — | — | — |
| 来源 | 验证的规格 | 关键数值 |
|---|---|---|
| NVIDIA H200 Datasheet (Taiga Cloud PDF) | H200 官方规格 | 141 GB HBM3e / 4.8 TB/s / 4 PFLOPS FP8 |
| TechPowerUp H200 SXM 141 GB | H200 交叉验证 | 6144-bit bus / 4.89 TB/s |
| Spheron — B300 Guide | B300 vs B200 vs H200 | 8 TB/s VRAM / 288 GB HBM3e / 7,000 FP8 |
| AceCloud — HGX B300 | HGX B300 系统规格 | Up to 8 TB/s per GPU / 14.4 TB/s NVSwitch |
| Server-Parts.eu — B300 Full Specs | B300 详细规格 | ~8 TB/s / 288 GB HBM3e / NVLink 5 |
| IntuitionLabs — Blackwell vs Hopper | B300 / B200 / H100 对比 | 8 TB/s B300 / 4.8 TB/s H200 |
| Verda — B300 vs B200 | B300 云端 SKUs | 262 GB SKU / 288 GB SKU 区分 |
| NVIDIA RTX Blackwell Architecture PDF | RTX 5090 / RTX PRO 6000 官方 | CUDA / Tensor Core / 带宽 |
| NVIDIA RTX PRO Blackwell Architecture PDF | RTX PRO 6000 详细官方规格 | 1,792 GB/s / BF16/FP8/FP4 各精度 |
| NVIDIA RTX PRO 6000 工作站版 Datasheet | RTX PRO 6000 官方确认 | 4,000 AI TOPS / 1,792 GB/s / 600W |
| NVIDIA RTX PRO 6000 服务器版 | RTX PRO 6000 服务器版 | 2 PFLOPS FP8 / 1,597 GB/s |
| Boston Limited — RTX PRO 6000 vs H200 | GEMM 实测对比 | RTX PRO 6000 实测 404.6 / 753.7 TFLOPS |
| Fixstars — RTX PRO 6000 Max-Q | RTX PRO 6000 Max-Q 详细规格 | 1,755.7 FP8 / 3,511.4 FP4 TFLOPS |
| Bizon Tech — RTX PRO 6000 系列 | RTX PRO 6000 全系列 | 96 GB GDDR7 / 1,001 TFLOPS FP8 |
| Waredb — RTX 5090 | RTX 5090 Tensor 性能 | 419/838 TFLOPS FP8 Dense/Sparse |
| BestGpusForAI — RTX 5090 | RTX 5090 FP8 alternative data | 838/1,676 TFLOPS (FP16 accumulate) |
| TechPowerUp — RTX 4090 | RTX 4090 规格 | 1,008 GB/s / 165.2 TFLOPS FP16 |
| Kaitchup — GLM-5 Memory | GLM-5 VRAM 需求 | 744 GB 权重 / 12.41 GB/用户 KV Cache |
| Slyd GPU DB | 多 GPU 对比数据库 | 汇聚多源数据 |
| Glenn Klockwood — B300 | B300 详细技术分析 | Blackwell Ultra 架构分解 |