NVIDIA GPU 规格对比

Blackwell / Hopper / Ada  |  交叉验证版  |  来源: NVIDIA 官方 Datasheet / TechPowerUp / Spheron / AceCloud 等

全部 数据中心级 专业级 消费级
数据中心
HGX B300
架构Blackwell Ultra
单卡 VRAM288 GB HBM3e
VRAM 带宽8,000 GB/s (8 TB/s)
FP16 Dense2,250 TFLOPS
FP8 Dense~7,000 TFLOPS
FP4 Sparse14,000 TFLOPS
NVLink✅ 1.8 TB/s
8卡总 VRAM~2.3 TB
单卡 TDP~1,000–1,400 W
数据中心
HGX H200 141G
架构Hopper
单卡 VRAM141 GB HBM3e
VRAM 带宽4,800 GB/s (4.8 TB/s)
FP16 Dense1,979 TFLOPS
FP8 Dense~3,958 TFLOPS
FP8 Sparse~7,916 TFLOPS
NVLink✅ 900 GB/s
8卡总 VRAM1,128 GB
单卡 TDP700 W
消费级
RTX 5090 32G
架构Blackwell
单卡 VRAM32 GB GDDR7
VRAM 带宽1,792 GB/s
FP16 Dense419 TFLOPS*
FP8 Dense~419 TFLOPS*
FP8 Sparse~838 TFLOPS*
NVLink❌ 无
CUDA 核心21,760
TDP575 W
专业级
RTX PRO 6000 96G
架构Blackwell
单卡 VRAM96 GB GDDR7
VRAM 带宽1,792 GB/s
FP8 Dense~1,001 TFLOPS
FP4 Sparse~4,004 TFLOPS
AI TOPS4,000
NVLink❌ 无
CUDA 核心24,064
TDP600 W
专业级 / 中国
RTX PRO 6000D 84G
架构Blackwell
单卡 VRAM84 GB GDDR7
VRAM 带宽~1,500 GB/s*
CUDA 核心19,968 (-17%)
FP8 Dense~816 TFLOPS*
FP4 Sparse~1,632 TFLOPS*
NVLink❌ 无
TDP~500 W*
消费级
RTX 4090 24G
架构Ada Lovelace
单卡 VRAM24 GB GDDR6X
VRAM 带宽1,008 GB/s
FP16 Dense165.2 TFLOPS
INT81,321 TOPS
NVLink❌ 无
CUDA 核心16,384
TDP450 W

* 标注 "est." / "*" 的数据为基于公开数据的估算值。RTX 5090 FP8 Dense 数值存在来源不一致(419 vs 838),本表取保守值 419/838。RTX 5090 FP16 Dense * 号标注数值为 FP16 accumulate 值(约 419 TFLOPS),标准 FP16 Dense 值为 209.5 TFLOPS(NVIDIA RTX Blackwell Architecture PDF)。

VRAM 带宽数据校验(8+ 来源): B300: Spheron(8 TB/s) ✓ AceCloud(8 TB/s) ✓ Server-Parts.eu(~8 TB/s) ✓ Slyd(8 TB/s) ✓ IntuitionLabs(8 TB/s) ✓ Verda(8 TB/s) ✓; H200: TaigaCloud(4.8 TB/s) ✓ TechPowerUp(4.89 TB/s) ✓; RTX 5090: PNY brochure(1792 GB/s) ✓ TechPowerUp(1.79 TB/s) ✓; RTX PRO 6000: NVIDIA官方datasheet(1792 GB/s) ✓
GPU 类型 VRAM 带宽 (GB/s) NVLink GPU-GPU PCIe P2P (实测) 8卡聚合 GPU-GPU
HGX B300 数据中心 8,000 GB/s ✅ 1.8 TB/s 14.4 TB/s
HGX H200 141G 数据中心 4,800 GB/s ✅ 900 GB/s 900 GB/s (全互联)
RTX 5090 32G 消费级 1,792 ❌ 无 ~28 GB/s (Patch 后 ~56 GB/s) N/A
RTX PRO 6000 96G 专业级 1,792 ❌ 无 PCIe 5.0 x16 (~128 GB/s 理论) N/A
RTX PRO 6000D 84G 专业级 ~1,500* ❌ 无 PCIe 5.0 x16 N/A
RTX 4090 24G 消费级 1,008 ❌ 无 ~24 GB/s (实测 P2P) N/A

说明: RTX 5090 / RTX 4090 / RTX PRO 6000 等消费/专业卡无 NVLink,多卡并行受 PCIe 带宽限制,不适合大模型张量并行 (TP) 推理。

GLM-5.1 FP8 推理 — 256K KV Cache · 20 并发用户
模型权重 (FP8)
~744 GB
单用户 256K KV Cache
~12.4 GB
20 用户 KV Cache
~248 GB
总显存需求
~992 GB

KV Cache 估算基于 Kaitchup 计算值 (GLM-5 MLA 结构, 256K, FP8, ~12.41 GB/用户)。添加 Activation 等开销后实际需求约 1,000–1,100 GB

各 GPU 所需数量(VRAM 容量估算)
HGX H200 141G 推荐 8 张 / 节点 单节点可完整运行 (8×141=1,128 GB > 992 GB),NVLink TP 无瓶颈
HGX B300 (~288 GB) 推荐 4 张起 单节点可完整运行 (4×288=1,152 GB > 992 GB),带宽最充裕 (8 TB/s)
RTX PRO 6000 96G PCIe 瓶颈 11 张* 需 TP 并行,但无 NVLink,PCIe 是严重瓶颈;仅 VRAM 容量角度估算
RTX PRO 6000D 84G PCIe 瓶颈 12 张* VRAM 容量估算;PCIe 并行效率极低
RTX 5090 32G 不可行 32 张* PCIe P2P 仅 ~28 GB/s,张量并行完全不可用
RTX 4090 24G 不可行 42 张* 24 GB VRAM 过小,PCIe P2P 严重不足

* 以上卡数仅满足 VRAM 容量估算,未计入 PCIe 多卡并行的通信瓶颈。消费/专业卡不建议用于大模型多卡并行推理。

RTX PRO 6000 服务器版 FP8 Dense 为 ~2,000 TFLOPS(2 PFLOPS),高于工作站版的 ~1,001 TFLOPS,因服务器版 TDP 限制更高。
规格 HGX B300 HGX H200 141G RTX 5090 32G RTX PRO 6000 96G RTX PRO 6000D 84G RTX 4090 24G
GPU 代号GB202GH100GB202GB202GB202AD102
架构Blackwell UltraHopperBlackwellBlackwellBlackwellAda Lovelace
制程TSMC 4NTSMC 4NTSMC 4NTSMC 4NTSMC 4NTSMC 8N
CUDA 核心20,000+*16,89621,76024,06419,968 (-17%)16,384
Tensor Core5th Gen4th Gen5th Gen5th Gen5th Gen4th Gen
单卡 VRAM288 GB HBM3e141 GB HBM3e32 GB GDDR796 GB GDDR784 GB GDDR724 GB GDDR6X
VRAM 带宽 (GB/s)8,0004,8001,7921,792~1,500*1,008
FP16 Dense (TFLOPS)2,2501,979419*~1,001~816*165.2
FP8 Dense (TFLOPS)~7,000~3,958~419*~1,001~816*
FP8 Sparse (TFLOPS)~14,000~7,916~838*~2,003~1,632*
FP4 Sparse (TFLOPS)14,0004,004~1,632*
INT8 (TOPS)39,5831,3214,000 (AI TOPS)1,321
单卡 TDP~1,000–1,400W700 W575 W600 W~500 W*450 W
NVLink✅ NVLink 5✅ NVLink 4
PCIeGen 5Gen 5Gen 5Gen 5Gen 5Gen 4
8-GPU 节点 VRAM~2.3 TB~1.1 TB
8-GPU GPU-GPU (NVSwitch)1.8 TB/s900 GB/s
来源 验证的规格 关键数值
NVIDIA H200 Datasheet (Taiga Cloud PDF)H200 官方规格141 GB HBM3e / 4.8 TB/s / 4 PFLOPS FP8
TechPowerUp H200 SXM 141 GBH200 交叉验证6144-bit bus / 4.89 TB/s
Spheron — B300 GuideB300 vs B200 vs H2008 TB/s VRAM / 288 GB HBM3e / 7,000 FP8
AceCloud — HGX B300HGX B300 系统规格Up to 8 TB/s per GPU / 14.4 TB/s NVSwitch
Server-Parts.eu — B300 Full SpecsB300 详细规格~8 TB/s / 288 GB HBM3e / NVLink 5
IntuitionLabs — Blackwell vs HopperB300 / B200 / H100 对比8 TB/s B300 / 4.8 TB/s H200
Verda — B300 vs B200B300 云端 SKUs262 GB SKU / 288 GB SKU 区分
NVIDIA RTX Blackwell Architecture PDFRTX 5090 / RTX PRO 6000 官方CUDA / Tensor Core / 带宽
NVIDIA RTX PRO Blackwell Architecture PDFRTX PRO 6000 详细官方规格1,792 GB/s / BF16/FP8/FP4 各精度
NVIDIA RTX PRO 6000 工作站版 DatasheetRTX PRO 6000 官方确认4,000 AI TOPS / 1,792 GB/s / 600W
NVIDIA RTX PRO 6000 服务器版RTX PRO 6000 服务器版2 PFLOPS FP8 / 1,597 GB/s
Boston Limited — RTX PRO 6000 vs H200GEMM 实测对比RTX PRO 6000 实测 404.6 / 753.7 TFLOPS
Fixstars — RTX PRO 6000 Max-QRTX PRO 6000 Max-Q 详细规格1,755.7 FP8 / 3,511.4 FP4 TFLOPS
Bizon Tech — RTX PRO 6000 系列RTX PRO 6000 全系列96 GB GDDR7 / 1,001 TFLOPS FP8
Waredb — RTX 5090RTX 5090 Tensor 性能419/838 TFLOPS FP8 Dense/Sparse
BestGpusForAI — RTX 5090RTX 5090 FP8 alternative data838/1,676 TFLOPS (FP16 accumulate)
TechPowerUp — RTX 4090RTX 4090 规格1,008 GB/s / 165.2 TFLOPS FP16
Kaitchup — GLM-5 MemoryGLM-5 VRAM 需求744 GB 权重 / 12.41 GB/用户 KV Cache
Slyd GPU DB多 GPU 对比数据库汇聚多源数据
Glenn Klockwood — B300B300 详细技术分析Blackwell Ultra 架构分解