NVIDIA GPU 规格对比

Blackwell / Hopper / Ada | 交叉验证版 | 来源: NVIDIA 官方 Datasheet / TechPowerUp / Spheron / AceCloud 等

全部数据中心级专业级消费级

数据中心

HGX B300

架构Blackwell Ultra

单卡 VRAM288 GB HBM3e

VRAM 带宽8,000 GB/s (8 TB/s)

FP16 Dense2,250 TFLOPS

FP8 Dense~7,000 TFLOPS

FP4 Sparse14,000 TFLOPS

NVLink✅ 1.8 TB/s

8卡总 VRAM~2.3 TB

单卡 TDP~1,000–1,400 W

数据中心

HGX H200 141G

架构Hopper

单卡 VRAM141 GB HBM3e

VRAM 带宽4,800 GB/s (4.8 TB/s)

FP16 Dense1,979 TFLOPS

FP8 Dense~3,958 TFLOPS

FP8 Sparse~7,916 TFLOPS

NVLink✅ 900 GB/s

8卡总 VRAM1,128 GB

单卡 TDP700 W

消费级

RTX 5090 32G

架构Blackwell

单卡 VRAM32 GB GDDR7

VRAM 带宽1,792 GB/s

FP16 Dense419 TFLOPS*

FP8 Dense~419 TFLOPS*

FP8 Sparse~838 TFLOPS*

NVLink❌ 无

CUDA 核心21,760

TDP575 W

专业级

RTX PRO 6000 96G

架构Blackwell

单卡 VRAM96 GB GDDR7

VRAM 带宽1,792 GB/s

FP8 Dense~1,001 TFLOPS

FP4 Sparse~4,004 TFLOPS

AI TOPS4,000

NVLink❌ 无

CUDA 核心24,064

TDP600 W

专业级 / 中国

RTX PRO 6000D 84G

架构Blackwell

单卡 VRAM84 GB GDDR7

VRAM 带宽~1,500 GB/s*

CUDA 核心19,968 (-17%)

FP8 Dense~816 TFLOPS*

FP4 Sparse~1,632 TFLOPS*

NVLink❌ 无

TDP~500 W*

消费级

RTX 4090 24G

架构Ada Lovelace

单卡 VRAM24 GB GDDR6X

VRAM 带宽1,008 GB/s

FP16 Dense165.2 TFLOPS

INT81,321 TOPS

NVLink❌ 无

CUDA 核心16,384

TDP450 W

* 标注 "est." / "*" 的数据为基于公开数据的估算值。RTX 5090 FP8 Dense 数值存在来源不一致（419 vs 838），本表取保守值 419/838。RTX 5090 FP16 Dense * 号标注数值为 FP16 accumulate 值（约 419 TFLOPS），标准 FP16 Dense 值为 209.5 TFLOPS（NVIDIA RTX Blackwell Architecture PDF）。

VRAM 带宽数据校验（8+ 来源）: B300: Spheron(8 TB/s) ✓ AceCloud(8 TB/s) ✓ Server-Parts.eu(~8 TB/s) ✓ Slyd(8 TB/s) ✓ IntuitionLabs(8 TB/s) ✓ Verda(8 TB/s) ✓; H200: TaigaCloud(4.8 TB/s) ✓ TechPowerUp(4.89 TB/s) ✓; RTX 5090: PNY brochure(1792 GB/s) ✓ TechPowerUp(1.79 TB/s) ✓; RTX PRO 6000: NVIDIA官方datasheet(1792 GB/s) ✓

GPU	类型	VRAM 带宽 (GB/s)	NVLink GPU-GPU	PCIe P2P (实测)	8卡聚合 GPU-GPU
HGX B300	数据中心	8,000 GB/s	✅ 1.8 TB/s	—	14.4 TB/s
HGX H200 141G	数据中心	4,800 GB/s	✅ 900 GB/s	—	900 GB/s (全互联)
RTX 5090 32G	消费级	1,792	❌ 无	~28 GB/s (Patch 后 ~56 GB/s)	N/A
RTX PRO 6000 96G	专业级	1,792	❌ 无	PCIe 5.0 x16 (~128 GB/s 理论)	N/A
RTX PRO 6000D 84G	专业级	~1,500*	❌ 无	PCIe 5.0 x16	N/A
RTX 4090 24G	消费级	1,008	❌ 无	~24 GB/s (实测 P2P)	N/A

说明: RTX 5090 / RTX 4090 / RTX PRO 6000 等消费/专业卡无 NVLink，多卡并行受 PCIe 带宽限制，不适合大模型张量并行 (TP) 推理。

GLM-5.1 FP8 推理 — 256K KV Cache · 20 并发用户

模型权重 (FP8)

~744 GB

单用户 256K KV Cache

~12.4 GB

20 用户 KV Cache

~248 GB

总显存需求

~992 GB

KV Cache 估算基于 Kaitchup 计算值 (GLM-5 MLA 结构, 256K, FP8, ~12.41 GB/用户)。添加 Activation 等开销后实际需求约 1,000–1,100 GB。

各 GPU 所需数量（VRAM 容量估算）

HGX H200 141G 推荐 8 张 / 节点单节点可完整运行 (8×141=1,128 GB > 992 GB)，NVLink TP 无瓶颈

HGX B300 (~288 GB) 推荐 4 张起单节点可完整运行 (4×288=1,152 GB > 992 GB)，带宽最充裕 (8 TB/s)

RTX PRO 6000 96G PCIe 瓶颈 11 张* 需 TP 并行，但无 NVLink，PCIe 是严重瓶颈；仅 VRAM 容量角度估算

RTX PRO 6000D 84G PCIe 瓶颈 12 张* VRAM 容量估算；PCIe 并行效率极低

RTX 5090 32G 不可行 32 张* PCIe P2P 仅 ~28 GB/s，张量并行完全不可用

RTX 4090 24G 不可行 42 张* 24 GB VRAM 过小，PCIe P2P 严重不足

* 以上卡数仅满足 VRAM 容量估算，未计入 PCIe 多卡并行的通信瓶颈。消费/专业卡不建议用于大模型多卡并行推理。

RTX PRO 6000 服务器版 FP8 Dense 为 ~2,000 TFLOPS（2 PFLOPS），高于工作站版的 ~1,001 TFLOPS，因服务器版 TDP 限制更高。

规格	HGX B300	HGX H200 141G	RTX 5090 32G	RTX PRO 6000 96G	RTX PRO 6000D 84G	RTX 4090 24G
GPU 代号	GB202	GH100	GB202	GB202	GB202	AD102
架构	Blackwell Ultra	Hopper	Blackwell	Blackwell	Blackwell	Ada Lovelace
制程	TSMC 4N	TSMC 4N	TSMC 4N	TSMC 4N	TSMC 4N	TSMC 8N
CUDA 核心	20,000+*	16,896	21,760	24,064	19,968 (-17%)	16,384
Tensor Core	5th Gen	4th Gen	5th Gen	5th Gen	5th Gen	4th Gen
单卡 VRAM	288 GB HBM3e	141 GB HBM3e	32 GB GDDR7	96 GB GDDR7	84 GB GDDR7	24 GB GDDR6X
VRAM 带宽 (GB/s)	8,000	4,800	1,792	1,792	~1,500*	1,008
FP16 Dense (TFLOPS)	2,250	1,979	419*	~1,001	~816*	165.2
FP8 Dense (TFLOPS)	~7,000	~3,958	~419*	~1,001	~816*	—
FP8 Sparse (TFLOPS)	~14,000	~7,916	~838*	~2,003	~1,632*	—
FP4 Sparse (TFLOPS)	14,000	—	—	4,004	~1,632*	—
INT8 (TOPS)	—	39,583	1,321	4,000 (AI TOPS)	—	1,321
单卡 TDP	~1,000–1,400W	700 W	575 W	600 W	~500 W*	450 W
NVLink	✅ NVLink 5	✅ NVLink 4	❌	❌	❌	❌
PCIe	Gen 5	Gen 5	Gen 5	Gen 5	Gen 5	Gen 4
8-GPU 节点 VRAM	~2.3 TB	~1.1 TB	—	—	—	—
8-GPU GPU-GPU (NVSwitch)	1.8 TB/s	900 GB/s	—	—	—	—

来源	验证的规格	关键数值
NVIDIA H200 Datasheet (Taiga Cloud PDF)	H200 官方规格	141 GB HBM3e / 4.8 TB/s / 4 PFLOPS FP8
TechPowerUp H200 SXM 141 GB	H200 交叉验证	6144-bit bus / 4.89 TB/s
Spheron — B300 Guide	B300 vs B200 vs H200	8 TB/s VRAM / 288 GB HBM3e / 7,000 FP8
AceCloud — HGX B300	HGX B300 系统规格	Up to 8 TB/s per GPU / 14.4 TB/s NVSwitch
Server-Parts.eu — B300 Full Specs	B300 详细规格	~8 TB/s / 288 GB HBM3e / NVLink 5
IntuitionLabs — Blackwell vs Hopper	B300 / B200 / H100 对比	8 TB/s B300 / 4.8 TB/s H200
Verda — B300 vs B200	B300 云端 SKUs	262 GB SKU / 288 GB SKU 区分
NVIDIA RTX Blackwell Architecture PDF	RTX 5090 / RTX PRO 6000 官方	CUDA / Tensor Core / 带宽
NVIDIA RTX PRO Blackwell Architecture PDF	RTX PRO 6000 详细官方规格	1,792 GB/s / BF16/FP8/FP4 各精度
NVIDIA RTX PRO 6000 工作站版 Datasheet	RTX PRO 6000 官方确认	4,000 AI TOPS / 1,792 GB/s / 600W
NVIDIA RTX PRO 6000 服务器版	RTX PRO 6000 服务器版	2 PFLOPS FP8 / 1,597 GB/s
Boston Limited — RTX PRO 6000 vs H200	GEMM 实测对比	RTX PRO 6000 实测 404.6 / 753.7 TFLOPS
Fixstars — RTX PRO 6000 Max-Q	RTX PRO 6000 Max-Q 详细规格	1,755.7 FP8 / 3,511.4 FP4 TFLOPS
Bizon Tech — RTX PRO 6000 系列	RTX PRO 6000 全系列	96 GB GDDR7 / 1,001 TFLOPS FP8
Waredb — RTX 5090	RTX 5090 Tensor 性能	419/838 TFLOPS FP8 Dense/Sparse
BestGpusForAI — RTX 5090	RTX 5090 FP8 alternative data	838/1,676 TFLOPS (FP16 accumulate)
TechPowerUp — RTX 4090	RTX 4090 规格	1,008 GB/s / 165.2 TFLOPS FP16
Kaitchup — GLM-5 Memory	GLM-5 VRAM 需求	744 GB 权重 / 12.41 GB/用户 KV Cache
Slyd GPU DB	多 GPU 对比数据库	汇聚多源数据
Glenn Klockwood — B300	B300 详细技术分析	Blackwell Ultra 架构分解