【用途別で考える】ローカルLLMサーバのGPU選定ガイド

2025/07/18

1. ローカルLLMとは？

LLMとは？

LLMとは「大規模言語モデル（Large Language Model）」の略で、ChatGPTやClaudeのようなAIを指します。大量のテキストデータをもとに学習され、人間に近い自然な会話、要約、分類、文章生成などを行えるのが特徴です。

代表的なLLM例：
LLaMA、Mistral、Gemma、Falcon など
パラメータ数で分類される（例：7B=70億パラメータ、13B=130億パラメータ

なぜ“ローカル”で運用するのか？

クラウド型のLLM（ChatGPT等）も手軽ですが、以下のような理由からローカルで運用するニーズが高まっています：

セキュリティ重視（機密情報をクラウドに出せない）
応答速度を短縮したい
長期的なコスト圧縮
カスタマイズ性の確保（自社独自の学習が可能）

その中心となるのが GPUサーバ です。
特に、モデルのサイズ（7B、13B、70Bなど）に応じて、必要なGPU性能・メモリ量（VRAM） が大きく異なります。

一方で、どのGPUを選定すべきか分かりにくいのが実情です。
本稿では、ローカルLLM運用に最適なGPUを、用途ごとに整理し、選定のポイントとあわせて紹介します。
※コンシューマ向けであるGeforce及びAMD Radeon/Instinctは除外しています。

2. GPU選定の基本

GPUの役割とは？

LLMの処理には並列演算が必要不可欠であり、CPUではとても処理しきれません。
そのため、大量の浮動小数点計算（FP16/FP32演算）を得意とするGPU が必須になります。

用語解説

用語	意味
B（Billion）	パラメータ数を示す単位（7B=70億個）
VRAM	GPUに搭載されたメモリ。モデルを保持・実行するのに使う
FP16/TFLOPS	浮動小数点計算性能（数値が大きいほど高速）
HBM3 / GDDR6	GPU用メモリの種類。HBMは高帯域・高価格、GDDRは一般的
NVLink	GPU同士を高速でつなぐためのNVIDIA独自技術

3. 用途別：おすすめGPU早見表

用途	推奨GPU	備考
7Bモデルの推論のみ	RTX 5000 Ada / L40S	単体利用なら32〜48GB VRAMあれば安定
13Bまでの推論	RTX 6000 Ada / L40S	消費電力と性能のバランスが良い
13Bの軽量ファインチューニング	RTX 6000 Ada（複数枚） / L40S（複数枚）	QLoRAやAWQで効率的に動作
70B以上の推論	H100 / H200（4枚以上）	計算性能だけでなくメモリ帯域が鍵
SFTやRLHF学習	H100 / H200	高速なFP8演算と広帯域メモリが重要
画像生成（SDXL等）	L40S / RTX 6000 Ada	FP16以上の精度でも高速

4. GPUごとの特長と選び方

NVIDIA RTX 5000 Ada（32GB GDDR6 ECC）

VRAM：32GB
FP8性能：約190 TFLOPS（理論値）
アーキテクチャ：Ada Lovelace
TDP：250W

おすすめ用途：

7Bクラスの推論
QLoRAを用いた超軽量なファインチューニング

補足：
GDDR6メモリ搭載で、消費電力と性能のバランスが良好。ミッドレンジ帯ながら24GBを超えるVRAMを持ち、推論用途に広く対応。データセンター未満の開発環境でも扱いやすい1枚。

NVIDIA RTX 6000 Ada（48GB GDDR6 ECC）

VRAM：48GB
FP8性能：約380 TFLOPS（理論値）
アーキテクチャ：Ada Lovelace
TDP：300W

おすすめ用途：

13Bまでの推論
軽量な学習用途
複数枚でのQLoRAにも活用可

補足：
Ada世代のフラッグシップGPU。前世代のA6000から大幅に演算性能が向上しており、H100が過剰なケースにおいて最適解となる。NVLinkは非対応だが、単体でのパフォーマンスは非常に高い。

NVIDIA L40S（48GB GDDR6）

アーキテクチャ：Ada Lovelace（RTX 4090系に近いが商用）
AI推論性能（INT8）：1200 TOPS超
消費電力：300W

おすすめ用途：

推論処理全般（Mistral, LLaMA2-13B 等）
軽量LoRA学習

補足：
DL専用エンジン（Tensor Core）やハードウェアレイトレーシングも搭載。商用向けでサーバGPUとして使える珍しいAda世代。

NVIDIA H100（80GB HBM3）

アーキテクチャ：Hopper
FP16：> 60 TFLOPS（SXMモードで圧倒的性能）
通常はSXM or PCIe版で提供

おすすめ用途：

13B以上のLoRA、RLHFなどの学習
70B級モデルの分散推論（複数台構成）

補足：
HBM3メモリ搭載で圧倒的な帯域（>2TB/s）、SXM構成ならNVLinkで多GPU連携も可能。電力や冷却に注意が必要。

NVIDIA H200（141GB HBM3e）

2024年登場の最新モデル
H100の後継。HBM3eにより帯域さらに向上
データセット全体をVRAM内に持たせることも可能に

おすすめ用途：

70B以上の学習・推論（分散前提）
膨大なデータ処理が必要な法人向け、研究用途

補足：
価格も非常に高額（5百万円〜）だが、今後の生成AIアプリケーションを本格的に運用する企業には必須クラス。

オット君

番外編：L4について
L4は低消費電力GPU（80W）で、推論専用に設計されています。
・INT8推論向け
・VRAMは24GB
・静音・省電力設計なのでエッジAI用途に最適

ただし、LoRAや学習には不向きです。

5. GPU選定時の注意点

モデルサイズとVRAMは比例する
7Bモデルなら約16〜24GB、13Bモデルは40〜50GB以上が必要。65B以上の超大規模モデルは分散メモリ構成が必須になる。
演算性能（TFLOPS, TOPS）も重要
特に学習や同時多重推論の際に処理速度に直結するため無視できない。
冷却と電源要件を見落とさない
H100やH200は空冷不可のケースも多く、ラックやサーバー筐体の選定が重要になる。
将来の拡張性（スケーラビリティ）を考慮
PCIeスロット数、電源容量、NVLinkなどマルチGPU連携の対応も要検討。