Proxmox VEは企業インフラに使えるのか?〜ノード障害編〜

目次

はじめに

企業の仮想化基盤を導入・運用するうえで、システムの冗長性を確保することは欠かせません。特にHA(高可用性)構成を採用している場合には、ノード障害時に「どのような動作になるのか」といった点を事前に把握しておくことが、安定した運用につながります。
本記事では、Proxmox VEのクラスタ環境においてノード障害を再現し、その挙動を検証した結果をご紹介します。

Proxmox VEに関する説明はこちらの記事をご覧ください。

脱VMwareの大本命!“Proxmox VE“に仮想マシンをマイグレーションしてみた。

検証環境

構成

  • Proxmox VE バージョン:8.4.1
  • ノード数:3ノード構成(pve-hci-sv01 / pve-hci-sv02 /pve-hci-sv03)
  • 構成:CephによるHCI(ハイパーコンバージドインフラ)構成
  • HWスペック(1ノードあたり):Intel(R) Xeon(R) CPU E3-1230 v6、64GB、SATA HDD、1000BASE-T

HA設定

■VM100

  • ノード1(pve-hci-sv01)に障害が発生した場合、ノード2(pve-hci-sv02)にフェイルオーバーを実施します。
  • ノード1(pve-hci-sv01)が復旧した場合、フェイルバックは実施しません。

■VM102

  • ノード1(pve-hci-sv01)に障害が発生した場合、ノード3(pve-hci-sv03)にフェイルオーバーを実施します。
  • ノード1(pve-hci-sv01)が復旧した場合、フェイルバックを実施します。

ノード障害時の確認事項

①ノード障害テスト

(1)仮想マシンのフェイルオーバー状況
(2)仮想マシンのフェイルオーバーに要する時間 ※
(3)仮想マシンのフェイルオーバー時の再起動の有無

②ノード復旧テスト

(1)仮想マシンのフェイルバック状況
(2)仮想マシンのフェイルバックに要する時間 ※
(3)仮想マシンのフェイルバック時の再起動の有無
(4)ノード復旧後の分散ストレージ(Ceph)の状況

※ ノードサーバのスペックやネットワーク環境の影響がありますので、参考値としてお考えください。

①ノード障害テスト実施結果

・ノード1(pve-hci-sv01)の電源を遮断し、疑似的な障害発生状況を再現しました。

(1)仮想マシンのフェイルオーバー状況

■結果
VM100:ノード1(pve-hci-sv01)⇒ノード2(pve-hci-sv02)にフェイルオーバー
VM102:ノード1(pve-hci-sv01)⇒ノード3(pve-hci-sv03)にフェイルオーバー

(2)仮想マシンのフェイルオーバーに要する時間

■結果
Ping応答遮断時間:約17~18分
※ノードサーバのスペックやネットワーク環境の影響がありますので、参考値としてお考えください。

(3)仮想マシンのフェイルオーバー時の再起動の有無

■結果
仮想マシンのフェイルオーバー時には再起動が発生します。

②ノード復旧テスト実施結果

・電源を落としたノード1(pve-hci-sv01)を起動し、疑似的なノード復旧の状況を再現しました。

(1)仮想マシンのフェイルバック状況

■結果
VM100:フェイルバック無し(未設定)
VM102:ノード3(pve-hci-sv03)⇒ノード1(pve-hci-sv01)へフェイルバック

(2)仮想マシンのフェイルバックに要する時間

■結果
Ping応答遮断時間:約2分
※ノードサーバのスペックやネットワーク環境の影響がありますので、参考値としてお考えください。

(3)仮想マシンのフェイルバック時の再起動の有無

■結果
仮想マシンのフェイルバック時に再起動は発生しません。

(4)ノード復旧後の分散ストレージ(Ceph)の状況

■結果
ノード1(pve-hci-sv01)復旧後のOSDの状態が正常であることを確認することができました。

ノード障害テスト結果まとめ

Proxmox VEは、ノード障害を自動的に検知し、事前に設定されたHAポリシーに基づいて、対象の仮想マシンを別ノードへフェイルオーバーさせることができました。また、障害ノードの復旧後についても、フェイルバック設定が有効な場合には自動的に元のノードへ戻る動作を確認でき、設定が無効な場合はそのまま他ノード上での稼働を継続する挙動となりました。

■障害時

VM100:ノード1(pve-hci-sv01)⇒ノード2(pve-hci-sv02)にフェイルオーバー
VM102:ノード1(pve-hci-sv01)⇒ノード3(pve-hci-sv03)にフェイルオーバー

■復旧時

VM100:フェイルバック無し(未設定)
VM102:ノード3(pve-hci-sv03)⇒ノード1(pve-hci-sv01)へフェイルバック

おわりに

いかがでしたでしょうか。
本検証を通じて、Proxmox VEによるノード障害時のHA挙動を確認することができました。高可用性を求める環境において、適切なHA設定と運用設計がされていれば、障害発生時にもサービスの継続性を保つことが可能です。
次回は、ネットワーク障害やストレージ障害のケースについても検証していく予定です。
当社ではこれまでの実績と蓄積したナレッジをもとに、商用サブスクリプションのご提供はもちろん、サーバー選定・構築・移行作業までワンストップで対応しております。
仮想環境の見直しや移行をご検討中の方は、どうぞお気軽に当社までご相談ください。

■お問合せ先
KSG株式会社 SS営業部
メールアドレス:ss@ksgnet.com
電話番号:03-3233-8002

関連記事

脱VMwareの大本命!“Proxmox VE“に仮想マシンをマイグレーションしてみた。

記事のシェアはこちらから
  • URLをコピーしました!
  • URLをコピーしました!
目次