Nutanix「Disaster Recovery」で同期レプリケーションスケジュールを作成してみる（障害検知モード: Manual）【AOS 7.0 AHV 10.0／pc.2024.3】

　※この記事は「AOS 7.0 AHV10.0 Prism Central pc.2024.3」時点の情報をもとに作成しています。その後の機能アップデートについてはメーカーの公開情報をご確認ください。

前回の記事は、Nutanix「Disaster Recovery」でNearsync（ニアシンク）のレプリケーションスケジュールの保護ポリシーを作成しました。今回は、同期レプリケーションのスケジュールを作成してます。

1.今回の環境

AOS: 7.0.1
AHV: 10.0.1
Prism Central: pc.2024.3.1.1

▽今回の環境のイメージは以下の通りです。

同期レプリケーションは、保護対象エンティティへのすべての書き込みをリカバリクラスタに瞬時に複製します。同期レプリケーションは、「AHV Metro Availability」と呼ばれる可用性の高いソリューションの仕組みとして提供されているものであり、例えばメンテナンス時のクラスタ間ライブマイグレーションや、Witnessを使用した自動フェイルオーバーなどに役立ちます。

ただし、データを同期する際のリカバリポイントは「クラッシュコンシステント」のみとなるようです。これは、ストレージコンテナに書き込まれるデータはリアルタイムで同期されますが、仮想マシンのメモリ上に残っているデータなど、保存していないデータまでは救えないという意味です。

なお、同期レプリケーションではクラスター間で同じAOSのバージョンや同じ名前のストレージコンテナの作成が必須であり、また往復遅延時間が5ミリ秒未満のネットワーク環境が必要です。

Synchronous Replication (0 Seconds RPO)
https://portal.nutanix.com/page/documents/details?targetId=Disaster-Recovery-DRaaS-Guide-vpc_2024_3_1:ecd-ecdr-procedure-synchronous-protectionpolicy-pc-c.html

Protection with Synchronous Replication
https://portal.nutanix.com/page/documents/details?targetId=Disaster-Recovery-DRaaS-Guide-vpc_2024_3_1:ecd-ecdr-dr-protection-synchronous-replication-c.html

今回は同期レプリケーションのポイントだけ紹介しますので、AZ間のペアリングや保護ポリシーの作成については以下のリンク先をご参照下さい。

tomomartin.hateblo.jp

2. 同期レプリケーションポリシーの作成

▽保護ポリシーの作成画面でレプリケーションスケジュールを以下のように設定します。Protection Typeで「Synchronous（同期）」を選択し、Failure Detection Modeで「Manual」を選択しました。

「Failure Detection Mode」ですが、クラスター間の通信が切断されて、データの同期ができなくなった場合に、プライマリクラスター側の仮想マシンでは書き込みが応答なしで停止される仕組みになっています。（同期できない時は書き込ませない）

その際に、同期レプリケーションを一時停止（中断）すると、プライマリクラスターの仮想マシンでデータの書き込みができるようになります。この同期レプリケーションを中断する操作を手動（Manual）にするか自動（Automatic）にするかという、選択肢のようです。

▽ブラウザ翻訳するとこんな感じですが、これだけでは何のことを言っているのかわからないですね...汗

ネットワーク接続が回復すると、クラスター間の同期レプリケーションが直ちに再開される構成としたい場合は「手動（マニュアル）」が推奨のようです。詳細はリンク先をご参照ください。

Configuring a Synchronous Replication Schedule
https://portal.nutanix.com/page/documents/details?targetId=Disaster-Recovery-DRaaS-Guide-vpc_2024_3_1:ecd-ecdr-configure-synchronous-protectionpolicy-pc-r.html

▽作成した保護ポリシーに仮想マシンを追加します。

▽これで同期レプリケーションが開始されると、リカバリクラスター側でも受信しているリカバリポイントが確認でき、ここに「Synchronous（同期）」と表示されます。

▽また、プライマリクラスターの仮想マシン画面でも表示方法を「Data Protection」に切り替えると、対象の仮想マシンが「Synced」と表示されているステータスが確認できます。

3. 障害検知モードの動作確認

先ほど、Failure Detection Modeを「Manual」として設定しましたが、この場合は同期レプリケーション中にクラスター間の通信が切断されると、プライマリ側の仮想マシンは同期レプリケーションの中断設定をするまで、データの書き込みを受け付けなくなるはずです。まずはこの動作を確認してみます。

▽同期レプリケーションができなくなればいいので、リカバリクラスターのPrism Centralを停止し、クラスターサービスやCVMを停止します。

nutanix@pcvm:~$ cluster stop
nutanix@pcvm:~$ sudo shutdown -h now

nutanix@cvm:~$ cluster stop
nutanix@cvm:~$ allssh sudo shutdown -h now

▽これでプライマリクラスターからの同期レプリケーションはできなくなりましたが、ここで期待通りプライマリクラスターの対象の仮想マシンが操作を受け付けなくなりました。

コンソール画面でのクリックや「Ctrl+Alt+Del」も無反応で、リモートデスクトップ接続でもログインができない状態となります。