※この記事は「AOS 7.3 AHV10.3 Prism Central pc.7.3」時点の情報をもとに作成しています。その後の機能アップデートについてはメーカーの公開情報をご確認ください。
前回の記事では、Nutanix「Disaster Recovery」で同期レプリケーション(障害検知モード: Manual)のスケジュールを作成しました。今回は、同様に「障害検知モード: Automatic」を試してみます。
目次
1.今回の環境
AOS: 7.3
AHV: 10.3
Prism Central: pc.7.3
▽今回の環境のイメージは以下の通りです。

同期レプリケーションは、保護対象エンティティへのすべての書き込みをリカバリクラスタに瞬時に複製します。同期レプリケーションは、「AHV Metro Availability」と呼ばれる可用性の高いソリューションの仕組みとして提供されているものであり、例えばメンテナンス時のクラスタ間ライブマイグレーションや、Witnessを使用した自動フェイルオーバーなどに役立ちます。
ただし、データを同期する際のリカバリポイントは「クラッシュコンシステント」のみとなるようです。これは、ストレージコンテナに書き込まれるデータはリアルタイムで同期されますが、仮想マシンのメモリ上に残っているデータなど、保存していないデータまでは救えないという意味です。
なお、同期レプリケーションではクラスター間で同じAOSのバージョンや同じ名前のストレージコンテナの作成が必須であり、また往復遅延時間が5ミリ秒未満のネットワーク環境が必要です。
Synchronous Replication (0 Seconds RPO)
https://portal.nutanix.com/page/documents/details?targetId=Disaster-Recovery-DRaaS-Guide-vpc_2024_3_1:ecd-ecdr-procedure-synchronous-protectionpolicy-pc-c.html
Protection with Synchronous Replication
https://portal.nutanix.com/page/documents/details?targetId=Disaster-Recovery-DRaaS-Guide-vpc_2024_3_1:ecd-ecdr-dr-protection-synchronous-replication-c.html
今回は同期レプリケーションのポイントだけ紹介しますので、AZ間のペアリングや保護ポリシーの作成については以下のリンク先をご参照下さい。
2. 同期レプリケーションポリシーの作成
▽保護ポリシーの作成画面でレプリケーションスケジュールを以下のように設定します。Protection Typeで「Synchronous(同期)」を選択し、Failure Detection Modeで「Automatic」を選択しました。

「Failure Detection Mode」ですが、クラスター間の通信が切断されて、データの同期ができなくなった場合に、プライマリクラスター側の仮想マシンでは書き込みが応答なしで停止される仕組みになっています。(同期できない時は書き込ませない)

その際に、同期レプリケーションを一時停止(中断)すると、プライマリクラスターの仮想マシンでデータの書き込みができるようになります。この同期レプリケーションを中断する操作を手動(Manual)にするか自動(Automatic)にするかという、選択肢のようです。
ネットワーク接続が回復すると、クラスター間の同期レプリケーションが直ちに再開される構成としたい場合は「手動(マニュアル)」が推奨のようです。詳細はリンク先をご参照ください。
Configuring a Synchronous Replication Schedule
https://portal.nutanix.com/page/documents/details?targetId=Disaster-Recovery-DRaaS-Guide-vpc_2024_3_1:ecd-ecdr-configure-synchronous-protectionpolicy-pc-r.html
「自動(Automatic)」にした場合は、タイムアウト後に同期レプリケーションが自動で中断された場合、復旧後は必ず手動でレプリケーションを再開する必要があります。
▽作成した保護ポリシーに仮想マシンを追加します。


▽これで同期レプリケーションが開始されると、リカバリクラスター側でも受信しているリカバリポイントが確認でき、ここに「Synchronous(同期)」と表示されます。

▽また、プライマリクラスターの仮想マシン画面でも表示方法を「Data Protection」に切り替えると、対象の仮想マシンが「Synced」と表示されているステータスが確認できます。

3. 障害検知モードの動作確認
先ほど、Failure Detection Modeを「Automatic」で「タイムアウト10秒」として設定しましたが、この場合は同期レプリケーション中にクラスター間の通信が切断されると、プライマリ側の仮想マシンは同期レプリケーションが自動中断されるまでの10秒間はデータの書き込みを受け付けなくなり、自動中断されると通常通り書き込みができるようになるはずです。
▽同期レプリケーションができなくなればいいので、リカバリクラスターのPrism Centralを停止し、クラスターサービスやCVMを停止します。
nutanix@pcvm:~$ cluster stop
nutanix@pcvm:~$ sudo shutdown -h now
nutanix@cvm:~$ cluster stop
nutanix@cvm:~$ allssh sudo shutdown -h now
▽これでプライマリクラスターからの同期レプリケーションはできなくなりましたが、10秒経過後には、同期レプリケーションを自動中断し、ステータスが「Out of sync」に変更されました。

Pausing Synchronous Replication
https://portal.nutanix.com/page/documents/details?targetId=Disaster-Recovery-DRaaS-Guide-vpc_2024_3_1:ecd-ecdr-pause-replication-synchronous-pc-t.html
▽同期が解除されると、対象の仮想マシンにログインすることができるようになりました。期待通りの動作です。

▽なお、リカバリクラスターが復旧して同期レプリケーションを再開したい場合は、仮想マシン画面から「Resume Synchronous Replication」を実行します。

Resuming Synchronous Replication
https://portal.nutanix.com/page/documents/details?targetId=Disaster-Recovery-DRaaS-Guide-vpc_2024_3_1:ecd-ecdr-resume-replication-synchronous-pc-t.html
以上です。
次回は、Disaster Recoveryの別の機能も触ってみます。