「ZFS」が壊れたら

  • 投稿日:
  • by
  • カテゴリ:
  • タグ:

“超特殊”ファイルシステム「ZFS」がデータ復旧するまで -INTERNET Watch

西原氏はZFSの第一印象として、「これは壊れないだろう」と思ったという。ZFSでは、データの変更もコピーオンライト(ブロックを一度コピーしてから書き換える方式)によるトランザクション処理となっており、書き換えが完了しないと変更が反映されないようになっている。これにより、書き換え途中に障害が起きても変更前の状態として整合性が保たれる。また、ストレージプールをある程度修復する機能なども備えている。
 
「でも、壊れにくいだけで、壊れることはあります」と西原氏。同社でも実際にZFSの復旧依頼を受け、それまでに経験のなかった新しいファイルシステムの解析に挑戦した。復旧対象は、ディスクを24台搭載したサーバー。「大手SIerの優秀なエンジニアが修復できなかったため、ディスク復旧の専門家である我々の出番となりました」(西原氏)。
 
復旧はまず、ZFSの構造や特性、壊れ方を研究するところから始まった。そのために同じ機種のサーバーも購入。そして、障害のあるディスク24台をコピーしてクローンを作り、クローンから作業用コピーを作って解析した。

ディスクの数が増えれば増えるほど、故障の確率は上がります。 もちろん、二重三重に冗長化することも可能なんですが。

ちなみにウチのファイルサーバーでも、消えて惜しくないデータはスパニング、消えたら困るデータは三重にミラー化したZFSに入れています。

扱ったことのないZFSについては、そうした経験がない。まっさらのZFSに解析用のデータを入れて、データの配置や切れ目などを調べたりもした。「コロンブスの卵と同じで、わかってしまえば当然なことに、なかなか気付かない。結局、復旧のカギもたまたま見付けたようなものです」。
 
症状としては、ZFS上のRAID情報とファイルシステム情報の両方が壊れていた。それらを修復して無事データを吸い出した。依頼から納品まで2~3週間だった。「弊社にとっては、2~3週間かかるというのは異例の長さですね」と西原氏。ZFSの構造の調査にかかった時間が多かったため、次回は少し短くなるが、それでも5日はかかるという。「壊れ方はそれぞれ違うので、復旧事例の蓄積がないと難しい。ほかのファイルシステムなら、ほぼすべての壊れ方を経験しています。もっとZFSの復旧事例を増やして経験を積みたいですね」。

まあでも、もし壊れたとしても高いお金を出して復旧する必要があるデータなんて、個人レベルではほとんどないですけどね。