土曜日の夕方、私の妻が私たちのDVRが彼女が見ているショーの演奏を突然止めた理由を尋ねて始まりました。 私は彼女にそれはおそらくいくつかの不具合であると言ったが、私は見てみます。 私は家族の部屋に入って調べてみると、基本的にディスクが使用できなくなっているというエラーが表示されました。 良くない! これが私の3日間のホラーストーリーの始まりでした…
少しの背景
私のDVRは、実際にはPC上で実行される特殊なソフトウェア(好奇心that盛な人にはSageTV)です。 このソフトウェアは非常に柔軟で、さまざまな側面をすべて分離できます。 集中制御、スケジューリング、および記録用の別個のマシン、再生用の別個のマシン、およびこのストーリーのスターであるストレージ用の別個のマシンがあります。 ストレージには、Linuxファイルサーバーを使用します。LVM(Logical Volume Manager)を使用して、多くの個別の異なるドライブを、オペレーティングシステムが認識する1つの大きな(現在は最大6TB)論理ドライブに集約します。 複数のTBのデータをバックアップすることは非現実的であり、そのデータは「単なる」テレビ番組であるため、これに対する私のバックアップ哲学は常に気にしないことでした。 最近のイベントまで、この哲学は実世界のイベントによってテストされていませんでした。
データを回復しようとしています
DVRでエラーが表示されると、すぐにストレージサーバーの確認を開始します。 ファイルシステムは非常に遅く、応答が遅いため、論理ボリュームの基礎となる物理ドライブの状態についてLVMに問い合わせます。 しばらくしてから、750 GBのドライブが見つからないと表示されます。 ええとああ! サーバーを再起動すると、驚くべきことに、ドライブが戻ります。 pvmoveコマンドを発行して、そのドライブからすべてのデータを自動的に移行しますが、完了率が2%未満で失敗します。
データの読み取りに関して非常に非協力的であるドライブに直面しているが、少なくともBIOSには表示されているので、お気に入りのドライブ回復ツールSpinriteを使用します。 Spinriteは通常リムーバブルメディアから起動しますが、何年も前に自宅でさまざまなユーティリティ用にネットワークブートを設定したため、メディアを追跡する必要はありませんでした。 通常、ネットワークに接続し、ネットワークからの起動を選択するだけで、多くの問題を解決するためのさまざまなツールを自由に使用できます。 問題は、このすべての魔法のように動作するマシンが、現在ダウンしているのと同じマシンであることです。 大したことはありませんが、Spinrite CDから起動します。 数年前を除いて、ファイルサーバーの光学ドライブはゴーストを放棄しました。 そのとき、私はそのマシンで光学メディアを使用したことがないので、交換する必要がないと決めました。 心配する必要はありません。メインコンピューターから光学ドライブを取り出すだけです。 メインコンピューターの電源を切り、光学ドライブを取り出します。 次に、SpinriteブートCDを探します。 見つかりません! 数ヶ月前に新しい家に引っ越したので、すべてが少し混乱しています。 新しいコピーを焼き付けるだけだと思いますが、空の光学式メディアも見つかりません! 次の計画、ブート可能なフラッシュドライブに! Googleで数分間メモリを更新した後、起動可能なSpinriteフラッシュドライブがあります。 Linuxボックスを起動してSpinriteを起動します。 コンピューターがフリーズし、クラッシュするようです。 変数を排除するために、私は悪いドライブをPCI-e拡張カードに差し込まれていたものを、マザーボードに直接差し込まれたものに移しました。 現在、Spinriteは正常に起動しますが、接続されているドライブを列挙するのに何年もかかります。 悪いドライブ以外のすべてのドライブを体系的に取り外しますが、どれだけ長く待ってもドライブの列挙を終了しません。 次の計画に! Linuxボックスからドライブを取り出してメインコンピューターに接続し、光沢のある新しいSpinriteフラッシュドライブから起動します。 Spinriteが起動してすぐにドライブが表示され、データの回復を開始するように指示します。 おそらく10分後にチェックに戻りますが、画面にエラーがあり、ドライブが再び消えたようです。 イライラして、何度か試して、Spinriteにドライブのさまざまな部分から開始するように指示しますが、毎回同じ結果になります。 これは結局私を助けにはならないようです。
不合理な希望にふさわしく、ドライブをLinuxボックスに戻し、電源を入れました。 驚いたことに、ドライブが表示され、LVMがすべてをアクティブにします。 さらに運を試して、別のpvmoveコマンドを発行して、データをドライブから再度移動しようとします。 早い段階で、ドライブから読み取ることができないというエラーメッセージが表示されますが、驚くべきことに、pvmoveは進歩を続け、100%に近づいていきます。 混乱、安心、興奮の混合物が私を洗い流します。 私はこの無傷から逃げるつもりですか? 残念なことに、pvmoveを完全に終了するためにLVMが最後に行うことは、その制御下にあるすべてのドライブに更新されたログを書き込むことです。 もちろん、不良ドライブに書き込もうとすると失敗するため、プロセス全体が中止されます。 再び勝利の顎からひったくりを打ち負かそう! Googleに戻り、すべてのデータを一度に移動するのではなく、pvmoveコマンドが移動するデータの量を制御できることを発見しました。 私はこれを実験し、データのごく一部を一度に移動することに成功しています。 私は貪欲になり、ドライブが数回消えますが、コンピューターの電源を入れ直した後は常に戻ってきます。 おそらくドライブの特定の部分だけが不良であると理論的に考えると、ドライブの先頭で作業するのではなく、飛び回り始めます。 これを数回繰り返した後、750 GBのうち40 GBを除くすべてをドライブから安全に移動しました。 残りの40 GBについては、何を試みても移動に失敗しました。 今は日曜日の夕方で、私は疲れていたので、私は寝て、翌日この問題にもっと取り組むことにしました。
翌日、いくつかの睡眠と仕事の前半を終えた後、録画したテレビ番組の最後の40 GBを気にしなかったため、弾丸を噛むことにし、LVM構成からドライブを削除することにしました。 私はこれを何回もやったことがあるので、とてもスムーズに進みます。 クリーンアップリストの次は、ファイルシステムの中央の穴を修復することです。 750 GBではなく40 GBだけが不足していると思いますが、それほど悪くはありませんよね? 違う! 修理後、試練の開始前に比べて900 GBの追加の空き容量があったため、かなり刺されました。 まあ、とにかく、テレビだったと思います。 私のDVRは3日間の休止の後、ようやく再び機能するようになり、すべての予備の脳サイクルでこれについて考えることをやっと止めることができます。
学んだ教訓
それで、私はこれらすべてから何を学びましたか? 本当に重要なことをもっとよくやるべきだった。 これは数週間前に起こりましたが、その間に消えたテレビコンテンツを見逃すことさえありませんでした。 しかし、後悔しているのですが、さらに重要なことに、私の家族は3日間テレビを使用できず、その3日間は高ストレスの危機モードに陥っています。 最初にデータの回復をrecoverめていた場合、機能は3日ではなく約1時間で復元されていました。 ほとんどの場合、データが貴重であることをよく知っていますが、この状況ではそうではありませんでした。
第二に、データが本当に貴重であり、99%の時間が本当に必要な場合は、それを保護する必要があります! データをバックアップします。言い訳はありません。 かけがえのないデータ(たとえば、コンピューターにある息子の何千枚もの写真)については、必ず3か所以上でバックアップしてください。そのうちの1つはクラウドバックアッププロバイダーです。 DVRストレージに関しては、クラウドにバックアップすることはまだ実用的ではないと思いますが、最近のドライブの価格では、RAIDで保護しない理由はありません。それがまさに私ですするつもりです。 数年前に初めてストレージクラスターをセットアップしたとき、複数のTBのプールに到達するには10台以上のドライブが必要でした。 価格を確認したところ、3 TBのドライブを100ドル以下で購入できます。 私は単にデータを保護しないままにしておく言い訳がありません。このようなデータの損失が再び発生した場合、それは本当に自分のせいです。
