出先から自社運営しているHPを開こうとしたところ、突然開けなくなりまして。

ネットワークの不具合とかかな?と思い、家に連絡してネットワーク機器の再起動を試しましたが変わらず。

調べてみるとサーバの電源が落ちていました。しかも2台。

マシントラブルでサーバが落ちる場合、通常は1台だけです。

同じタイミングで2台同時に落ちる事はまず考えられません。

原因は電源しかない とは思ったのですが、UPS(非常電源装置)を使っているので、電源トラブルだとしても2台同時はやっぱりあり得る訳が無く。

とりあえず1台は電源の再投入で立ち上がったのですが、もう1台は立ち上がらず。

原因がつかめなかった為、急いで帰宅。

調べたところ、パワーサプライ(電源装置)内のコンデンサが液漏れ状態。マザーボードが壊れた時のよくある症状。

たぶん ですが、パワーサプライが異常を来たし、電源供給元のUPSに何らかの負荷がかかった為、UPSの安全機構が働いて電源供給をストップした という事かな と。

パワーサプライを新しいものに交換したところ、正常に起動しました。

とりあえず安心。

でも、強制的な電源断により、DCが壊れたり内部DNSが機能しなくなっていたり・・・
まあ 内部の問題なのでコツコツ直せば大丈夫大丈夫・・・

ちょっと怖くなったので、余裕が無くなっていたバックアップ用のHDDを大きいものに換装し、現在データの移管作業中。データ損失ほど恐ろしいものはありません。HDDが高かったけどやむを得ず。

テラバイトデータは眠くなるくらい移管時間がかかりますね。


しかし

UPSを仕掛けても「電源」そのものが壊れればどうにもならない って当たり前の事ですが、貴重な経験でした。


教訓:ITに限らず「リカバリ」こそ「運営」のキモ  「完璧な予防策」など無い

posted @ 22:05 feedback (0)