先日、弊社でシステム保守を行なっているお客様のサーバーから停止、起動が発生したという警告メール(監視サービスにて監視中)が届きました。リモートでサーバーの状況を確認してみると、突然、サーバーがダウン、起動が発生したようです。
システム側でアップデートを行ったなど、サーバーに再起動が発生する原因はいくつか考えられますがサーバー側のログを調査してみても原因に関連するような記録は出力されていません。このことから最初はシステムの故障(サーバーの電源周り)を疑いました。
電源障害が最も怪しそうだったので、念のためUPS(お客様にて用意)側の記録をみてもエラーの記録はありません。バッテリー残量も100%で、ログにも問題を示すエラーはありません。UPSはコスト面を考慮して別のベンダーが導入したシステムから流用しているもので、バッテリーの老朽化も考えられましたが、エラーがない以上、正常と判断せざるを得ません。
ILOでハードウェアログを確認
今回、導入したサーバーはハードウェアの監視を行うためのモジュール、ILOが付いていますのでILO側のログをみると、該当する時間にエラーが出力されています。
エラーの原因を確認するとハードウェア異常の可能性が高いということでしたので、メーカーのサポートへ連絡を行い、電源周りの交換となりました。
サーバーの電源ユニット交換
メーカーのほうでオンサイトによる電源交換対応を行い、しばらく様子を見てみましたが突然、サーバー停止が発生する症状は改善しませんでした。停止の日時を確認してみるとと雷や天気の悪い日に発生していることがわかりましたので、電源の障害だと判断しました。UPSがあるサーバー運用のため、問題はないかと電源障害は除外していましたが、そのUPSが故障していたようです。(バッテリーではなく)
以前はOMRONのUPSを利用していた環境でしたが弊社ではOMRONは基本的に利用していないため、APCのUPS「Smart-UPS」とPowerChuteの組み合わせに変更して入れ替えを行いました。
UPS本体の交換及びUPS管理ソフトウェアの入れ替え後、しばらく様子を見ていますたがファイルサーバーが突然、停止・起動することは無くなり、安定して運用できています。
上記から、UPS本体に異常が発生していたと判断し、今回の件はクローズとなりました。UPSは内部にバッテリーを搭載し、24時間通電している機器です。日本電気工業会による指針にて機器の耐用年数が定義されており、小型UPSは5~6年になっております。
耐用年数, 寿命期に達したUPSは安定性や信頼性の低下が懸念され、故障率も高まります。UPSだとバッテリーの寿命のみを検討する場合が多いと思いますが、UPS本体も耐用年数がありますので、この辺りも管理することをお勧めしています。