2016.08.22

サーバーの安定運用のために、まず何をすれば良いでしょうか?

160822_point_mv

■質問者
ニックネーム:システム管理者1年目 さま
■質問内容
お世話になっております。このたびファイルサーバーを含めた、社内システムの管理業務を引継ぐこととなりました。つきましては、サーバーホスティングを提供されている貴社に、アドバイスをいただければと考えております。言葉足らずで申し訳ございませんが、何卒よろしくお願いいたします。

ポイントとなるのは、管理するサーバーの異常をいち早く見つけ、対策・対応しやすいように準備しておくことです。


ひとくちにサーバーと言っても、多種多様な利用用途があります。ご質問がシステム管理者1年目と言うことですので、どのような目的のシステムでも必要な、インフラ管理の基本的な対策について書いていきたいと思います。

ポイントで挙げたように、システム管理で必要なことは、「サーバーの異常をいち早く見つける」ことと、「異常時に対策・対応しやすいように準備しておく」ことの大きく2つになります。

「サーバーの異常をいち早く見つける」には?

こちらは、別のテーマでも書きましたように、管理者の変わりにサーバーの異常を監視するための、仕組みを利用することになります。
監視するための仕組みについては、市場で購入またはダウンロード可能な、監視プログラムを利用することもできますし、クラウドやホスティングサービスを利用するなら、クラウド・ホスティングのベンダーが提供する監視サービスを利用することもできます。

監視する項目は、サーバー本体の死活の監視、CPUやメモリといったリソースの負荷状況監視する、リソース監視、サーバー上で動作させているアプリケーションやプログラムの動作状況を監視する、サービス/プロセス監視、ユーザーがネットワークを介してサーバーサービスを利用する場合は、ネットワーク監視・・・といった項目を監視することで、おおむねサーバーで運用中に起こりうるトラブルを発見しやすくすることができます。

そのほかは「サーバーがどのように利用されるか?」に応じて、外部からのアクセスが多く、セキュリティが心配であれば、ウィルス/マルウェア/不正アクセスといった監視などを追加しておくと良いでしょう。

「異常時に対策・対応しやすいように準備する」には?

異常時とは、サービスを提供するサーバーが、本来の目的の通りにサービスを提供できない状況を言いますが、これらをサーバー内部の異常というくくりで見ていくと、次のようになります。
(1)サーバーが物理的に壊れてしまった
(2)OSやアプリケーションが壊れ、サービスが提供できなくなってしまった
(3)サーバー内部のデータが壊れてしまった

(1)サーバーが物理的に壊れてしまったの対策はオンプレミスでは、サーバーを購入したベンダーからの保守サービスを受けることになりますが、保守が完了するまでの間は、サーバーサービスが提供できないことになります。また、万が一サーバーのハードディスクが壊れてしまっていた場合では、上に上げた問題のうち(2)OSやアプリケーションが壊れ、サービスが提供できなくなってしまったと、(3)サーバー内部のデータが壊れてしまったも連動して問題になる可能性があります。

このようなケースでいち早くサービスを復旧させるには、もう1台別にサーバーを用意して、2つ並べて運用させておくことがもっとも近道です。

プログラムやデータの変更頻度が少なく、必要なリソースも比較的少ないWebサーバー等では、複数のサーバーを並べて運用し、いずれか1台に問題が起こった場合でも、他のサーバーがサービスを継続してくれる・・・と言う仕組みを作りやすいのですが、データベースやメールなど、更新頻度の激しいものについては、複数のサーバーを常に同じ環境にしておく仕組みを作る必要があります。
クラスターやレプリケーションといった仕組みがこれにあたるのですが、この仕組みを作ろうとしたとたんに、コストが跳ね上がってしまいます。
それでも、緊急度・重要度の極めて高いサーバーであれば、このようにサーバー自体を複数用意した運用を検討する必要があるでしょう。

コストがあがってしまうよ・・・と言う場合

しかし、そこまでコストがかけられないと言うケースもありますし、まだサーバーを立ち上げたばかりで、それほど緊急度の高い仕組みを作るノウハウが無いというケースもあると思います。

低コストで可能な限り、上記の3つの問題をカバーするために、行っていただきたい対策は、
①サーバーの初期環境設定が終わったら、即システムを含めてバックアップを取得する
②サーバー内の更新頻度が高いデータ部分などは、毎日バックアップを取得する
この2つを最初に検討してください。

①サーバーの初期環境設定が終わったら、即システムを含めてバックアップを取得するを対策しておくことで、サーバー自体が壊れた場合も、OSやアプリケーションが壊れた場合でも、バックアップを取得した時点の状況に戻すことができます。重要なポイントとしては、OSやアプリケーションに、パッチを充てたり設定を変更した都度に、バックアップを取得しておくことです。

②サーバー内の更新頻度が高いデータ部分などは、毎日バックアップを取得するは、皆さんもイメージをもたれていると思いますが、ここにもポイントがあります。データのバックアップは、毎日取り続けるのですが、ずっと取り続けていると、バックアップの保存先の容量を確保するためのコストも上がり続けることになりますし、保管のためのコストもかかります。

そこで、皆さんが管理するサーバーが万が一壊れてしまった場合、最悪何日前までの状況に戻れば良いのか?
を考えてみると良いと思います。

中には履歴を全て管理する必要があるサーバーもあるかもしれませんが、例えばファイルサーバー等であれば、常にデータは最新の状況に書き換わっていきますので、最新の状況だけをバックアップしておけば良いことになります。ファイルサーバーは社内の方がアクセスしていますので、平日の夜間や休日にはアクセスがほぼ無いと言って良いと思います。アクセスが無いということはデータの変更もありませんので、平日の業務終了後に自動的にバックアップを取得しておけば良いことになります。
これであれば、何日もバックアップを保持する必要が無く、コストも抑えられます。

今回はサーバーのインフラ部分に着目した記事となりましたが、アプリケーションやプログラム部分の対策についても、「異常をいち早く見つける」「対策・対応しやすいように準備しておく」の2つは変わりません。

ぜひ事前の対策と運用後の監視を忘れずにご検討ください。

si_bna

この記事を書いた人

よしひろ

気が付いた時からずっとプリセールス。
普段難しいことばかり考えているので、この場ではこれからがんばっていこう!という皆さん向けに、わかりやすい記事を書いていきたいと思います。

GMOクラウドアカデミーYouTubeチャンネルはこちらから

アカデミー用バナー

メルマガ会員募集中!

アカデミーの最新情報や会員限定のお得な情報をお届けします。

メルマガ登録はこちら