■サーバ運用をするにあたり、とても大事な考え方

最近まともに寝れていない。

寝れない理由は、とあるサーバでずっと負荷が高い状況が続いていて頻繁にアラートが上がっているからだ。

なので昼夜問わず都度対応を迫られる。

そんでよくよく調べてみたら原因としてはどこぞの者が負荷の高い作業を昼夜ブン回しているように見える。

なのでそいつを注意しる!!

必要があるのだが、注意すべき人間が、しないのか、出来ないのかまったく機能していない。

よくありがちなヒューマンエラー。人災

せめて緊急対応用のメアド以外にアラートを飛ばしたい、という要望すら通らない。

この手の人間によく共通することが、情報をきちんと整理して運用負荷を下げましょう。というサーバ運用にとって絶対に必要な考え方をいくら説明をしても理解できない。

もっと簡単にいうと楽しようよ?なんだけど真面目すぎる?のかなんだかわからないが、受け入れられない。

飛んできたアラートに対して頑張って対応するのも必要だが、一番大事なのは根本原因を叩いて、緊急対応を迫られない状況を作ることだ。

というわけで、その人を説得するためにレポートに纏め中…。

サーバ/インフラエンジニア養成読本(管理/監視編)改訂新版

24時間365日サーバ/インフラを支える技術 [ 伊藤直也 ]

にほんブログ村 IT技術ブログ クラウドコンピューティングへ

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA