人間「システム監視マシーン」からの脱出

前回の投稿で人間システム監視マシーン※」となる事を任命され、エンジニアとしてのささやかなプライドが崩れ去ったわけですが、出向後1年が立つ頃には、それまでサービス停止と再開で何とかしのいで来れた状況が変化しつつありました。
※運用オペレータの事です。最初書いたときはこれしか言葉が浮かびませんでした。すいませんすいません

タイミングとしてはちょうどネットベンチャーの会社が盛り上がりを見せ、東証マザーズ等の新興市場への上場が話題になり始めたあたりで、出向先の会社のお客様やお取引も増加の兆しを見せ始めたころから、その変化は始まりました。

具体的には、それまでは以下のオペレーションで何とかしのいでいたところが、
  1. エラーの連続発生や、CPU・メモリ等のリソース不足等の障害を、監視システムにて検知
  2. 当該エラーが発生しているサーバをロードバランサーでアクセス不可とし、冗長化された他のサーバへリクエストを再割り振りする
  3. 当該エラーが発生しているサーバ上のWeb・アプリケーション等のサービスを停止、再起動する。それでも復旧しなければ、サーバごと再起動する。
アクセス数の増加によりこんな具合になって来て、
  • ロードバランサーにて冗長化された他のサーバにリクエストを再割り振りしたら、割り振り先のサーバが不調になった
  • 不調になったサーバをメンテナンス後にロードバランサーに再接続したら、間髪入れずに再び不調となった
いよいよサービスの停止と再起動では廻らなくなってきたのでした。
ベンダーサポートにも問い合わせるものの、解決出来るのは製品単体での設定変更やパッチ適用で解決する類いの比較的シンプルな障害くらいしかありませんでした。

そんな中、人間システム監視マシーン」とはいえ1年近くネット取引システムに関わっていく中で、こっそり開発担当の社員の方にシステム構成等を教えてもらい、徐々に巨大なシステムの全容に対し少しずつ理解が進み、1年の間にまとめた自分用のシステム概要や手順書と、この職場に出向するまでにつけた知恵との組み合わせで、問題が発生した時の対処法について、多少なりとも意見が出来るような状態になりつつありました。

しかし前回の投稿で登場したインフラ担当の社員は、残念ながら自分の意見には耳を貸さず、以前と変わらず「気合いと反射神経」で事を解決する事により先鋭化していくのでした。
確かに複数のコンソールの間を反復横跳びをするように移動しながらメンテナンスのコマンドを打ち込む姿は職人芸の極みともいえるものでしたが、目線を変えれば、障害が収束するまで限界ぎりぎりの枚数で皿回しをし続けるようなものでした。当人はこれがベストと信じて疑わず、悪意なしで同じ事が出来るように要求してくるわけで、いくら悪意が無いとはいえ、こちらもたまったものではありません。

ちょうどこの頃に三十路を超えた事もあり、このままの状態で仕事を続けても先々潰しが効かなくなることが容易に想像されました。このような状況にほとほと困り果て、出向先のオフィスビル内にある喫煙所で開発担当の社員に「やってらんねっす」と愚痴ったところ、「端から見てても悲惨に見えるから、どうにかならないかちょっと考えてみるわ」と、ありがたいお返事。そしてほどなく、システム部門内で一番のお偉方に当たる方から、インフラ担当の社員の頭を飛び越えて、以下の「人間システム監視マシーン」以外の作業指示を頂いたのでした。
  • 稼働監視は、従来のようにハードウェアやOSレベルだけではなく、アプリケーションレベルでの処理件数や1リクエストあたりの処理時間までを含めるようにし、それぞれしきい値を設定する事
  • 特定箇所しきい値のしきい値超えに注力するのではなく、複数のしきい値を客観的に監視する事で複合的な障害要因にも早期対処が出来るようにする事
  • ベンダーと連携し障害発生時に根本原因に迫る事が出来るよう、障害発生時に分析が必要となる基本情報を定義の上、収集手順を作成して誰でも確実にサポートへの問い合わせが出来るようにする事
このように羅列すると、そんなのシステム運用の現場では当たり前だろと思われる事ばかりでしたが、自分は今までこのような大規模システムの運用をきちんと設計した経験が無かったので、これはこれでその時の自分にはなかなかハードルが高い仕事だったのですが、何より「皿回し職人としてしか進む道がない」状態からは飛躍的な進歩であり、嬉々としてそのタスクに携わったのでした。

しかしこの出来事をきっかけに、自分とインフラ担当の社員の方との関係は悪化したのでした


ここまでご覧頂き、有り難うございます。
当エントリを含む、就職からアラフォーの現在に至るまでの8回に渡る転職履歴について、「転職履歴」のページにまとめました。
また、これまでの転職履歴で得た経験から、仕事に向かい合う為に必要なテクニックや、メンタリティ・思いを抽出し、「お仕事サバイバル」のページにまとめ直しました。 
それぞれ、あわせてご覧頂けますと幸いです。