マイナンバーの障害原因が人知れず発表されていた件
マイナンバーの障害についてのアクセスが多いみたいなので、現在の状況を調べてみました。
以前の記事ではバッチ処理によるデータ移行ミスについて取り上げましたが、その後、以下の時間帯で各自治体端末からマイナンバーの管理サーバーに接続しづらい状況が発生していたようです。
・平成28 年1 月13日(水) 11:40頃 ~ 13:10頃
・平成28 年1 月18日(月) 15:40頃 ~ 19:00頃
・平成28 年1 月19日(火) 8:30頃 ~ 8:50頃
・平成28 年1 月21日(木) 18:40頃 ~ 19:00頃
・平成28 年1 月22日(金) 9:40頃 ~ 9:50頃
・平成28 年1 月25日(月) 10:45頃 ~ 11:25頃
で、こちらの原因がこちら。
原因1
CPUが耐タンパ装置からのデータを各コアで処理している最中に、ハードウェア監視ツ ールから CPU への状態確認が行われ、同一コアで処理されると、CPU ではハードウェア 監視ツールへの対応のみが行われ、CPU での処理結果が耐タンパ装置へ返答されず、そ の結果、業務アプリケーション側から見て、耐タンパ装置が無応答になってしまう。
原因2
通常、業務アプリケーションがデータ処理を開始する際に、メモリ内に作業領域を確 保してから処理を行う。ところが、業務アプリケーションがデータ処理を開始する前に Windows からタイムアウトの通知を受け取った場合、終了処理が実行され、メモリ内に 作業領域を確保していないにも関わらず存在しない作業領域を解放しようとして、業務 アプリケーションが異常終了する。
https://www.j-lis.go.jp/data/open/cnt/3/2064/1/j-lispress160427_1.pdf
曖昧な記載なのでいまいち何を言ってるか分かりませんが、
・同時接続などの負荷試験が不足していた
・大規模システムにも関わらずWindowsサーバーを使っている
あたりが、間接的な原因になっていたのではないでしょうか。
※Windowsサーバーが悪いとは言いませんが、Unix系サーバーに比べてWindowsサーバーに精通しているエンジニアが少ないイメージなので、うまく制御しきれていなかったのではないかと思いました。
リンクのURLに図解なんかも入っていますが、"通信振分装置"であるとか"住基ネット中継サーバー"だとか、サーバー構成が分かんないとピンとこない内容になっております。
書きなぐりですが、公開されている情報は地方公共団体システム機構のサイトに記載されている内容ですべてだと思いますので、気になる方はそちらの方を確認してもらえればと思います。
とはいっても、本当にヤバい事象はどこかのベンダーが握りつぶして報告されていないかもしれませんが・・・