2024年6月30日をもって,本サイトの更新を停止しました.今後教育用計算機システムに関する情報は utelecon 情報システムの総合案内サイト @ 東京大学で提供します.
3月4日(土)10:50頃に発生し、全面復旧が3月6日(月)17:10頃となった標記システム障害では、利用者の皆様にご迷惑をおかけし、大変申し訳有りませんでした。
以下に、障害の原因と再発防止策の概要を報告します。 なお、ECCS, MailHosting等の障害対応を含む基本的な運用ポリシーについては情報メディア教育部門の運用ポリシーをご確認ください。
サービス障害の起因となったのは、基幹ネットワークスイッチの部品故障でした。 しかし、部品が故障すること自体は想定内でした。故障したスイッチの内部は二重化されており、このスイッチにつながったサーバ等が通信障害を検知すると、自動的に予備の部品を使った通信に切り替える設計となっています。 今回のサービス障害が発生したのは、自動検知が難しいタイプの故障が起こり、切り替えを自動的に行うことができなかったためです。
部品が完全に停止するタイプの故障であれば自動検知は容易ですが、さまざまなパターンの故障すべてを自動検知するのは、残念ながらほぼ不可能です。 そこで、以下のような二種類の対策を組み合わせ、サービス障害が発生する可能性の低減と万一発生した場合の停止時間の短縮を図ります。