この度は貴学スーパーコンピュータシステムにおいて、弊社 100%の責任により Lustre ファ
イルシステムのファイル消失の重大障害を来し、多大なるご迷惑をお掛けしたことを深くお詫び
申し上げます。
リアル仕事納め級 twitter.com/Zinsei_Syuuryo…
— ながと@Nyanza (@nagakuma) Dec 29, 2021
ヒエッ twitter.com/Zinsei_Syuuryo…
— Masashiki@アヒージョ (@enj0u) Dec 29, 2021
な、77TB消失!?くわばら、くわばら・・ twitter.com/Zinsei_Syuuryo…
— Takechi (@suetake6) Dec 29, 2021
スポンサーリンク
スポンサーリンク
悲惨すぎる…。 twitter.com/Zinsei_Syuuryo…
— Takeshi.Magami (@Agreenshift) Dec 29, 2021
えぇ…🙄 twitter.com/Zinsei_Syuuryo…
— 三多a.k.a魚の骨🦊次回歌姫参加予定 (@santa255) Dec 29, 2021
これはヤバい… twitter.com/Zinsei_Syuuryo…
— Mori@休暇中 (@hrkmr_tech) Dec 28, 2021
ことが重大なのも驚くけど、その原因が安定動作していたシステムに対するリファクタリングってのが本当に辛いな… twitter.com/Zinsei_Syuuryo…
— Kashiken (@kashiken) Dec 29, 2021
年の瀬に、こんな大事故のニュースを見て、まぁ自分とこは無事に仕事納まってよかったと思った。
— Kagero (@Kagero) Dec 29, 2021
待機は続くけど、仕事はしないぞ~!
( ゚Д゚)y─┛~~…… twitter.com/Zinsei_Syuuryo…
これは担当者マジでストレスマッハやろ・・・
— 4K HDR anime channel (@AnimeHdr) Dec 29, 2021
こっわ! twitter.com/Zinsei_Syuuryo…
フォオリーナより前の Hewlett Packard は信頼の証だったが、よもやファーストサーバーみたいなことをやらかすまで落ちぶれたとは…😞
— りゅか🌿 (@lyuka_jp) Dec 29, 2021
それにしても実環境で未検証のシェルスクリプトを走らせるなんてど素人より酷い…😥 twitter.com/Zinsei_Syuuryo…
こ…これは…やりそう…いやきっとやるわ…もしかしたらやったかも…ああぁあぁぁぅぁ…
— りょぉた (@s3ryota) Dec 29, 2021
恐ろし…人生果てるまでできればユーザー側であり続けたい…が、しかし、生きるためにベンダーで居続けるしか今のところは…
あな、おそろしや twitter.com/Zinsei_Syuuryo…
スポンサーリンク
スポンサーリンク
京大えらいめに遭ってんな…… twitter.com/Zinsei_Syuuryo…
— 数々寄 (@ssk888) Dec 29, 2021
怖〜 引き起こした結果が重大すぎる 検証大事だね twitter.com/Zinsei_Syuuryo…
— kentarou (@kentarou_c) Dec 29, 2021
ひぇっ…… twitter.com/Zinsei_Syuuryo…
— 空夢/Koo.M/Ainsel:喪中 (@thistle_k) Dec 29, 2021
当該シェルスクリプトの実行中に置換したことによってfindの引数にした変数が未定義になってしまったことによる不具合と読んだけど、シェルスクリプト自体の不具合だと思ってる人も結構いるな twitter.com/Zinsei_Syuuryo…
— 青木 (@nig_aoki) Dec 29, 2021
想像力乏しくてあれなんだけど
— tumf.eth (@tumf) Dec 29, 2021
$ find /$logdir -exec rm -rf {} \;
みたいなスクリプトでlogdirを未定義にして実行してしまったのかな? twitter.com/Zinsei_Syuuryo…
なんかいまいちわからない、原因……
— Toru Tashiro (@ToruMasala) Dec 29, 2021
iノードでないとか今のシステムだとそうなのかなぁ twitter.com/Zinsei_Syuuryo…
Windowsでもpause途中で.batファイル書き換えて意図しない挙動になることあるよね。 twitter.com/Zinsei_Syuuryo…
— なまにぃ (@NamaKnee) Dec 29, 2021
スポンサーリンク
スポンサーリンク
こ、これは恐怖すぎる失敗。自分も昔似たようなことを本番環境でやらかして以来、変数の中身をチェックするようにしてる👼
— Kaz (@Kaz_Macintosh) Dec 29, 2021
作ったスクリプト
deluser=$1
rm -rf /userdata/$deluser
実際に実行された結果
$ ./hoge.sh (引数なし)
rm -rf /userdata/
あれ、なんか実行時間長くね??(この後気付く…) twitter.com/Zinsei_Syuuryo…
ヒエ twitter.com/Zinsei_Syuuryo…
— Yuki Ishii@情シス (@Cryshii) Dec 29, 2021
@miliota_a_oyaji データ消えた元に戻らないってのはサポートにおいてもたまに起こる事でして。
— 🐻く ま じ ん🐻 (@kumajin3) Dec 29, 2021
twitter.com/Zinsei_Syuuryo…
「弊社100%の責任」って表現が斬新。 twitter.com/Zinsei_Syuuryo…
— かしゆっか (@kashiyuka0091) Dec 29, 2021
そういやあ、MSDOS時代のバッチファイルも行単位で読み込んで動くから、にたようなめにあった気がするな。いや、あれはCP/Mだっけか。 twitter.com/Zinsei_Syuuryo…
— kiccolo💉💉 (@kiccolo) Dec 29, 2021
文面から学校からの強い要請で100%っていれられたような気がする。 twitter.com/Zinsei_Syuuryo…
— ジャム親父 (@jamuncle) Dec 29, 2021
いろんな意味で凄い話が年末に出てきたなぁ。
— 小林かつのり (@ka2nori0416) Dec 29, 2021
100%の過失と認めたり、問題の経緯もちゃんと確定させてるから再発防止もしっかりやってくれそう。
消失期間が二日ですんで良かったと思うべきかなー。 twitter.com/Zinsei_Syuuryo…
こういう事があるから、大事なデータはクラウド以外にも色々分散して保存しておかないとだめなのよねぇ。
— Sho Sakaino (境野 翔) (@shosakaino) Dec 29, 2021
それにしても怖い。 twitter.com/Zinsei_Syuuryo…
ついやってしまいそうな操作で、この結果はおそろしすぎる。。。 twitter.com/Zinsei_Syuuryo…
— kosuke nakahara® (@mckosuke) Dec 29, 2021
スポンサーリンク
スポンサーリンク
はぅぅ twitter.com/Zinsei_Syuuryo…
— のぷたん (@nmn_nmnm01) Dec 29, 2021
怖すぎる… twitter.com/Zinsei_Syuuryo…
— 迷犬(柴犬) (@sibainu224) Dec 29, 2021
バックアップ49Tあったので、28Tが完全に消失… twitter.com/Zinsei_Syuuryo…
— でん💉💉 (@uzuobimu) Dec 29, 2021
77TBと言う数字がヤバさを増幅させる。 twitter.com/Zinsei_Syuuryo…
— けー (@keiun55) Dec 29, 2021
ヒイィッ
— シャロウ (@gurennda) Dec 29, 2021
いつかやりそうで全然他人事と思えない。 twitter.com/Zinsei_Syuuryo…
こんな感じでスクリプト作ったら、変数dirが空になって上位ディレクトリのファイル消しったってことかな?
— tech-mmmm@インフラエンジニア (@tech_mmmm) Dec 29, 2021
dir="log"
find "/LARGE0/${dir}" -name "*" -mtime +10 -exec rm -f {} \;
私も似たような処理のスクリプトを作ったことがあるので、同じことを起こさないよう注意しよう。 twitter.com/Zinsei_Syuuryo…
これは洒落にならない一大事ですね… twitter.com/Zinsei_Syuuryo…
— ミリオタオヤジ_Type-A (@miliota_a_oyaji) Dec 29, 2021
年末に大事件が・・・ twitter.com/Zinsei_Syuuryo…
— saipan (@saipan_fez) Dec 29, 2021
年末年始にやったな twitter.com/Zinsei_Syuuryo…
— 回送 (@01el900) Dec 29, 2021
ヒェッ… twitter.com/Zinsei_Syuuryo…
— Nochi (@shikarunochi) Dec 29, 2021
スポンサーリンク
スポンサーリンク
これはアツい案件…🤔💭 twitter.com/Zinsei_Syuuryo…
— ℛicky (@TxBalloonFlower) Dec 29, 2021
スポンサーリンク
スポンサーリンク
この記事に問題があると考えた場合、こちらから作者様にご連絡をお願いします。
イルシステムのファイル消失の重大障害を来し、多大なるご迷惑をお掛けしたことを深くお詫び
申し上げます。
ファイル消失に至った経緯、その根本原因と今後の対策等を下記の通りご報告させて頂きま
す。ご査収の程お願いいたします。
記
1 ファイル消失の影響範囲
対象ファイルシステム: /LARGE0
ファイル削除期間: 2021 年 12 月 14 日 17 時 32 分~2021 年 12 月 16 日 12 時 43 分
消失対象ファイル: 2021 年 12 月 3 日 17 時 32 分以降、更新がなかったファイル
消失ファイル容量: 約 77TB
消失ファイル数: 34,011,293 ファイル
影響を受けたグループ: 14 グループ(4グループが復元不能)