ふんばりクロニクル ディレクターの臼井です。
サービス状況と現在のアクション
現在のサービス状況についてお知らせいたします。
16:00頃より公開しましたふんばりクロニクルですが、
現在サーバーの安定がしていない状態となっております。
こちらにつきましてユーザーの皆様へご報告をさせて頂きます。
まず今回、端末台数・スペックについてはかなりの台数、性能を用意しており、
各サーバーの処理は現状適切な範囲でのモニタリングがされています。
しかしながらそれらを繋ぐサーバー間・端末との通信の中でモニタリング外での通信遅延が発生している可能性があり、現在ボトルネックとなっている中間サービスを調査しています。
引き続きサーバーの構成変更により断続的にメンテナンスを繰り返させて頂く可能性がございます。ご容赦いただけますと幸いです。
時系列(随時更新いたします)
【18:00頃 急激なインストール増加によるサーバーダウン】
・例外(Exception)のロギングの急激な増加によるサーバーメモリ使用量増加
①Exception発生時のロギングを変更しメモリ影響が少なく変更
②各サーバーのCPUスペックの増加および台数のスケールアウト(増加)
【18:34頃 緊急メンテナンス解除】
・上記対応完了によりメンテナンスを解除
サーバーのメモリ使用量は改善傾向に
【19:46頃 緊急メンテナンス開始】
・ゲームサービス側で通信が長く発生する事象が顕著に
・メンテナンス開放直後、サーバーのキャッシュがクリアされた状態で大量のアクセスが発生した際に負荷が大きくなる事象を確認
【23:42頃 緊急メンテナンス一部解除】
・メンテ解除直後などキャッシュが存在しない状態の暫定負荷対応を反映済
・Android端末のみメンテナンスを解除 負荷をモニタリング中
【23:54 メンテナンス全解除】
・負荷改善が見込まれた為、iOS端末についてもメンテナンスを解除
【1:00 状況】
・ゲーム内の全体的な速度改善を確認。
・サーバーCPU負荷が非常に高い状態が続いており継続監視中。
・ゲームデータのDL時に「通信エラー:4」が出るケースを確認・調査中。
本来すべてのサーバーが同期すべきファイルDLバージョン情報が、サーバーごとにズレが発生している事象を確認。調査中。
【6:00 状況】
・4:52 低アクセス量の中、サーバーを管理するk8s配下のサーバーpod群に予期せぬ再起動が発生
・4:55 上記に伴い40台ほどが再起動状態に突入し接続不可状態に
・5:10 各pod群の再起動が完了し徐々にサービスが改善
・5:46 一部原因調査およびサーバー構成を変更(※2)する為緊急メンテナンスを実施
・6:00 作業完了、メンテナンス解除
楽しみにしておりましたお客様におかれましては誠に申し訳ございません。
今しばらくサービスの安定化までお時間をいただけますと幸いです。