2025年1月26日日曜日

SRE kaigi2025

おそらく社内でSRE的な仕事をしているのは自分しかないせいか、いつもだとslackで募集している参加チケットを直接もらった

会場は中野で湘南新宿線に乗るといくのは楽だが、日曜日なのでこどもの相手ができなくなってしまう。取り敢えずどこかで休みを取るとして、参加することに


湘南新宿線本数も少ないことで、だいぶオープニングにギリギリだった。

今回は無料のおでん・たこ焼き・クレープ屋台+5分マッサージあり。共にアルコールも提供していた。

 


丁度、オープニング後時間もあったのでマッサージを受けてからおでん+ビールにした

 


 

参加したセッションについて


杉田智和さんがナレーション担当。スポンサー紹介でうちの会社名を読み上げてくれて感動。杉田さんが自分の名前を呼んでくれたら私も発表してみたい

・他のイベントと比べ、技術よりは運用・組織・キャリアの話が多め

・ SREはやることが多い。どこまでがSREの範疇なのか、悩む人が多い感じ。それでかEmbedded SRE / Platform SREに関する発表もあった

・たまに2人体制の発表があった


Re:Define 可用性を支えるモニタリング、パフォーマンス最適化、そしてセキュリティ by P山

10:35 - 11:00

https://speakerdeck.com/pyama86/re-define-ke-yong-xing-wozhi-eru-monitaringu-pahuomansuzui-shi-hua-sositesekiyuritei


・ベネフィットを出すのが大事かと

・システムの健全性・システムの傾向を観測

・クラウドではセマンティック監視の重要度が高い

・無視できるアラートは出すな

・障害が自動復旧できるスクリプトを実装

・オブザーバービリティが高いシステム

・細かいログよりはトレースログが良い

・ノイジーアラート

・一生なくならないアラート

・金で殴る、はSRE的に負け

・みんなでシステムの可用性を見る

・Linuxの仕組みを理解する

・セキュリティ:誰が作業しても事故が起こらない仕組みが大事

・インシデント発生時のためログをストリーミングで保存する。リストアが再現できるか、訓練

・SREはやることが多い


同じことをやっている人の話で、非常に共感


一人から始めたSREチーム3年間の歩み -求められるスキルの変化とチームのあり方- by VTRyo

11:20 - 11:45

https://speakerdeck.com/vtryo/the-three-year-journey-of-the-sre-team-which-started-all-by-myself


・一人目のSRE期

    ・アラートの設計からやりなおし

    ・SREの布教活動

・チーム拡大期

    ・一人1プロダクト以上担当 → 複数に担当するようになる

        ・アプローチとか解決方法はミッションによって変わる

        ・SRE以外にもアラート対応ができるようにする

・チーム安定期

        ・オンボーディングのフロー・テンプレート化

        ・リリース情報を把握できなくなった

        ・production meetingを定期的に開催

・立ち上げフェースだとフットワークの軽さが必要

        ・フェースごとに得意・不得意なひとがいる


もっとSREの裾野を広げるための初学者向け技術研修設計 by Kento Someya

12:05 - 12:30


・人が拡がるための研修

・インシデントで学習できる


あまり面白くなかった

ランチセッション

・ランチ提供のスポンサーの説明会。あまり面白くなかった


どうやればインシデント対応能力を鍛えられるのか? by 髙石 諒

13:35 - 14:00

https://speakerdeck.com/takaishi/sre-kaigi-2025

・ハードスキル:個人の知識・ノウハウ。寿命が長いスキル。可搬性が高いスキルを持つべき

・ソフトスキル:対人よりスキル。チーム外・チーム内

・経験:インシデントに対応したことがある経験。staging環境などで障害対応訓練することで経験することも可能

・システム理解:システムアーキテクチャ、コード、設計。テーブルから理解するかシステム構成図を自分で書いてみる


インフラおじさんがSREになるお話 by 金澤伸行

14:20 - 14:45

・チーム内でEmbedded SREを行う。チーム内で誰でもできるようにした

・全社SREはあるけど、開発部内でSREチームを作った

・インシデント対応のワークフロー・分担

・ポストモーテムの実施

・RDSからTiDBへ移行:RDSは無駄に高いスペックを使っていた


TiDBとは?解説と活用方法について



AWSにおける横断的なログ分析とコストの管理 by 山北 尚道

15:50 - 16:15


・Platform SRE

・SREエンジニアが複数のプロダクトを運用している

・アプリケーション監視はsentryを使用

・Fargateのイベント(stopなど)はEventBridge -> Lambda -> slackで通知

・terraformディレクトリ

    ・サービス毎のディレクトリは依存は難しくなるので

    ・レイヤー粒度で実行

・FargateよりはAWS Batchの方が楽


Platform EngineeringがあればSREはいらない!? 新時代のSREに求められる役割とは by 渋谷 充宏 / 那珂 将人

16:35 - 17:00

https://speakerdeck.com/mshibuya/platform-engineeringgaarebasrehairanai-xin-shi-dai-nosreniqiu-merareruyi-ge-toha


・Platform Engineeringは開発者の生産性を上げていくための手段

・バックエンドとインフラの真ん中

・課題:認知負荷が課題。self-service化でサービスチームに管理を委譲

・SREは非機能要件がメインだが機能要件・Platformも関わる

・PlatformがSREの仕事を取りにいく、できるだけ周辺の領域もカバーしていく



その他

・15時頃に中抜けして中野ブロードウェイに行ってみた。20年ぶりかも。観光客多め。ヴイナス戦記のカフェが気になっていたが、中はスカスカだった。