2023-11-08

開発しているサービスの名前が海外のセクシー系サービスの名前と被った時に気を付けるたった一つのこと

Xでのサービス関連ポストをSlackに安易に流すととんでもないことになるぞ

何が起こるか？

ビジネス側からの要望で「Xでうちのサービスのことつぶやいているポストがあったら適宜Slackに流してくれない？」が発生することは結構あるかと思います。
GASなり、IFTTTなりで X -> Slack に流すことになると思いますが、まずこういった形で流したSlackの投稿は第三者が消すことは出来ません。（※消せるなら教えてくだせぇ）

で、あまり何も考えずにXの検索クエリをサービス名のみでやってしまうとあら大変、削除できないセンシティブ画像の波がやってきます。

ここで「検索クエリ気を付ければ大丈夫でしょ？」と思う方もいらっしゃるかもですが、割と弾こうと思っても弾けないものでございます。
例えば、実際にあったのは同一名サービスのドメインで弾いたり、言語設定を日本語のみのポストに絞ったり色々手は尽くしたものの、日本人がサービス名称を記載したポストをしたがために流れてしまったパターンです。

海外のそういったサービスを利用する日本人の方はまぁ少ないので、逐一ユーザー毎に除外していく他ないかなとやっているんですが、何かもっと良い方法があれば誰かご教授くださいまし。

というわけで開発しているサービスの名前が海外サービスと被ってないか？とかは事前に調べておくと良いかなと思います。

2023-10-28

BitriseのWorkflowが無限にスタックする事象に遭遇した

Flutterアプリ開発のCIにBitriseを採用しているのですが、今回タイトルのような現象に遭遇したので知見のために書き記します。

何が起こったのか？

何が起こったのかというと、前提としてBitriseでCredits-Basedなプランを契約しており「月〇〇creditsまではこのお値段。超過したら追加課金が発生します」といったような課金体系となっています。
で、creditsは常に確認して超過しないよう注意しながら開発を続けていたのですが、ある日突然とんでもないcredits量が消費されておりました。月のcredits量を余裕で突破し、追加課金がかなり発生している状態です。

状況確認

まずは状況確認ということで、実際にどのWorkflowがcreditsを消費していたのかを調べると、あるWorkflowが15時間も動いていたことに気付きました。これは異常なことで、普段は長くても10minほどのWorkflowしか動いていなかったのでこれが原因だろうとすぐに察しがつきました。

もう一つ、異常なことがBitrise側のデフォルトのタイムアウトが3.5時間なのですがこれが効いていなかったことです。

devcenter.bitrise.io

さすがにこれはこちらの問題ではなく、Bitrise側の問題であろうということでサポートに連絡することに。

その後

サポートに連絡したことで15時間分のcreditsを返却してもらえましたが、この問題自体はBitriseとしても既知のものであり、再度発生した場合にはまた連絡してくれという回答でありました。
事実、この返却後に今後は3.5時間のスタックが発生し、こちらも返却してもらいましたが頻発するようでは困る・・・

ということで、こちらで出来ることはないかと調べると社内wikiでBitriseのこういった問題事象をまとめている方がおり、同じようなスタックする事象も書かれておりました。そこに「step毎のタイムアウト時間を設定しておくのが良い」と対処法もセットで書かれていたので対応することに。

devcenter.bitrise.io

これで、設定時間中に何も出力がされない場合にはAbortするようにできます。こういった問題が発生する以上、マストでこの設定しておいた方が良さそうですね🤔

ということで、Bitriseで遭遇した問題のお話でした。

2023-10-14

GCE × squidで立てたForward Proxy ServerのアクセスログをCloud Loggingに流そう

備忘録です。掲題のことをやるための手順を書き残していきます。

どういった構成か？

以下の記事のような構成とほぼ一緒です。

zenn.dev

やること

手順は以下の2点です

squidの access_log 設定の追加
Opsエージェントの追加

squidの `access_log` 設定の追加

これは /etc/squid/squid.conf に access_log daemon:/var/log/squid/access.log squid を追加。おわり。
反映させるために sudo service squid restart やっておきましょう。

Opsエージェントの追加

吐き出したアクセスログをCloud Loggingに流すために、Opsエージェントをインストールして設定をちょちょいといじりましょう。

cloud.google.com

ペロッと curl -sSO https://dl.google.com/cloudagents/add-google-cloud-ops-agent-repo.sh を実行してインストールしてください。

で、インストールが終わったらOpsエージェントの既存構成からアクセスログを参照してCloud Loggingに流すようオーバーライドさせます。

cloud.google.com

/etc/google-cloud-ops-agent/config.yaml のファイルがあると思うので、編集してこんな感じにしてください。

logging:
  receivers:
    syslog:
      type: files
      include_paths:
      - /var/log/squid/access.log
  service:
    pipelines:
      default_pipeline:
        receivers: [syslog]

以上です。これでCloud Loggingにアクセスログが流れるか確認してみてください。

2023-10-08

2023 State of DevOps Reportを読んだ

今年もState of DevOps Reportが発表されましたね。ということで、ザザッと全体を読んで気になったところなどピックアップして読み解いてみました。全文が気になる方は以下からPDFをダウンロードしてみてください。

cloud.google.com

今年の調査主軸

組織の業績
- 組織は収益だけでなく、顧客のため、さらに広範なコミュニティのために価値を生み出さなければならない
チームパフォーマンス
- アプリケーションまたはサービスチームが価値を創造し、革新し、協力する能力
従業員の幸福
- 組織やチームが採用する戦略は、従業員にとって有益なものでなければならない。すなわち、燃え尽きを減らし、満足のいく仕事体験を育み、価値あるアウトプット（つまり生産性）を生み出す能力を高めることである。

今回は上記３つの成果達成に対しての調査となった。

調査結果短評

生成的な文化を持つチームは、組織のパフォーマンスが30%高い。
ユーザーを重視するチームは、組織のパフォーマンスが40%高い。
コードレビューのスピードが速いチームは、ソフトウェアデリバリーのパフォーマンスが50%高い。
質の高いドキュメントが整備されている場合、質の低いドキュメントが整備されている場合に比べ、組織の業績に与える影響が12.8倍大きくなる
パブリッククラウドを利用すると、クラウドを利用しない場合と比較して、インフラの柔軟性が22%向上する。この柔軟性は、柔軟性のないインフラと比較して組織のパフォーマンスを30%向上させる。
組織のパフォーマンスを最大限に発揮するためには、強力なソフトウェア・デリバリー・パフォーマンスと強力なオペレーション・パフォーマンスの両方が必要
過小評価されていると自認する人、女性、または自分の性別を自己表現することを選択した人は、燃え尽き症候群のレベルが高くなります。
過小評価されていると答えた回答者は、そうでない回答者よりも燃え尽き症候群が 24% 多くなります。
過小評価されていると答えた回答者は、そうでない回答者よりも 29% 多く反復的な作業を行っています。
女性、または自身のジェンダーを自認する人は、男性よりも 40% 多くの反復作業を行っています。

成果アンケート

組織パフォーマンスや、チームパフォーマンスなどどのくらい目標を達成できているのか？といったアンケート。チームパフォーマンスやSLOなどは高いが、バーンアウト・AI活用・知識共有が低いのが目立っていた。

どう比較する？

グッドハートの法則とは、「計測結果が目標になると、その計測自体が役に立たなくなる」という現象です。

グッドハートの法則を無視して、「すべてのアプリケーションは年末までに『エリート』パフォーマンスを実証しなければならない」などの大まかな発言をすると、チームが指標を利用しようとする可能性が高まります。

つまり指標をハックしようとする、といったことが起こることを指し示しているのかな？

人々は、最も意味のあるものではなく、最も測定しやすいものを測定する傾向がある。

チームはユーザーのためにソフトウェアを構築し、サービスの信頼性と有用性を最終的に判断するのはユーザーです。ユーザーのニーズを重視するチームは、正しいものを構築するのに適している。

アンケート結果から見た様々なチームタイプの特徴

ユーザー主軸のチーム
- ユーザーニーズを第一に置いたチーム。組織パフォーマンスが高い。ただし、バランス型チームよりバーンアウトが多い傾向がある。
機能重視のチーム
- 機能に重きを置いて、機能のデプロイメントを第一に考える。バーンアウトが最も高く、仕事への満足度やチーム/組織パフォーマンスが最も低い。
開発中心のチーム
- アプリケーションユーザーのニーズを優先するチーム。小規模組織に多いタイプで、ソフトウェアデリバリー/オペレーションパフォーマンスが低く、バーンアウトも高い傾向にある。
バランス型チーム
- 全体的にバランスの取れたチーム。バーンアウトも低く、全体的な水準も高い傾向にあるが、ユーザーニーズにもう少し傾ける必要があるのかもしれない。

ユーザーを重視することが組織のパフォーマンスを予測する

組織のパフォーマンスはユーザーの理解と調整とフィードバックを繰り返すことで向上する。

ユーザーを重視することの特徴

チームがどれだけユーザーのニーズを理解しているか
ユーザーのニーズを満たすために、チームがどれだけ連携しているか
仕事の優先順位を決める際に、ユーザーからのフィードバックをどのように利用するか

上記はユーザー重視が組織にもたらす影響。流石に盛りすぎ感はあるが、良い効果をもたらすのはあるかもしれない。
→ 少なくとも「その改善、ユーザーにとって嬉しいものですか？ユーザーの為になっていますか？」といったミスマッチは防げるだろう

このチャプターでプラットフォームエンジニアリングについて触れられていた。

プラットフォーム・エンジニアリング・チームは、プラットフォームの構築に「作れば来る」というアプローチを採用するかもしれない。しかし、より成功するアプローチは利用者である開発者を理解し、摩擦となっている問題点の特定/排除を適切に行うことなのかもしれない。

技術力がパフォーマンスを予測する

継続的インテグレーション、疎結合アーキテクチャ、コードレビュー速度の向上にリソースと労力を投資することは組織パフォーマンスの向上、チームパフォーマンスの向上、ソフトウェアデリバリパフォーマンスの向上、運用パフォーマンスの向上など多くの有益な結果につながる可能性がある。

AIが全然良い影響を及ぼせてないのはまだ過渡期だからだろうか？疎結合アーキテクチャへの取り組みは良い影響を出しまくっている。
次点でコードレビューの高速化も良い影響を及ぼしているが、変更のリードタイムが改善されることでコードレビューをボトルネックにしないことが大事なのか。

ここでも疎結合アーキテクチャとコードレビューの高速化が強い。

疎結合アーキテクチャの場合、変更の影響が小さいとしてもチームの他の開発者とコンフリクトを起こさないようにする必要がある。スモールバッチで作業するチームは、コンフリクトの機会を減らし、各コミットでソフトウェアがビルドされ、自動テストがトリガーされ、開発者に迅速なフィードバックが提供されるようにする。コードレビューにかかる時間が短いチームは、ソフトウェアデリバリーのパフォーマンスが50%向上する。効率的なコードレビュープロセスはコードの改善、知識の伝達、コードの所有権の共有、チームの所有権、透明性につながる。

AIがあまり上手く作用していない点については、まだ各社がAIツールなどの組み込みに着手したばかりで、結果が出るという段階にまで至っていないだろうと綴られている。

ドキュメンテーションは基礎である

質の高いドキュメンテーションは全体的な組織のパフォーマンス向上やバーンアウト軽減に繋がるという話。

その中で、過小評価されていると自認する人がドキュメンテーションの質とバーンアウトの増加に相関性があるという結果が出た。このグループの中で性別などによる相関性は無かったが、さらなる研究が必要であるという結びになっている。
→ 自己肯定感が薄い人にとって、ドキュメンテーションの質の維持の大変さやある種の報われなさがより辛い作業となっている要因なのだろうか？

信頼性がパフォーマンスを引き出す

SREプラクティスが組織に及ぼすパフォーマンス影響についての話。本項独特な呼び方として、信頼性成果をオペレーショナル・パフォーマンスと呼ぶみたい。

今までと今回でのアップデートはSREの実践におけるJカーブ。今までのレポートにもあったように実践を行うことで尻上がりに信頼性が上がっていくということだったが、今年は最初は上がって停滞状態があり、また上がっていくといったグラフに変わった。

以前まではかなりSREへ投資しないと効果を得られないといった感じではあったが、少しの投資でも初期はかなりの効果を得られるのではないか？といった観点からこういったグラフになっている。停滞状態になった時点で長期的な信頼性の維持を目指した大きな投資を行うことが肝要。

SREingにおいてオンコール対応や緊急メンテナンスなどで幸福度が減るのではないか？といった懸念はあるが、実際はそれを上回るようにトイルの削減など業務遂行能力を高めていくことによってバーンアウトの低減や仕事の満足度がより高まるといった結果が出ている。

デリバリ・パフォーマンスとオペレーショナル・パフォーマンスは両方が高い水準にあることによって高いチームパフォーマンスと組織パフォーマンスが達成される。片方のみだけではダメ。オペレーショナル・パフォーマンスを無視してデリバリ・パフォーマンスのみを追い求めたチームは組織全体の成果悪化に繋がったらしい。

[コラム] GoogleでのSRE

SREのスケールについて語られているがスケールについてGoogleで生まれた言葉がこちら

SREはユーザー数に対してリニアにスケールしてはならない
SRE はユーザー数でリニアにスケールしてはならない
SREはクラスタ数でリニアにスケールしてはならない
SREはサービス数によってリニアにスケールしてはならない

つまり、何かを基準にスケールするように組織調整してはいけないというお話で、リニアにスケールしないと維持できない場合は成長モデルやコミュニケーション・コラボレーションなどのどこかに問題を抱えている可能性がある。

柔軟なインフラが成功の鍵

インフラの現状についてのアンケート結果が最初にあるが、

机の下が3%も・・・🤔 半数以上はクラウド利用。

クラウドの利用の初期段階ではデリバリ/オペレーショナル・パフォーマンスの低下を招く（新しい環境への適応負担など）が、クラウドを利用することによるインフラの柔軟性の高まりが期待できる。

文化への投資なしには何もかもうまくいかない

Westrumの組織類型という組織文化の分類があるらしい。
ref: https://cloud.google.com/architecture/devops/devops-culture-westrum-organizational-culture?hl=ja

組織の文化的側面を表した一覧はこちら。

ウェストラムの組織文化
- 組織が問題や機会にどのように対応する傾向があるか。文化には3つのタイプがある：生成的、官僚的、病的
組織の安定性
- 従業員にとってどれだけ安定した環境か、不安定な環境か
雇用の安定
- 従業員が雇用の安定を心配する頻度
柔軟性
- どのように働くか、どこで働くか、いつ働くか
知識の共有
- アイデアや情報が組織全体に広がる仕組み。チームメンバーは一度質問に答えれば、その情報を他のメンバーも利用でき、人々は答えを待つ必要がない
ユーザー中心主義
- ソフトウェアを開発する際にエンドユーザーに焦点を当て、ユーザーのニーズや目標を深く理解すること。ユーザーからのシグナルは、製品やサービスをより良いものにするために利用される仕事の配分
- チームが負担の大きい仕事をメンバー間で公平に分配するための、正式なプロセスが整備されている

文化的側面で見てもユーザー中心主義な姿勢は良い影響を与えるというのが面白い。また、知識のサイロ化を防ぐ知識共有の文化を築けているチームはデリバリー・パフォーマンスとオペレーショナル・パフォーマンスが向上するらしい。

我々の調査結果は、優れた文化が技術的能力の向上を助けることを示唆している。文化は実践から生まれ、実践は文化から生まれる。文化は広範で定義が難しいが、技術的能力は通常範囲が広く、明確に定義されている。このことは、組織内の個人がどのように変化を促進させることができるかに影響を与える。

文化の醸成の成功はリーダーによるインセンティブ構造の作成でも促進させることができる。つまり、上記のような成功する側面を持つ仕組みを取り入れることを、各チームと協力しながら行うことが重要である。

いつ、どのように、そしてなぜあなたが重要なのか？

「昇進できない仕事とは、組織にとっては重要だが、キャリアアップにはつながらない仕事である。」

こういった仕事は例えば反復的な単純作業だったりである。あまり考えたくないことだが、こういった仕事を女性が頼まれやすい状況にあり、断ることが社会的コストになるため取り掛からざるを得なくなる。
こういったジェンダー差がもたらすキャリアアップに関する問題について、"The No Club"という書籍に詳しく書かれているらしい。
ref: https://www.thenoclub.com/

過小評価されていると答えた回答者について触れていたが、こういった人たちはバーンアウトを経験する可能性が高く、それを防ぐために帰属文化の醸成が必要。何故かというと彼らは「帰属の不確実性」を感じることで過小評価されていると思うためである。
組織の一部であると帰属意識を持つことで価値が見出されていると感じるため、バーンアウトの低減につながるのである。
→ たしかに自分もSESをやっていた時に思っていたが、組織というコミュニティから外れた疎外感を感じるとバーンアウトのような意識を感じることがあった。

感想

今年も読み応えのあるボリュームで、納得感のある結果が多々ありました。SREの文脈ではオンコール対応などで幸福度が下がるかと思いきやトイルの削減などのチームの業務遂行能力を高めていくことが幸福度を上げるというのが面白い結果ではありましたね。（分かる気はする
あとはバーンアウトに関する言及が多く、人間は様々な要因でバーンアウトするということがよく分かりますね。全部のバーンアウト要因を潰すというのはまぁ無理だとは思うので、ちょっとずつでも減らしていくことが出来ればいいですね。難しいけども。

といった感じで、今回取り上げたのはほんの一部ですので是非とも全文読んでみてください〜。

2023-10-01

「QAと共に築く、機能性を通じた信頼性担保への取り組み」という発表をしました

SRE NEXT 2023で「QAと共に築く、機能性を通じた信頼性担保への取り組み」というタイトルで登壇させていただきました。

sre-next.dev

今回はQAとのコラボレーションとコミュニケーション・コラボレーションについて、のようなテーマを発表しました。

speakerdeck.com

発表で伝えたかったこと

SRE NEXTでCFPが始まった時に「あまり他の方が発表されてない内容」かつ、「SRE NEXT 2023の価値観に合う内容」にしようと決めました。
これは別に通りやすくするためではなく、単純にあまり発表されていない内容 = もっと界隈で知見を広げなければいけない分野なので、・カンファレンスのテーマに沿わないと折角運営の方々が立てていただいた価値観を蔑ろにしてしまうのでは？と考えたためです。

この２つの柱は外すことがないように肝に銘じて、まず今までに自分が行ったSREプラクティスの実践を改めて整理しました。

※ こんな感じでザザッと整理

で、色々整理していく中で「QAチームとの取り組みとか整理したら話できるんじゃないかな？」など他にも数個テーマを思い付きました。

次に思いついたテーマの中で前者に該当するものがあるかどうかを調べるため、2020/2022のSRE NEXTの全登壇者の資料に目を通しました。
ここで気づいたのが、セキュリティ分野の話が意外と少ないなぁとか組織作りの話はやっぱり人気だなぁなどと発見があったのですが、その中で"開発以外の他チームとのコラボレーション"について触れた発表がそこまでなかったので、ここは価値観のEmpathyにも通じるしやる価値があるなと判断。
結局、自分が思いついたテーマの中で一番合致するのがQAチームとの取り組みの話でした。

前段の話が長くなってしまいましたが、今回の発表の目次は以下のようなものでした。

はじめに
機能性から考える信頼性
機能性に対してSREが出来ること
実際に取り組んだこと
- E2E支援
- QAテスト支援ツールの作成
まとめ

はじめにを除いた目次を一つ一つ解説していきます。

機能性から考える信頼性

まず、今回テーマから具体的な発表の内容を作成していく時に改めて「機能性とは何だろう？」を深掘る必要性を感じました。そこで、SRE本に書いてある信頼性の一節「システムが求められる機能を、定められた条件の下で、定められた期間にわたり、障害を起こすことなく実行する確率」の部分を読んでいると引用文献があることに気付きました。
Practical Reliability Engineeringという本から引用した一節ということで、「これは読んでみないとダメだな」とAmazonを覗いてみるとあらビックリ。１万円を超える書籍でした・・・

Practical Reliability Engineering (English Edition)

作者:O'Connor, Patrick,Kleyner, Andre
Wiley

Amazon

まぁ致し方なしと１万円払って読みましたが、発表で触れたように工業製品の信頼性について書かれた本で主な内容は確率算出のための統計手法についての解説となっておりました。とはいえ１割は信頼性とは何か？について書かれていて、信頼性獲得のための優先順位付け・何故障害は起こるのか？・修理について（MTBFなどMTTR周りの話）などなども書かれております。

で、そこから幾つか引用をさせていただきつつQAが信頼性を構成する機能性を担保する重要な要素だよ、というお話をさせてもらいました。

ここまではSREの視点で見た機能性についてだな〜と書きながら思っていて、ちゃんとQAに関わる人の目線からも機能性はどう捉えられているのか？を話さなければと色々と調べました。その中で、ISO/IEC 25010について知ることとなり、これも読まないとなと探してみるとこちらの日本工業規格の25010に辿り着きました。

kikakurui.com

日本にローカライズされたものとはいえ、ほぼほぼ国際標準規格と同じなのでありがたく読ませていただきました。

ここには発表で触れた通り、システムと関わりを持つ様々な人が必要としているテスト観点をモデル化したもので、この中にはそのものズバリな"信頼性"というモデルもありました。正直、この中に信頼性があることに驚き、内容自体もPractical Reliability Engineeringに則した内容になっていたので源流は同じっぽいですね。
機能性については３つのサブモデルから成り立っており、こういった内容でQAがなされることで機能性の担保はされているんだよという触れ方をさせていただきました。やはり、全然知らない分野を調べると新鮮な発見がありますね😊

機能性に対してSREが出来ること

ここでQAチームとのコラボレーションの話に入るわけですが、ここはもうカッコつけてもしょうがないのでコミュニケーションについて失敗した話も交えながらありのままを書かせていただきました。別の登壇でも発表させていただきましたが、コミュニケーション・コラボレーション促進の施策は失敗したものばかりでしたし、QAチームからコラボレーションのお話をさせてもらえなければQAチームに対してSREプラクティスを発揮することもなかったでしょう。この辺は書きながら反省することばかりでした・・・

今回書くことはなかったのですが実際問題コミュニケーションと一括りに言われても単純な雑談から実装などシステムについての突っ込んだ議論など様々かと思います。個人的には「相手の思考に立ってみること」がコミュニケーションだと考えていて、例えば先程の"実装などシステムについての突っ込んだ議論"ではキチンと相手が突っ込んできたことについて「何故相手はそう考えたのか？」「その考え方の根本のベクトルはどこに向かっているのか？」など、相手の思考・視点に立つことが出来ていないとコミュニケーションとは言えないのではないのでしょうか？
単純に「チーム皆でワイワイやりましょうや〜」「飲みニケーションや！」みたいなものも立派なコミュニケーションの一つだとは思いますが（勿論、この考え方が嫌いという人が一定数いることも理解はできます）、それよりももっと根本の部分でコミュニケーションを実践することが肝要かと思います。

ということをノー論理で言われても聴かれる側の方は「それってあなたの感想ですよね？」と思われるんじゃないかと思い、書かなかった次第ではあります。誰か、このあたりのSREが学ぶべきコミュニケーション術みたいな本を出してくれませんかね？（他力本願

実際に取り組んだこと

ここはただやったことを書いても聴いてる方に届かないかな？と思いまして、ちゃんと進め方の部分についても書かせていただきました。エンゲージメントモデル作りは責務をしっかり確定させるものなので、コラボレーションをやる際にはこれはマジで作っておいた方がいいです。問題の解決を急いじゃうとついつい最初に決めたことが疎かになっちゃうので、見返すためにもという意味で。

あとはここで信頼貯金について触れましたが、コラボレーションを抜きにしても仕事をする上で大切な概念で、これを貯めることで様々なムーブがやりやすくなります。例えば、いきなりチームに入った人が「◯◯というベストプラクティスがあります。これを導入することでこのチームはより良くなるので導入しましょう！」と提案し、もしそれが真であってもなかなか進まないでしょう。そういったムーブをかます時に、信頼貯金が物を言うのです。自分がやりたいことの実現のため、他者との協調のためにも信頼貯金を貯めるための行動を心がけていきましょう。
と、ここまで書いておいて「信頼貯金って誰かから教えてもらった概念だが原典あるのかな？」と調べてみたら著名な"７つの習慣"に書いてある概念みたいですね。今度読んでみよう📖

まとめ

正直、今回の一番の肝はここだと考えて力を入れました。
ザザザっと資料作ってまとめまで来た時に「絶対聴く人の中には大したことやってないな〜と感じる人いるんだろうな」と思ってました。そのくらいやっていることは平易で、別にテクニカルなことをやったという自負もないので、そう感じたのならその通りだなと。ただ、そこで落胆を感じたままだとこの後伝えたいことが心にスッと入ってこないかなと危惧して、「大したことやってないな〜と感じませんでした？」と問いかけさせていただきました。

今回、資料を作成するに至って様々な資料・書籍を改めて振り返ったりしたのですが、その時に「著者の方とかのブログとか登壇とかまでリーチしといた方がいいか」とどんどん手を広げて調査していった結果、Niall Murphy氏の素晴らしいブログ記事に辿り着くことができました🙏

blog.relyabilit.ie

ここには先程の「大したことをやっていない」ことに対しての解や、その他様々な発見があり非常に参考になりました。「Google はシリコンバレーの企業の中でも、多くの点で依然として文化的に異端者です」とハッキリ書いてあるのが面白く、他にも他社で働く際の注意点など気を付けた方がいいことなども書いてありますがSREを実践して働く方には刺さる話が多いかと思います。

ここで伝えたかったのは「SREはプロダクトに関わる全ての人が実践し、理想はSREチームが存在しない状況」ということです。今回はSREチームと他チームのコラボレーションということでもう少しマイルドに「プロダクトに関わる人全てにコラボレーションの目を向けていこう」という感じでお伝えしましたが、その先にあるのが先程の理想についてです。

LINEヤフー株式会社でSREチームでリードをやっておられる@maruloopさんがTwitterで仰られていたこの話が自分も凄く感銘を受けていて、これがSREのあるべき姿だと思っています。

私はSREチームもリードをやってる立場だけど、理想の理想でいえばSREチームなしで開発者が自律的に信頼性とプロダクト開発をバランス良くやっていく世界なので、いつかはSREチーム解散したい。
— maru621 (@maruloop) 2023年7月28日

というわけで、こういったことの前哨戦としての様々なチームとのコラボレーションという裏の意図がありきのまとめではありました。

最後に宣伝

こういった組織論というかSREの理想やコミュニケーション論などを語ったり聴くのは個人的に凄い好きなので、話したいことがあるぞ〜って人は是非ともゆるSRE勉強会に来てお話してください〜😊 （第２回はかなり埋まってるので第３回に是非！）

yuru-sre.connpass.com

生涯未熟

プログラミングをちょこちょこと。

開発しているサービスの名前が海外のセクシー系サービスの名前と被った時に気を付けるたった一つのこと

Xでのサービス関連ポストをSlackに安易に流すととんでもないことになるぞ

何が起こるか？

BitriseのWorkflowが無限にスタックする事象に遭遇した

何が起こったのか？

状況確認

その後

GCE × squidで立てたForward Proxy ServerのアクセスログをCloud Loggingに流そう

どういった構成か？

やること

squidの `access_log` 設定の追加

Opsエージェントの追加

2023 State of DevOps Reportを読んだ

今年の調査主軸

調査結果短評

成果アンケート

どう比較する？

ユーザーを重視することが組織のパフォーマンスを予測する

技術力がパフォーマンスを予測する

ドキュメンテーションは基礎である

信頼性がパフォーマンスを引き出す

[コラム] GoogleでのSRE

柔軟なインフラが成功の鍵

文化への投資なしには何もかもうまくいかない

いつ、どのように、そしてなぜあなたが重要なのか？

感想

「QAと共に築く、機能性を通じた信頼性担保への取り組み」という発表をしました

発表で伝えたかったこと

機能性から考える信頼性

機能性に対してSREが出来ること

実際に取り組んだこと

まとめ

最後に宣伝

Xでのサービス関連ポストをSlackに安易に流すととんでもないことになるぞ

何が起こるか？

何が起こったのか？

状況確認

その後

どういった構成か？

やること

squidの access_log 設定の追加

Opsエージェントの追加

今年の調査主軸

調査結果短評

成果アンケート

どう比較する？

ユーザーを重視することが組織のパフォーマンスを予測する

技術力がパフォーマンスを予測する

ドキュメンテーションは基礎である

信頼性がパフォーマンスを引き出す

[コラム] GoogleでのSRE

柔軟なインフラが成功の鍵

文化への投資なしには何もかもうまくいかない

いつ、どのように、そしてなぜあなたが 重要なのか？

感想

発表で伝えたかったこと

機能性から考える信頼性

機能性に対してSREが出来ること

実際に取り組んだこと

まとめ

最後に宣伝

squidの `access_log` 設定の追加

いつ、どのように、そしてなぜあなたが重要なのか？