概要
- hbstudy 第75回: SRE大全: メルカリ編 の個人的なまとめ。
- 資料 2017/8/21 更新
ログ
前半
- 「新規サービスの開発以外のエンジニアリングは全部やる」
- メンバー:9人
- SREの業務範囲
- Operation
- Software Enginerring
- 基盤構築 (log, analytics, server provisioning, deploy)
- リソース監視は mackerel 使っている。
- mackerel-agent, Norikra, mkr => mackerel => Slack
- Sakuraで物理サーバを使っている。
- エラーのエスカレーションPagerDuty使っている。高いらしい。
- 担当者が気づくまでいろいろな手段で通知を送る。
- https://www.pagerduty.com/
- Infra
- JP: Sakura
- US: AWS, GCP
- UK: GCP
- Log: BigQuery
- Application stack
- Solr
- MySQL, memcached
- app
- nginx
- CDN問題
- CDNにおいてExpireヘッダで過去日を指定したとしても、0秒のキャッシュが存在することになる。
- nginxの設定。CDNやブラウザに絶対キャッシュされないようにヘッダを制御。cookieを設定するとキャッシュされないことは確認済み。
- more_clear_headers expires …
- more_set_headers cache-control private no-cache no-store …
- add_header Set-Cookie …
- CDNを使う理由:DDoS体制。セキュリティ対策。
- 今は、インフラチームは無くなった。SREだけ。
後半
- PHP 5.6.x -> PHP 7.1 に切り替えた
- CPU負荷半分
- CI速度も上がった。
- 全世界同じソースコードで動いている。
- ボトルネックはNewRelicとapacheのstraceで探している
- ソフトウェアエンジニアが本番環境をいじれない
- 将来的にはmicroservice化して、エンジニアがオーナーシップを持って行けるようにする。
- 最近は、GKE + GRPCで動いているサービスがある。
- spanner 使っている
- 理想は12人欲しい。当番が2人体制にしたいから。
- なぜsakura?
- 最初から使っている。物理サーバならではのパフォーマンス。今のところ、最終的にはコストメリットがある。
- 誰がCDNに関連した障害のblogを書く事を許可したの?
- ボードメンバーの一人が
ブログ書いて
と言ったことがトリガー。
- ボードメンバーの一人が
Comments