ベンチャー転職後 SRE で実施した3つの即効施策
この記事は Akerun Advent Calendar 2020 - Qiita の 7 日目の記事です。
はじめまして。わたくしは 2020 年 10 月にできたての SRE チームに入社しました。
ベンチャー企業に転職すると、自由とともに多くのやるべくことに溢れ、目先のことに翻弄されがちです。
そのような中でも、何とかしたいけど何からやればいいか困っているという皆様にお役に立てば幸いです。
この記事では、2ヶ月間で実施して効果があった3つの施策を紹介させていただきます。
当施策は、AWS クラウド環境を前提としていますのでご了承ください。
何からやるか?
困っていることをヒアリングし、課題・タスク・依頼に分類することです。
その上で、緊急度・重要度・解決の難易度を数値化し優先度を決定します。
あとは、優先度順にカンバン方式で上から順にこなしていくだけです。
この課題抽出によって、以下の3つの施策を実施しました。
1)コスト削減
改善施策には何かとお金が必要です。後者の施策を実施するためにも、お金を節約します。
AWS 環境で実施した施策は以下の通りです。
Cost Explorer によるコストの分類
Savings Plan と Reserved Instance の適用
CloudWatch Events による営業時間外のサーバ停止
サーバの棚卸しと削除
たったこれだけで、10 %のコストを減らすことができました。
2)可視化
サーバは動いているのか?何が重いのか?クラウド環境は大丈夫なのか?というケースがありました。
お客様の方が、先にサービスの異常に気付くようでは機会損失になります。
そこで、以下のツールを導入しました。
Pingdom: Web サイトにヘルスチェックを実施しサービス監視します。
大手クラウドサービスあるようなサービス稼働率のポータルを誰でも参照可能な URL で自動的に生成することができます。
PagetDuty: 監視システムなどのアラートを受けインシデント発生をエスカレーションに基づき電話通知するサービスです。
AWS Config: 自社の AWS の設定をセキュリティ分析し世にあるベストプラクティス(CIS や PCIDSS など)との差異がわかります
NewRelic: アプリケーションのパフォーマンスやボトルネックを可視化します。
これら施策によって、機会損失の最小化と、問題を解く鍵が揃いました。
3)パフォーマンス改善
開発環境や本番環境のボトルネックを把握し、改善施策を実施します。
開発環境がよくなれば開発スピードが向上し売上にも貢献できます。
NewRelic を利用すれば、各分野の達人に頼らなくてもある程度のアタリがつきます。
WEB ブラウザ上から、どのレイヤーのどの処理が遅いのか分かります。遅いクエリーも分かります。
いかがでしたでしょうか?
指標の可視化による共通認識の醸成や、効果的な施策による信用貯金を得ましたね。
変革を起こす準備が整いました。
そんな、株式会社フォトシンスでは、一緒にプロダクトを成長させる様々なレイヤのエンジニアを募集しています。
またお会いしましょう。