О профессии
Основные задачи
Недавно мы запустили в мобильном банке новый сервис. Метрики показали, что при нагрузке этот сервис работает нестабильно и около 1% запросов могут заканчиваться неудачей. Нужно было разобраться, где инициализируются проблемы, и довести доступность сервиса до 99,9% по индикатору количества ошибок.
Попасть на позицию SRE можно как опытным специалистам, так и через программу стажировки Т‑Старт или Академию Бэкэнда для специалистов без опыта. Чтобы попасть в штат, кандидату нужно пройти несколько секций: телефонное интервью с HR, общие технические вопросы, программирование, траблшутинг,
Я использую Grafana для визуализации состояния системы, Prometheus для метрик и алертинга, Ansible и Python для автоматизации. Также у нас есть внутренние разработки, которые помогают поддерживать
Не представляю свой день без общения с коллегами из
Как подготовиться к специальности
Профессия SRE появилась в Google, и у них есть сайт и книги, например http://sre.google. От себя могу порекомендовать книгу Systems Performance: Enterprise and the Cloud — в ней хорошо разбирается вопрос производительности на разных уровнях инфраструктуры. Эти знания понадобятся для решения проблем в высоконагруженных системах. Практику по разработке поможет наработать сайт leetcode.com.
Предметы, которые пригодятся специалистам SRE: программирование и администрирование Linux и компьютерные сети. Если в университете преподают базы данных и архитектуру распределенных систем, это тоже большой плюс. Лучше получать базовые знания, а не изучать узкие инструменты, которые быстро меняются.
Если вас заинтересовала специальность и понравился мой рассказ — присмотритесь к нашей программе SRE в Т‑Старте.