SRE-инженеры знают, что не существует на 100% отказоустойчивых систем, поэтому их главная задача — изучить, как будет работать продукт, если вдруг что-то сломается, и что делать, когда (а не если) это все-таки произойдет.
SRE-инженеры участвуют в координации и предотвращении сбоев и помогают командам с архитектурой систем, чтобы продукты были отказоустойчивыми. SRE знают, как их продукт будет работать в случае отказа одной или нескольких систем, и что делать для скорейшего восстановления. SRE не любят работать руками и стараются минимизировать текучку через автоматизацию.
Основные задачи SRE-инженера — контролировать состояние продакшена и реагировать на алерты, если они происходят. Еще я слежу за инфраструктурой и планирую ее расширение при росте пользователей. Большую часть времени я уделяю наблюдаемости своих сервисов: делаю мониторинг и алертинг для новых функций.
Недавно мы запустили в мобильном банке сервис. Метрики показали, что при нагрузке этот сервис работает нестабильно и около 1% запросов могут заканчиваться неудачей. Нужно было разобраться, где инициализируются проблемы, и довести доступность сервиса до 99,9% по индикатору количества ошибок.
Попасть на позицию SRE можно опытным специалистам и новичкам — через программу стажировки Т-Старта или Т-Академии.
Чтобы попасть в штат, кандидату нужно пройти несколько секций: телефонное интервью с HR, общие технические вопросы, программирование, траблшутинг, фит-интервью с командой. Пригодится хорошая техническая база, умение программировать и любознательность.
Я использую Grafana для визуализации состояния системы, Sage для метрик, логов, трейсинга и алертинга, Ansible, Terraform, Gitops и Python для автоматизации. Еще у нас есть внутренние разработки, которые помогают поддерживать SRE-процессы в командах. Например, система инцидент-менеджмента Finedog и многие другие.
Не представляю свой день без общения со специалистами из dev-команд. Продукты быстро обрастают функциями, в день происходят десятки изменений. Мы всегда на связи с dev-командами, чтобы оперативно приступать к решению проблем. Комфортной и продуктивной работы не добиться без открытой коммуникации с коллегами.