О профессии
Я работаю в команде компьютерного зрения. 10% времени уходит на чтение статей, чтобы успевать следить за развитием области, 50% — на сборку набора данных для обучения модели и размещение данных, 40% — на проверку гипотез, выявление проблем и их решение.
Сейчас я занимаюсь антиспуфингом — помогаю системам банка идентифицировать владельца карты, чтобы защитить его от мошенников. Мы видим сигнал о подозрительной операции и дополнительно ее проверяем. Например, запрашиваем селфи. Тут две подзадачи: распознать лицо и убедиться, что на фото живой человек, а не маска или фото.
Как подготовиться к специальности
На отборе в команду спрашиваем про структуры данных и алгоритмы, просим запрогать задачи. На секции по базовому ML задаем вопросы про линейную и логистическую регрессию, svm и ближайших соседей, random forest, бустинг, РСА. Дальше набор вопросов зависит от команды, в которую собирается кандидат.
Наши рабочие инструменты — это Wiki, Jira для постановки задач, GitLab для хранения кода, Slurm — менеджер машин, Jupiter для визуализации. Для проведения экспериментов использую внутренний сервер, основной код пишу в pytorch и использую Catalyst — библиотеку, написанную Сергеем Колесниковым, главой отдела R& D в Т‑Банке.
В универе рекомендую учить линейную алгебру, матанализ, теорию вероятностей, статистику. Дискретный анализ не суперрелевантен, но полезен. Computer science: алгоритмы и структуры данных, базы данных. Языки: топ-1 — Python; знание С++/
Из полезных ресурсов рекомендую:
- Deeplearningbook —
сайт-книга , которую советуют многие для начинающих - Open data science — сообщества
дата-сайентистов - https://mlcourse.ai и https://dlcourse.ai — открытые курсы по машинному обучению
- Сборник статей и датасетов по ML с исходными кодами