Email / Online CV / PDF CV / GitHub / Telegram / LinkedIn / Kaggle
Data Scientist и Team Lead R&D в сфере защитной полиграфии.
За время учёбы в Яндекс.Практикум освоил Python, SQL и основные инструменты для машинного обучения. Дополнительно прошёл курсы по Python: 67 и 512 и по основам статистики: 76 от Института биоинформатики. Изучаю основы А/В тестов.
Работаю на парт тайм в стартапе приложения для контроля финансов Nimbler app в роли Data Scientist’а. Готовлю NLP модели к внедрению в приложение в качестве микросервиса. Занимаюсь MLOps.
Пять лет опыта руководителем группы разработчиков-технологов. С азартом берусь за выполнение задач с неочевидным решением. Довёл от идеи до промышленной реализации ряд решений, в том числе для международного рынка, на два из них получил патенты.
Обладаю хорошей математической и инженерной подготовкой. Не боюсь глубокой проработки задач – для проектирования и строительства собственного дома получил строительное образование.
В настоящий момент ищу full-time работу в роли Data Scientist / ML engineer. Удалённо или гибридный график с 1 днём в Москве или север МО.
Компания | Должность | Достижения | Период: с | Период: по |
---|---|---|---|---|
Nimbler | Data Scientist part-time (20h/w) |
- Проанализировал текущее решение на Java (OpenNLP + WEKA), проинтервьюировал CEO, собрал требования. Разработал каталог категорий трат. - Организовал сбор и разметку датасета для задачи классификации на платформе toloka.ai с учётом ограничений по бюджету. - Провёл анализ эффективности различных моделей категоризации и кластеризации, что позволило поднять точность предсказаний до 80%. - На базе фреймворка Kedro написал микросервис предсказания категории по текстовому запросу в docker-контейнере, для работы через API. Занимаюсь MLOps. |
08.2022 | Н.В. |
АО "НПО "КРИПТЕН" | Team Lead R&D full-time |
- Вместе с командой разработали и внедрили в производство ряд новых средств защиты спец-документов. - Запатентовали несколько уникальных технических решений в области спец. полиграфии. - Ведём постоянный анализ технологических процессов и занимаемся их совершенствованием. - Занимаюсь внедрением систем автоматического контроля качества выпускаемой продукции, сбора статистики и верификации подлинности с применением машинного обучения. - Работа с внешними и внутренними заказчиками. Калибровка ожиданий, формирование КД и ТД. Декомпозиция проектов для команды. |
05.2018 | Н.В. |
ВУЗ | Направление | Специальность | Форма обучения |
---|---|---|---|
МГСУ | Строительство | Промышленное и гражданское строительство | дистанционная |
РУДН | Лингвистика | Референт-переводчик с испанского языка (с отл.) | очная |
РУДН | Химия | Магистр органической химии (с отл.) | очная |
Русский - родной, English - B2, Spanish - B1
Название | Форма обучения | Статус/Сертификат |
---|---|---|
Яндекс.Практикум DataScience+ | Дистанционная | Сертификат / Certificate |
Stepik Программирование на Python | Дистанционная | Сертификат |
Stepik Python: основы и применение | Дистанционная | Сертификат |
Stepik Основы статистики | Дистанционная | Сертификат |
Название | Описание | Стек | Статус/Сертификат |
---|---|---|---|
Мастерская BigData PySpark Chicago taxi dispatch | Мастерская по обработке больших данных. Предсказание порайонного количества заказов такси с помощью распределённых вычислений: - развернул Hadoop кластер на локальной машине в docker-контейнерах; - провёл EDA средствами PySpark; - провёл feature-engineering для time-series данных; - с помощью MLlib провёл обучение нескольких моделей машинного обучения и предсказал количество заказов на следующий час для каждого района Чикаго. |
JupyterLab, PySpark, MLlib, Docker, Python - os, pandas, numpy, matplotlib, seaborn, statsmodels, tqdm | Завершена |
Исследовательский хакатон Яндекс Практикума | Участие в кросс-функциональном хакатоне по тематическому анализу публикаций в социальной сети LinkedIn, выявление постов на тему наставничества и менторства: - сбор и подготовках исходных данных; - тематическое моделирование публикаций; - анализ полученных результатов (выделение наиболее популярных тем, ключевых слов). |
Jupyter Notebook, Python - pandas, numpy, matplotlib, re, nltk, sklearn, plotly, spacy | Сертификат / Certificate |
Название проекта | Описание | Стек |
---|---|---|
Обзор базовых моделей ML | Осмотр базовых алгоритмов машинного обучения в задаче мультиклассовой классификации. Оценка эффективности данных моделей. Сравнение методов векторизации BoW и TF-IDF. | Jupyter Notebook, Python - pandas, numpy, pandas_profiling, seaborn, matplotlib, nltk, re, sklearn, lightgbm, keras, tensorflow |
Обзор моделей кластеризации | Осмотр некоторых алгоритмов машинного обучения в задаче кластеризации. Оценка эффективности данных моделей. | Jupyter Notebook, Python - pandas, numpy, pandas_profiling, seaborn, matplotlib, tqdm, time, nltk, re, sklearn, scipy |
Название проекта | Описание | Стек |
---|---|---|
Определение возраста покупателей | Сетевой супермаркет «Хлеб-Соль» внедряет систему компьютерного зрения для обработки фотографий покупателей. Построим модель, которая по фотографии определит приблизительный возраст человека. | Jupyter Notebook, Python - pandas, numpy, matplotlib, plotly, keras |
Поиск фото "Со смыслом" | В фотохостинге для профессиональных фотографов «Со Смыслом» (“With Sense”) пользователи размещают свои фотографии и сопровождают их полным описанием. Разработаем демонстрационную версию поиска изображений по запросу. | Jupyter Notebook, Python - pandas, numpy, matplotlib, pathlib, pickle, re, nltk, PIL, keras, tensorflow, tqdm, sklearn, sentence_transformers, glob |
Название проекта | Описание | Стек |
---|---|---|
Мастерская. KPMI.ru | Тест «Ключи персонального мастерства» предназначен для определения индивидуального поведенческого стиля личности. Является оригинальной отечественной разработкой на базе широко известного типологического опросника Майер-Бриггс. С помощью моделей классического машинного обучения попробуем улучшить качество предсказания сферы деятельности в которой человек сможет максимально самореализоваться. | Jupyter Notebook, Python - os, pandas, numpy, matplotlib, seaborn, pymorphy2, statsmodels, sys, re, nltk, collections, symspellpy, sklearn |
Проект для «Викишоп» с BERT | Интернет-магазин «Викишоп» запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. Обучим модель классифицировать комментарии на позитивные и негативные. | Jupyter Notebook, Python - os, pandas, pandas_profiling, numpy, matplotlib, seaborn, re, nltk, sklearn, pytorch, transformers, tqdm, pickle |
Название проекта | Описание | Стек |
---|---|---|
Прогнозирование температуры звезды | Нам пришла задача от обсерватории «Небо на ладони»: придумать, как с помощью нейросети определять температуру на поверхности обнаруженных звёзд. | Jupyter Notebook, Python - os, pandas, numpy, plotly, tqdm, pandas_profiling, sklearn, pytorch |
Название проекта | Описание | Стек |
---|---|---|
Прогнозирование заказов такси | Компания «Чётенькое такси» собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. | Jupyter Notebook, Python - os, pandas, numpy, plotly, matplotlib, sklearn, statsmodels, lightgbm |
Название проекта | Описание | Стек |
---|---|---|
Рекомендация тарифов | Оператор мобильной связи «Мегалайн» выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра». | Jupyter Notebook, Python - pandas, numpy, seaborn, os, tqdm, sklearn |
Отток клиентов | Из «Бета-Банка» стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. | Jupyter Notebook, Python - pandas, numpy, seaborn, os, tqdm, matplotlib, sklearn |
Выбор локации для скважины | Мы работаем в добывающей компании «ГлавРосГосНефть». Нужно решить, где бурить новую скважину. | Jupyter Notebook, Python - pandas, numpy, seaborn, os, tqdm, matplotlib, pandas_profiling, sklearn |
Прогнозирование оттока клиентов в сети отелей «Как в гостях» | Заказчик исследования — сеть отелей «Как в гостях». Чтобы привлечь клиентов, сеть отелей добавила на свой сайт возможность забронировать номер без предоплаты. Однако если клиент отменяет бронирование, то компания терпит убытки. Чтобы решить эту проблему, нам нужно разработать систему, которая предсказывает отказ от брони. Если модель покажет, что бронь будет отменена, то клиенту предлагается внести депозит. | Jupyter Notebook, Python - pandas, numpy, seaborn, os, tqdm, matplotlib, pandas_profiling, statsmodels, sklearn |
Предсказание стоимости жилья в Калифорнии | В проекте нам нужно обучить модель линейной регрессии на данных о жилье в Калифорнии в 1990 году используя фреймворк Spark для распределённых вычислений. | Jupyter Notebook, Python - pandas, numpy, pyspark |
Защита персональных данных клиентов | Нам нужно защитить данные клиентов страховой компании «Хоть потоп». Разработаем такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуем корректность его работы. | Jupyter Notebook, Python - pandas, numpy, os, pandas_profiling, sklearn |
Определение стоимости автомобилей | Сервис по продаже автомобилей с пробегом «Не бит, не крашен» разрабатывает приложение для привлечения новых клиентов. Нам нужно построить модель для определения стоимости. | Jupyter Notebook, Python - pandas, numpy, os, seaborn, pandas_profiling, sklearn, lightgbm, catboost |
Оценка риска ДТП | Нужно создать систему для каршеринговой компании, которая могла бы оценить риск ДТП по совокупности факторов. Как только водитель забронировал автомобиль, сел за руль и выбрал маршрут, система должна оценить уровень риска. Если уровень риска высок, водитель увидит предупреждение и рекомендации по маршруту. | Jupyter Notebook, Python - pandas, numpy, plotly, matplotlib, pandas_profiling, snap, sklearn, sqlalchemy, lightgbm, catboost |
Название проекта | Описание | Стек |
---|---|---|
Определение перспективного тарифа для телеком-компании | Проведём аналитику для компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег. | Jupyter Notebook, Python - pandas, numpy, seaborn, os, matplotlib, math, scipy |
Название проекта | Описание | Стек |
---|---|---|
Яндекс.Музыка | Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в зависимости от времени (утро и вечер) и дня недели (понедельник, среда, пятница) | Jupyter Notebook, Python - pandas |
Исследование надёжности заёмщиков | Проведение исследования зависимости риска возникновения задолженности от различных факторов. | Jupyter Notebook, Python - pandas, numpy, seaborn, pymorphy2, os, collections |
Исследование объявлений о продаже квартир | В нашем распоряжении данные сервиса Яндекс.Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Нужно научиться определять рыночную стоимость объектов недвижимости. | Jupyter Notebook, Python - pandas, numpy, seaborn, os, matplotlib |
Исследование данных о российском кинопрокате | Заказчик исследования — Министерство культуры Российской Федерации. Изучим рынок российского кинопроката, уделим внимание фильмам, которые получили государственную поддержку. | Jupyter Notebook, Python - pandas, numpy, seaborn, os, matplotlib |