Я product manager, углубленно изучающий область Data Science с целью применения моих навыков и знаний для решения сложных бизнес-задач. Мой аккаунт GitHub отражает мою деятельность и прогресс в изучении анализа данных, машинного обучения, предсказательного моделирования и визуализации данных.
Я тщательно документирую свои проекты, чтобы упростить понимание моих методов и решений. Здесь вы найдете различные проекты и наборы данных, которые я использовал для обучения и исследований.
Всегда открыт для обсуждения новых идей, возможностей для совместной работы и способов применения Data Science для решения реальных проблем. С радостью присоединюсь к сообществу специалистов по данным и с нетерпением жду своего первого профессионального опыта в этой области. Давайте делиться знаниями и вместе двигаться вперед!
Проект | Описание исследования | Библиотеки |
---|---|---|
1. Home credit bank | Цель этого соревнования - определить, насколько вероятно, что клиент не выплатит долг по выданному кредиту. Kaggle competition code. | LightGBM, Numpy, Pandas, Polars, Sklearn |
Проект | Описание исследования | Библиотеки |
---|---|---|
1. Предсказание стоимости объекта недвижимости | Предсказание стоимости объекта недвижимости на торговой площадке и на рынке. Поиск самых маржинальных объектов для инвестирования. | CatBoost, FastAPI, Pandas, Docker, Parsing |
Проект | Описание исследования | Библиотеки |
---|---|---|
01. Музыкальное приложение | Сравнение Москвы и Петербурга окружено мифами. Например: Москва — мегаполис, подчинённый жёсткому ритму рабочей недели; Петербург — культурная столица, со своими вкусами. На данных музыкального приложения мы сравниваем поведение пользователей двух столиц. | Pandas |
02. Исследование надежности заемщиков | В данном исследовании мы не оценивали влияние на срок возврата кредита сводных данных. То есть мы не оценивали, какой процент задолженнсоти у людей имеющие одновременно определенное количество детей, семейное положение, уровень дохода и цель займа. | Pandas |
03. Исследование объявлений о продаже квартир | Наша задача — выполнить предобработку данных и изучить их, чтобы найти интересные особенности и зависимости, которые существуют на рынке недвижимости. | Matplotlib, Numpy, Pandas, Seaborn |
04. Исследование данных о российском кинопрокате | Нам нужно изучить рынок российского кинопроката и выявить текущие тренды. Уделим внимание фильмам, которые получили государственную поддержку. Попробуем ответить на вопрос, насколько такие фильмы интересны зрителю. | Matplotlib, Numpy, Pandas, Seaborn |
05. Статистика тарифов мобильной связи | Нам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. | Matplotlib, Numpy, Pandas, Seaborn, Scipy |
06. Рекомендация тарифов | В нашем распоряжении данные о поведении клиентов, которые уже перешли на эти тарифы. Нужно построить модель для задачи классификации, которая выберет подходящий тариф. | Numpy, Pandas, Sklearn |
07. Отток клиентов банка | Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Нам предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. | Matplotlib, Numpy, Pandas, Seaborn, Sklearn |
08. Выбор локации для нефтяной скважины | Построим модель машинного обучения, которая поможет определить регион, где добыча принесёт наибольшую прибыль. Проанализируем возможную прибыль и риски техникой Bootstrap. | Matplotlib, Numpy, Pandas, Seaborn, Scipy, Sklearn, Bootstap |
09. Прогнозирование оттока клиентов в сети отелей | Чтобы решить эту проблему, нам нужно разработать систему, которая предсказывает отказ от брони. Если модель покажет, что бронь будет отменена, то клиенту предлагается внести депозит. | Matplotlib, Numpy, Pandas, Seaborn, Sklearn |
10. Классификация жанров музыки | Музыкальный сервис расширяет работу с новыми артистами и музыкантами, в связи с чем возникла задача - правильно классифицировать новые музыкальные треки, чтобы улучшить работу рекомендательной системы. Kaggle competition code. | Matplotlib, Numpy, Pandas, Seaborn, Sklearn, Phik, Catboost, Feauture engine, Imblearn |
11. Прогнозирование стоимости автомобиля | Сервис по продаже автомобилей с пробегом разрабатывает приложение, чтобы привлечь новых клиентов. В нём можно будет узнать рыночную стоимость своего автомобиля. Нужно создать модель, которая умеет её определять. | CatBoost, LightGBM, Matplotlib, Numpy, Pandas, Scikit learn, Scipy |
12. Подбор похожих товаров | Разработать алгоритм, который для всех товаров предложит несколько вариантов наиболее похожих. | CatBoost, Faiss, Matplotlib, Numpy, Pandas, Scikit learn, Phik |
13. Прогнозирование температуры звезды | Придумать, как с помощью нейросети определять температуру на поверхности обнаруженных звёзд. | Matplotlib, Numpy, Pandas, Scikit learn, Torch |
14. Оценка риска ДТП | Нужно создать систему, которая могла бы оценить риск ДТП по выбранному маршруту движения. Под риском понимается вероятность ДТП с любым повреждением транспортного средства. | CatBoost, Matplotlib, Numpy, Pandas, Seaborn, Shap, Scikit learn, Feature engine, SQL |
15. Прогнозирование количества заказов такси | Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. | CatBoost, Matplotlib, Numpy, Pandas, Math, Scikit learn, Statsmodels |
16. Модерация токсичных комментариев | Магазину нужен инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. | nltk, Pandas, Scikit learn |
17. Набор CV задач | Набор CV задач. | Matplotlib, Numpy, Pandas, Tensorflow |
18. Поиск фото по описанию | Получить векторное представление изображения, векторное представление текста, а на выходе число от 0 до 1 — которое покажет, насколько текст и картинка подходят друг другу. | Matplotlib, Numpy, Pandas, Seaborn, Spacy, Torch, Scikit learn |
19. Прогнозирование температуры сплава | Заказчик решил уменьшить потребление электроэнергии на этапе обработки стали. Для этого комбинату нужно контролировать температуру сплава. Задача — построить модель, которая будет её предсказывать. | CatBoost, Matplotlib, Numpy, Pandas, Scikit learn, Seaborn, SQL |