Данные проекты были выполнены в ходе обучения в Яндекс.Практикуме, профессии "Специалист по Data Science".
Название проекта | Описание | Используемые библиотеки |
---|---|---|
Исследование данных сервиса “Яндекс.Музыка” | Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в зависимости от времени (утро и вечер) и дня недели (понедельник, среда, пятница) | pandas |
Разработка системы предсказания сахарного диабета у пациента | Разработка системы для предсказания сахарного диабета пациента, на основании результатов медецинских анализов | pandas, numpy, matplotlib, seaborn, plotly, phik, scikit-learn, catbost, shap, optuna, streamlit |
Исследование надёжности заёмщиков | На основе данных кредитного отдела банка исследовал влияние семейного положения и количества детей на факт погашения кредита в срок. | pandas, matplotlib |
Анализ рынка недвижимости | На основе данных сервиса Яндекс.Недвижимость определена рыночная стоимость объектов недвижимости разного типа, типичные параметры квартир, в зависимости от удаленности от центра | pandas, matplotlib |
Определение выгодного тарифа для телеком компании | Проведен предварительный анализ использования тарифов на выборке клиентов, проанализировано поведение клиентов при использовании услуг оператора и рекомендованы оптимальные наборы услуг для пользователей. Проверены гипотезы о различии выручки абонентов разных тарифов и различии выручки абонентов из Москвы и других регионов. | pandas, matplotlib, numpy, scipy |
Исследование рынка российского кинопроката | Изучен рынок российского кинопроката и выявить текущие тренды. Сделан аналих наскольких фильмов, которые получили государственную поддержку, интересны зрителю. | pandas, matplotlib |
Классификаиция клиентов телеком компании | Заказчик хочет построить систему, способную проанализировать поведение клиентов и предложить пользователям новый тариф: «Смарт» или «Ультра». Подготовлена модель машинного обучения для подбора опитимального тарифа пользователям. | pandas, matplotlib, scikit-learn, seaborn |
Прогнозирование оттока клиентов Банка | Из банка стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. | pandas, matplotlib, scikit-learn, phik |
Определение наиболее выгодного региона нефтедобычи | Построена модель для определения региона, где добыча нефти принесёт наибольшую прибыль. | pandas, scikit-learn |
Система прогнозирования продажи отелей | Построить модель прогнозирования отказа от брони клиента. В качестве метрики предлагается использовать величину выручки которая получится после внедрения модели машинного обучения. | pandas, matplotlib, numpy, scikit-learn, imblearn, phik |
Прогнозирование стоимости жилья в жилом массиве | Сервис по продаже квартир закала разработку модели по прогнозированию стоимости квартиры | pandas, pyspark |
Защита данных клиентов страховой компании | Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработайте такой метод преобразования данных, чтобы по ним было сложно восстановить персональную информациюб при преобразовании качество моделей машинного обучения не ухудшилось. | pandas, numpy, scikit-learn |
Построение модели определения стоимости автомобиля | Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. На основе исторические данные необходимо построить модель для определения стоимости автомобиля. | pandas, numpy, scikit-learn, lightgbm, catboost, matplotlib, seaborn |
Прогнозирование темпаратуры звезды | На основе косвенных данных построить модель оценки температуры на поверхности звезды | pandas, scikit-learn, pytorch, matplotlib, seaborn, phik |
Прогнозирование количества заказов такси на следующий час | Компания такси собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. Строится модель для такого предсказания. | pandas, scikit-learn, statsmodels, matplotlib, pytorch |
Оценка стоимости автомобиля на вторичном рынке | Целью проекта является разработка модель предсказания стоимости автомобиля на вторичном рынке. | pandas, scikit-learn, matplotlib, vininfo, seaborn, catboos |
Поиск ближайшего похожего товара | Необходимо разработать алгоритм, который для всех товаров из validation.csv предложит несколько вариантов наиболее похожих товаров из base | pandas, scikit-learn, faiss |
Разработка системы предупреждения аварий на каршеринге | Разработка системы предупреждения аварий на каршеринге | pandas, scikit-learn, PostgreSQL, SQLalchemy |
Предсказание следующей покупки товара клиентом | Заказчик просит разработать систему, которая способная предсказать следующий заказ клиента, что бы заранее подготовить товары/продукты. | pandas, scikit-learn, catboost, optuna |
Поиск токсичных комментариев | Заказчик просит разработать систему, которая способная искать токсичные комментарии и отправлять их на модерацию. | pandas, scikit-learn, pytorch, matplotlibt, transformers, nltk |
Определение возраста покупателей | Заказчик внедряет систему компьютерного зрения для обработки фотографий покупателей. Необходимо построить модель, которая по фотографии определит приблизительный возраст человека. | pandas, tensorflow, matplotlib |
Поиск фотографии по тексту | Заказчик просит разработать демонстрационную версию поиска изображений по запросу. | pandas, matplotlib, scikit-learn, pytorch, torchvision, sentence_transformers, lightgbm |
Работа с базой данных | Составление запросов к базе данных при помощи оконных функций | pandas, SQL, PostgreSQL, sqlalchemy |