В этом репозитории собраны все учебные проекты, выполненные в рамках курса Яндекс.Практикум "Специалист по Data Science". В результате было создано множество качественных моделей машинного обучения, неоднократно был произведен полноценный исследовательский анализ действительных данных.
№ | Название проекта | Краткое описание | Используемые библиотеки |
---|---|---|---|
1 | Музыка больших городов | Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга в зависимости от времени (утро и вечер) и дня недели (понедельник, среда, пятница) | pandas |
2 | Исследование надёжности заёмщиков | Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку. | pandas pymystem3 |
3 | Исследование объявлений о продаже квартир | Имеются данные сервиса Яндекс Недвижимость — архив объявлений о продаже квартир в Санкт-Петербурге и соседних населённых пунктах за несколько лет. Нужно определить рыночную стоимость объектов недвижимости. Это позволит построить автоматизированную систему: она отследит аномалии и мошенническую деятельность. | pandas matplotlib |
4 | Определение перспективного тарифа для телеком-компании | Провести анализ данных компании «Мегалайн» — федерального оператора сотовой связи, при помощи которых коммерческий департамент сможет скорректировать рекламный бюджет, в зависимости от того, какой тариф приносит больше денег. | pandas matplotlib numpy scipy |
5 | Прогнозирование популярности игр для интернет-магазина | Используя исторические данные о продажах компьютерных игр, оценки пользователей и экспертов, жанры и платформы, выявить закономерности, определяющие успешность игры | pandas matplotlib scipy |
6 | Рекомендация тарифов | Оператор мобильной связи «Мегалайн» планирует разработать систему для анализа поведения клиентов, использующих архивные тарифы. Цель проекта - предложить пользователям новые тарифы «Смарт» или «Ультра». | pandas numpy scikit-learn |
7 | Прогнозирование оттока клиентов из банка | Из банка стали уходить клиенты. Каждый месяц. Немного, но заметно. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых. Нужно спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. | pandas matplotlib numpy scikit-learn warnings |
8 | Выбор локации для скважины | Предоставлены пробы нефти в трёх регионах. Характеристики для каждой скважины в регионе уже известны. Нужно построить модель для определения региона, где добыча принесёт наибольшую прибыль. | pandas matplotlib scikit-learn scipy numpy warnings |
9 | Восстановление золота из руды | Создание прототипа модели машинного обучения для компании, занимающейся разработкой решений для промышленных предприятий с целью оптимизировать производственные процессы и предотвратить запуск предприятий с убыточными характеристиками. | pandas matplotlib seaborn numpy warnings |
10 | Защита персональных данных клиентов | Обеспечение защиты данных клиентов страховой компании «Хоть потоп» путем разработки метода их преобразования, который затруднит восстановление персональной информации. Основная цель заключается в обеспечении безопасности данных при сохранении качества моделей машинного обучения, без необходимости подбора наилучшей модели. | pandas scikit-learn numpy |
11 | Определение стоимости автомобилей | Разработка приложения для привлечения клиентов, позволяющее быстро определять рыночную стоимость автомобилей с пробегом. Используя исторические данные о технических характеристиках, комплектациях и ценах, необходимо создать модель, которая обеспечит высокое качество, скорость предсказания и оптимальное время обучения. | pandas scikit-learn numpy time seaborn catboost lightgbm warnings |
12 | Прогнозирование заказов такси | Компания такси собрала исторические данные о заказах такси в аэропортах. Чтобы привлекать больше водителей в период пиковой нагрузки, нужно спрогнозировать количество заказов такси на следующий час. | pandas scikit-learn numpy matplotlib seaborn display warnings |
13 | Определение токсичных комментариев | Интернет-магазин запускает новый сервис. Теперь пользователи могут редактировать и дополнять описания товаров, как в вики-сообществах. То есть клиенты предлагают свои правки и комментируют изменения других. Требуется инструмент, который будет искать токсичные комментарии и отправлять их на модерацию. | pandas scikit-learn numpy seaborn stopwords WordNetLemmatizer torch nltk transformers lightgbm |
14 | Работа с базами данных. SQL практика. | В данном проекте необходимо проанализировать данные о фондах и инвестициях и написать запросы к базе данных, которые постепенно будут усложняться. | SQL DataBase |
15 | Определение возраста покупателей | В данном проекте необходимо проанализировать данные, провести исследовательский анализ и построить модель. | pandas matplotlib tensorflow |
16 | Компьютерное зрение. Обучение модели | В данном проекте необходимо обучить модель в GPU-тренажёре и сохранить результат вывода модели на экран. | numpy scikit-learn tensorflow |