14 проектов, выполненных в рамках курса «Специалист по Data Science» сервиса онлайн-образования Яндекс.Практикум. Каждый проект состоит из исходного Jupyter Notebook файла и его отрисовку (рендеринг) в формате HTML.
Название проекта | Спринт | Сферы деятельности | Направление деятельности | Навыки и инструменты | Задачи проекта | Ключевые слова проекта |
---|---|---|---|---|---|---|
1. Исследование данных сервиса «Яндекс.Музыка» — сравнение пользователей двух городов | Базовый Python | Интернет-сервисы, Стриминговый сервис | Data Analyst | Pandas, Python | На реальных данных Яндекс.Музыки c помощью библиотеки Pandas и её возможностей проверить данные и сравнить поведение и предпочтения пользователей двух столиц — Москвы и Санкт-Петербурга. | обработка данных, дубликаты, пропуски, логическая индексация, группировка, сортировка |
2. Исследование надёжности заёмщиков — анализ банковских данных | Предобработка данных | Банковская сфера, Кредитование | Data Analyst, Финансовый аналитик | Pandas, Python, предобработка данных | На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок | обработка данных, дубликаты, пропуски, категоризация, декомпозиция |
3. Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости | Исследовательский анализ данных | Интернет-сервисы, Площадки объявлений | Data Analyst, Fraud-аналитик, Маркетинг-аналитик | Matplotlib, Pandas, Python, визуализация данных, исследовательский анализ данных, предобработка данных | Используя данные сервиса Яндекс.Недвижимость, определить рыночную стоимость объектов недвижимости и типичные параметры квартир | обработка данных, histogram, boxplot, scattermatrix, категоризация, scatterplot, фрод-мониторинг |
4. Определение выгодного тарифа для телеком компании | Статистический анализ данных | Телеком | Data Analyst, Маркетинг-аналитик, Продуктовый аналитик | Matplotlib, NumPy, Pandas, Python, SciPy, описательная статистика, проверка статистических гипотез | На основе данных клиентов оператора сотовой связи проанализировать поведение клиентов и поиск оптимального тарифа | обработка данных, histogram, boxplot, статистический тест, критерий Стьюдента |
5. Изучение закономерностей, определяющих успешность игр | Сборный проект — 1 | Gamedev, Интернет-магазины | Маркетинг-аналитик, Продуктовый аналитик | Matplotlib, NumPy, Pandas, Python, исследовательский анализ данных, описательная статистика, предобработка данных, проверка статистических гипотез | Используя исторические данные о продажах компьютерных игр, оценки пользователей и экспертов, жанры и платформы, выявить закономерности, определяющие успешность игры | обработка данных, histogram, boxplot, статистический тест, критерий Стьюдента, piechart |
6. Классификация клиентов телеком компании | Введение в машинное обучение | Телеком | Классификация, Машинное обучение | Matplotlib, Pandas, Python, Scikit-learn | На основе данных предложить клиенту тариф | классификация, подбор гиперпараметров, выбор модели МО |
7. Прогнозирование оттока клиента Банка | Обучение с учителем | Банковская сфера, Бизнес, Инвестиции, Кредитование | Классификация, Машинное обучение | Matplotlib, Pandas, Scikit-learn | На основе данных из банка определить клиент, который может уйти | классификация, подбор гиперпараметров, выбор модели МО |
8. Определение наиболее выгодного региона нефтедобычи | Машинное обучение в бизнесе | Добывающие компании | Машинное обучение, Разработка бизнес-модели, Регррессия, Финансовый аналитик | Pandas, Scikit-learn, бутстреп | На основе данных геологической разведки выбрать район добычи нефти | регрессия, разработка бизнес-модели, бутстреп |
9. Исследование технологического процесса очистки золота | Сборный проект — 2 | Промышленность | Аналитик (универсал), Машинное обучение | Matplotlib, NumPy, Pandas, Python, Scikit-learn, исследовательский анализ данных | Спрогнозировать концентрацию золота при проведении процесса очистки золота | анализ данных, регрессия, кастомные метрики |
10. Защита данных клиентов страховой компании | Линейная алгебра | Банковская сфера, Инвестиции, Интернет-сервисы, Телеком | Машинное обучение | NumPy, Python, Scikit-learn | Разработка модели анонимизации персональных данных | линейная алгебра, регрессия |
11. Построение модели определения стоимости автомобиля | Численные методы | Бизнес, Интернет-магазины, Интернет-сервисы | Машинное обучение | Pandas, Python, lightgbm | Разработка системы рекомендации стоимости автомобиля на основе его описания | градиентный бустинг, регрессия |
12. Прогнозирование количества заказов такси на следующий час | Временные ряды | Бизнес, Интернет-сервисы, Стартапы | Машинное обучение | Pandas, Python, Scikit-learn, statsmodels | Разработка системы предсказания объема заказа | временные ряды, регрессия, предсказания |
13. Обучение модели классификации комментариев | Машинное обучение для текстов | Интернет-сервисы, Стартапы | NLP, Машинное обучение | BERT, Pandas, Python, nltk, tf-idf | Определение токсичности комментарии | обработка естественного языка, NLP |
14. Обработка фотографий покупателя | Компьютерное зрение | Бизнес, Оффлайн | Машинное обучение, CV | Python, Keras | Определение возраста по фотографии | обработка изображений, нейронные сети |