Контакты:
В рамках курса "Специалист по Data Science" я успешно завершила 16 проектов, демонстрируя свои навыки и умения в работе с данными:
Название проекта | Направление деятельности | Описание | Стек |
---|---|---|---|
01.Прогнозирование оттока телеком компании | Телеком | Оператор связи хочет бороться с оттоком клиентов. Команда оператора собрала персональные данные о некоторых клиентах, информацию об их тарифах и услугах. Цель проекта: сформировать и обучить модель, которая сможет эффективно определять планирующих отказаться от услуг связи клиентов, чтобы компания могла принять меры по повышению лояльности таких клиентов и тем самым - глобально уменьшить отток. | Matplotlib, Pandas, Python, Seaborn, NumPy, Scikit-learn, Phik, Category encoders, исследовательский анализ данных, классификация |
Данные проекты были выполнены в ходе обучения в Яндекс.Практикуме, профессии "Специалист по Data Science".
Название проекта | Направление деятельности | Описание | Стек |
---|---|---|---|
02.Определение возраста покупателей | Компьютерное зрение, бизнес | Сетевой супермаркет внедряет систему компьютерного зрения для обработки фотографий покупателей. Задача: построить модель, которая по фотографии определит приблизительный возраст человека используя набор фотографий людей с указанием возраста. | Keras, Python, обработка изображений, Нейронные сети |
03.Классификация комментариев | Интернет-сервисы, Стартапы | Определение токсичных комментариев. Интернет-магазин «Викишоп» запускает новый сервис - пользователи могут сохранить и дополнить описания товаров, как в вики-сообществах. Задача: найти инструмент, который будет искать острые комментарии и отправить их на модерацию. | Pandas, Python, nltk, tf-idf |
04.Исследование технологического процесса очистки золота. Восстановление золота из руды | Промышленность | Компания «Цифра» разрабатывает решения для эффективной работы промышленных предприятий. Задача: создать модель машинного обучения на данных с параметрами добычи и очистки руды, которая должна предсказать коэффициент восстановления золота из золотосодержащей руды. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками. | Matplotlib, NumPy, Pandas, Python, Scikit-learn, Анализ данных, Регрессия, Кастомные метрики |
05.Прогнозирование количества заказов такси на следующий час | Бизнес, Интернет-сервисы, Стартапы | Компания такси собрала исторические данные о заказах такси в аэропортах. Задача: найти модель предсказания количества заказов такси на следующий час, чтобы привлекать больше водителей в период пиковой нагрузки | Pandas, Python, Scikit-learn, statsmodels, Временные ряды, Регрессия |
06.Анализ базы данных венчурных фондов и инвестиций в компании-стартапы с помощью SQL | Аналитика | База данных основана на датасете Startup Investments, опубликованном на Kaggle. Требовалось составить запросы различной сложности на SQL чтобы проанализировать активность фондов и изучить устройство венчурного рынка | SQL |
07.Определение стоимости автомобиля | Бизнес, Интернет-магазины, Интернет-сервисы | Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. Задача: построить модель, которая умеет определять рыночную стоимость автомобиля на основе исторических данных. | Pandas, Python, lightgbm, Градиентный бустинг, Регрессия |
08.Защита данных клиентов страховой компании | Банковская сфера, Инвестиции, Интернет-сервисы, Телеком | Разработка модели анонимизации персональных данных. Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработка метода преобразования данных, чтобы по ним было сложно восстановить персональную информацию и чтобы при преобразовании качество моделей машинного обучения не ухудшилось. | NumPy, Python, Scikit-learn |
09.Определение наиболее выгодного региона нефтедобычи | Добывающие компании, Промышленность | Добывающей компании «ГлавРосГосНефти» нужно решить, где бурить новую скважину. Задача: на основе данных геологической разведки построить модель для определения региона, где добыча принесёт наибольшую прибыль | Pandas, Scikit-learn, Bootstrap, Регрессия, Разработка бизнес-модели |
10.Прогнозирование оттока клиента Банка | Банковская сфера, Бизнес, Инвестиции, Кредитование | Из банка стали уходить клиенты. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.Задача: спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. | Классификация, Matplotlib, Pandas, Python, Scikit-learn |
11.Классификация клиентов телеком компании | Телеком | Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям один из новых тарифов. Задача: основываясь на данных, нужно построить модель, которая выберет подходящий тариф. | Классификация, Машинное обучение, Matplotlib, Pandas, Python, Scikit-learn |
12.Выявление закономерностей, определяющих коммерческую успешность игры | Бизнес, Интернет-сервисы, Интернет-магазины, | Интернет-магазин «Стримчик» продаёт по всему миру компьютерные игры. Задача: выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании. | Pandas, Python, Math, NumPy, Matplotlib, SciPy, Seaborn |
13.Анализ данных сервиса проката самокатов | Бизнес, Интернет-сервисы | Популярный сервис аренды самокатов GoFast передал данные о некоторых пользователях из нескольких городов, а также об их поездках. Задача: проанализировать данные и проверить некоторые гипотезы, которые могут помочь бизнесу вырасти. | Python, Pandas, Matplotlib, NumPy, SciPy |
14.Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости | Интернет-сервисы, Площадки объявлений, Аналитика | Используя данные сервиса Яндекс.Недвижимость, определить рыночную стоимость объектов недвижимости и типичные параметры квартир | Python, Pandas, Matplotlib, визуализация данных, исследовательский анализ данных, предобработка данных |
15.Исследование надёжности заёмщиков — анализ банковских данных | Банковская сфера, Кредитование, Аналитика | На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок | Pandas, Python, предобработка данных |
16.Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга | Интернет-сервисы, Стриминговый сервис | На реальных данных Яндекс.Музыки c помощью библиотеки Pandas и её возможностей проверить данные и сравнить поведение и предпочтения пользователей двух столиц — Москвы и Санкт-Петербурга. | Pandas, Python |