Skip to content

Репозиторий, содержащий портфолио проектов выполненных мной в сфере data science

License

Notifications You must be signed in to change notification settings

Maria-Fokina/Portfolio-DS

Repository files navigation

Portfolio-DS

Контакты:

Telegram hh career.habr

В рамках курса "Специалист по Data Science" я успешно завершила 16 проектов, демонстрируя свои навыки и умения в работе с данными:

Проекты курса Я.Практикум

Дипломный проект по ML

Название проекта Направление деятельности Описание Стек
01.Прогнозирование оттока телеком компании Телеком Оператор связи хочет бороться с оттоком клиентов. Команда оператора собрала персональные данные о некоторых клиентах, информацию об их тарифах и услугах. Цель проекта: сформировать и обучить модель, которая сможет эффективно определять планирующих отказаться от услуг связи клиентов, чтобы компания могла принять меры по повышению лояльности таких клиентов и тем самым - глобально уменьшить отток. Matplotlib, Pandas, Python, Seaborn, NumPy, Scikit-learn, Phik, Category encoders, исследовательский анализ данных, классификация

Проекты по ML, DL и DA

Данные проекты были выполнены в ходе обучения в Яндекс.Практикуме, профессии "Специалист по Data Science".

Название проекта Направление деятельности Описание Стек
02.Определение возраста покупателей Компьютерное зрение, бизнес Сетевой супермаркет внедряет систему компьютерного зрения для обработки фотографий покупателей. Задача: построить модель, которая по фотографии определит приблизительный возраст человека используя набор фотографий людей с указанием возраста. Keras, Python, обработка изображений, Нейронные сети
03.Классификация комментариев Интернет-сервисы, Стартапы Определение токсичных комментариев. Интернет-магазин «Викишоп» запускает новый сервис - пользователи могут сохранить и дополнить описания товаров, как в вики-сообществах. Задача: найти инструмент, который будет искать острые комментарии и отправить их на модерацию. Pandas, Python, nltk, tf-idf
04.Исследование технологического процесса очистки золота. Восстановление золота из руды Промышленность Компания «Цифра» разрабатывает решения для эффективной работы промышленных предприятий. Задача: создать модель машинного обучения на данных с параметрами добычи и очистки руды, которая должна предсказать коэффициент восстановления золота из золотосодержащей руды. Модель поможет оптимизировать производство, чтобы не запускать предприятие с убыточными характеристиками. Matplotlib, NumPy, Pandas, Python, Scikit-learn, Анализ данных, Регрессия, Кастомные метрики
05.Прогнозирование количества заказов такси на следующий час Бизнес, Интернет-сервисы, Стартапы Компания такси собрала исторические данные о заказах такси в аэропортах. Задача: найти модель предсказания количества заказов такси на следующий час, чтобы привлекать больше водителей в период пиковой нагрузки Pandas, Python, Scikit-learn, statsmodels, Временные ряды, Регрессия
06.Анализ базы данных венчурных фондов и инвестиций в компании-стартапы с помощью SQL Аналитика База данных основана на датасете Startup Investments, опубликованном на Kaggle. Требовалось составить запросы различной сложности на SQL чтобы проанализировать активность фондов и изучить устройство венчурного рынка SQL
07.Определение стоимости автомобиля Бизнес, Интернет-магазины, Интернет-сервисы Сервис по продаже автомобилей с пробегом разрабатывает приложение для привлечения новых клиентов. В нём можно быстро узнать рыночную стоимость своего автомобиля. Задача: построить модель, которая умеет определять рыночную стоимость автомобиля на основе исторических данных. Pandas, Python, lightgbm, Градиентный бустинг, Регрессия
08.Защита данных клиентов страховой компании Банковская сфера, Инвестиции, Интернет-сервисы, Телеком Разработка модели анонимизации персональных данных. Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработка метода преобразования данных, чтобы по ним было сложно восстановить персональную информацию и чтобы при преобразовании качество моделей машинного обучения не ухудшилось. NumPy, Python, Scikit-learn
09.Определение наиболее выгодного региона нефтедобычи Добывающие компании, Промышленность Добывающей компании «ГлавРосГосНефти» нужно решить, где бурить новую скважину. Задача: на основе данных геологической разведки построить модель для определения региона, где добыча принесёт наибольшую прибыль Pandas, Scikit-learn, Bootstrap, Регрессия, Разработка бизнес-модели
10.Прогнозирование оттока клиента Банка Банковская сфера, Бизнес, Инвестиции, Кредитование Из банка стали уходить клиенты. Банковские маркетологи посчитали: сохранять текущих клиентов дешевле, чем привлекать новых.Задача: спрогнозировать, уйдёт клиент из банка в ближайшее время или нет. Предоставлены исторические данные о поведении клиентов и расторжении договоров с банком. Классификация, Matplotlib, Pandas, Python, Scikit-learn
11.Классификация клиентов телеком компании Телеком Оператор мобильной связи выяснил: многие клиенты пользуются архивными тарифами. Они хотят построить систему, способную проанализировать поведение клиентов и предложить пользователям один из новых тарифов. Задача: основываясь на данных, нужно построить модель, которая выберет подходящий тариф. Классификация, Машинное обучение, Matplotlib, Pandas, Python, Scikit-learn
12.Выявление закономерностей, определяющих коммерческую успешность игры Бизнес, Интернет-сервисы, Интернет-магазины, Интернет-магазин «Стримчик» продаёт по всему миру компьютерные игры. Задача: выявить определяющие успешность игры закономерности. Это позволит сделать ставку на потенциально популярный продукт и спланировать рекламные кампании. Pandas, Python, Math, NumPy, Matplotlib, SciPy, Seaborn
13.Анализ данных сервиса проката самокатов Бизнес, Интернет-сервисы Популярный сервис аренды самокатов GoFast передал данные о некоторых пользователях из нескольких городов, а также об их поездках. Задача: проанализировать данные и проверить некоторые гипотезы, которые могут помочь бизнесу вырасти. Python, Pandas, Matplotlib, NumPy, SciPy
14.Продажа квартир в Санкт-Петербурге — анализ рынка недвижимости Интернет-сервисы, Площадки объявлений, Аналитика Используя данные сервиса Яндекс.Недвижимость, определить рыночную стоимость объектов недвижимости и типичные параметры квартир Python, Pandas, Matplotlib, визуализация данных, исследовательский анализ данных, предобработка данных
15.Исследование надёжности заёмщиков — анализ банковских данных Банковская сфера, Кредитование, Аналитика На основе статистики о платёжеспособности клиентов исследовать влияет ли семейное положение и количество детей клиента на факт возврата кредита в срок Pandas, Python, предобработка данных
16.Сравнение предпочтений пользователей Яндекс.Музыки из Москвы и Санкт-Петербурга Интернет-сервисы, Стриминговый сервис На реальных данных Яндекс.Музыки c помощью библиотеки Pandas и её возможностей проверить данные и сравнить поведение и предпочтения пользователей двух столиц — Москвы и Санкт-Петербурга. Pandas, Python

About

Репозиторий, содержащий портфолио проектов выполненных мной в сфере data science

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published