Skip to content

khav-i/sf_data_science

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

77 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

My Data Science projects

В этом репозитории хранятся истории версий основных проектов, проделанных мной в ходе обучения в SF.

Проекты

Название (ссылка) Описание Комментарий
0 Угадай число! Простой алгоритм поиска с обратной связью. Минипроект-упражнение по работе с функциями и библиотекой numpy.
1 Извлечение цитат Парсинг данных с сайта quotes.toscrape.com. requests, BeautifulSoup.
2 Data Cleaning Project Проект по очистке данных о квартирах в Москве и Московской области на основе данных из соревнования на Kaggle. Обзор статистических методов поиска выбросов.
3.1 Анализ резюме из HeadHunter EDA-проект по исследованию и предобработке данных из hh.ru. Работа с библиотеками pandas, numpy, plotly.
3.2 Анализ вакансий из HeadHunter EDA-проект по исследованию данных из hh.ru Работа с удаленной базой данных с помощью библиотеки sqlalchemy. SQL-запросы.
4 Статистическое исследование данных о зарплатах в IT EDA-проект по исследованию и статистическому анализу данных о зарплатах специалистов DS, DE. Работа с библиотеками scipy, statsmodels.
5 Исследование отзывов на отели Booking.com EDA-проект по исследованию данных. ML-проект по предсказанию оценок постояльцев отелей по текстам оставленных ими на платформе отзывов. Помимо привычных библиотек для работы с таблицами и числами, здесь были применены библиотеки для машинного обучения sklearn, catboost и lightgbm. Также был существенно затронут NLP-инструментарий: библиотеки - nltk, textblob и afinn. Еще работа с геоданными посрдеством geopy.
6 Прогноз готовности внести депозит EDA/ML-проект классификации клиентов банка. Работа с catboost.
7 Прогнозирование продолжительности поездки на такси EDA/ML-проект по прогнозированию продолжительности поездок на такси в Нью-Йорке на основе датасета за первую половину 2016 года. Работа с большим объемом данных. XGB-модель, CatBoost.
8 RFM-сегментация клиентов онлайн-магазина EDA/ML-проект по сегментации клиентов онлайн-магазина исходя из их RFM-характеристик и созданию модели классификации новых покупателей. Работа включает в себя обстоятельную предподготовку данных, визуализацию на plotly, RFM-анализ сегментов и ансамблевые алгоритмы классификации с кросс-валидацией.
9 Work with OMG-sensors data Проект по классификации временных рядов. Предсказание жестов на основе данных с оптомиографических датчиков. Работа с данными, предоставленными компанией Моторика (Сколково).

Releases

No releases published

Packages

No packages published