В этом репозитории хранятся истории версий основных проектов, проделанных мной в ходе обучения в SF.
№ | Название (ссылка) | Описание | Комментарий |
---|---|---|---|
0 | Угадай число! | Простой алгоритм поиска с обратной связью. | Минипроект-упражнение по работе с функциями и библиотекой numpy. |
1 | Извлечение цитат | Парсинг данных с сайта quotes.toscrape.com. | requests, BeautifulSoup. |
2 | Data Cleaning Project | Проект по очистке данных о квартирах в Москве и Московской области на основе данных из соревнования на Kaggle. | Обзор статистических методов поиска выбросов. |
3.1 | Анализ резюме из HeadHunter | EDA-проект по исследованию и предобработке данных из hh.ru. | Работа с библиотеками pandas, numpy, plotly. |
3.2 | Анализ вакансий из HeadHunter | EDA-проект по исследованию данных из hh.ru | Работа с удаленной базой данных с помощью библиотеки sqlalchemy. SQL-запросы. |
4 | Статистическое исследование данных о зарплатах в IT | EDA-проект по исследованию и статистическому анализу данных о зарплатах специалистов DS, DE. | Работа с библиотеками scipy, statsmodels. |
5 | Исследование отзывов на отели Booking.com | EDA-проект по исследованию данных. ML-проект по предсказанию оценок постояльцев отелей по текстам оставленных ими на платформе отзывов. | Помимо привычных библиотек для работы с таблицами и числами, здесь были применены библиотеки для машинного обучения sklearn, catboost и lightgbm. Также был существенно затронут NLP-инструментарий: библиотеки - nltk, textblob и afinn. Еще работа с геоданными посрдеством geopy. |
6 | Прогноз готовности внести депозит | EDA/ML-проект классификации клиентов банка. | Работа с catboost. |
7 | Прогнозирование продолжительности поездки на такси | EDA/ML-проект по прогнозированию продолжительности поездок на такси в Нью-Йорке на основе датасета за первую половину 2016 года. | Работа с большим объемом данных. XGB-модель, CatBoost. |
8 | RFM-сегментация клиентов онлайн-магазина | EDA/ML-проект по сегментации клиентов онлайн-магазина исходя из их RFM-характеристик и созданию модели классификации новых покупателей. | Работа включает в себя обстоятельную предподготовку данных, визуализацию на plotly, RFM-анализ сегментов и ансамблевые алгоритмы классификации с кросс-валидацией. |
9 | Work with OMG-sensors data | Проект по классификации временных рядов. Предсказание жестов на основе данных с оптомиографических датчиков. | Работа с данными, предоставленными компанией Моторика (Сколково). |