В этом проекте мы работаем с данными с соревнования на платформе Kaggle, инициатором которого был Сбер. Соревнование проводилось в 2017 году, его призовой фонд составил 25 000 $. Требования Сбера состояли в построении модели, которая бы прогнозировала цены на жильё в Москве, опираясь на параметры самого жилья, а также состояние экономики и финансового сектора в стране.
Датасет представляет собой набор данных из таблицы с информацией о параметрах жилья (train.csv). В ней изначально содержалось 292 признака о состоянии экономики России на момент продажи недвижимости (macro.csv). С целью упрощения задач мы решили отрабатывать техники очистки данных на урезанном датасете. Он содержит информацию о 61 признаке. Их значение мы будем объяснять в процессе работы с данными.
- Заполнить пропуски.
- Обнаружить и расправиться с выбросами.
- Найти и устранить дубликаты.
Проект состоит из двух частей-подпроектов:
№ | Название (ссылка) | Описание | Комментарий |
---|---|---|---|
1 | Статистические методы поиска выбросов | Проект по созданию собственной библиотеки функций для поиска выбросов в данных | Работа с источниками, программирование на python. |
2 | Проект по очистке данных | EDA-проект по исследованию и предобработке данных о квартирах в Москве | Работа с собственной библиотекой статистических функций. Также pandas, numpy, matplotlib, seaborn. |