DataCleaningProject

Проект по очистке данных о квартирах в Москве и Московской области

В этом проекте мы работаем с данными с соревнования на платформе Kaggle, инициатором которого был Сбер. Соревнование проводилось в 2017 году, его призовой фонд составил 25 000 $. Требования Сбера состояли в построении модели, которая бы прогнозировала цены на жильё в Москве, опираясь на параметры самого жилья, а также состояние экономики и финансового сектора в стране.

Данные

Датасет представляет собой набор данных из таблицы с информацией о параметрах жилья (train.csv). В ней изначально содержалось 292 признака о состоянии экономики России на момент продажи недвижимости (macro.csv). С целью упрощения задач мы решили отрабатывать техники очистки данных на урезанном датасете. Он содержит информацию о 61 признаке. Их значение мы будем объяснять в процессе работы с данными.

Задачи

Заполнить пропуски.
Обнаружить и расправиться с выбросами.
Найти и устранить дубликаты.

Проект состоит из двух частей-подпроектов:

№	Название (ссылка)	Описание	Комментарий
1	Статистические методы поиска выбросов	Проект по созданию собственной библиотеки функций для поиска выбросов в данных	Работа с источниками, программирование на python.
2	Проект по очистке данных	EDA-проект по исследованию и предобработке данных о квартирах в Москве	Работа с собственной библиотекой статистических функций. Также pandas, numpy, matplotlib, seaborn.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

DataCleaningProject

Проект по очистке данных о квартирах в Москве и Московской области

Данные

Задачи

Files

README.md

Latest commit

History

README.md

File metadata and controls

DataCleaningProject

Проект по очистке данных о квартирах в Москве и Московской области

Данные

Задачи