Skip to content

Latest commit

 

History

History
24 lines (16 loc) · 2.66 KB

README.md

File metadata and controls

24 lines (16 loc) · 2.66 KB

DataCleaningProject

Проект по очистке данных о квартирах в Москве и Московской области

В этом проекте мы работаем с данными с соревнования на платформе Kaggle, инициатором которого был Сбер. Соревнование проводилось в 2017 году, его призовой фонд составил 25 000 $. Требования Сбера состояли в построении модели, которая бы прогнозировала цены на жильё в Москве, опираясь на параметры самого жилья, а также состояние экономики и финансового сектора в стране.

Данные

Датасет представляет собой набор данных из таблицы с информацией о параметрах жилья (train.csv). В ней изначально содержалось 292 признака о состоянии экономики России на момент продажи недвижимости (macro.csv).  С целью упрощения задач мы решили отрабатывать техники очистки данных на урезанном датасете. Он содержит информацию о 61 признаке. Их значение мы будем объяснять в процессе работы с данными.

Задачи

  • Заполнить пропуски.
  • Обнаружить и расправиться с выбросами.
  • Найти и устранить дубликаты.

Проект состоит из двух частей-подпроектов:

Название (ссылка) Описание Комментарий
1 Статистические методы поиска выбросов Проект по созданию собственной библиотеки функций для поиска выбросов в данных Работа с источниками, программирование на python.
2 Проект по очистке данных EDA-проект по исследованию и предобработке данных о квартирах в Москве Работа с собственной библиотекой статистических функций. Также pandas, numpy, matplotlib, seaborn.