Skip to content

khav-i/DataCleaningProject

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

18 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DataCleaningProject

Проект по очистке данных о квартирах в Москве и Московской области

В этом проекте мы работаем с данными с соревнования на платформе Kaggle, инициатором которого был Сбер. Соревнование проводилось в 2017 году, его призовой фонд составил 25 000 $. Требования Сбера состояли в построении модели, которая бы прогнозировала цены на жильё в Москве, опираясь на параметры самого жилья, а также состояние экономики и финансового сектора в стране.

Данные

Датасет представляет собой набор данных из таблицы с информацией о параметрах жилья (train.csv). В ней изначально содержалось 292 признака о состоянии экономики России на момент продажи недвижимости (macro.csv).  С целью упрощения задач мы решили отрабатывать техники очистки данных на урезанном датасете. Он содержит информацию о 61 признаке. Их значение мы будем объяснять в процессе работы с данными.

Задачи

  • Заполнить пропуски.
  • Обнаружить и расправиться с выбросами.
  • Найти и устранить дубликаты.

Проект состоит из двух частей-подпроектов:

Название (ссылка) Описание Комментарий
1 Статистические методы поиска выбросов Проект по созданию собственной библиотеки функций для поиска выбросов в данных Работа с источниками, программирование на python.
2 Проект по очистке данных EDA-проект по исследованию и предобработке данных о квартирах в Москве Работа с собственной библиотекой статистических функций. Также pandas, numpy, matplotlib, seaborn.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published