# EDA данных для задачи на классификацию

<font size=4><b>Цель проекта</b> - обработка данных, анализ и определение факторов, влияющих на стоимость дома в Мумбаи</font>

<h1>Содержание<span class="tocSkip"></span></h1>

## Инициализация проекта

In [61]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import warnings

In [62]:
data = pd.read_csv('mumbai_houses_task.csv')

# Исследование исходных данных

<font size=4>
Датасет содержит следующие поля:

- `price` - стоимость дома;
- `area` - площадь дома;
- `latitude` - широта местоположения дома;
- `longitude` - долгота местоположения дома;
- `Bedrooms` - количество спален;
- `Bathrooms` - количество ванных комнат;
- `Balcony` - количество балконов;
- `Status` - статус дома;
- `neworold` - состояние дома;
- `parking` - количество парковочных мест;
- `Furnished_status` - состояние стройки;
- `Lift` - количество лифтов в доме;
- `type_of_building` - тип дома.
</font>

In [63]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6255 entries, 0 to 6254
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   price             6255 non-null   float64
 1   area              6255 non-null   float64
 2   latitude          6255 non-null   float64
 3   longitude         6255 non-null   float64
 4   Bedrooms          6255 non-null   float64
 5   Bathrooms         6255 non-null   float64
 6   Balcony           6255 non-null   float64
 7   Status            5774 non-null   object 
 8   neworold          6255 non-null   object 
 9   parking           6255 non-null   float64
 10  Furnished_status  3600 non-null   object 
 11  Lift              6255 non-null   float64
 12  type_of_building  6255 non-null   object 
dtypes: float64(9), object(4)
memory usage: 635.4+ KB


In [64]:
data.head(1000)

Unnamed: 0,price,area,latitude,longitude,Bedrooms,Bathrooms,Balcony,Status,neworold,parking,Furnished_status,Lift,type_of_building
0,22400000.0,629.0,19.032800,72.896357,2.0,2.0,0.0,Under Construction,New Property,0.0,,0.0,Flat
1,35000000.0,974.0,19.032800,72.896357,3.0,2.0,0.0,Under Construction,New Property,0.0,,0.0,Flat
2,31700000.0,968.0,19.085600,72.909277,3.0,3.0,0.0,Under Construction,New Property,0.0,,0.0,Flat
3,18700000.0,629.0,19.155756,72.846862,2.0,2.0,2.0,Ready to Move,New Property,2.0,,2.0,Flat
4,13500000.0,1090.0,19.177555,72.849887,2.0,2.0,0.0,,New Property,0.0,Unfurnished,0.0,Flat
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,22500000.0,950.0,19.117056,72.902024,2.0,2.0,4.0,Ready to Move,Resale,4.0,,4.0,Flat
996,17500000.0,740.0,19.106679,72.915486,2.0,2.0,0.0,Ready to Move,Resale,0.0,,0.0,Flat
997,16500000.0,850.0,19.151252,72.940475,2.0,2.0,0.0,Ready to Move,New Property,0.0,,0.0,Flat
998,55000000.0,2030.0,19.188972,72.822006,4.0,4.0,0.0,Ready to Move,Resale,0.0,Semi-Furnished,0.0,Flat


<font size=4><b>Полученная характеристика исходных данных:</b>

- в столбцах 'Status' и 'Furnished_status' отсутствую значения.

<font size=4>Столбцы с неподходящими типами данных:

- изменение типа данных столбца 'price' с float на int;
- изменение типа данных столбца 'area' с float на int;
- изменение типа данных столбца 'Bedrooms' с float на int;
- изменение типа данных столбца 'Bathrooms' с float на int;
- изменение типа данных столбца 'Balcony' с float на int;
- изменение типа данных столбца 'parking' с float на int;
- изменение типа данных столбца 'Lift' с float на int;
</font>

Приведу столбцы 'Bedrooms', 'Bathrooms', 'Balcony', 'Status', 'Furnished_status', 'Lift' в нижний регистр для упрощения работы с данными.

In [65]:
data.columns = data.columns.str.lower()
data

Unnamed: 0,price,area,latitude,longitude,bedrooms,bathrooms,balcony,status,neworold,parking,furnished_status,lift,type_of_building
0,22400000.0,629.0,19.032800,72.896357,2.0,2.0,0.0,Under Construction,New Property,0.0,,0.0,Flat
1,35000000.0,974.0,19.032800,72.896357,3.0,2.0,0.0,Under Construction,New Property,0.0,,0.0,Flat
2,31700000.0,968.0,19.085600,72.909277,3.0,3.0,0.0,Under Construction,New Property,0.0,,0.0,Flat
3,18700000.0,629.0,19.155756,72.846862,2.0,2.0,2.0,Ready to Move,New Property,2.0,,2.0,Flat
4,13500000.0,1090.0,19.177555,72.849887,2.0,2.0,0.0,,New Property,0.0,Unfurnished,0.0,Flat
...,...,...,...,...,...,...,...,...,...,...,...,...,...
6250,19500000.0,810.0,19.138320,72.810020,2.0,2.0,0.0,Ready to Move,Resale,0.0,Semi-Furnished,0.0,Flat
6251,22000000.0,1400.0,19.221920,72.854250,3.0,3.0,1.0,Ready to Move,Resale,1.0,Unfurnished,1.0,Flat
6252,20000000.0,750.0,19.144320,72.824111,2.0,2.0,0.0,Ready to Move,Resale,0.0,,0.0,Flat
6253,11000000.0,700.0,19.047201,72.872225,2.0,2.0,0.0,Ready to Move,Resale,0.0,Furnished,0.0,Flat


<font size=4> Краткое описание пропущенных значений во всех столбцах:

Датасет является практически полноценным, за исключением того, что лишь в столбцах 'status' и 'furnished_status' отсутствую значения.

# <font> Выводы и дальнейшие шаги</font>

Вывод <b>описательной статистики</b> для кадра данных pandas.
<br> Описательная статистика отображается для всех числовых столбцов в кадре данных. Если в каких-либо столбцах отсутствуют значения (NaN), Pandas автоматически исключат эти значения при расчете описательной статистики.
<br>
Для числовых данных результат будет включать count (количество), mean (среднее), std (стандартное отклонение), min, max, а также нижний, 50 -й и верхний процентили. По умолчанию <i>нижний процентиль</i> равен 25 , а <i>верхний процентиль</i> равен 75 . 50 - й процентиль <i>совпадает с медианой</i>.

In [66]:
data.describe()

Unnamed: 0,price,area,latitude,longitude,bedrooms,bathrooms,balcony,parking,lift
count,6255.0,6255.0,6255.0,6255.0,6255.0,6255.0,6255.0,6255.0,6255.0
mean,26841870.0,1185.62526,19.156772,72.868642,2.452278,2.42558,0.821583,0.821583,0.821583
std,27888310.0,636.973259,0.109447,0.058614,0.749534,0.762604,1.291957,1.291957,1.291957
min,1500000.0,503.0,18.873713,72.75408,2.0,0.0,0.0,0.0,0.0
25%,13000000.0,846.5,19.081509,72.83293,2.0,2.0,0.0,0.0,0.0
50%,19000000.0,1000.0,19.147269,72.858019,2.0,2.0,0.0,0.0,0.0
75%,30000000.0,1300.0,19.213054,72.884691,3.0,3.0,1.0,1.0,1.0
max,360000000.0,8000.0,19.476239,73.197823,10.0,10.0,8.0,8.0,8.0


In [None]:
# Проверка на совпадение столбцов 'balcony', 'parking', 'lift'

(data['balcony'] == data['parking']).all() and (data['balcony'] == data['lift']).all()

np.True_

**Заключение**

Наглядно видно, что столбцы 'balcony', 'parking', 'lift' полностью идентичны