# House Price of India project
## Часть 1: Обработка данных

Для моего проекта я нашла готовый датасет по ценам и параметрам недвижимости в Индии. Давайте импортируем нужные библиотеки и посмотрим на данные:

In [408]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

In [409]:
df = pd.read_csv('House Price India.csv')
df

Unnamed: 0,id,Date,number of bedrooms,number of bathrooms,living area,lot area,number of floors,waterfront present,number of views,condition of the house,...,Built Year,Renovation Year,Postal Code,Lattitude,Longitude,living_area_renov,lot_area_renov,Number of schools nearby,Distance from the airport,Price
0,6762810145,42491,5,2.50,3650,9050,2.0,0,4,5,...,1921,0,122003,52.8645,-114.557,2880,5400,2,58,2380000
1,6762810635,42491,4,2.50,2920,4000,1.5,0,0,5,...,1909,0,122004,52.8878,-114.470,2470,4000,2,51,1400000
2,6762810998,42491,5,2.75,2910,9480,1.5,0,0,3,...,1939,0,122004,52.8852,-114.468,2940,6600,1,53,1200000
3,6762812605,42491,4,2.50,3310,42998,2.0,0,0,3,...,2001,0,122005,52.9532,-114.321,3350,42847,3,76,838000
4,6762812919,42491,3,2.00,2710,4500,1.5,0,0,4,...,1929,0,122006,52.9047,-114.485,2060,4500,1,51,805000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14615,6762830250,42734,2,1.50,1556,20000,1.0,0,0,4,...,1957,0,122066,52.6191,-114.472,2250,17286,3,76,221700
14616,6762830339,42734,3,2.00,1680,7000,1.5,0,0,4,...,1968,0,122072,52.5075,-114.393,1540,7480,3,59,219200
14617,6762830618,42734,2,1.00,1070,6120,1.0,0,0,3,...,1962,0,122056,52.7289,-114.507,1130,6120,2,64,209000
14618,6762830709,42734,4,1.00,1030,6621,1.0,0,0,4,...,1955,0,122042,52.7157,-114.411,1420,6631,3,54,205000


Количество строк и столбцов:

In [410]:
df.shape

(14620, 23)

Датасет *House Price India* содержит следующие переменные:
- **id** - идентификатор дома
- **Date** - по комментарию автора датасета лишняя колонка
- **number of bedrooms** - количество спален
- **number of bathrooms** - количество ванных комнат 
- **living area** - жилая площадь (кв.м.)
- **lot area** - общая площадь земельного участка (кв.м)
- **number of floors** - количество этажей дома
- **waterfront present** - наличие прибрежной полосы рядом (принимает значение 1 - если есть, 0 - если нет)
- **number of views** - количество просмотров дома желающими преобрести жильё
- **condition of the house** - состояние дома (принимает оценку от 1 до 5)
- **grade of the house** - уровень земли (насколько выровнена поверхность, на которой стоит дом)
- **Area of the house(excluding basement)** - жилая площадь (кв.м., без подвала)
- **Area of the basement** - площадь подвала (кв.м.)
- **Built year** - год постройки дома
- **Renovation Year** - год реновации дома
- **Postal Code** - почтовый индекс дома
- **Lattitude** - географическая широта 
- **Longitude** - географическая долгота
- **living_area_renov** - жилая площадь после реновации (кв.м.)
- **lot_area_renov** - площадь участка после реновации (кв.м.)
- **Number of schools nearby** - количество школ поблизости
- **Distance from the airport** - расстояние до ближайшего аэропорта (км.)
- **Price** - рыночная цена дома

---

## Избавляемся от ненужных параметров

Первым делом избавимся от параметров **id** и **date**, не дающих никакой информации для исследования:

In [411]:
df = df.drop('id', axis = 1)
df = df.drop('Date', axis = 1)

Параметры **Area of the house(excluding basement)** и **Area of the basement** тоже не дают существенной информации, так как в сумме они дают жилую площадь (параметр **living area**), поэтому дропаем их:

In [412]:
df = df.drop('Area of the house(excluding basement)', axis = 1)
df = df.drop('Area of the basement', axis = 1)

Параметры **living_area_renov** и **lot_area_renov** не предоставляют интересной информации для исследования, поэтому можно их убрать:

In [413]:
df = df.drop('living_area_renov', axis = 1)
df = df.drop('lot_area_renov', axis = 1)

Уберём сомнительный параметр **grade of the house**:

In [414]:
df = df.drop('grade of the house', axis = 1)

Последним шагом избавимся от параметров **Lattitude**, **Longitude**, так как в последующем для определения района дома будем использовать параметр **Postal Code**:

In [415]:
df = df.drop('Lattitude', axis = 1)
df = df.drop('Longitude', axis = 1)

In [416]:
df.head(9)

Unnamed: 0,number of bedrooms,number of bathrooms,living area,lot area,number of floors,waterfront present,number of views,condition of the house,Built Year,Renovation Year,Postal Code,Number of schools nearby,Distance from the airport,Price
0,5,2.5,3650,9050,2.0,0,4,5,1921,0,122003,2,58,2380000
1,4,2.5,2920,4000,1.5,0,0,5,1909,0,122004,2,51,1400000
2,5,2.75,2910,9480,1.5,0,0,3,1939,0,122004,1,53,1200000
3,4,2.5,3310,42998,2.0,0,0,3,2001,0,122005,3,76,838000
4,3,2.0,2710,4500,1.5,0,0,4,1929,0,122006,1,51,805000
5,3,2.5,2600,4750,1.0,0,0,4,1951,0,122007,1,67,790000
6,5,3.25,3660,11995,2.0,0,2,3,2006,0,122008,3,72,785000
7,3,1.75,2240,10578,2.0,0,0,5,1923,0,122006,3,71,750000
8,3,2.5,2390,6550,1.0,0,2,4,1955,0,122009,1,73,750000


---

## Форматирование

Посмотрим на типы данных:

In [417]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14620 entries, 0 to 14619
Data columns (total 14 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   number of bedrooms         14620 non-null  int64  
 1   number of bathrooms        14620 non-null  float64
 2   living area                14620 non-null  int64  
 3   lot area                   14620 non-null  int64  
 4   number of floors           14620 non-null  float64
 5   waterfront present         14620 non-null  int64  
 6   number of views            14620 non-null  int64  
 7   condition of the house     14620 non-null  int64  
 8   Built Year                 14620 non-null  int64  
 9   Renovation Year            14620 non-null  int64  
 10  Postal Code                14620 non-null  int64  
 11  Number of schools nearby   14620 non-null  int64  
 12  Distance from the airport  14620 non-null  int64  
 13  Price                      14620 non-null  int

Заметим, что количество ванных комнат и количество этажей - тип *float*.   

Количество этажей может быть нецелым числом, так как существуют, например, полутораэтажные дома, однако нецелое количество ванных комнат вызывает сомнения. Непонятно как это считалось, поэтому примем за факт, что дробная часть числа составляет целую комнату (округлим значения и преобразуем тип):

In [418]:
df['number of bathrooms'] = df['number of bathrooms'
df['number of bathrooms'] = df['number of bathrooms'].astype(int)

SyntaxError: invalid syntax (Temp/ipykernel_8084/238661799.py, line 2)

Дополнительно отформатируем названия столбцов с эстетической точки зрения:

In [419]:
df.columns = ['Number of bedrooms', 'Number of bathrooms', 'Living area', 'Lot area', 'Number of floors', 'Waterfront present', 'Average views number', 'Condition of the house', 'Built Year', 'Renovation Year', 'Postal Code', 'Number of schools nearby', 'Distance from the airport', 'Price']

In [420]:
df.head(9)

Unnamed: 0,Number of bedrooms,Number of bathrooms,Living area,Lot area,Number of floors,Waterfront present,Average views number,Condition of the house,Built Year,Renovation Year,Postal Code,Number of schools nearby,Distance from the airport,Price
0,5,2.5,3650,9050,2.0,0,4,5,1921,0,122003,2,58,2380000
1,4,2.5,2920,4000,1.5,0,0,5,1909,0,122004,2,51,1400000
2,5,2.75,2910,9480,1.5,0,0,3,1939,0,122004,1,53,1200000
3,4,2.5,3310,42998,2.0,0,0,3,2001,0,122005,3,76,838000
4,3,2.0,2710,4500,1.5,0,0,4,1929,0,122006,1,51,805000
5,3,2.5,2600,4750,1.0,0,0,4,1951,0,122007,1,67,790000
6,5,3.25,3660,11995,2.0,0,2,3,2006,0,122008,3,72,785000
7,3,1.75,2240,10578,2.0,0,0,5,1923,0,122006,3,71,750000
8,3,2.5,2390,6550,1.0,0,2,4,1955,0,122009,1,73,750000


---

## Обрабатываем пропуски и нули

Посмотрим наличие пропусков в данных:

In [421]:
df.isnull().sum()

Number of bedrooms           0
Number of bathrooms          0
Living area                  0
Lot area                     0
Number of floors             0
Waterfront present           0
Average views number         0
Condition of the house       0
Built Year                   0
Renovation Year              0
Postal Code                  0
Number of schools nearby     0
Distance from the airport    0
Price                        0
dtype: int64

Как видно, **NaNов** в таблице нет, но нули есть у таких параметров, как **Waterfront present**, **Average views number**, **Renovation Year**. Узнаем подробнее про каждый параметр:

In [422]:
df['Waterfront present'].value_counts()

0    14508
1      112
Name: Waterfront present, dtype: int64

Параметр **Waterfront present** принимает значение *1* - если дом находится рядом с побережьем, *0* - если нет.

Как видим, только 112 домов из выборки находится поблизости с водой, поэтому далее будет интересно посмотреть, как коррелирует данный параметр с ценой. Таким образом, с нулями мы ничего не делаем.

In [423]:
df['Average views number'].value_counts()

0    13198
2      636
3      351
1      219
4      216
Name: Average views number, dtype: int64

Параметр **Average views number** показывает нам, сколько просмотров в среднем в день набрала недвижимость на сайте. По даннным видно, что только 1% процент от общего числа домов набрал ненулевые просмотры. По этой причине в последующем узнаем какая рыночная стоимость привлекает пользователей сайта и желающих преобрести недвижимость больше всего. Нули оставляем.

In [424]:
df['Renovation Year'].value_counts()

0       13954
2014       76
2013       30
2003       27
2005       23
        ...  
1948        1
1967        1
1944        1
1959        1
1962        1
Name: Renovation Year, Length: 68, dtype: int64

Параметр **Renovation Year** показывает нам год, в котором была произведена реновация дома. Если дом ещё не попадал под программу реновации, то параметр принимает значение *0*, если реновация уже была произведена, то указывается её год.

Для того, чтобы значения параметра были более логичными и в последующем поработать с этим параметром, заменим нули (дома без реновации) на год постройки дома (параметр **Built Year**):

In [425]:
df.loc[(df['Renovation Year'] == 0 ), 'Renovation Year'] = df['Built Year']

In [426]:
df.head(9)

Unnamed: 0,Number of bedrooms,Number of bathrooms,Living area,Lot area,Number of floors,Waterfront present,Average views number,Condition of the house,Built Year,Renovation Year,Postal Code,Number of schools nearby,Distance from the airport,Price
0,5,2.5,3650,9050,2.0,0,4,5,1921,1921,122003,2,58,2380000
1,4,2.5,2920,4000,1.5,0,0,5,1909,1909,122004,2,51,1400000
2,5,2.75,2910,9480,1.5,0,0,3,1939,1939,122004,1,53,1200000
3,4,2.5,3310,42998,2.0,0,0,3,2001,2001,122005,3,76,838000
4,3,2.0,2710,4500,1.5,0,0,4,1929,1929,122006,1,51,805000
5,3,2.5,2600,4750,1.0,0,0,4,1951,1951,122007,1,67,790000
6,5,3.25,3660,11995,2.0,0,2,3,2006,2006,122008,3,72,785000
7,3,1.75,2240,10578,2.0,0,0,5,1923,1923,122006,3,71,750000
8,3,2.5,2390,6550,1.0,0,2,4,1955,1955,122009,1,73,750000


---

## Создаём новые признаки

В рамках даннах проекта я хочу выявить влияние различных параметров (факторов) на рыночную стоимость недвижимости в Индии. В датасете уже есть много интересных параметров, которые мы рассмотрим подробнее позже. Однако мне бы хотелось добавить *новые параметры*, которые, на мой взгляд, сыграют существенную роль при анализе.

---

*Первым делом* при просмотре датесета логически из параметра **Built year** хочется вывести параметр "Возраст дома" - ***House Age***, чтобы потом использовать его при анализе и построении графиков. House Age параметр позволяет быстро оценить, насколько стар или молод дом, примерный срок его эксплуатации и к какому типу он относится.

Таким образом, возраст дома исчилсяется путём вычитания года постройки дома из текущего года:

In [427]:
df['House Age'] = pd.to_datetime('now').year - df['Built Year']

Так как в прошлом пункте мы модернизировали значения параметра **Renovation Year**, заменив нули (дома, в которых не было реновации) на год постройки дома (т.е. годом реновации считается год строительства дома, если таковой и не было), что сделало датасет визуально лучше, а значения более логически верными, то *вторым делом* хочется добавит новый параметр "Был ли дом отремонтирован" - ***Was Renovated***. Если реновация проводилась, то параметр будет принимать значение *yes*, если нет - *no*:

In [428]:
df.loc[(df['Renovation Year'] == df['Built Year'] ), 'Renovation Year'] = 0
df['Was Renovated'] = df['Renovation Year'].apply(lambda x: 'No' if x == 0 else 'Yes')
df.loc[(df['Renovation Year'] == 0 ), 'Renovation Year'] = df['Built Year']

*Третьим делом* хочется создать такой интересный признак как "Средний размер комнаты" - ***Average Room Size***. 

Ведь может быть такое, что количество комнат большое, а по площади они совсем малы, и наоборот. Этот признак точно обогатит датасет, в дальнейшем может найдётся интересная взаимосвязь с ценой. Будем рассчитывать этот параметр делением **Living area** (жилой площади) на **Number of bedrooms** (количество комнат):

In [429]:
df['Average Room Size'] = df['Living area'] / df['Number of bedrooms']
df['Average Room Size'] = df['Average Room Size'].astype(int)

*Четвертым делом* создадим не менее важный, чем другие, параметр "Планировочный коэффициент" - ***Floor Area Ratio***. 

Планировочный коэффициент относится к технико-экономическим показателям проекта здания и позволяет понять, насколько сбалансирована планировка. Он рассчитывается путём деления жилой площади на общую площадь дома. 

К жилой площади относятся только те помещения, которые пригодны для проживания: гостиная, спальня, детская, в то время как к общей площади относятся еще кухня, санузлы, коридоры, кладовые, гардеробные, подвалы и чердаки, веранды и террасы.

Для комфортабельных домов он равен 0,5 - 0,55, для экономичных решений он составляет 0,6 - 0,7, в высококачественных домах он доходит до 0,3.Чем больше планировочный коэффициент, тем экономичнее планировка дома, и наоборот.

In [430]:
df['Floor Area Ratio'] = df['Living area'] / df['Lot area']
df['Floor Area Ratio'] = df['Floor Area Ratio'].map('{:,.2f}'.format)
df['Floor Area Ratio'] = df['Floor Area Ratio'].astype(float)

Напоследок поменяем расположение колонок:

In [431]:
my_df = df.reindex(columns = ['Number of bedrooms', 'Number of bathrooms', 'Living area', 'Lot area', 'Average Room Size', 'Floor Area Ratio', 'Number of floors', 'Waterfront present', 'Average views number', 'Condition of the house', 'Built Year', 'House Age', 'Renovation Year', 'Was Renovated', 'Postal Code', 'Number of schools nearby', 'Distance from the airport', 'Price'])

---

## Подводим итоги 

Была проведена следующая *обработка данных*: мы избавились от ненужных параметров, отформатировали типы данных, обработали пропуски и нули в значениях, создали новые признаки. 

По итогам **1 части работы** получился следующий датасет:

In [432]:
my_df

Unnamed: 0,Number of bedrooms,Number of bathrooms,Living area,Lot area,Average Room Size,Floor Area Ratio,Number of floors,Waterfront present,Average views number,Condition of the house,Built Year,House Age,Renovation Year,Was Renovated,Postal Code,Number of schools nearby,Distance from the airport,Price
0,5,2.50,3650,9050,730,0.40,2.0,0,4,5,1921,102,1921,No,122003,2,58,2380000
1,4,2.50,2920,4000,730,0.73,1.5,0,0,5,1909,114,1909,No,122004,2,51,1400000
2,5,2.75,2910,9480,582,0.31,1.5,0,0,3,1939,84,1939,No,122004,1,53,1200000
3,4,2.50,3310,42998,827,0.08,2.0,0,0,3,2001,22,2001,No,122005,3,76,838000
4,3,2.00,2710,4500,903,0.60,1.5,0,0,4,1929,94,1929,No,122006,1,51,805000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14615,2,1.50,1556,20000,778,0.08,1.0,0,0,4,1957,66,1957,No,122066,3,76,221700
14616,3,2.00,1680,7000,560,0.24,1.5,0,0,4,1968,55,1968,No,122072,3,59,219200
14617,2,1.00,1070,6120,535,0.17,1.0,0,0,3,1962,61,1962,No,122056,2,64,209000
14618,4,1.00,1030,6621,257,0.16,1.0,0,0,4,1955,68,1955,No,122042,3,54,205000


My_df содержит следующие переменные:
- **Number of bedrooms** - количество спален
- **Number of bathrooms** - количество ванных комнат 
- **Living area** - жилая площадь (кв.м.)
- **Lot area** - общая площадь земельного участка (кв.м)
- **Average Room Size** - средний размер комнаты (кв.м.)
- **Floor Area Ratio** - планировачный коэффициент
- **Number of floors** - количество этажей дома
- **Waterfront present** - наличие прибрежной полосы рядом (принимает значение 1 - если есть, 0 - если нет)
- **Average views number** - сколько просмотров в среднем в день набрала недвижимость на сайте
- **Condition of the house** - состояние дома (принимает оценку от 1 до 5)
- **Grade of the house** - уровень земли (насколько выровнена поверхность, на которой стоит дом)
- **Area of the house(excluding basement)** - жилая площадь (кв.м., без подвала)
- **Area of the basement** - площадь подвала (кв.м.)
- **Built year** - год постройки дома
- **House Age** - возраст дома
- **Renovation Year** - год реновации дома
- **Was Renovated** - была ли проведена реновация дома (принимает значение Yes - если да, No - если нет)
- **Postal Code** - почтовый индекс дома
- **Number of schools nearby** - количество школ поблизости
- **Distance from the airport** - расстояние до ближайшего аэропорта (км.)
- **Price** - рыночная цена дома

---

###### *done by meow_lin*