# Курсовой проект для курса "Python для Data Science"

Материалы к проекту (файлы):
- train.csv
- test.csv

**Задание: Используя данные из train.csv, построить модель для предсказания цен на недвижимость (квартиры). С помощью полученной модели предсказать цены для квартир из файла test.csv.**

**Целевая переменная**: Price

Метрика: R2 - коэффициент детерминации (sklearn.metrics.r2_score)

**Сдача проекта**:
1. Прислать в раздел Задания Урока 10 ("Вебинар. Консультация по итоговому проекту") ссылку на программу в github (программа должна содержаться в файле Jupyter Notebook с расширением ipynb). (Pull request не нужен, только ссылка ведущая на сам скрипт).
2. Приложить файл с названием по образцу SShirkin_predictions.csv с предсказанными ценами для квартир из test.csv (файл должен содержать два поля: Id, Price). В файле с предсказаниями должна быть 5001 строка (шапка + 5000 предсказаний).

**Сроки и условия сдачи**:
- Дедлайн: сдать проект нужно в течение 72 часов после начала Урока 10 ("Вебинар. Консультация по итоговому проекту").
- Для успешной сдачи должны быть все предсказания (для 5000 квартир) и R2 должен быть больше 0.6.
- При сдаче до дедлайна результат проекта может попасть в топ лучших результатов.
- Повторная сдача и проверка результатов возможны только при условии предыдущей неуспешной сдачи.
- Успешный проект нельзя пересдать в целях повышения результата.
- Проекты, сданные после дедлайна или сданные повторно, не попадают в топ лучших результатов, но можно узнать результат.
- В качестве итогового результата берется первый успешный результат, последующие успешные результаты не учитываются.

*Примечание*: Все файлы csv должны содержать названия полей (header - то есть "шапку"), разделитель - запятая. В файлах не должны содержаться индексы из датафрейма.

**Рекомендации для файла с кодом (ipynb)**:
1. Файл должен содержать заголовки и комментарии
2. Повторяющиеся операции лучше оформлять в виде функций
3. Не делать вывод большого количества строк таблиц (5-10 достаточно)
4. По возможности добавлять графики, описывающие данные (около 3-5)
5. Добавлять только лучшую модель, то есть не включать в код все варианты решения проекта
6. Скрипт проекта должен отрабатывать от начала и до конца (от загрузки данных до выгрузки предсказаний)
7. Весь проект должен быть в одном скрипте (файл ipynb).
8. При использовании статистик (среднее, медиана и т.д.) в качестве признаков,
лучше считать их на трейне, и потом на валидационных и тестовых данных не считать 
статистики заново, а брать их с трейна. Если хватает знаний, можно использовать кросс-валидацию,
но для сдачи этого проекта достаточно разбить данные из train.csv на train и valid.
9. Проект должен полностью отрабатывать за разумное время (не больше 10 минут),
поэтому в финальный вариант лучше не включать GridSearch с перебором 
большого количества сочетаний параметров.
10. Допускается применение библиотек Python и моделей машинного обучения,
которые были в курсе Python для Data Science. Градиентный бустинг изучается
в последующих курсах, поэтому в этом проекте его применять не следует.
Самая сложная из допустимых моделей - RandomForestRegressor из sklearn.

In [1]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns
%matplotlib inline
%config InlineBackend.figure_format = 'svg'
plt.style.use(['dark_background']) # тёмный фон графиков

In [2]:
train_dataset = '../../data/house_price/train.csv'
prepared_train_dataset = '../../data/house_price/train_prepared.csv'
df = pd.read_csv(train_dataset)
print(df.shape)
df.head()

(10000, 20)


Unnamed: 0,Id,DistrictId,Rooms,Square,LifeSquare,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,Ecology_2,Ecology_3,Social_1,Social_2,Social_3,Healthcare_1,Helthcare_2,Shops_1,Shops_2,Price
0,14038,35,2.0,47.981561,29.442751,6.0,7,9.0,1969,0.08904,B,B,33,7976,5,,0,11,B,184966.93073
1,15053,41,3.0,65.68364,40.049543,8.0,7,9.0,1978,7e-05,B,B,46,10309,1,240.0,1,16,B,300009.450063
2,4765,53,2.0,44.947953,29.197612,0.0,8,12.0,1968,0.049637,B,B,34,7759,0,229.0,1,3,B,220925.908524
3,5809,58,2.0,53.352981,52.731512,9.0,8,17.0,1977,0.437885,B,B,23,5735,3,1084.0,0,5,B,175616.227217
4,10783,99,1.0,39.649192,23.776169,7.0,11,12.0,1976,0.012339,B,B,35,5776,1,2078.0,2,4,B,150226.531644


**Описание датасета**

* **Id** - идентификационный номер квартиры
* **DistrictId** - идентификационный номер района
* **Rooms** - количество комнат
* **Square** - площадь
* **LifeSquare** - жилая площадь
* **KitchenSquare** - площадь кухни
* **Floor** - этаж
* **HouseFloor** - количество этажей в доме
* **HouseYear** - год постройки дома
* **Ecology_1, Ecology_2, Ecology_3** - экологические показатели местности
* **Social_1, Social_2, Social_3** - социальные показатели местности
* **Healthcare_1, Helthcare_2** - показатели местности, связанные с охраной здоровья
* **Shops_1, Shops_2** - показатели, связанные с наличием магазинов, торговых центров
* **Price** - цена квартиры

Проверка типов данных. Какие данные не числовые.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 20 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             10000 non-null  int64  
 1   DistrictId     10000 non-null  int64  
 2   Rooms          10000 non-null  float64
 3   Square         10000 non-null  float64
 4   LifeSquare     7887 non-null   float64
 5   KitchenSquare  10000 non-null  float64
 6   Floor          10000 non-null  int64  
 7   HouseFloor     10000 non-null  float64
 8   HouseYear      10000 non-null  int64  
 9   Ecology_1      10000 non-null  float64
 10  Ecology_2      10000 non-null  object 
 11  Ecology_3      10000 non-null  object 
 12  Social_1       10000 non-null  int64  
 13  Social_2       10000 non-null  int64  
 14  Social_3       10000 non-null  int64  
 15  Healthcare_1   5202 non-null   float64
 16  Helthcare_2    10000 non-null  int64  
 17  Shops_1        10000 non-null  int64  
 18  Shops_2

In [4]:
pd.concat([df['Ecology_2'].value_counts(), df['Ecology_3'].value_counts(), df['Shops_2'].value_counts()], axis=1)

Unnamed: 0,Ecology_2,Ecology_3,Shops_2
B,9903,9725,9175
A,97,275,825


Приведение категориальных переменных к dummy-переменным

In [5]:
df = pd.get_dummies(df)
df

Unnamed: 0,Id,DistrictId,Rooms,Square,LifeSquare,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,...,Healthcare_1,Helthcare_2,Shops_1,Price,Ecology_2_A,Ecology_2_B,Ecology_3_A,Ecology_3_B,Shops_2_A,Shops_2_B
0,14038,35,2.0,47.981561,29.442751,6.0,7,9.0,1969,0.089040,...,,0,11,184966.930730,0,1,0,1,0,1
1,15053,41,3.0,65.683640,40.049543,8.0,7,9.0,1978,0.000070,...,240.0,1,16,300009.450063,0,1,0,1,0,1
2,4765,53,2.0,44.947953,29.197612,0.0,8,12.0,1968,0.049637,...,229.0,1,3,220925.908524,0,1,0,1,0,1
3,5809,58,2.0,53.352981,52.731512,9.0,8,17.0,1977,0.437885,...,1084.0,0,5,175616.227217,0,1,0,1,0,1
4,10783,99,1.0,39.649192,23.776169,7.0,11,12.0,1976,0.012339,...,2078.0,2,4,150226.531644,0,1,0,1,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9995,77,32,2.0,50.401785,30.476203,5.0,6,5.0,1968,0.135650,...,350.0,3,11,196684.316040,0,1,0,1,0,1
9996,6159,18,1.0,41.521546,20.539216,9.0,13,13.0,2000,0.000000,...,,0,5,189050.289571,0,1,0,1,1,0
9997,5123,27,1.0,47.939008,,1.0,12,16.0,2015,0.072158,...,,0,0,159143.805370,0,1,0,1,1,0
9998,5400,75,2.0,43.602562,33.840147,8.0,1,5.0,1961,0.307467,...,325.0,2,5,181595.339808,0,1,1,0,0,1


In [6]:
df.describe()

Unnamed: 0,Id,DistrictId,Rooms,Square,LifeSquare,KitchenSquare,Floor,HouseFloor,HouseYear,Ecology_1,...,Healthcare_1,Helthcare_2,Shops_1,Price,Ecology_2_A,Ecology_2_B,Ecology_3_A,Ecology_3_B,Shops_2_A,Shops_2_B
count,10000.0,10000.0,10000.0,10000.0,7887.0,10000.0,10000.0,10000.0,10000.0,10000.0,...,5202.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0,10000.0
mean,8383.4077,50.4008,1.8905,56.315775,37.199645,6.2733,8.5267,12.6094,3990.166,0.118858,...,1142.90446,1.3195,4.2313,214138.857399,0.0097,0.9903,0.0275,0.9725,0.0825,0.9175
std,4859.01902,43.587592,0.839512,21.058732,86.241209,28.560917,5.241148,6.775974,200500.3,0.119025,...,1021.517264,1.493601,4.806341,92872.293865,0.098015,0.098015,0.163543,0.163543,0.275139,0.275139
min,0.0,0.0,0.0,1.136859,0.370619,0.0,1.0,0.0,1910.0,0.0,...,0.0,0.0,0.0,59174.778028,0.0,0.0,0.0,0.0,0.0,0.0
25%,4169.5,20.0,1.0,41.774881,22.769832,1.0,4.0,9.0,1974.0,0.017647,...,350.0,0.0,1.0,153872.633942,0.0,1.0,0.0,1.0,0.0,1.0
50%,8394.5,36.0,2.0,52.51331,32.78126,6.0,7.0,13.0,1977.0,0.075424,...,900.0,1.0,3.0,192269.644879,0.0,1.0,0.0,1.0,0.0,1.0
75%,12592.5,75.0,2.0,65.900625,45.128803,9.0,12.0,17.0,2001.0,0.195781,...,1548.0,2.0,6.0,249135.462171,0.0,1.0,0.0,1.0,0.0,1.0
max,16798.0,209.0,19.0,641.065193,7480.592129,2014.0,42.0,117.0,20052010.0,0.521867,...,4849.0,6.0,23.0,633233.46657,1.0,1.0,1.0,1.0,1.0,1.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 23 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             10000 non-null  int64  
 1   DistrictId     10000 non-null  int64  
 2   Rooms          10000 non-null  float64
 3   Square         10000 non-null  float64
 4   LifeSquare     7887 non-null   float64
 5   KitchenSquare  10000 non-null  float64
 6   Floor          10000 non-null  int64  
 7   HouseFloor     10000 non-null  float64
 8   HouseYear      10000 non-null  int64  
 9   Ecology_1      10000 non-null  float64
 10  Social_1       10000 non-null  int64  
 11  Social_2       10000 non-null  int64  
 12  Social_3       10000 non-null  int64  
 13  Healthcare_1   5202 non-null   float64
 14  Helthcare_2    10000 non-null  int64  
 15  Shops_1        10000 non-null  int64  
 16  Price          10000 non-null  float64
 17  Ecology_2_A    10000 non-null  uint8  
 18  Ecology

Для начала строю простую модель.

Удаляю данные с пропусками

In [8]:
df_1 = df.drop(['LifeSquare', 'Healthcare_1'], axis=1)

In [9]:
y_1 = df_1['Price']
x_1 = df_1.drop('Price', axis=1)

from sklearn.model_selection import train_test_split
x_train_1, x_valid_1, y_train_1, y_valid_1 = train_test_split(x_1, y_1, test_size=0.25)

from sklearn.linear_model import LinearRegression
lr = LinearRegression()
lr.fit(x_train_1, y_train_1)
y_pred = lr.predict(x_valid_1)

# Для подсчёта правильных ответов будем использовать метрику accuracy (_точность_). Она равна отношению числа объектов, на которых целевой класс был угадан верно, к общему числу объектов.
from sklearn.metrics import mean_squared_error
mse_train = mean_squared_error(y_pred, y_valid_1)
print(mse_train)

# Также сделаем предсказание на тренировочном датасете и посчитаем точность на нём:
y_pred_train_1 = lr.predict(x_train_1)
mse_test = mean_squared_error(y_pred_train_1, y_train_1)
print(mse_test)

5276662381.721983
4177745280.6558137


In [10]:
# plt.scatter(y_pred, y_valid_1, s=1)
# plt.scatter(y_pred_train_1, y_train_1, s=1)
# plt.show()

$R^2$

In [11]:
from sklearn.metrics import r2_score
r2_score_train = r2_score(y_pred, y_valid_1)
print(r2_score_train)
r2_score_test = r2_score(y_pred_train_1, y_train_1)
print(r2_score_test)

-0.06473753040867636
0.010367562965549859


In [12]:
check_test = pd.DataFrame({'y_test_1': y_test_1.round(), 'y_pred': y_pred.round()})
check_test.head(10)

NameError: name 'y_test_1' is not defined

In [None]:
%%time
plt.figure(figsize=(10,8))
plt.scatter(df['Square'], df['LifeSquare'], s=1)
plt.title('Зависимость жилой площади от общей площади для квартир с жил площадью < 10 м2')
plt.xlabel('Общая площадь')
plt.ylabel('Жилая площадь')
plt.axis([0, 225, 0, 10])
plt.savefig("square_vs_life_square_around_zero.png")
plt.show()

In [None]:
# %%time
# plt.figure(figsize=(10,8))
# plt.scatter(df['Square'], df['LifeSquare'], s=1)
# plt.title('Зависимость жилой площади от общей площади')
# plt.xlabel('Общая площадь')
# plt.ylabel('Жилая площадь')
# plt.axis([0, 225, -5, 225])
# plt.savefig("square_vs_life_square.png")
# plt.show()

![square_vs_life_square.png](attachment:square_vs_life_square.png)

Построение графиков корреляций

In [None]:
%%time
sns.pairplot(df)
plt.show()
#plt.savefig("correlations.png")

Проверка на пропуски

In [None]:
df.isna().sum(axis = 0)

Нужно ли привести типы данных к одному виду? Пока не привожу

## Back-up

Построить тепловую карту - координаты и зависимости пропусков healthcare

In [None]:
# df.plot(kind='scatter', x=df['DistrictId'].convert_dtypes('float64'), y=df['Price'], alpha=0.5,
#         s=df['LifeSquare'] / 50, label='population', c='median_house_value',
#         cmap=plt.get_cmap('jet'), figsize=(12,12))

# #plt.imshow(california_map, extent=[-124.55, -113.80, 32.45, 42.05], alpha=0.5)

# plt.xlabel("Longitude")
# plt.ylabel("Latitude")
# plt.title("Homes geography")
# plt.legend() 
# plt.show()

In [None]:
#sns.lmplot( x=df['Square'].iloc[::100,:], y=df['LifeSquare'].iloc[::100,:], data=df, fit_reg=False, hue=df['Ecology_1'], legend=False, palette="Set1")
#plt.legend(loc='lower right')

In [None]:
df.isna().sum()

In [None]:
#sns.jointplot(df['DistrictId'], df['Price'])
#sns.jointplot(df['HouseYear'], df['Price'])

In [None]:
# %time
# sns.pairplot(df, kind="reg")
# plt.savefig("correlation_reg.png")
# plt.show()