### Домашнее задание «Ансамблирование»
1. Теперь решаем задачу регрессии - предскажем цены на недвижимость.
2. Использовать датасет https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data (train.csv)
3. Данных немного, поэтому необходимо использовать 10-fold кросс-валидацию для оценки качества моделей
4. Построить случайный лес, вывести важность признаков
5. Обучить стекинг как минимум 3х моделей, использовать хотя бы 1 линейную модель и 1 нелинейную
6. Для валидации модели 2-го уровня использовать отдельный hold-out датасет, как на занятии
7. Показать, что использование ансамблей моделей действительно улучшает качество (стекинг vs другие модели сравнивать на hold-out)
8. В качестве решения: Jupyter notebook с кодом, комментариями и графикам

In [144]:
import pandas as pd
import numpy as np

In [145]:
df_full = pd.read_csv('/home/data/netology_ml/data/hw 6 (ensemble learning)/train.csv')
df_sub = pd.read_csv('/home/data/netology_ml/data/hw 6 (ensemble learning)/test.csv')

Познакомимся с данными

In [146]:
df_full.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [147]:
df_full.describe().transpose()[df_full.describe().transpose()['count'] != 1460]

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
LotFrontage,1201.0,70.049958,24.284752,21.0,59.0,69.0,80.0,313.0
MasVnrArea,1452.0,103.685262,181.066207,0.0,0.0,0.0,166.0,1600.0
GarageYrBlt,1379.0,1978.506164,24.689725,1900.0,1961.0,1980.0,2002.0,2010.0


Краткое изучение датасета показало, что все пропущенные значения имеют смысл. Например: если у дома нет гаража, до дата постройки гаража будет NaN. Логично.

Поступим так:
- Все пропуски категориальных переменных заменим на 'No'
- Все числовые значения заменим на 0

In [148]:
for col in df_full.columns:
    if df_full[col].dtypes == 'O':
        df_full[col] = df_full[col].fillna(value='No')
    else:
        df_full[col] = df_full[col].fillna(value=0)
        
for col in df_sub.columns:
    if df_sub[col].dtypes == 'O':
        df_sub[col] = df_sub[col].fillna(value='No')
    else:
        df_sub[col] = df_sub[col].fillna(value=0)

У нас много категориальных переменных. Применим one hot encoding. И выделим целевую переменную. Отшкалируем значения.

In [149]:
from sklearn.preprocessing import StandardScaler

In [150]:
X_train = pd.get_dummies(df_full.drop(columns=['SalePrice', 'Id']))
y_train = df_full.SalePrice

In [151]:
scaler = StandardScaler()
scaler.fit(X_train)
X_train_scaled = scaler.transform(X_train)

Обучим и оценим качество случайного леса с применением 10-fold кросс-валидации

In [152]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import cross_val_score

In [153]:
forest = RandomForestRegressor(random_state=42)

In [154]:
cros_val = cross_val_score(forest, X_train_scaled, y_train, cv=10, n_jobs=-1, scoring='r2')

In [155]:
cros_val.mean()

0.8432710978863579

Хм, $R^2$ = 0.84 на 10-fold кросс-валидации. Неплохо

Строим случайный лес и выводим важность признаков.

In [157]:
forest.fit(X_train_scaled, y_train)

RandomForestRegressor(bootstrap=True, criterion='mse', max_depth=None,
           max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
           oob_score=False, random_state=42, verbose=0, warm_start=False)

In [158]:
feature_importances = pd.DataFrame(X_train.columns.tolist(), columns=['features'])
feature_importances['importance'] = forest.feature_importances_

In [159]:
feature_importances.sort_values(by='importance', ascending=False).head(10)

Unnamed: 0,features,importance
3,OverallQual,0.5644
15,GrLivArea,0.107975
11,TotalBsmtSF,0.047743
8,BsmtFinSF1,0.037745
13,2ndFlrSF,0.028589
25,GarageCars,0.027849
12,1stFlrSF,0.027491
18,FullBath,0.012857
26,GarageArea,0.012702
2,LotArea,0.012451


1. OverallQual: Overall material and finish quality
2. GrLivArea: Above grade (ground) living area square feet
3. TotalBsmtSF: Total square feet of basement area
4. 2ndFlrSF: Second floor square feet
5. BsmtFinSF1: Type 1 finished square feet

Ничего удивительного, качество отделки помещений и его площадь играют ключевую роль в стоимости жилья. Наличие второго этажа и гаража также влияют на стоимость.

Обучим стекинг как минимум 3х моделей, используем хотя бы 1 линейную модель и 1 нелинейную