# Поиск выбросов и генерация новых признаков

Теперь решаем задачу регрессии - предскажем цены на недвижимость. Использовать датасет www.kaggle.com...iques/data (train.csv)
Данных немного, поэтому необходимо использовать 10-fold кросс-валидацию для оценки качества моделей
Построить случайный лес, вывести важность признаков
Обучить стекинг как минимум 3х моделей, использовать хотя бы 1 линейную модель и 1 нелинейную
Для валидации модели 2-го уровня использовать отдельный hold-out датасет, как на занятии
Показать, что использование ансамблей моделей действительно улучшает качество (стекинг vs другие модели сравнивать на hold-out)

In [129]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import StackingRegressor
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn import svm
from sklearn.linear_model import RidgeCV
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [78]:
data = pd.read_csv('train.csv')

In [79]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

Тип доступа к собственности по аллее - много пропусков и не особо информативный признак, MiscFeature - просто разные ф-ии, тоже много пропусков, Id не несет важной информации. Удалим эти столбцы

In [80]:
data.drop(labels = ["Alley", "MiscFeature", "Id"], axis = 1, inplace = True)

In [81]:
X = data.iloc[:,:-1]

In [82]:
y = data.iloc[:,-1]

Т.к. камин, бассейн и пр. могут просто не встречаться в других домах, то заполним пропущенные значения nan

In [83]:
categorials = list(data.dtypes[data.dtypes == object].index)
categorials_nunique = X[categorials].nunique()
data[categorials] = data[categorials].fillna('nan')
dummy_train = pd.get_dummies(X[categorials], columns=categorials)
dummy_cols = list(set(dummy_train))
dummy_train = dummy_train[dummy_cols]

In [131]:
integer = [f for f in data if f not in (categorials + ['SalePrice'])]
X = pd.concat([X[integer].fillna(-999), dummy_train], axis=1)

Используем 10-fold кросс-валидацию для оценки качества моделей

In [132]:
kf = KFold(n_splits=10)

Построим случайный лес и выведем оценки по фолдам и среднюю оценку

In [133]:
clf_rf = RandomForestRegressor()
scores = cross_val_score(clf_rf, X, y, cv=kf) #scoring='neg_mean_absolute_error'

In [134]:
scores

array([0.87076551, 0.88896553, 0.92204482, 0.77908679, 0.87677517,
       0.89456428, 0.89453869, 0.88274752, 0.79111334, 0.85686142])

In [135]:
np.mean(np.absolute(scores))

0.8657463075726696

Оценка без KFold была выше (0.9742740250222833, 0.8977118156833898). Обучим стекинг с моделями: LinearRegression, DecisionTreeRegressor, KNeighborsRegressor. В DecisionTreeRegressor укажем параметры, т.к. с параметрами не будет переобучения. Оставим KNeighborsRegressor как в лекции "Ансамблирование", т.к. оценка выше. Разобъем выборки на train и test

In [139]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

In [140]:
Regressor = StackingRegressor(
    [
        ('LinearRegression', LinearRegression()),
        ('DecisionTreeRegressor', DecisionTreeRegressor(max_depth=8, min_samples_leaf=9, criterion='mae')),
        ('KNeighborsRegressor', KNeighborsRegressor())
    ], RidgeCV())

In [141]:
Regressor.fit(X_train, y_train)

StackingRegressor(estimators=[('LinearRegression', LinearRegression()),
                              ('DecisionTreeRegressor',
                               DecisionTreeRegressor(criterion='mae',
                                                     max_depth=8,
                                                     min_samples_leaf=9)),
                              ('KNeighborsRegressor', KNeighborsRegressor())],
                  final_estimator=RidgeCV(alphas=array([ 0.1,  1. , 10. ])))

In [142]:
print(f'Score on train data {Regressor.score(X_train, y_train)}')
print(f'Score on test data {Regressor.score(X_test, y_test)}')

for i in Regressor.named_estimators:
    print(f'Score on train data with model {i} {Regressor.named_estimators_[i].score(X_train, y_train)}')
    print(f'Score on test data with model {i} {Regressor.named_estimators_[i].score(X_test, y_test)}')

Score on train data 0.9163407937701313
Score on test data 0.8203169075309901
Score on train data with model LinearRegression 0.94032073756504
Score on test data with model LinearRegression 0.32037834425707346
Score on train data with model DecisionTreeRegressor 0.8475221669957198
Score on test data with model DecisionTreeRegressor 0.8247724640390619
Score on train data with model KNeighborsRegressor 0.750184842189582
Score on test data with model KNeighborsRegressor 0.676138613361793


Обучим Линейную регрессию для сравнения качества на тех же выборках

In [143]:
model = LinearRegression()

In [144]:
model.fit(X_train, y_train)

LinearRegression()

In [145]:
model.score(X_train, y_train)

0.94032073756504

In [146]:
model.score(X_test, y_test)

0.32037834425707346

Качество на обучении выше стэка, но на тесте оно сильно упало