# Домашняя работа

1. Теперь решаем задачу регрессии - предскажем цены на недвижимость. Использовать датасет https://www.kaggle.com/c/house-prices-advanced-regression-techniques/data (train.csv)
- Данных немного, поэтому необходимо использовать 10-fold кросс-валидацию для оценки качества моделей
- Построить случайный лес, вывести важность признаков
- Обучить стекинг как минимум 3х моделей, использовать хотя бы 1 линейную модель и 1 нелинейную
- Для валидации модели 2-го уровня использовать отдельный hold-out датасет, как на занятии
- Показать, что использование ансамблей моделей действительно улучшает качество (стекинг vs другие модели сравнивать на hold-out)
- В качестве решения: Jupyter notebook с кодом, комментариями и графиками

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import KFold

from sklearn.ensemble import StackingRegressor #Стекинг
from sklearn.linear_model import RidgeCV #Линейная модель
from sklearn.neighbors import KNeighborsRegressor #К-ближайших соседей
from sklearn.tree import DecisionTreeRegressor #Дерево решений

In [2]:
df = pd.read_csv('data/train.csv') #тренировочные даные

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

In [4]:
#Класс для очистики датафрейм 
#Категориальные данные преобразуем по O H E (унимодальное кодирование)
#Пропуски заменяем округленным до целого средним

class cls2task_prepdre_df:
    
    ret_df = pd.DataFrame()
    
    def __init__(self, df_):
        self.df      = df_
        #list(df.dtypes[df.dtypes == object].index)
        self.df_num = df_.select_dtypes(exclude=['object']).copy()
        self.df_obj = df_.select_dtypes(include=['object']).copy()
    
    def ohe(self):
        ret = pd.DataFrame()
        for col in self.df_obj.columns:
            _ = pd.get_dummies(self.df_obj[col], prefix=col, drop_first=False)
            ret =  pd.concat([ret, _], axis=1)
        return ret
    
    def set_mean(self):
        for col in self.ret_df.columns:
            if self.ret_df[col].isna().sum() > 0:
                _ = self.ret_df[[col]].mean().round(0)
                self.ret_df.loc[ self.ret_df[ self.ret_df[col].isna()].index, col] = _[0]                
        return 0
    
    def main(self):
        self.ret_df = pd.concat([self.df_num, self.ohe()], axis=1)
        self.set_mean()
        return self.ret_df

In [5]:
#Обрабатываем основной датафрейм
transform_df = cls2task_prepdre_df(df.iloc[:,1:-1]) #из обработки иключаем 1 (Id) и послденее поле (SalePrice)
transform_df.main()

#Признаковое пространство
X = transform_df.ret_df
#Target-значение (цена)
y = df.iloc[:,-1].round(0)
#Делим выборку на тренировочную и тестовую (в отбор включаем все значимые призанки по условию значимости  > 0.00001%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)
#Создаем и обучаем модель
mdl_rf = RandomForestRegressor(n_estimators=100, 
                                 max_depth=20, 
                                 min_samples_leaf=20, 
                                 max_features=0.5, 
                                 n_jobs=-1)
evaluat = {1: ['Случайный лес:', 0], 
           2: ['Ансамбль(rdg,dt,kn):', 0],
           3: ['К-соседей:', 0]}
N = 10
score_on_train = 0
#Обучаем модель с использованием кроссвалидации
for trn_idx,tst_idx in KFold(n_splits=N, random_state=42, shuffle=True).split(X_train, y_train):
    X_train_fold,y_train_fold = X.iloc[trn_idx],y.iloc[trn_idx]
    X_test_fold,y_test_fold = X.iloc[tst_idx],y.iloc[tst_idx]
    mdl_rf.fit(X_train_fold,y_train_fold)
    score_on_train += mdl_rf.score(X_test_fold,y_test_fold)
#Сохранение оценки
evaluat[1][1] = score_on_train/N


In [6]:
#Важность признака (%)
ia_df = pd.DataFrame( {'Attribute':X.columns, \
                       'Importances':100*mdl_rf.feature_importances_} ).\
           sort_values(by = 'Importances', ascending = False).reset_index()

with pd.option_context('display.max_rows', None, 'display.max_columns', None):  # Вывод всех записей датафрейма  
    print( ia_df[ia_df['Importances'] > 0.00001] )

    index             Attribute  Importances
0       3           OverallQual    41.170869
1      15             GrLivArea    13.679090
2      25            GarageCars    11.505387
3       5             YearBuilt     6.108430
4      11           TotalBsmtSF     4.870345
5      12              1stFlrSF     3.848873
6     170          ExterQual_TA     3.070072
7      26            GarageArea     3.003042
8       8            BsmtFinSF1     1.871734
9      18              FullBath     1.483251
10    182           BsmtQual_Ex     1.477849
11      2               LotArea     0.944935
12     13              2ndFlrSF     0.887449
13      6          YearRemodAdd     0.773180
14    224        KitchenQual_Ex     0.660648
15     24           GarageYrBlt     0.627355
16     23            Fireplaces     0.543414
17      1           LotFrontage     0.309041
18    241     GarageType_Attchd     0.289623
19    226        KitchenQual_Gd     0.246315
20    167          ExterQual_Ex     0.237218
21    169 

In [7]:
#Ансамбль моделей
mdl_regressor = StackingRegressor(
    [
        ('rdg', RidgeCV()),
        ('dt',  DecisionTreeRegressor()),
        ('kn',  KNeighborsRegressor()),
    ],
RidgeCV())

#Обучение ансабля
mdl_regressor.fit(X_train, y_train)
#Сохранение оценки
evaluat[2][1] = mdl_regressor.score(X_test, y_test)

In [8]:
mdl_KN = KNeighborsRegressor()
mdl_KN.fit(X_train, y_train)
evaluat[3][1] = mdl_KN.score(X_test, y_test)

In [9]:
print('Использование ансамблей моделей действительно улучшает качество:')
evaluat

Использование ансамблей моделей действительно улучшает качество:


{1: ['Случайный лес:', 0.8222111747591334],
 2: ['Ансамбль(rdg,dt,kn):', 0.8738997796732231],
 3: ['К-соседей:', 0.6630767180646825]}