# Анализ данных

Перед тем как строить модель машинного обучения и пытаться залезть в лидербоард, необходимо понять, с чем мы работаем: какие у нас данные, какая цель, какие логичные гипотезы можно предложить опираясь на имеющиеся данные. 

Следовательно, план в нашей задаче - классический: 
1. Исследуем данные
2. Строим графики, смотрим зависимости, предлагаем гипотезы
3. Вычищаем данные и готовим их к построению модели 
4. Делаем предположение какая модель здесь может быть использована и адаптируем данные под предлагаемую модель 
5. Делим данные на части для возможности "честно" обучаться и провалидировать модель в дальнейшем
6. Строим и обучаем модель
7. Валидируем модель, оцениваем метрики, исследуем проблемы
8. Возвращаемся на шаг 3 или 6 в зависимости от результатов (тюним модель/строим новую/модернизируем данные)
9. Сабмитим результат, наблюдаем скор, плачем - возвращаемся на шаг 3 или 6
10. Профит! Мы в топе!)

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import norm
from sklearn.preprocessing import StandardScaler
from scipy import stats
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline

from itertools import combinations
from scipy.stats import ttest_ind

In [None]:
df_train = pd.read_csv('../input/house-prices-advanced-regression-techniques/train.csv')
df_test = pd.read_csv('../input/house-prices-advanced-regression-techniques/test.csv')
ids = df_test['Id'].values

## 1.EDA

In [None]:
df_train.describe()

In [None]:
df_train.info()

Параметров чрезвычайно много, потому разбирать параметры будем сразу скопом. Начнем с Nan'ов
Выведем только те параметры, в которых пропусков > 0

In [None]:
def describe_nan_values(d_df):
    total = d_df.isnull().sum().sort_values(ascending=False)
    percent = (d_df.isnull().sum()/d_df.isnull().count()).sort_values(ascending=False)
    missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
    display(missing_data[missing_data['Total']>0])
    
    return missing_data

missing_data=describe_nan_values(df_train)


В некоторых параметрах очень много пропусков, считаю что пропусков больше 17% это перебор и потому сразу получили список потенциальных параметров для удаления

In [None]:
params_to_del=['PoolQC','MiscFeature','Alley','Fence','FireplaceQu','LotFrontage']

In [None]:
df_train=df_train.drop(params_to_del,axis=1)
missing_data=describe_nan_values(df_train)

In [None]:
df_train = df_train.drop((missing_data[missing_data['Total'] > 1]).index,1)

In [None]:
def describe_without_plots_num_collumns(d_df,columns):
    #numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    num_df = d_df[columns]
    list_of_names = list(num_df.columns)
    temp_dict = {}
    temp_dict['имя признака'] = list_of_names
    temp_dict['тип'] = num_df.dtypes
    temp_dict['# пропусков(NaN)'] = num_df.isnull().sum().values 
    temp_dict['# уникальных'] = num_df.nunique().values
    temp_dict['минимум'] = num_df.describe(include='all').loc['min']
    temp_dict['среднее'] = num_df.describe(include='all').loc['mean']
    temp_dict['медиана'] = num_df.describe(include='all').loc['50%']
    temp_dict['макс'] = num_df.describe(include='all').loc['max']
    temp_dict['std'] = pd.DataFrame(num_df.std().values,columns=['std']).loc[:,'std']
    temp_df = pd.DataFrame.from_dict(temp_dict, orient='index')
    display(temp_df.T)
    
    return

In [None]:
num_cols=list(df_train.describe().columns)
describe_without_plots_num_collumns(df_train,num_cols)

In [None]:
def describe_by_plots_num_collumns(d_df,columns,font_size=12):
    fig, axes = plt.subplots(len(columns), 4, figsize=(8, 5*len(columns)))
    for i in range(0,len(columns)):
        axes[i,0].hist(d_df[columns[i]],label=str(columns[i]))
        axes[i,0].set_title(str(columns[i]),fontsize=font_size)
        axes[i,1].boxplot(d_df[columns[i]])
        axes[i,1].set_title(str(columns[i]),fontsize=font_size)
        axes[i,2].hist(np.log(d_df[columns[i]]+1),label=str(columns[i]))
        axes[i,2].set_title('log_'+str(columns[i]),fontsize=font_size)
        axes[i,3].boxplot(np.log(d_df[columns[i]]+1))
        axes[i,3].set_title('log_'+str(columns[i]),fontsize=font_size)
    return

In [None]:
describe_by_plots_num_collumns(df_train,num_cols)

In [None]:
import math

def borders_of_outliers(d_df,columns, log = False):
    num_df = d_df[columns]
    list_of_names = list(num_df.columns)
    temp_dict = {}
    temp_dict['имя признака'] = list_of_names
    left_board=[]
    right_board=[]
    left_outliers=[]
    right_outliers=[]
    path_left_outliers=[]
    path_right_outliers=[]
    if log:
        log_left_board=[]
        log_right_board=[]
        log_left_outliers=[]
        log_right_outliers=[]
        log_path_left_outliers=[]
        log_path_right_outliers=[]
    for i in columns:
        IQR = num_df[i].quantile(0.75) - num_df[i].quantile(0.25)
        perc25 = num_df[i].quantile(0.25)
        perc75 = num_df[i].quantile(0.75)
        left_border = num_df[i].quantile(0.25) - 1.5*IQR
        right_border = perc75 + 1.5*IQR
        left_board.append(left_border)
        right_board.append(right_border)
        left_outliers.append((num_df[i]<left_border).sum())
        right_outliers.append((num_df[i]>right_border).sum())
        path_left_outliers.append((num_df[i]<left_border).sum()/len(num_df[i]))
        path_right_outliers.append((num_df[i]>right_border).sum()/len(num_df[i]))
        if log:
            num_df[i]=num_df[i].apply(lambda x: math.log(x+1))
            IQR = num_df[i].quantile(0.75) - num_df[i].quantile(0.25)
            perc25 = num_df[i].quantile(0.25)
            perc75 = num_df[i].quantile(0.75)
            left_border = num_df[i].quantile(0.25) - 1.5*IQR
            right_border = perc75 + 1.5*IQR
            log_left_board.append(left_border)
            log_right_board.append(right_border)
            log_left_outliers.append((num_df[i]<left_border).sum())
            log_right_outliers.append((num_df[i]>right_border).sum())
            log_path_left_outliers.append((num_df[i]<left_border).sum()/len(num_df[i]))
            log_path_right_outliers.append((num_df[i]>right_border).sum()/len(num_df[i]))
        
    temp_dict['левая граница'] = left_board
    temp_dict['правая граница'] = right_board
    temp_dict['выбросов слева'] = left_outliers
    temp_dict['выбросов справа'] = right_outliers
    temp_dict['доля выбросов слева'] = path_left_outliers
    temp_dict['доля выбросов справа'] = path_right_outliers
    
    if log:
        temp_dict['левая граница с логарифмом'] = log_left_board
        temp_dict['правая граница с логарифмом'] = log_right_board
        temp_dict['выбросов слева с логарифмом'] = log_left_outliers
        temp_dict['выбросов справа с логарифмом'] = log_right_outliers
        temp_dict['доля выбросов слева с логарифмом'] = log_path_left_outliers
        temp_dict['доля выбросов справа с логарифмом'] = log_path_right_outliers
    
    temp_df = pd.DataFrame.from_dict(temp_dict, orient='index')
    display(temp_df.T)
    
    return

In [None]:
borders_of_outliers(df_train,num_cols,log=True)

In [None]:
def describe_without_plots_cat_bin_collumns(d_df,columns):
    cat_bin_df = d_df[columns]
    list_of_names = list(cat_bin_df.columns)
    temp_dict = {}
    temp_dict['имя признака'] = list_of_names
    temp_dict['тип'] = cat_bin_df.dtypes
    temp_dict['# пропусков(NaN)'] = cat_bin_df.isnull().sum().values 
    temp_dict['# уникальных'] = cat_bin_df.nunique().values
    temp_dict['# мода'] = cat_bin_df.mode()
    temp_df = pd.DataFrame.from_dict(temp_dict, orient='index')
    display(temp_df.T)
    
    return

In [None]:
l=df_train.select_dtypes('object').columns.to_list()
describe_without_plots_cat_bin_collumns(df_train,l)

In [None]:
def get_boxplot(d_df,columns, aim,font_size=15):
    for column in columns:
        fig, (ax1, ax2) = plt.subplots(1, 2)
        
        d_df[column].value_counts().plot(kind='bar',ax=ax1)
        ax1.set_title('Hist for ' + column,fontsize=font_size)      
        
        
        sns.boxplot(x=column, y=aim, 
                data=d_df.loc[d_df.loc[:, column].isin(d_df.loc[:, column].value_counts().index[:])],
                ax=ax2)
        plt.xticks(rotation=45)
        ax2.set_title('Boxplot for ' + column,fontsize=font_size)
        plt.show()

In [None]:
get_boxplot(df_train,l,'SalePrice')

Изучим подробно целевую переменную

In [None]:
def num_describer(df,param,bins=20):
    nulls=round(df[param].isnull().sum()/len(df[param]),4)
    IQR = df[param].quantile(
        0.75) - df[param].quantile(0.25)
    perc25 = df[param].quantile(0.25)
    perc75 = df[param].quantile(0.75)
    #blowout=len(df[(df[param]<perc25 - 1.5*IQR)|(df[param]>perc75 + 1.5*IQR)])
    print('доля пропусков : {} \n\r'.format(nulls),
          'min : {} \n\r'.format(df[param].min()),
          'std : {} \n\r'.format(df[param].std()),         
          'среднее: {} \n\r'.format(df[param].mean()),
          'max : {} \n\r'.format(df[param].max()),
          '25-й перцентиль: {} \n\r'.format(perc25),
          'медиана: {} \n\r'.format(df[param].median()),
          '75-й перцентиль: {} \n\r'.format(perc75),
          "IQR: {} \n\r".format(IQR),
          "Границы выбросов: [{f}, {l}] \n\r".format(f=perc25 - 1.5*IQR, l=perc75 + 1.5*IQR),
         )#'Количество выбросов: \n\r'.format(blowout))
    fig, (ax1, ax2) = plt.subplots(
    nrows=1, ncols=2,
    figsize=(8, 4))
    sns.distplot(df[param],ax=ax1)
    #ax1.hist(df[param],label = param,bins=bins)
    ax1.set_title('Распределение значений')
    ax1.legend()
    sns.distplot(np.log(df[param]+1),ax=ax2)
    #ax2.hist(np.log(df[param]+1),label = param,bins=bins)
    ax2.set_title('Логорифмированное Распределение значений')
    ax2.legend()
    #sns.distplot(df[param])
    plt.show()

In [None]:
num_describer(df_train,'SalePrice')


Во-первых, кажется, данные выглят корректно (цена больше 0, нет явных выбросов).
Во-вторых, судя по результату логарифмирования - тут логнормальное распределение
В-третьих - ного нормального распределения с мат.ожиданием в ~18000 и std ~ 79000 (довольно большой разброс). 



In [None]:
corrmat = df_train.corr()
plt.figure(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.7, square=True)

In [None]:
def get_stat_dif(d_df,column_list,aim):
    stat_difference=[]
    stat_no_difference=[]
    for column in column_list:
        cols = d_df.loc[:, column].value_counts().index[:10]
        combinations_all = list(combinations(cols, 2))
        for comb in combinations_all:
            if ttest_ind(d_df.loc[d_df.loc[:, column] == comb[0], aim],
                         d_df.loc[d_df.loc[:, column] == comb[1], aim]).pvalue \
                    <= 0.05/len(combinations_all):  # Учли поправку Бонферони
                stat_difference.append(column)
            else:
                stat_no_difference.append(column)
                break
    print('Найдены статистически значимые различия для колонок: ',set(stat_difference))
    print('\r\n')
    print('Не найдены статистически значимые различия для колонок: ',set(stat_no_difference))
    
    return stat_difference
            
columns_with_diff = get_stat_dif(df_train,df_train.columns.tolist(),'SalePrice')

In [None]:
#aleprice correlation matrix
def corr_with_aim(d_df,aim,k=10):
    corrmat = d_df.corr()
    cols = corrmat.nlargest(k, aim)[aim].index
    cm = np.corrcoef(d_df[cols].values.T)
    sns.set(font_scale=1.25)
    hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
    plt.show()
    
    return

corr_with_aim(df_train,'SalePrice',15)

Найдем список колонок, совпадающих в двух тестах

In [None]:
corr_cols = corrmat.nlargest(12, 'SalePrice')['SalePrice'].index.tolist()
corr_cols

In [None]:
columns_for_work=set(corr_cols+columns_with_diff)
columns_for_work=list(columns_for_work)
columns_for_work

In [None]:

corrmat = df_train[columns_for_work].corr()
plt.figure(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.7, square=True,cbar=True, annot=True)

In [None]:
columns_for_work.remove('OverallCond')
columns_for_work.remove('MSSubClass')
columns_for_work.remove('KitchenAbvGr')
columns_for_work.remove('1stFlrSF')
columns_for_work.remove('BedroomAbvGr')
columns_for_work.remove('BsmtFullBath')
columns_for_work.remove('HalfBath')
columns_for_work.remove('GarageCars')
columns_for_work.remove('WoodDeckSF')
columns_for_work.remove('OpenPorchSF')
corrmat = df_train[columns_for_work].corr()
plt.figure(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.7, square=True,cbar=True, annot=True)

In [None]:

sns.pairplot(df_train[columns_for_work], size = 2.5)
plt.show();

In [None]:
def scatter_analize(d_df,x_column):
    data = pd.concat([d_df[x_column], d_df['SalePrice']], axis=1)
    data.plot.scatter(x=x_column, y='SalePrice', ylim=(0,800000));
    return

scatter_analize(df_train,'YearBuilt')

In [None]:
scatter_analize(df_train,'TotRmsAbvGrd')

In [None]:
scatter_analize(df_train,'GrLivArea')

In [None]:
scatter_analize(df_train,'Exterior1st')

In [None]:
len(columns_for_work)

In [None]:
df_train[columns_for_work].head()

In [None]:
y_train = df_train.SalePrice.values
x_train = df_train.drop('SalePrice', 1)

## Построение гипотез. Признаки

Для нормального процесса построения гипотез, необходимо изучить данные, описание каждого столбца, построить графики зависимости и уже после делать какие-то выводы. Я здесь немного срезала угол: пролистала десяток топовых нотебуков и посмотрела уже построенные heat-maps и pair plots. Из чего я сделала вывод, что следующие переменные могут играть важную роль в этой проблеме:

1. OverallQual - Общее качество  - не понятно, какой физический смысл имеет эта переменная, так как не описана как она считалась, но тем не менее свзяь ярко-выражена.
2. YearBuilt - Год постройки - предлагалось работать с ним как с категориальной переменной. В процессе анализа данных, было принято решение не использовать данный признак (большая вариантивность - нет явного тренда)
3. TotalBsmtSF.
4. GrLivArea.
5. Neighborhood.
В большинстве нотебуков последнюю переменную исключали, но она кажется логичной и я решила проверить связь самостоятельно. 
Я специально не употребляю термин "корреляция" так как это может быть не совсем корректно. 

Первые две характеристики из нашего списка - категориальные. Поэтому для визуализации нужен график на основе столбчатых диаграмм. Построим boxplot

In [None]:
data = pd.concat([df_train['SalePrice'], df_train['OverallQual']], axis=1)
plt.figure(figsize=(8, 6))
sns.boxplot(x='OverallQual', y="SalePrice", data=data)

Явный тренд прослеживается

Перейдем к численным признакам

In [None]:
data = pd.concat([df_train['SalePrice'], df_train['GrLivArea']], axis=1)
data.plot.scatter(x='GrLivArea', y='SalePrice')

In [None]:
data = pd.concat([df_train['SalePrice'], df_train['TotalBsmtSF']], axis=1)
data.plot.scatter(x='TotalBsmtSF', y='SalePrice')

Для численных переменных(TotalBsmtSF, GrLivArea) наблюдаем линейный тренд

Рассмотрим отложенный признак - Neighborhood

In [None]:
data = pd.concat([df_train['SalePrice'], df_train['Neighborhood']], axis=1)
plt.figure(figsize=(20, 6))
sns.boxplot(x='Neighborhood', y="SalePrice", data=data)

Какой-то явной теенденции нет, но при этом можно выделить, например, дорогие районы(хоть и с очень большим разбросом) и местное "Гетто" - BrDale

Чтобы убедиться, что мы ничего не упускаем - построим свой heatmap

In [None]:
#correlation matrix
corrmat = df_train.corr()
plt.figure(figsize=(12, 12))
sns.heatmap(corrmat, vmax=.8, square=True)

Здесь мы видим подтверждение важности признака OverallQual. Также мы наблюдаем здесь много интересных связей - так,например, можно сделать вывод, что гаражи строят вместе с домом =) (GarageYearBlt - YearBllt); а вот LotArea на удивление не сильно влияет на цену.

Можно еще долго анализировать данные и находить интересные зависимости, но давайте вернемся к итеративной разработке и перейдем к следующему шагу.

## Подготовка данных: заполнение пропусков

Есть несколько классических подходов - дропнуть строки с такими данными, заполнить средним, заполнить чем-то логичным (в зависимости от специфики данных), построить, например,RF и заполнять пропуски итеративно. 
Для начала исследуем пропущенные значения

In [None]:
total = df_train.isnull().sum().sort_values(ascending=False)
percent = (df_train.isnull().sum()/df_train.isnull().count()).sort_values(ascending=False)
missing_data = pd.concat([total, percent], axis=1, keys=['Total', 'Percent'])
missing_data.head(20)

Давайте проанализируем: первые 6  кандидатов имеют большой процент пропущенных значений (больше 17) - так как эти признаки не имели сильной корреляции по предыдущему анализу - заменим на наиболее частое значение
По остальным удалим пропущеннные значения

In [None]:
x_train = x_train.drop((missing_data[missing_data['Total'] > 81]).index,1)
x_train = x_train.apply(lambda x:x.fillna(x.value_counts().index[0]))
x_train.isnull().sum().max()

In [None]:
x_train.shape

разберемся с ппропущенными значениями в тесте - дропать строки нельзя

In [None]:
df_test.info()

In [None]:
df_test = df_test.drop((missing_data[missing_data['Total'] > 81]).index,1)
df_test = df_test.apply(lambda x:x.fillna(x.value_counts().index[0]))

## Подготовка данных. Нормировка и очистка

Удалим идентификаторы, так как они уникальны и неифнормативны. Сразу сделаем тоже для теста

In [None]:
x_train.drop("Id", axis = 1, inplace = True)
df_test.drop("Id", axis = 1, inplace = True)

In [None]:
x_train.shape

Энкодинг категориальных переменных - переводим в численные значения. аналогично для теста

In [None]:
x_train.select_dtypes(include='object').columns

In [None]:
cols = x_train.select_dtypes(include='object').columns
df_train[cols]

In [None]:
from sklearn.preprocessing import LabelEncoder
cols = x_train.select_dtypes(include='object').columns

for c in cols:
    lbl = LabelEncoder() 
    lbl.fit(list(x_train[c].values)) 
    x_train[c] = lbl.transform(list(x_train[c].values))
    df_test[c] = lbl.transform(list(df_test[c].values))

print('Shape all_data: {}'.format(x_train.shape))

Еще немного очистим данные от выбросов: 

In [None]:
indexes = x_train[(df_train['GrLivArea']>4000) & (df_train['SalePrice']<300000)].index 

x_train = x_train.drop(indexes)
y_train = np.delete(y_train, indexes)

In [None]:
x_train

In [None]:
y_train.shape

Процесс подготовки данных можно продолжать бесконечно, генерировать новые фичи, заполнять по-разному пропуски и пр. Но давайте пойдем дальше, построим первую модельку и посмотрим что уже имеем

## Построение модели

In [None]:
from sklearn.linear_model import ElasticNet, Lasso,  BayesianRidge, LassoLarsIC
from sklearn.ensemble import RandomForestRegressor,  GradientBoostingRegressor
from sklearn.kernel_ridge import KernelRidge
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import RobustScaler
from sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin, clone
from sklearn.model_selection import KFold, cross_val_score, train_test_split
from sklearn.metrics import mean_squared_error
import xgboost as xgb

Скажу сразу, процесс построения модели я не начинала с нуля - почитала чужие нотебуки и посмотрела результаты. Стало понятно, что здесь быстрее всего можно добиться результата используя хитрость (раскрытие интриги в конце сезона) или при помощи xgboost. Так как хотелось повторяемости результатов - начинаем с XGBoost

In [None]:
model_xgb = xgb.XGBRegressor(n_estimators=2200)

Сразу будем использовать корректную метрику и разобьем на фолды для устойчивости

In [None]:
n_folds = 5

def rmsle(model):
    kf = KFold(n_folds, shuffle=True, random_state=42).get_n_splits(train.values)
    rmse = np.sqrt(-cross_val_score(model, train.values, y_train, scoring="neg_mean_squared_error", cv = kf))
    return(rmse)

def rmsle(y, y_pred):
    return np.sqrt(mean_squared_error(y, y_pred))

In [None]:
x_train.shape

In [None]:
model_xgb.fit(x_train, y_train)
xgb_train_pred = model_xgb.predict(x_train)
xgb_pred = model_xgb.predict(df_test)
print(rmsle(y_train, xgb_train_pred))

После нескольких итераций, все еще простой регрессор с болшим количеством эстиматоров дал неплохой результат! 
Пока не выглядит как топ-1 скор: сохраним результат и попробуем засабмитить

In [None]:
xgb_pred

In [None]:
sub = pd.DataFrame()
sub['Id'] = ids
sub['SalePrice'] = xgb_pred
sub.to_csv('submission.csv',index=False)

Такая простая моделька с неплохо подготовленными данными дала на тесте:

Your submission scored 0.14875

~2670 место

Потюним модельку, попробуем немного подняться

In [None]:
model_xgb = xgb.XGBRegressor(reg_lambda=0.8571, n_estimators=2200, nthread = -1)

In [None]:
model_xgb.fit(x_train, y_train)
xgb_train_pred = model_xgb.predict(x_train)
xgb_pred = model_xgb.predict(df_test)
print(rmsle(y_train, xgb_train_pred))

немного лучше на обучении, но хуже на сабмите - 0.15031

## GridSearch

Запустим GridSearch чтобы подобрать параметры получше.

Что будем настраивать:
параметры max_depth, min_child_weight и gamma непосредственно ограничивают сложность модели, subsample и colsample_bytree делают её более устойчивой к шуму за счет добавления случайного выбора наблюдений и предикторов.
reg_lambda и reg_alpha - параметры регуляризации: увеличивая можно сделать модель более устойчивой.

In [None]:
from sklearn.model_selection import GridSearchCV

params = {'min_child_weight':[4,5], 'gamma':[i/10.0 for i in range(3,6)],  'subsample':[i/10.0 for i in range(6,11)],
'colsample_bytree':[i/10.0 for i in range(4,11)], 'max_depth': [2,3,4], 'reg_lambda':[i/10.0 for i in range(7,9)], 'reg_alpha':[i/10.0 for i in range(4,7)]}

model = xgb.XGBRegressor(nthread=-1) 

grid = GridSearchCV(model, params)
grid.fit(x_train, y_train)

In [None]:
xgb_train_pred = grid.best_estimator_.predict(x_train)
xgb_pred = grid.best_estimator_.predict(df_test)
print(rmsle(y_train, xgb_train_pred))

На полный перебор параметров мне не хватило терпения, но ясно, что это не топ-1

Пока эта махина перебирала параметры, я посмотрела все открытые решения в топ-1000 в лидеборде и стало понятно, что можно и не ждать =). 
Собственно, есть два основных решения: 
1. Обучаем все подряд и стакаем, подбирая коэффициенты, чтобы забраться повыше. 
2. Супер-лайфхак(топ-1), который я разберу в самом конце

## Стакаем модельки

Класс для стэкинга моделек позаимствован из сети, суть простая - фитим модельки на фолдах

In [None]:
from sklearn.base import BaseEstimator, TransformerMixin, RegressorMixin
from sklearn.kernel_ridge import KernelRidge
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import RobustScaler
from sklearn.linear_model import ElasticNet, Lasso
import lightgbm as lgb

class StackingAveragedModels(BaseEstimator, RegressorMixin, TransformerMixin):
    def __init__(self, base_models, meta_model, n_folds=5):
        self.base_models = base_models
        self.meta_model = meta_model
        self.n_folds = n_folds
   
    # We again fit the data on clones of the original models
    def fit(self, X, y):
        self.base_models_ = [list() for x in self.base_models]
        self.meta_model_ = clone(self.meta_model)
        kfold = KFold(n_splits=self.n_folds, shuffle=True, random_state=156)
        
        # Train cloned base models then create out-of-fold predictions
        # that are needed to train the cloned meta-model
        out_of_fold_predictions = np.zeros((X.shape[0], len(self.base_models)))
        for i, model in enumerate(self.base_models):
            for train_index, holdout_index in kfold.split(X, y):
                instance = clone(model)
                self.base_models_[i].append(instance)
                instance.fit(X[train_index], y[train_index])
                y_pred = instance.predict(X[holdout_index])
                out_of_fold_predictions[holdout_index, i] = y_pred
                
        # Now train the cloned  meta-model using the out-of-fold predictions as new feature
        self.meta_model_.fit(out_of_fold_predictions, y)
        return self
   
    #Do the predictions of all base models on the test data and use the averaged predictions as 
    #meta-features for the final prediction which is done by the meta-model
    def predict(self, X):
        meta_features = np.column_stack([
            np.column_stack([model.predict(X) for model in base_models]).mean(axis=1)
            for base_models in self.base_models_ ])
        return self.meta_model_.predict(meta_features)

Соберем модель, состоящую из набора базовых классификаторов разных типов 

In [None]:
KRR = KernelRidge(alpha=0.6, kernel='polynomial', degree=2, coef0=2.5)

GBoost = GradientBoostingRegressor(n_estimators=3000, random_state =42)

ENet = make_pipeline(RobustScaler(), ElasticNet(alpha=0.0005,random_state=42))
lasso = make_pipeline(RobustScaler(), Lasso(alpha =0.0005, random_state=42))

stacked_averaged_models = StackingAveragedModels(base_models = (ENet, GBoost, KRR),
                                                 meta_model = lasso)

In [None]:
model_xgb = xgb.XGBRegressor(n_estimators=2200, nthread = -1)
model_xgb.fit(x_train, y_train)

model_lgb = lgb.LGBMRegressor(objective='regression',n_estimators=720)
model_lgb.fit(x_train, y_train)

stacked_averaged_models.fit(x_train.values, y_train)

In [None]:
lgb_pred = model_lgb.predict(df_test)
xgb_pred = model_xgb.predict(df_test)
stacked_pred = stacked_averaged_models.predict(df_test.values)

In [None]:
ensemble = stacked_pred*0.70 + xgb_pred*0.15 + lgb_pred*0.15

In [None]:
sub = pd.DataFrame()
sub['Id'] = ids
sub['SalePrice'] = xgb_pred
sub.to_csv('submission.csv',index=False)

Результат все еще далек от топ-1: нужно тюнить параметры каждой модельки, внимательнее отобрать фичи, оценив важность хотя бы после грид сёча и аккуратнее трансформировать данные (привести к единому рааспределению)

## Финал. Лайфхак

Существует датасет тоже на Kaggle, в котором, судя по результатам, тот же датасет разбит иначе. В итоге AmesHousing.csv в том числе содержит часть ответов для нашего теста. Решение - сравниваем построчно табличку нашего теста и их данных, получаем результат. Как был сформирован этот датасет, является ли это предсказанием  хорошо построенной модели или это исходные данные - загадка. 

Но ...

In [None]:
from tqdm import tqdm

train = pd.read_csv('../input/ames-housing-dataset/AmesHousing.csv')
train.drop(['PID'], axis=1, inplace=True)

origin = pd.read_csv('../input/house-prices-advanced-regression-techniques/train.csv')
train.columns = origin.columns

test = pd.read_csv('../input/house-prices-advanced-regression-techniques/test.csv')

submission = pd.read_csv('../input/house-prices-advanced-regression-techniques/sample_submission.csv')

print('Train:{}   Test:{}'.format(train.shape,test.shape))

missing = test.isnull().sum()
missing = missing[missing>0]
train.drop(missing.index, axis=1, inplace=True)
train.drop(['Electrical'], axis=1, inplace=True)

test.dropna(axis=1, inplace=True)
test.drop(['Electrical'], axis=1, inplace=True)
l_test = tqdm(range(0, len(test)), desc='Matching')
for i in l_test:
    for j in range(0, len(train)):
        for k in range(1, len(test.columns)):
            if test.iloc[i,k] == train.iloc[j,k]:
                continue
            else:
                break
        else:
            submission.iloc[i, 1] = train.iloc[j, -1]
            break
l_test.close()

submission.to_csv('result-with-best.csv', index=False)

... результат на лицо: 
# топ-1 скор (0.44). (54 место)

Если вам понравился разбор, подписывайтесь на канал, ставьте лайки =) В следующей серии мы разберем как лучше стакать модельки и использовать отбор фичей. 
А пока побеждают такие решения - в мире грустит один математик.