# Построение baseline-решений

Обучите 3 разные baseline-модели на полученных наборах данных и оцените их качество. На прошлой неделе вы выбрали методику оценки качества моделей на основе кросс-валидации, а также основную и вспомогательные метрики. Оцените с их помощью получившуюся модель. Обратите внимание, что под разными моделями понимаются именно разные алгоритмы классификации. Например, 2 модели, реализующие метод k ближайших соседей с разными k, будут считаться одним baseline-решением (хотя и с разными параметрами). Напоминаем, что отложенная выборка (hold-out dataset) не должна использоваться для построения и оценки baseline-моделей!

Можно (но не обязательно) рассмотреть следующий набор алгоритмов:

1) Линейная модель (например, реализация sklearn.linear_model.RidgeClassifier)

2) Случайный лес (например, реализация sklearn.ensemble.RandomForestClassifier)

3) Градиентный бустинг (например, реализация sklearn.ensemble.GradientBoostingClassifier)

В качестве решения приложите получившийся jupyther notebook. Убедитесь, что в нем присутствуют:

1) все baseline-модели, которые вы построили;

2) качество всех построенных моделей оценено с помощью кросс-валидации, и это понятно из текста в  jupyther notebook;

3) все модели оценены с помощью основной и дополнительных метрик качества.

In [190]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.linear_model import RidgeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.model_selection import StratifiedKFold, cross_val_score

In [2]:
data = pd.read_csv('data_train.csv')
data.head()

Unnamed: 0,Var1,Var2,Var3,Var4,Var5,Var6,Var7,Var8,Var9,Var10,...,Var222,Var223,Var224,Var225,Var226,Var227,Var228,Var229,Var230,y
0,,,,,,1176.0,7.0,,,,...,fCvP0MI,LM8l689qOp,,,Qcbd,nIGXDli,F2FyR07IdsN7I,,,-1
1,,,,,,532.0,0.0,,,,...,8xj_Q4n,,,,3Cy4,RAYp,F2FyR07IdsN7I,,,-1
2,,,,,,567.0,0.0,,,,...,hNiW3VW,LM8l689qOp,,,me1d,nIGXDli,F2FyR07IdsN7I,,,-1
3,,,,,,11228.0,7.0,,,,...,RIUVyzI,LM8l689qOp,,kG3k,Qu4f,02N6s8f,ib5G6X1eUxUn6,mj86,,-1
4,,,,,,665.0,7.0,,,,...,oSyMpgG,LM8l689qOp,,ELof,FSa2,RAYp,F2FyR07IdsN7I,am7c,,-1


In [169]:
X = data.drop(['y'], axis=1)
y = data.y

In [36]:
num_col = X.columns[:190]
cat_col = X.columns[190:]

## Предобработка данных

Определим признаки, у которых более 50% пропущенных значений.

In [26]:
drop_columns = X.count(axis=0)[X.count(axis=0) < 16000].index

Создадим класс для предобработки данных:

In [145]:
class preparation():
    def __init__(self):
        pass
    def preprocess(self, df):
        df = self.drop(df)
        df = self.fill_missing_values(df)
        df = self.cat_preprocess(df)
        df = self.scaler(df)
        return df
    def drop(self, df):
        df = df.drop(drop_columns, axis=1) # удаление признаков, у которых более 50% пропущенных значений
        return df
    def fill_missing_values(self, df):
        df = df.fillna(df.median(axis=0), axis=0) # среди числовых признаков заменим пропуски медианными значениями
        df = df.fillna("NA", axis=0) # для категориальных признаков заменим пропуски на отдельную категорию "NA"
        return df
    def cat_preprocess(self, df):
        # Для обработки категориальных признаков воспользуемся OneHotEncoder (dummy кодирование) для признаков, 
        # которые принимают меньше 10 значений. Остальные признаки закодируем с помощью LabelEncoder.
        one_hot_col = [column for column in df.columns if column in cat_col and len(df[column].value_counts()) < 10]
        label_col = [column for column in df.columns if column in cat_col and len(df[column].value_counts()) >= 10]
        df = pd.get_dummies(df, drop_first=True, columns=one_hot_col) # one-hot кодирование
        for column in label_col:
            df[column] = LabelEncoder().fit_transform(df[column]) # label кодирование
        return df
    def scaler(self, df): # масштабирование вещественных признаков
        new_num_col = [column for column in num_col if column not in drop_columns]
        new_cat_col = [column for column in df.columns if column not in new_num_col]
        df_num = pd.DataFrame(StandardScaler().fit_transform(df[new_num_col]), columns=new_num_col)
        df = pd.concat([df_num, df[new_cat_col]], axis=1)
        return df

## Линейная модель


In [146]:
data_preparation = preparation()
df = data_preparation.preprocess(data)
df.head()

Unnamed: 0,Var6,Var7,Var13,Var21,Var22,Var24,Var25,Var28,Var35,Var38,...,Var223_M_8D,Var223_NA,Var223_bCPvVye,Var223_jySVZNlOJy,Var227_6fzt,Var227_RAYp,Var227_ZI9m,Var227_nIGXDli,Var227_nIGjgSB,Var227_vJ_w8kB
0,-0.037772,0.033246,-0.446079,-0.17313,-0.170541,-0.453519,0.251141,-0.394009,-0.227437,-0.810786,...,0,0,0,0,0,0,0,1,0,0
1,-0.302675,-1.148844,-0.446079,-0.255942,-0.253293,-0.015178,-0.405152,-0.040294,-0.227437,-0.538647,...,0,1,0,0,0,1,0,0,0,0
2,-0.288278,-1.148844,-0.446079,-0.067733,-0.06522,-0.015178,-0.405152,-0.036062,-0.227437,-0.816842,...,0,0,0,0,0,0,0,1,0,0
3,4.097004,0.033246,-0.257801,1.45299,1.454408,1.519019,2.953524,0.030788,-0.227437,-0.607989,...,0,0,0,0,0,0,0,0,0,0
4,-0.247967,0.033246,-0.442914,-0.17313,-0.170541,-0.234349,-0.405152,-0.394009,-0.227437,0.10178,...,0,0,0,0,0,1,0,0,0,0


In [170]:
X_1 = df.drop(['y'], axis=1)

In [171]:
%%time
clf_1 = RidgeClassifier(class_weight='balanced') # Построение модели
kfold = StratifiedKFold(shuffle=True) # разбиение выборки на 5 фолдов (значение стоит по умолчанию)
# Оценка построенной модели на кросс-валидации с помощью основной метрики (площадь под ROC кривой):
roc_auc_1 = cross_val_score(clf_1, X_1, y, scoring='roc_auc', cv=kfold).mean()
print('Основная метрика качества (площадь под ROC кривой) %f' % roc_auc_1)

Основная метрика качества (площадь под ROC кривой) 0.675351
Wall time: 1.14 s


In [172]:
# Оценка построенной модели на кросс-валидации с помощью вспомогательных метрик (precision и recall):
precision_1 = cross_val_score(clf_1, X_1, y, scoring='precision', cv=kfold).mean()
recall_1 = cross_val_score(clf_1, X_1, y, scoring='recall', cv=kfold).mean()
print('Вспомогательные метрики качества\nprecision %f\nrecall %f' %(precision_1, recall_1))

Вспомогательные метрики качества
precision 0.117103
recall 0.634003


## Случайный лес


Для случайного леса необходимо удалить некоторые этапы предобработки. Например, масштабирование вещественных признаков. Также при обработке категориальных признаков заменим значения категориального признака на его долю объектов класса +1 среди объектов выборки с соответствующим значением этого признака.

In [324]:
class preparation_ensemble():
    def __init__(self):
        pass
    def preprocess(self, df):
        df = self.drop(df)
        df = self.fill_missing_values(df)
        df = self.cat_preprocess(df)
        return df
    def drop(self, df):
        df = df.drop(drop_columns, axis=1) # удаление признаков, у которых более 50% пропущенных значений
        return df
    def fill_missing_values(self, df):
        df = df.fillna(df.median(axis=0), axis=0) # среди числовых признаков заменим пропуски медианными значениями
        df = df.fillna("NA", axis=0) # для категориальных признаков заменим пропуски на отдельную категорию "NA"
        return df
    def cat_preprocess(self, df):
        new_cat_col = [column for column in df.columns if column in cat_col]
        for column in new_cat_col: # цикл по категориальным признакам
            for feature in df[column].value_counts().index: # цикл по каждому значению категориального признака
                strings = df[df[column] == feature].index
                df.loc[strings, column] = len(df[(df[column] == feature) & (df.y == 1)]) / len(strings)
        return df

In [325]:
data_preparation_2 = preparation_ensemble()
df_2 = data_preparation_2.preprocess(data)
df_2.head()

Unnamed: 0,Var6,Var7,Var13,Var21,Var22,Var24,Var25,Var28,Var35,Var38,...,Var218,Var219,Var220,Var221,Var222,Var223,Var226,Var227,Var228,y
0,1176.0,7.0,0.0,132.0,165.0,0.0,144.0,186.64,0.0,115578.0,...,0.0606362,0.0760793,0.0,0.0448522,0.0,0.075244,0.0671642,0.0467675,0.0871078,-1
1,532.0,0.0,0.0,88.0,110.0,4.0,8.0,220.08,0.0,897126.0,...,0.0829881,0.0800467,0.0,0.0821012,0.0,0.0800467,0.08,0.0840623,0.0871078,-1
2,567.0,0.0,0.0,188.0,235.0,4.0,8.0,220.48,0.0,98184.0,...,0.0606362,0.0760793,0.0,0.0448522,0.0,0.075244,0.0887793,0.0467675,0.0871078,-1
3,11228.0,7.0,476.0,996.0,1245.0,18.0,704.0,226.8,0.0,697986.0,...,0.0829881,0.0760793,0.0,0.0786309,0.0,0.075244,0.0651341,0.065046,0.035585,-1
4,665.0,7.0,8.0,132.0,165.0,2.0,8.0,186.64,0.0,2736354.0,...,0.0829881,0.0760793,0.134615,0.0821012,0.134615,0.075244,0.0943763,0.0840623,0.0871078,-1


In [326]:
X_2 = df_2.drop(['y'], axis=1)

In [327]:
%%time
clf_2 = RandomForestClassifier(n_estimators=10, class_weight='balanced', max_features='sqrt') # Построение модели
# Оценка построенной модели на кросс-валидации с помощью основной метрики (площадь под ROC кривой):
roc_auc_2 = cross_val_score(clf_2, X_2, y, scoring='roc_auc', cv=kfold).mean()
print('Основная метрика качества (площадь под ROC кривой) %f' % roc_auc_2)

Основная метрика качества (площадь под ROC кривой) 0.936294
Wall time: 3.92 s


In [328]:
# Оценка построенной модели на кросс-валидации с помощью вспомогательных метрик (precision и recall):
precision_2 = cross_val_score(clf_2, X_2, y, scoring='precision', cv=kfold, error_score=0)
recall_2 = cross_val_score(clf_2, X_2, y, scoring='recall', cv=kfold, error_score=0)
print('Вспомогательные метрики качества\nprecision %f\nrecall %f' %(np.mean(precision_2), np.mean(recall_2)))

Вспомогательные метрики качества
precision 0.762373
recall 0.363894


## Градиентный бустинг

In [329]:
%%time
clf_3 = GradientBoostingClassifier(n_estimators=5, max_features='sqrt') # Построение модели
# Оценка построенной модели на кросс-валидации с помощью основной метрики (площадь под ROC кривой):
roc_auc_3 = cross_val_score(clf_3, X_2, y, scoring='roc_auc', cv=kfold).mean()
print('Основная метрика качества (площадь под ROC кривой) %f' % roc_auc_3)

Основная метрика качества (площадь под ROC кривой) 0.913127
Wall time: 3.01 s


In [330]:
# Оценка построенной модели на кросс-валидации с помощью вспомогательных метрик (precision и recall):
precision_3 = cross_val_score(clf_3, X_2, y, scoring='precision', cv=kfold)
recall_3 = cross_val_score(clf_3, X_2, y, scoring='recall', cv=kfold)
print('Вспомогательные метрики качества\nprecision %f\nrecall %f' %(np.mean(precision_3), np.mean(recall_3)))

Вспомогательные метрики качества
precision 1.000000
recall 0.013813
