Обучите 3 разные baseline-модели на полученных наборах данных и оцените их качество. На прошлой неделе вы выбрали методику оценки качества моделей на основе кросс-валидации, а также основную и вспомогательные метрики. Оцените с их помощью получившуюся модель. Обратите внимание, что под разными моделями понимаются именно разные алгоритмы классификации. Например, 2 модели, реализующие метод k ближайших соседей с разными k, будут считаться одним baseline-решением (хотя и с разными параметрами). Напоминаем, что отложенная выборка (hold-out dataset) не должна использоваться для построения и оценки baseline-моделей!

В этом задании вам предстоит построить несколько моделей и оценить их качество. Эти модели будут служить нам в качестве baseline-решений и пригодятся сразу для нескольких задач:

 * Во-первых, на разработку baseline-модели не должно уходить много времени (это требование исходит из оценок затрат на проект в целом - большую часть времени все же нужно потратить на основное решение), процесс должен быть простым, на подавляющем большинстве этапов должны использоваться готовые протестированные инструменты. Все это приводит к тому, что baseline-модели - это дешевый способ сделать грубую оценку потенциально возможного качества модели, при построении которого вероятность допущения ошибок относительно невелика.
 * Во-вторых, использование моделей разного типа при построении baseline'ов позволяет на раннем этапе сделать предположения о том, какие подходы являются наиболее перспективными и приоритизировать дальнейшие эксперименты.
 * Наличие baseline-моделей позволяет оценить, какой прирост качества дают различные преобразования, усложнения, оптимизации и прочие активности, которые вы предпринимаете для построения финального решения.
 * Наконец, если после построение сложного решения оценка его качества будет очень сильно отличаться от оценки качества baseline-моделей, то это будет хорошим поводом поискать в решении ошибки.

Можно (но не обязательно) рассмотреть следующий набор алгоритмов:

 * Линейная модель (например, реализация sklearn.linear_model.RidgeClassifier)
 * Случайный лес (например, реализация sklearn.ensemble.RandomForestClassifier)
 * Градиентный бустинг (например, реализация sklearn.ensemble.GradientBoostingClassifier)

В качестве решения приложите получившийся jupyther notebook. Убедитесь, что в нем присутствуют:

 * все baseline-модели, которые вы построили;
 * качество всех построенных моделей оценено с помощью кросс-валидации, и это понятно из текста в jupyther notebook;
 * все модели оценены с помощью основной и дополнительных метрик качества.

In [1]:
import warnings
import os

import pandas as pd
import numpy as np

from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import SGDClassifier, PassiveAggressiveClassifier
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.metrics import roc_auc_score

warnings.simplefilter("ignore")
PATH_TO_DATA = '../data'

In [3]:
df = pd.read_csv(os.path.join(PATH_TO_DATA, 'new_df_all.train'), index_col=0)
df.head()

Unnamed: 0,New_Var191,New_Var213,New_Var215,New_Var224,Var1,Var10,Var100,Var101,Var102,Var103,...,Var91,Var92,Var93,Var94,Var95,Var96,Var97,Var98,Var99,target
0,,,,,,,,,,,...,,,,,,,,,,-1
1,,,,,,,,,,,...,,,,32289.0,,,,,,-1
2,,,,,,,,,,,...,,,,53388.0,,,,,,-1
3,,,,,,,,,,,...,,,,,,,,,,1
4,,,,,,,,,,,...,,,,106455.0,,,,,,-1


In [4]:
skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=17)

all_score = pd.Series()

X = df.iloc[:, :-1].fillna(0).values
y = df.target.values

In [5]:
def print_score(estimator, scoring='roc_auc'):
    score = cross_val_score(estimator=estimator, cv=skf, X=X, y=y, scoring=scoring)
    print('All score {} '.format(score))
    print('Mean score {} '.format(score.mean()))
    print('Std score {} '.format(score.std()))
    return score.mean()

### SGDClassifier

In [6]:
%%time
all_score['SGDClassifier'] = print_score(SGDClassifier(random_state=42))

All score [ 0.51437412  0.4941138   0.50195618  0.49594588  0.50392939] 
Mean score 0.5020638751405471 
Std score 0.0071507690518763465 
Wall time: 5.75 s


In [7]:
%%time
print_score(SGDClassifier(random_state=42), 'f1')

All score [ 0.02178649  0.01422925  0.01630838  0.0076864   0.02414773] 
Mean score 0.016831648063052145 
Std score 0.005809603138560979 
Wall time: 5.82 s


0.016831648063052145

### GradientBoostingClassifier

In [8]:
%%time
all_score['GradientBoostingClassifier'] = print_score(GradientBoostingClassifier(random_state=42))

All score [ 0.68357451  0.68055345  0.68702583  0.69351334  0.68772133] 
Mean score 0.6864776914775802 
Std score 0.004355973651889525 
Wall time: 15min 50s


In [9]:
%%time
print_score(GradientBoostingClassifier(random_state=42), 'f1')

All score [ 0.00167224  0.          0.00167926  0.          0.00167364] 
Mean score 0.0010050284190289112 
Std score 0.0008206056328051047 
Wall time: 16min 4s


0.0010050284190289112

### PassiveAggressiveClassifier

In [10]:
%%time
all_score['PassiveAggressiveClassifier'] = print_score(PassiveAggressiveClassifier(random_state=42))

All score [ 0.52757174  0.4943889   0.54632749  0.57252324  0.5244802 ] 
Mean score 0.533058315093691 
Std score 0.025816897430077906 
Wall time: 8.72 s


In [11]:
%%time
print_score(PassiveAggressiveClassifier(random_state=42), 'f1')

All score [ 0.062417    0.05277625  0.14994452  0.14096557  0.03693182] 
Mean score 0.08860703293476793 
Std score 0.04720973460489045 
Wall time: 8.72 s


0.088607032934767932

### RandomForestClassifier

In [12]:
%%time
all_score['RandomForestClassifier'] = print_score(RandomForestClassifier(random_state=42))

All score [ 0.58145179  0.57850926  0.56874832  0.58222617  0.56912464] 
Mean score 0.5760120357512083 
Std score 0.0059099970107487736 
Wall time: 35.5 s


In [13]:
%%time
print_score(RandomForestClassifier(random_state=42), 'f1')

All score [ 0.02283105  0.02567976  0.02567976  0.02471042  0.0181956 ] 
Mean score 0.023419318856877966 
Std score 0.0028113839122863847 
Wall time: 31.5 s


0.023419318856877966

### Результаты

In [14]:
all_score.sort_values(ascending=False)

GradientBoostingClassifier     0.686478
RandomForestClassifier         0.576012
PassiveAggressiveClassifier    0.533058
SGDClassifier                  0.502064
dtype: float64