# Архитектура pipeline для одной модели

In [1]:
from sklearn.datasets import fetch_openml

from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder, RobustScaler, MinMaxScaler

from sklearn.compose import ColumnTransformer
from sklearn.decomposition import PCA

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
import pandas as pd

from sklearn import set_config 

from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_auc_score

In [2]:
X, y = fetch_openml("titanic", 
                    version=1, 
                    as_frame=True, 
                    return_X_y=True)

In [3]:
X.head(2)

Unnamed: 0,pclass,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1.0,"Allen, Miss. Elisabeth Walton",female,29.0,0.0,0.0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1.0,"Allison, Master. Hudson Trevor",male,0.9167,1.0,2.0,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"


In [4]:
y

0       1
1       1
2       0
3       0
4       0
       ..
1304    0
1305    0
1306    0
1307    0
1308    0
Name: survived, Length: 1309, dtype: category
Categories (2, object): [0, 1]

In [5]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [6]:
# Числовые признаки
numerical_features = ['age', 'fare']

# Категориальные признаки
categorical_features = ['embarked', 'sex', 'pclass']

In [7]:
# Применяем SimpleImputer и будем искать различные скейлеры с помощью GridSearchCV
numerical_transformer = Pipeline(steps=[('imputer', SimpleImputer()),
                                        ('scaler', 'passthrough')])

# Применение SimpleImputer, а затем OneHotEncoder
categorical_transformer = Pipeline(steps=[('imputer', SimpleImputer()),
                                          ('onehot', OneHotEncoder(handle_unknown='ignore'))])

# Собираем воедино трансформеры для числовых и категориальных признаков
data_transformer = ColumnTransformer(transformers=[
                                    ('numerical', numerical_transformer, numerical_features),
                                    ('categorical', categorical_transformer, categorical_features)])


# Создание конвейера препроцессора, который сначала преобразует данные и затем применяет PCA.
preprocessor = Pipeline(steps=[('data_transformer', data_transformer),
                               ('reduce_dim',PCA())])

# we are using Logistics Regression here
classifier = Pipeline(steps=[('preprocessor', preprocessor),
                             ('classifier', LogisticRegression(random_state=0, max_iter=10000))])

Важно понимать, что мы используем каскад вложенных конвейеров для удобства. Чтобы использовать GridSearchCV, необходимо передать параметрыв свой вложенный конвейер.

Разберем на примере. У нас есть следующая запись:    
**preprocessor__data_transformer__numerical__imputer__strategy: ['mean', 'median']**       
Эта запись означает, что в конвейере **preprocessor** есть вложенный конвейер **data_transformer**, в котором находится вложенный конвейер **numerical**, в котором находится трансформер **imputer** и у него есть параметр **strategy**, который и будет принимать значения **mean** и **median**.

С трансформером  **scaler** еще интереснее. У него указано название, а вместо самого трансформера стоит **passthrough**. Это означает, чтомы можем туда передать не сами параметры трансформера, а разные трансформеры!

In [8]:
# Мы можем использовать сетку параметров для проверки лучших гиперпараметров или трансформаторов.
param_grid = {
    'preprocessor__data_transformer__numerical__imputer__strategy': ['mean', 'median'],
    'preprocessor__data_transformer__categorical__imputer__strategy': ['constant','most_frequent'],
    'preprocessor__data_transformer__numerical__scaler': [StandardScaler(), RobustScaler(), \
                                                          MinMaxScaler()],
    'classifier__C': [0.1, 1.0, 10, 100],
    'preprocessor__reduce_dim__n_components': [2, 5, 10],
    'classifier__solver': ['liblinear','newton-cg', 'lbfgs','sag','saga']
}

Можно красиво отрисовать внутреннюю работу конвейера. Для этого необходимо проделать следующее:


```python
from sklearn import set_config 
set_config(display='diagram')
```
Если у вас вылетает ошибка, то просто запустите следующую строку прямо в ноутбуке. Затем завершите ноутбук и потом вновь перезапустите.

```python
!pip install --upgrade scikit-learn
```

Здесь я специально импортировал одну из получающихся отрисовок, чтобы было видно, что получается. Не пренебрегайте такой отрисовокой, она очень полезна для понимания конвейера. 
PS: она интерактивна. Понажимайте на нее.

In [17]:
from IPython.display import IFrame

IFrame(src='titanic_data_pipeline_estimator.html', width=700, height=600)

In [10]:
set_config(display='diagram')

## Обучение конвейера

Как многим известно, GridSearchCV позволяет подобрать параметры лучшей модели. Но многие забывают ответить себе на вопрос - а что значит лучшая? В GridSearchCV есть специальный параметр **scoring**, который и определяет метрику, по которой выбирается лучшая модель. Не забывайте его указывать!

In [11]:
# Здесь отрисовка самого конвейера

clf = GridSearchCV(classifier, 
                   param_grid=param_grid, 
                   scoring='accuracy')

clf.fit(X_train, y_train)

In [12]:
# Лучшие параметры модели
clf.best_params_

{'classifier__C': 1.0,
 'classifier__solver': 'liblinear',
 'preprocessor__data_transformer__categorical__imputer__strategy': 'constant',
 'preprocessor__data_transformer__numerical__imputer__strategy': 'mean',
 'preprocessor__data_transformer__numerical__scaler': StandardScaler(),
 'preprocessor__reduce_dim__n_components': 10}

In [13]:
from sklearn.utils import estimator_html_repr

# saving pipeline as html format
with open('titanic_data_pipeline_estimator.html', 'w') as f:  
    f.write(estimator_html_repr(clf.best_estimator_))

In [14]:
# Здесь отрисовка конвейера с лучшими параметрами
clf.best_estimator_

Для меня очень важно смотреть на метрики, которые выдает конвейер.      
Например, топ 5 лучших моделей и их параметры, качество модели на каждом фолде. Это позволяет оценить стабильность модели.      

Ниже показан небольшой аналитический отчет:

In [15]:
print('Топ 5 моделей по качеству:')

results = pd.DataFrame(clf.cv_results_)
results.sort_values(by='rank_test_score', inplace=True)
results = results.reset_index(drop = True)
results.head()

Топ 5 моделей по качеству:


Unnamed: 0,mean_fit_time,std_fit_time,mean_score_time,std_score_time,param_classifier__C,param_classifier__solver,param_preprocessor__data_transformer__categorical__imputer__strategy,param_preprocessor__data_transformer__numerical__imputer__strategy,param_preprocessor__data_transformer__numerical__scaler,param_preprocessor__reduce_dim__n_components,params,split0_test_score,split1_test_score,split2_test_score,split3_test_score,split4_test_score,mean_test_score,std_test_score,rank_test_score
0,0.04118,0.003451,0.012049,0.00069,1,newton-cg,constant,mean,StandardScaler(),10,"{'classifier__C': 1.0, 'classifier__solver': '...",0.790476,0.814286,0.813397,0.746411,0.77512,0.787938,0.025446,1
1,0.035408,0.003408,0.010341,0.001253,1,newton-cg,most_frequent,mean,RobustScaler(),10,"{'classifier__C': 1.0, 'classifier__solver': '...",0.790476,0.814286,0.813397,0.746411,0.77512,0.787938,0.025446,1
2,0.035539,0.001819,0.013083,0.000239,1,lbfgs,constant,mean,StandardScaler(),10,"{'classifier__C': 1.0, 'classifier__solver': '...",0.790476,0.814286,0.813397,0.746411,0.77512,0.787938,0.025446,1
3,0.046866,0.009347,0.010026,0.001214,1,saga,constant,mean,StandardScaler(),10,"{'classifier__C': 1.0, 'classifier__solver': '...",0.790476,0.814286,0.813397,0.746411,0.77512,0.787938,0.025446,1
4,0.03671,0.001855,0.01213,0.000862,1,lbfgs,constant,mean,RobustScaler(),10,"{'classifier__C': 1.0, 'classifier__solver': '...",0.790476,0.814286,0.813397,0.746411,0.77512,0.787938,0.025446,1


In [16]:
y_true, y_pred = y_test, clf.predict(X_test)

print("scoring='accuracy'")
print('Качество лучшей модели на обучающей выборке:')
print()
print('1 фолд:', results['split0_test_score'][0])
print('2 фолд:', results['split1_test_score'][0])
print('3 фолд:', results['split2_test_score'][0])
print('4 фолд:', results['split3_test_score'][0])
print('5 фолд:', results['split4_test_score'][0])
print('Среднее качество:', results['mean_test_score'][0])
print('Стандартное отклонение:', results['std_test_score'][0])
print()
print('Качество лучшей модели на тестовой выборке:')
print()
print('accuracy', accuracy_score(y_true, y_pred))
print('roc_auc', roc_auc_score(y_true, y_pred))

scoring='accuracy'
Качество лучшей модели на обучающей выборке:

1 фолд: 0.7904761904761904
2 фолд: 0.8142857142857143
3 фолд: 0.8133971291866029
4 фолд: 0.7464114832535885
5 фолд: 0.7751196172248804
Среднее качество: 0.7879380268853954
Стандартное отклонение: 0.025446313084496356

Качество лучшей модели на тестовой выборке:

accuracy 0.7709923664122137
roc_auc 0.7500157579577685
