# 

# Pipeline (Конвейер) & Hyper-parameters (Гиперпараметры)

---

**Источники:**

[Step by Step Tutorial of Sci-kit Learn Pipeline](https://towardsdatascience.com/step-by-step-tutorial-of-sci-kit-learn-pipeline-62402d5629b6)

[Hyperparameter (machine learning)](https://en.wikipedia.org/wiki/Hyperparameter_(machine_learning))

[How to Calculate Feature Importance With Python](https://machinelearningmastery.com/calculate-feature-importance-with-python/)

[Putting it all together](https://scikit-learn.org/stable/tutorial/statistical_inference/putting_together.html)

[Are you using Pipeline in Scikit-Learn?](https://towardsdatascience.com/are-you-using-pipeline-in-scikit-learn-ac4cd85cb27f)

[How to Transform Target Variables for Regression in Python](https://machinelearningmastery.com/how-to-transform-target-variables-for-regression-with-scikit-learn/)

[A Simple Guide to Scikit-learn Pipelines](https://medium.com/vickdata/a-simple-guide-to-scikit-learn-pipelines-4ac0d974bdcf)

[Removing Outliers within a Pipeline](https://www.kaggle.com/jonaspalucibarbosa/removing-outliers-within-a-pipeline)

[How to Use the ColumnTransformer for Data Preparation](https://machinelearningmastery.com/columntransformer-for-numerical-and-categorical-data/)

[Machine Learning — How to Save and Load scikit-learn Models](https://medium.datadriveninvestor.com/machine-learning-how-to-save-and-load-scikit-learn-models-d7b99bc32c27)

[Machine Learning Pipeline](https://zhangruochi.com/Machine-Learning-Pipeline/2020/04/13/)

[From pandas to scikit-learn - An Exciting New Workflow](https://www.dunderdata.com/blog/from-pandas-to-scikit-learn-an-exciting-new-worflow)

[Column Transformer with Mixed Types](https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer_mixed_types.html)

---

In [None]:
# ВНИМАНИЕ: необходимо удостовериться, что виртуальная среда выбрана правильно!

# Для MacOS/Ubuntu
# !which pip

# Для Windows
# !where pip

In [None]:
# !conda install pandas numpy scikit-learn -y

In [3]:
import numpy as np

np.__version__

'1.19.2'

In [4]:
import pandas as pd

pd.__version__

'1.2.3'

In [5]:
import sklearn

sklearn.__version__

'0.24.1'

## Загрузка данных

[Источник (Bike Share Daily Data)](https://www.kaggle.com/contactprad/bike-share-daily-data).

In [6]:
df = pd.read_csv("./../../data/bike_sharing_daily.csv", index_col=0)
df

Unnamed: 0_level_0,dteday,season,yr,mnth,holiday,weekday,workingday,weathersit,temp,atemp,hum,windspeed,casual,registered,cnt
instant,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
1,2011-01-01,1,0,1,0,6,0,2,0.344167,0.363625,0.805833,0.160446,331,654,985
2,2011-01-02,1,0,1,0,0,0,2,0.363478,0.353739,0.696087,0.248539,131,670,801
3,2011-01-03,1,0,1,0,1,1,1,0.196364,0.189405,0.437273,0.248309,120,1229,1349
4,2011-01-04,1,0,1,0,2,1,1,0.200000,0.212122,0.590435,0.160296,108,1454,1562
5,2011-01-05,1,0,1,0,3,1,1,0.226957,0.229270,0.436957,0.186900,82,1518,1600
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
727,2012-12-27,1,1,12,0,4,1,2,0.254167,0.226642,0.652917,0.350133,247,1867,2114
728,2012-12-28,1,1,12,0,5,1,2,0.253333,0.255046,0.590000,0.155471,644,2451,3095
729,2012-12-29,1,1,12,0,6,0,2,0.253333,0.242400,0.752917,0.124383,159,1182,1341
730,2012-12-30,1,1,12,0,0,0,1,0.255833,0.231700,0.483333,0.350754,364,1432,1796


In [7]:
from sklearn.model_selection import train_test_split

X = df.drop("cnt", axis=1)
y = df["cnt"]

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=123
)

## `sklearn.pipeline.Pipeline`

[sklearn.pipeline.Pipeline](https://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.html)

Последовательно применяет список преобразований и окончательную оценку. Промежуточные этапы конвейера должны быть "преобразованиями", то есть они должны реализовывать методы подгонки (fit) и преобразования (transform).

Окончательному оценщику (final estimator) нужно только реализовать подгонку (fit).

**Большинство проектов в области науки о данных требуют определенного уровня очистки и предварительной обработки данных, чтобы максимально использовать модели машинного обучения.**

Некоторые распространенные предварительные обработки или преобразования:
- Замещение пропущенных значений (Imputing missing values).
- Удаление выбросов (Removing outliers).
- Нормализация или стандартизация числовых признаков (Normalising or standardising numerical features).
- Кодирование категориальных признаков (Encoding categorical features).

В пакете `sklearn` есть набор функций, поддерживающих такого рода преобразования, таких как `StandardScaler`, `SimpleImputer` … и т.д.

Типичный (упрощенный) рабочий процесс в области науки о данных:
- Получить данные для обучения (training data).
- Очистить (Clean) / Предобработать (Preprocess) / Преобразовать (Transform) данные.
- Обучить (Train) модель машинного обучения.
- Оценить (Evaluate) модель.
- Оптимизировать (Optimise) модель.
- Очистить (Clean) / Предобработать (Preprocess) / Преобразовать (Transform) НОВЫЕ данные.
- Подготовить (Fit) модель на новых данных, чтобы делать прогнозы (predictions).

Можно заметить, что предварительная обработка данных должна выполняться как минимум дважды в рабочем процессе. Это утомительный и трудоемкий шаг, но хорошая новость в том, что можно автоматизировать этот процесс и применить его ко всем будущим новым наборам данных.

С помощью конвейера (`pipeline`) обучения `scikit` можно легко систематизировать процесс и, следовательно, сделать его чрезвычайно воспроизводимым.

Основным параметром конвейера (pipeline), над которым нужно работать, являются `steps`.

Примерно так должен выглядеть конвейер (pipeline):
```
Pipeline(steps=[('name_of_preprocessor', preprocessor),
                ('name_of_ml_model', ml_model())])
```

### Preprocessor

In [8]:
from sklearn.preprocessing import StandardScaler, OrdinalEncoder
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

- Нужно определить преобразователи как для числовых, так и для категориальных функций.

- Шаг преобразования представлен кортежем. В этом кортеже сначала нужно определить имя преобразователя, а затем функцию, которую хотите применить.

- Порядок кортежа будет порядком, в котором конвейер применяет преобразования.


Здесь сначала решим проблему с отсутствующими значениями, затем стандартизируем числовые функции и кодируем категориальные функции.

In [9]:
numeric_transformer = Pipeline(
    steps=[("imputer", SimpleImputer(strategy="mean")), ("scaler", StandardScaler())]
)

categorical_transformer = Pipeline(
    steps=[
        ("imputer", SimpleImputer(strategy="constant")),
        ("encoder", OrdinalEncoder()),
    ]
)

- Следующее, что нужно сделать — это указать, какие столбцы являются числовыми, а какие — категориальными, чтобы соответствующим образом применить преобразователи.

- Применяем преобразователи к признакам с помощью `ColumnTransformer`.

- Препроцессор — это применение преобразователей к признакам.

Как и в случае с конвейером, передаем список кортежей, состоящий из (`name`, `transformer`, `features`), в параметр `transformers`.

In [10]:
numeric_features = ["temp", "atemp", "hum", "windspeed"]
categorical_features = [
    "season",
    "mnth",
    "holiday",
    "weekday",
    "workingday",
    "weathersit",
]

preprocessor = ColumnTransformer(
    transformers=[
        ("numeric", numeric_transformer, numeric_features),
        ("categorical", categorical_transformer, categorical_features),
    ]
)

Можно создать список числовых / категориальных функций на основе типа данных, например:

```python
numeric_features = df.select_dtypes(include=['int64', 'float64']).columns

categorical_features = df.select_dtypes(include=['object']).drop(['weekday'], axis=1).columns
```

Используйте этот метод только в том случае, если на 100% уверены, что только типы данных соответствуют смыслу данных (нет чисел, который на самом деле являются категориями). Или после адекватного преобразования данных к нужным типам.

### Estimator

После сборки нашего препроцессора можно добавить оценщик (estimator), который представляет собой алгоритм машинного обучения, который нужно применить, чтобы завершить предварительную обработку и конвейер обучения. 

Поскольку в этом случае целевая переменная является непрерывной, будем применять здесь модель Random Forest Regression.

In [11]:
from sklearn.ensemble import RandomForestRegressor

pipeline = Pipeline(
    steps=[("preprocessor", preprocessor), ("regressor", RandomForestRegressor())]
)

rf_model = pipeline.fit(X_train, y_train)
print(rf_model)

Pipeline(steps=[('preprocessor',
                 ColumnTransformer(transformers=[('numeric',
                                                  Pipeline(steps=[('imputer',
                                                                   SimpleImputer()),
                                                                  ('scaler',
                                                                   StandardScaler())]),
                                                  ['temp', 'atemp', 'hum',
                                                   'windspeed']),
                                                 ('categorical',
                                                  Pipeline(steps=[('imputer',
                                                                   SimpleImputer(strategy='constant')),
                                                                  ('encoder',
                                                                   OrdinalEncoder())]),
                        

In [12]:
from sklearn.metrics import r2_score

# оценить модель
predictions = rf_model.predict(X_test)

# Наилучшая возможная оценка - 1.0
print(r2_score(predictions, y_test))

0.2854724338769593


### Использование модели

Чтобы максимизировать воспроизводимость, хотелось бы многократно использовать эту модель для новых входящих данных.

Сохраним модель с помощью пакета `joblib`. `joblib` является частью экосистемы `SciPy` и предоставляет утилиты для конвейерной обработки заданий (jobs) Python.

`joblib` предоставляет утилиты для сохранения и загрузки объектов Python, которые эффективно используют структуры данных NumPy.

Расширение файла в данном случае не имеет значения, оно используется просто "по привычке". Важны расшения типов сжатия, они имеют значения (zip, tar, ...).

In [13]:
import joblib

In [14]:
# иногда пишут .pkl
joblib.dump(rf_model, "./tmp/rf_model.pkl")

['./tmp/rf_model.pkl']

In [15]:
# иногда пишут .joblib
joblib.dump(rf_model, "./tmp/rf_model.joblib")

['./tmp/rf_model.joblib']

In [16]:
# иногда пишут .sav
joblib.dump(rf_model, "./tmp/rf_model.sav")

['./tmp/rf_model.sav']

Теперь можно вызвать этот конвейер, который включает в себя все виды предварительной обработки данных, которые нужны, и модель обучения, когда это нужно.

In [17]:
rf_model = joblib.load("./tmp/rf_model.pkl")
new_prediction = rf_model.predict(X_test)
new_prediction

array([5951.2 , 3183.6 , 2825.18, 4091.27, 6046.72, 5129.84, 4016.72,
       5263.37, 5482.94, 4054.71, 5106.8 , 4413.49, 5775.18, 5254.99,
       2305.34, 5431.53, 4125.83, 6339.21, 6061.21, 4278.36, 7700.87,
       5893.1 , 1478.91, 5679.84, 4880.83, 2862.93, 5447.31, 1050.93,
       5180.43, 5013.39, 5350.31, 5017.69, 6947.42, 4521.33, 6602.48,
       4481.87, 5962.4 , 4530.53, 2823.45, 3049.25, 6827.26, 1518.78,
       4687.73, 4825.37, 3839.53, 4854.56, 5219.44, 5468.33, 5058.08,
       2170.65, 4123.14, 4192.  , 5457.26, 3705.9 , 2669.47, 5678.64,
       6369.75, 5865.39, 5287.48, 2913.44, 5748.05, 3261.2 , 4731.09,
       5957.75, 5410.56, 1755.7 , 1523.21, 3992.83, 3011.08, 5462.25,
       5850.97, 1538.78, 5443.58, 5432.88, 1872.01, 3718.1 , 1330.24,
       3035.03, 6496.74, 1632.72, 3950.29, 5440.04, 4978.96, 4820.49,
       4089.31, 5826.86, 3451.15, 5076.77, 7564.69, 2592.36, 5776.38,
       5886.45, 3178.4 , 4785.56, 4906.22, 5573.27, 1844.72, 4449.17,
       4601.64, 5321

In [18]:
rf_model = joblib.load("./tmp/rf_model.joblib")
new_prediction = rf_model.predict(X_test)
new_prediction

array([5951.2 , 3183.6 , 2825.18, 4091.27, 6046.72, 5129.84, 4016.72,
       5263.37, 5482.94, 4054.71, 5106.8 , 4413.49, 5775.18, 5254.99,
       2305.34, 5431.53, 4125.83, 6339.21, 6061.21, 4278.36, 7700.87,
       5893.1 , 1478.91, 5679.84, 4880.83, 2862.93, 5447.31, 1050.93,
       5180.43, 5013.39, 5350.31, 5017.69, 6947.42, 4521.33, 6602.48,
       4481.87, 5962.4 , 4530.53, 2823.45, 3049.25, 6827.26, 1518.78,
       4687.73, 4825.37, 3839.53, 4854.56, 5219.44, 5468.33, 5058.08,
       2170.65, 4123.14, 4192.  , 5457.26, 3705.9 , 2669.47, 5678.64,
       6369.75, 5865.39, 5287.48, 2913.44, 5748.05, 3261.2 , 4731.09,
       5957.75, 5410.56, 1755.7 , 1523.21, 3992.83, 3011.08, 5462.25,
       5850.97, 1538.78, 5443.58, 5432.88, 1872.01, 3718.1 , 1330.24,
       3035.03, 6496.74, 1632.72, 3950.29, 5440.04, 4978.96, 4820.49,
       4089.31, 5826.86, 3451.15, 5076.77, 7564.69, 2592.36, 5776.38,
       5886.45, 3178.4 , 4785.56, 4906.22, 5573.27, 1844.72, 4449.17,
       4601.64, 5321

In [19]:
rf_model = joblib.load("./tmp/rf_model.sav")
new_prediction = rf_model.predict(X_test)
new_prediction

array([5951.2 , 3183.6 , 2825.18, 4091.27, 6046.72, 5129.84, 4016.72,
       5263.37, 5482.94, 4054.71, 5106.8 , 4413.49, 5775.18, 5254.99,
       2305.34, 5431.53, 4125.83, 6339.21, 6061.21, 4278.36, 7700.87,
       5893.1 , 1478.91, 5679.84, 4880.83, 2862.93, 5447.31, 1050.93,
       5180.43, 5013.39, 5350.31, 5017.69, 6947.42, 4521.33, 6602.48,
       4481.87, 5962.4 , 4530.53, 2823.45, 3049.25, 6827.26, 1518.78,
       4687.73, 4825.37, 3839.53, 4854.56, 5219.44, 5468.33, 5058.08,
       2170.65, 4123.14, 4192.  , 5457.26, 3705.9 , 2669.47, 5678.64,
       6369.75, 5865.39, 5287.48, 2913.44, 5748.05, 3261.2 , 4731.09,
       5957.75, 5410.56, 1755.7 , 1523.21, 3992.83, 3011.08, 5462.25,
       5850.97, 1538.78, 5443.58, 5432.88, 1872.01, 3718.1 , 1330.24,
       3035.03, 6496.74, 1632.72, 3950.29, 5440.04, 4978.96, 4820.49,
       4089.31, 5826.86, 3451.15, 5076.77, 7564.69, 2592.36, 5776.38,
       5886.45, 3178.4 , 4785.56, 4906.22, 5573.27, 1844.72, 4449.17,
       4601.64, 5321

### Идеи

Можно легко сравнить производительность ряда алгоритмов:

```python
regressors = [
    regressor_1(),
    regressor_2(),
    regressor_3()
    ...
]

for regressor in regressors:
    pipeline = Pipeline(steps=[
        ('preprocessor', preprocessor),
        'regressor',regressor)
    ])
    model = pipeline.fit(X_train, y_train)
    predictions = model.predict(X_test)
    
    print(regressor)
    print(f'Model r2 score: {r2_score(predictions, y_test)}')
```

Или настроить методы предварительной обработки (preprocessing) / преобразования (transforming).

Например, можно использовать значение `median` для заполнения пропущенных значений, использовать другой Scaler для числовых функций, перейдите на one-hot encoding вместо ordinal encoding для обработки категориальных функций, настройку гиперпараметров и т.д.

## Подбор гиперпараметров (hyper-parameters)

[sklearn.model_selection.GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV) - исчерпывающий поиск по заданным значениям параметров для оценщика (estimator).

В машинном обучении **гиперпараметр (hyperparameter)** - это параметр, значение которого используется для управления процессом обучения. Напротив, значения других параметров (обычно весов узлов) выводятся посредством обучения.

**Поиск по сетке (Grid Search)** - это процесс настройки гиперпараметров с целью определения оптимальных значений для данной модели. Это важно, поскольку производительность всей модели основана на указанных значениях **гиперпараметров**.

Существуют другие способы подобрать гиперпараметры ([Hyper-parameter optimizers](https://scikit-learn.org/stable/modules/classes.html#hyper-parameter-optimizers)).

(конкретные примеры будем рассматривать вместе с моделями)

[Пример использования](../../06_modeling_ml_regression_1/lectures/08_example_pipeline.ipynb)

---

[]()

[]()

[]()

[]()

[]()

[]()