# Справка по машинному обучению (ML)

Существуют задачи:
- классификации;
- регрессии.

Они определяются видом целевого признака (ответа).  
Если целевой признак (ответ) категориальный, то решается задача классификации.  
Если целевой признак (ответ) количественный , то решается задача регрессии.

## Деление исходных данных на выборки для обучения, тестирования и валидации

Два варианта деления исходных данных на выборки

Вариант 1:

<img src="https://drive.google.com/uc?export=view&id=19zp6g67gRcwAzDVhdAEUuVsaJiwSn_Zp" alt="вариант 1" width="60%"/>

Вариант 2:

<img src="https://drive.google.com/uc?export=view&id=1A0Bm9UuVyOFbiinyAtB5DGjfSkRtC-tl" alt="вариант 2" width="60%"/>


### Функция train_test_split() для деления выборки на части

``` python
# импортирование функции
from sklearn.model_selection import train_test_split
# применение функции
df_train, df_valid = train_test_split(df, test_size=0.25, random_state=12345)
```

``` python
# еще один пример
features_train, features_valid_test, target_train, target_valid_test = train_test_split(
  features, target, test_size=.4, random_state=5639, stratify=target)
```

Функция `train_test_split()` возвращает два новых набора данных: обучающий и валидационный (тестовый).  
Параметры функции:
- `df` - название набора, данные которого делим;
- `test_size` - размер валидационной (или тестовой) выборки, выражается в долях: от 0 до 1 (в этом примере `0.25`, т.к. отделяем 25% исходных данных;
- `random_state` - любое значение , но не `None`;
- `stratify` - сохраняет соотношение (пропорцию) между классами целевого признака.

## Модели для задач классификации

### Метрики качества моделей для задач классификации

В библиотеке `sklearn` метрики находятся в модуле `slearn.metrics`.

#### Confusion matrix (*матрица ошибок или матрица неточностей*)

По главной диагонали (от верхнего левого угла) выстроены правильные прогнозы (TN в левом верхнем углу; TP в правом нижнем углу), вне главной диагонали — ошибочные варианты (FP в правом верхнем углу; FN в левом нижнем углу).

<img src="https://drive.google.com/uc?export=view&id=1DtrH2trTa--9xiAyu773ZapoF5_72Fjo" alt="Матрица ошибок" width="30%"/>

Класс с меткой «1» называется положительным, с меткой «0» — отрицательным.  
- True Positive (TP) - истинно положительные ответы;
- True Negative (TN) - истинно отрицательные ответы;
- False Positive (FP) - ложноположительные ответы;
- False Negative (FN) - ложноотрицательные ответы.

Функция `confusion_matrix()` принимает на вход верные ответы и предсказания модели, а возвращает матрицу ошибок.

#### 1) **Accuracy** (*доля правильных ответов*): отношение числа правильных ответов к размеру тестовой выборки.

$\begin{align}
accuracy = \frac{TP+TN}{TP+TN+FP+FN}
\end{align}$

Интуитивно понятная, очевидная и почти неиспользуемая метрика. Чем *Accuracy* больше, тем точнее модель. Но эта метрика бесполезна в задачах с неравными классами (дисбаланс классов).  
Вычисляется функцией `accuracy_score()`. Функция принимает на вход два аргумента: правильные ответы и предсказания модели; возвращает значение *Accuracy*.

``` python
from sklearn.metrics import accuracy_score
accuracy = accuracy_score(target, predictions)
```

#### 2) **Precision** (*точность*): показывает, какая доля объектов, для которой модель поставила целевой признак, действительно имеют целевой признак.

$\begin{align}
precision = \frac{TP}{TP+FP}
\end{align}$

Точность определяет, как много отрицательных ответов нашла модель, пока искала положительные. Чем больше отрицательных, тем ниже точность.  
Вычисляется функцией `precision_score()`.

``` python
from sklearn.metrics import precision_score
print(precision_score(target_valid, predicted_valid))
```

#### 3) **Recall** (*полнота*): выявляет, какую часть объектов, имеющих целевой признак, правильно определила модель.

$\begin{align}
recall = \frac{TP}{TP+FN}
\end{align}$

Полнота — это доля TP-ответов среди всех, у которых истинная метка 1. Хорошо, когда значение *Recall* близко к единице: модель хорошо ищет положительные объекты. Если полнота ближе к нулю — модель надо перепроверить и починить.  
Вычисляется функцией `recall_score()`.

``` python
from sklearn.metrics import recall_score
print(recall_score(target_valid, predicted_valid))
```

#### 4) **F1-score** (*F1-мера*): агрегирующая метрика — среднее гармоническое полноты и точности.

$\begin{align}
F1\text{-}score=\frac{2 * precision * recall}{precision + recall}
\end{align}$

Если положительный класс плохо прогнозируется по одной из шкал (*Recall* или *Precision*), то близкая к нулю *F1-мера* покажет, что прогноз класса 1 не удался.  
Вычисляется функцией `f1_score()`.

``` python
from sklearn.metrics import f1_score
print(f1_score(target_valid, predicted_valid))
```

#### 5) **PR-кривая** (от англ. *Precision и Recall*)

Показывает на графике значение точности `precision` и полноты `recall` при изменении порога. Чем выше кривая, тем лучше модель.

Порог - граница, где заканчивается отрицательный класс и начинается положительный. По умолчанию он равен 0,5, но его можно поменять.

<img src="https://drive.google.com/uc?export=view&id=1FskmNXpBQfhVmHVu3N23fCweU38B9kVv" alt="PR-кривая" width="40%"/>

Вероятность классов вычисляет функция `predict_proba()`. На вход она получает признаки объектов, а возвращает вероятности классов.
``` python
probabilities = model.predict_proba(features)
print(probabilities)
```
результат:
``` python
[[0.5795 0.4205]
 [0.6629 0.3371]
 [0.7313 0.2687]
 [0.6728 0.3272]
 [0.5086 0.4914]] 
```

#### 6) **TPR и FPR**

Когда положительных объектов нет, точность не вычислить, но есть другие характеристики, в которых нет деления на ноль.

**TPR** (англ. *True Positive Rate*) или «полнота», на английском используют термин *recall* - это доля верно предсказанных объектов к общему числу объектов класса.

**FPR** (англ. *False Positive Rate*) - это доля ложных срабатываний к общему числу объектов за пределами класса.  
Отношение FP-ответов (*False Positives* — отрицательные, классифицированные как положительные) к сумме отрицательных ответов FP и TN (*True Negatives* — верно классифицированные отрицательные ответы).

Деления на ноль не будет, т.к. в знаменателях значения, которые постоянны и не зависят от изменения модели.

$\begin{align}
TPR = \frac{TP}{TP+FN} \\
FPR = \frac{FP}{FP+TN}
\end{align}$

#### 7) **ROC-кривая** или **кривая ошибок** (от англ. *receiver operating characteristic*) и **AUC-ROC** (от англ. *Area Under Curve ROC* - «*площадь под ROC-кривой*»)

Для модели, которая всегда отвечает случайно, ROC-кривая выглядит как прямая, идущая из левого нижнего угла в верхний правый. Чем график выше, тем больше значение TPR и лучше качество модели.

<img src="https://drive.google.com/uc?export=view&id=1FufAXL2wVglvlGH4mls17VXXlxrjTsVr" alt="ROC-кривая" width="60%"/>

Строят ROC-кривую с помощью функции `roc_curve()`. Она принимает на вход значения целевого признака и вероятности положительного класса, перебирает разные пороги и возвращает три списка: значения FPR, значения TPR и рассмотренные пороги.

``` python
from sklearn.metrics import roc_curve
# создание и обучение модели
model = LogisticRegression(random_state=12345, solver='liblinear')
model.fit(features_train, target_train)
# прогнозирование вероятностей классов и выделение класса "1"
probabilities_valid = model.predict_proba(features_valid)
probabilities_one_valid = probabilities_valid[:, 1]
# получение параметров для ROC-кривой
fpr, tpr, thresholds = roc_curve(target_valid, probabilities_one_valid)
# постороение ROC-кривой
plt.figure()
plt.plot(fpr, tpr)
# ROC-кривая случайной модели (выглядит как прямая)
plt.plot([0, 1], [0, 1], linestyle='--')
# параметры графика
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.0])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('ROC-кривая')
plt.show()
```

Чтобы выявить, на сколько сильно модель отличается от случайной, определяют **AUC-ROC** - площадь под ROC-кривой.  
Эта метрика качества изменяется от 0 до 1. AUC-ROC случайной модели равна 0.5. Вычисляется с помощью функции `roc_auc_score()`.

``` python
from sklearn.metrics import roc_auc_score
auc_roc = roc_auc_score(target_valid, probabilities_one_valid)
```

### Модель "дерево решений" для задач классификации

In [None]:
import pandas as pd

# импортирование модели "дерево решений"
from sklearn.tree import DecisionTreeClassifier

# загружаем исходный датасет
df = pd.read_csv('train_data.csv')

# отдельно определили, что медиана выборки (средняя стоимость квартиры)
# равна 5650000 рублей
# создаем новый категориальный столбец ('price_class') - это целевая переменная
# для данной задачи, если "дорого", то 'price_class'=1,
# если "дешево", то 'price_class'=0
df.loc[df['last_price'] > 5650000, 'price_class'] = 1
df.loc[df['last_price'] <= 5650000, 'price_class'] = 0

# делим исходный датасет на два:
# 1) один с параметрами (features), от которых зависит целевая переменная
# в нем не должно быть целевой переменной 'price_class')
# и в данной задаче не нужна цена квартиры, т.к. вместо неё мы ввели целевую
# переменную 'price_class'
# 2) второй с целевой переменной (target)
features = df.drop(['last_price', 'price_class'], axis=1)
target = df['price_class']

# создаем модель типа "дерево решений"
model = DecisionTreeClassifier(random_state=12345)

# обучаем модель на двух заполненных выборках с параметрами и целевой переменной
model.fit(features, target)

# создаем два новых объекта с параметрами для тестирования модели
new_features = pd.DataFrame(
    [[900, 12, 2.8, 25, 409.7, 25, 0, 0, 0, 112, 0, 30706.0, 7877.0],
     [109, 2, 2.75, 25, 32, 25, 0, 0, 0, 40.5, 0, 36421.0, 9176.0]],
    columns=features.columns)

# предсказываем ответы, загружая параметры двух новых тестовых объектов в модель
answers = model.predict(new_features)
# печатаем результат
print(answers)

### Глубина обучения

**Переобучение** означает, что модель плохо поняла зависимости в данных. Модель хорошо объясняет примеры из обучающего набора данных, но плохо отрабатывает на тестовой выборке (значение параметра accuracy на тестовой выборке модели ниже, чем на обучающей).

**Недообучение** - обратно переобучению, возникает, когда качество на обучающей и тестовой выборках примерно одинаковое и низкое.

**Глубина дерева** (высота дерева) — это максимальное количество условий от «вершины» до финального ответа (считается по количеству переходов между узлами). Если дерево высокое (большое количество переходов между узлами/условиями), у модели склонность к переобучению; низкое — к недообучению. Решающее дерево с одним переходом (вопросом) называют "пнем" :). 

Глубина дерева (глубина обучения) в sklearn задаётся параметром max_depth.  
``` python
model = DecisionTreeClassifier(random_state=12345, max_depth=3)
```

### Модель "случайный лес" для задач классификации

Алгоритм обучает большое количество независимых друг от друга деревьев, а потом принимает решение на основе голосования. Случайный лес помогает улучшить результат предсказания и избежать переобучения.

In [None]:
import pandas as pd
# импортируем модель "случайный лес"
from sklearn.ensemble import RandomForestClassifier
# импортируем функцию разделения выборки на обучающую и тестовую(валидационную)
from sklearn.model_selection import train_test_split
# импортируем функцию определения точности предсказаний модели
from sklearn.metrics import accuracy_score

# загружаем выборку
df = pd.read_csv('/datasets/train_data.csv')
# добавляем в выборку целевой категорийный признак
df.loc[df['last_price'] > 5650000, 'price_class'] = 1
df.loc[df['last_price'] <= 5650000, 'price_class'] = 0

# делим выборку на валидационную (25%) и обучающую (всё остальное - 75%)
# обязательно назначаем параметр random_state
# (любое значение, но потом его не меняем)
df_train, df_valid = train_test_split(df, test_size=.25, random_state=12345)

# делим обучающую и валидационную выборки на наборы параметров
# и целевых значений
features_train = df_train.drop(['last_price', 'price_class'], axis=1)
target_train = df_train['price_class']
features_valid = df_valid.drop(['last_price', 'price_class'], axis=1)
target_valid = df_valid['price_class']

# создаем модель типа "случайный лес"
# зададим, что в случайном лесу будет 10 деревьев (n_estimators=10)
model = RandomForestClassifier(random_state=12345, n_estimators=10)

# обучаем модель на обучающей (тренировочной) выборке
model.fit(features_train, target_train)

# получаем предсказания обученной модели на тестовой выборке
predictions = model.predict(features_valid)
# точность модели определяем функцией accuracy_score()
accuracy = accuracy_score(target_valid, predictions)

# или методом .score(), который считает accuracy для всех алгоритмов
# классификации (а для всех моделей регрессии этот же метод .score()
# вычисляет метрику r2_score), в этом случае не нужен этап расчета
# model.predict(), т.к. метод .score() делает этот расчет внутри себя
result = model.score(features_valid, target_valid)

### Модель "логистическая регрессия" для задач классификации

Не смотря на такое название, это алгоритм для задачи классификации, а не регрессии. Это логистическое уравнение придумал бельгийский математик Франсуа Ферхюльст. В логистической регрессии параметров мало, поэтому вероятность переобучения невелика.

In [None]:
import pandas as pd
from joblib import dump

# импортируем модель "логистическая регрессия"
from sklearn.linear_model import LogisticRegression
# импортируем функцию разделения выборки на обучающую и тестовую(валидационную)
from sklearn.model_selection import train_test_split

# создаем модель типа "логистической регрессии"
# solver='lbfgs' - определяет алгоритм, который будет строить модель
# алгоритм 'lbfgs' из самых распространённых, подходит для большинства задач
# max_iter задаёт максимальное количество итераций обучения (по умолчанию 100)
model = LogisticRegression(random_state=12345, solver='lbfgs', max_iter=1000)

# обучаем модель на обучающей (тренировочной) выборке
model.fit(features_train, target_train)

# загружаем модель на сервер
dump(model, 'model_9_1.joblib')

Обучая логистическую регрессию, можно столкнуться с предупреждением библиотеки sklearn. Чтобы его отключить, указывают аргумент `solver='liblinear'` (англ. solver «алгоритм решения»; library linear, «библиотека линейных алгоритмов»):  
`model = LogisticRegression(solver='liblinear')`

### Сравнение моделей для задач классификации

Модель | Качество (accuracy) | Скорость работы
:--- | :---: | :---:
**Дерево решений**	| Низкое |	Высокая
**Случайный лес**	| Высокое |	Низкая
**Логистическая регрессия** |	Среднее |	Высокая


## Модели для задач регрессии

### Метрики качества моделей для задач регрессии


#### 1) **MSE** (англ. *Mean Squared Error*)

**Средняя квадратичная ошибка** - наиболее распространённая метрика качества в задаче регрессии. Чем MSE меньше, тем точнее модель.

$\begin{align}
MSE=\frac{\text{Сумма квадратов ошибок объектов}}{\text{Количество объектов}}
\end{align}$

или

$\begin{align}
MSE=\frac1N\sum_{i=1}^N(y_i-\hat{y}_i)^2
\end{align}$

Функция расчета средней квадратичной ошибки - `mean_squared_error()` из библиотеки `sklearn`.

``` python
# импортируем функцию расчёта MSE из библиотеки sklearn
from sklearn.metrics import mean_squared_error

# сформируем для примера правильные ответы и предсказания
answers = [623, 253, 150, 237]
predictions = [649, 253, 370, 148]

# расчет MSE
result = mean_squared_error(answers, predictions)
```

#### 2) **RMSE** (англ. *root mean squared error*)

**Корень из средней квадратичной ошибки** - это квадратный корень из средней квадратичной ошибки (MSE). Применяют чтобы метрика показывала просто рубли, а не "квадратные рубли" как после расчета средней квадратичной ошибки (MSE). 

$\begin{align}
RMSE = \sqrt{\frac1N\sum_{i=1}^N(y_i-\hat{y}_i)^2}=\sqrt{MSE}
\end{align}$

``` python
# RMSE рассчитывается как квадратный корень из MSE:
result = mean_squared_error(answers, predictions) **.5

# или сразу так:
result = mean_squared_error(answers, predictions, squared=False)
```

#### 3) **метрика R2** (англ. *coefficient of determination; R-squared*)

**Коэффициент детерминации** - вычисляет долю средней квадратичной ошибки модели от MSE среднего, а затем вычитает эту величину из единицы. Увеличение метрики означает прирост качества модели.
- Значение метрики R2 равно единице только если MSE нулевое. Такая модель предсказывает все ответы идеально.
- R2 равно нулю: модель работает так же, как и среднее.
- Если метрика R2 отрицательна, то качество модели очень низкое.
- Значения R2 больше единицы быть не может.

$\begin{align}
R^2=1-\frac{MSE(model)}{MSE(baseline)}
\end{align}$

Вычисляется функцией `r2_score()`.

``` python
from sklearn.metrics import r2_score
# создание и обучение библиотеки, получение предсказаний
model = LinearRegression()
model.fit(features_train, target_train)
predicted_valid = model.predict(features_valid)
# расчет и вывод R2
print("R2 =", r2_score(target_valid, predicted_valid))
```

#### 4) **MAE (англ. mean absolute error)**

**Среднее абсолютное отклонение** -  похожа на MSE, но в ней нет возведения в квадрат. Вычисляется функцией `mean_absolute_error()`.

$\begin{align}
MAE=\frac1N\sum_{i=1}^N|y_i-\hat y_i|
\end{align}$

``` python
from sklearn.metrics import mean_absolute_error
print(mean_absolute_error(target_valid, predicted_valid))
```

### Модель "дерево решений" для регрессии

``` python
import pandas as pd
# импортируем модель "дерево решений" для регрессии
from sklearn.tree import DecisionTreeRegressor
# импортируем функцию разделения выборки на обучающую и тестовую(валидационную)
from sklearn.model_selection import train_test_split
# импортируем функцию для расчета MSE/RMSE
from sklearn.metrics import mean_squared_error

# загрузка данных
df = pd.read_csv('/datasets/train_data.csv')

# разделение исходных данных на набор параметров и набор целевых значений
# целевые значения переводим в млн. руб. (разделив на 1000000)
features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 1000000

# делим исходные данные, представленные двумя наборами `features` и `target`,
# на обучающую и валидационную выборки (каждая также представляется
# двумя наборами)
# для валидационной выборки выделяем 25% исходных данных
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=.25, random_state=12345)

# в цикле перебираем глубину "дерева решений", проверяем качество модели
# через RMSE и определяем наилучшую модель (RMSE меньше)
best_model = None
best_result = 10000
best_depth = 0
for depth in range(1, 6):
    # создаем модель "дерево решений" для регрессии
    # с заданной глубиной max_depth
    model = DecisionTreeRegressor(random_state=12345, max_depth=depth)
    # обучаем модель на тренировочной выборке
    model.fit(features_train, target_train)
    # получаем предсказания модели на валидационной выборке
    predictions_valid = model.predict(features_valid)
    # считаем значение метрики RMSE на валидационной выборке
    result = mean_squared_error(target_valid, predictions_valid) **.5
    if result < best_result:
        best_model = model
        best_result = result
        best_depth = depth

print("RMSE наилучшей модели на валидационной выборке:", best_result,
      "Глубина дерева:", best_depth)
```

### Модель "случайный лес" для регрессии

``` python
import pandas as pd
# импортируем модель "случайный лес" для регрессии
from sklearn.ensemble import RandomForestRegressor
# импортируем функцию разделения выборки на обучающую (тренировочную)
# и валидационную (тестовую)
from sklearn.model_selection import train_test_split
# импортируем функцию для расчета MSE/RMSE
from sklearn.metrics import mean_squared_error

# загрузка данных
df = pd.read_csv('/datasets/train_data.csv')

# разделение исходных данных на набор параметров и набор целевых значений
# целевые значения переводим в млн. руб. (разделив на 1000000)
features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 1000000

# делим исходные данные (представленные двумя наборами `features` и `target`)
# на обучающую и валидационную выборки (каждая также представляется 
# двумя наборами)
# для валидационной выборки выделяем 25% исходных данных
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=.25, random_state=12345)

# в цикле перебираем количество деревьев `est` с шагом 10
# и глубину `depth` "случайного леса"
# проверяем качество модели через RMSE и определяем наилучшую модель
# (у которой RMSE меньше)
best_model = None
best_result = 10000
best_est = 0
best_depth = 0
for est in range(10, 51, 10):
    for depth in range (1, 11):
        # инициализируем модель "случайный лес"
        # с количеством деревьев n_estimators=est, 
        # глубиной max_depth=depth и фиксированным параметром random_state=12345
        model = RandomForestRegressor(random_state=12345, n_estimators=est,
                                      max_depth=depth)
        # обучаем модель на тренировочной выборке
        model.fit(features_train, target_train)
        # получаем предсказания модели на валидационной выборке
        predictions_valid = model.predict(features_valid)
        # считаем значение метрики rmse на валидационной выборке
        result = mean_squared_error(target_valid, predictions_valid,
                                    squared=False)
        if result < best_result:
            best_model = model
            best_result = result
            best_est = est
            best_depth = depth

print("RMSE наилучшей модели на валидационной выборке:", best_result,
      "Количество деревьев:", best_est, "Максимальная глубина:", depth)
```

### Модель "линейная регрессия" для регрессии

``` python
import pandas as pd
# импортируем модель "линейная регрессия" для регрессии
from sklearn.linear_model import LinearRegression
# импортируем функцию разделения выборки на обучающую (тренировочную)
# и валидационную (тестовую)
from sklearn.model_selection import train_test_split
# импортируем функцию для расчета MSE/RMSE
from sklearn.metrics import mean_squared_error

# загрузка данных
df = pd.read_csv('/datasets/train_data.csv')

# разделение исходных данных на набор параметров и набор целевых значений
# целевые значения переводим в млн. руб. (разделив на 1000000)
features = df.drop(['last_price'], axis=1)
target = df['last_price'] / 1000000

# делим исходные данные (представленные двумя наборами `features` и `target`)
# на обучающую и валидационную выборки (каждая также представляется
# двумя наборами)
# для валидационной выборки выделяем 25% исходных данных
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=.25, random_state=12345)

# инициализируем модель "линейная регрессия"
model = LinearRegression()
# обучаем модель на тренировочной выборке
model.fit(features_train, target_train)
# получаем предсказания модели на валидационной выборке
predictions_valid = model.predict(features_valid)
# считаем значение метрики RMSE на валидационной выборке
result = mean_squared_error(target_valid, predictions_valid) ** .5

print("RMSE модели линейной регрессии на валидационной выборке:", result)
```

## Рекомендации по выбору лучшей модели

Иногда (и даже, похоже, всегда) нужно перебирать разные варианты моделей, задавая разные гиперпараметры, сравнивать их результаты и на этом основании выбирать лучшую модель.

## Подготовка признаков

В задачах машинного обучения к анализу готовят не только данные, но ещё и признаки. Модели обучаются на числовых данных, поэтому пропуски в данных и нечисловые значения могут вызвать ошибку и невозможность обучения модели.  
(признаки - это данные в выборках `features`, где нет целевого признака)

### Разделение признаков по видам

Для удобства обработки (кодирования, масштабирования и т.п.) формируют списки столбцов признаков по видам, как минимум, делят на категориальные признаки и числовые. Они обрабатываются разными функциями, а после обработки собираются обратно в выборки признаков `features`.  
Функции предобработки признаков, также как и модели, обучаются на признаках обучающей выборки, а потом обученные на обучающей выборке функции предобработки применяются к признакам обучающей, валидационной и тестовой выборок.

Пример такого формирования списков столбцов с категориальными и численными признаками:

``` python
# сформируем список категориальных признаков
# признаки 'has_cr_card' и 'is_active_member' уже имеют нужный формат
# и не требуют обработки
list_category = features_train.select_dtypes(include='object').columns.to_list()
#list_category.extend(['has_cr_card', 'is_active_member'])
print(f'''
Список категориальных признаков:
{list_category}''')

# сформируем список численных признаков
list_numeral = features_train.select_dtypes(exclude='object').columns.to_list()
# признаки 'has_cr_card' и 'is_active_member' категориальные (бинарные 0/1),
# хоть и имеют в датасете тип численных, исключаем их из списка
list_numeral.remove('has_cr_card')
list_numeral.remove('is_active_member')
print(f'''
Список численных признаков:
{list_numeral}''')
```
Результат:
```
Список категориальных признаков:
['geography', 'gender']

Список численных признаков:
['credit_score', 'age', 'tenure', 'balance', 'num_of_products', 'estimated_salary']
```

### Техника прямого кодирования (англ. *One-Hot Encoding*, *OHE*).

Позволяет преобразовать категориальные признаки в численные.  
Подходит для моделей "логистическая реграссия", "решающее дерево", "случайный лес".  
В частности, принадлежность к категории логистическая регрессия вычисляет по формуле, состоящей из признаков. Они могут быть только численные.

Категориальные признаки переводятся в численные в два этапа:
1. Для каждого значения признака создаётся новый столбец.
2. Если объекту категория подходит, в новом столбце ставится 1, если нет — 0.

Новые признаки (новые столбцы) называются *дамми-переменными* или *дамми-признаками* (англ. dummy variable, «фиктивная переменная»).

Функция `pd.get_dummies()` из библиотеки `pandas` реализует технику прямого кодирования.

*Важно!*  
Из всего переданного датафрейма, функция `pd.get_dummies()` обрабатывает только категориальные (нечисловые) столбцы (object). Она сама определяет их по типу данных столбцов (можно посмотреть через `.info()` или `.dtypes`).

Пример применения функции `pd.get_dummies()` для столбца "Gender" датасета (с распечаткой первых значений):
```python
print(pd.get_dummies(data['Gender']).head())
```

<img src="https://drive.google.com/uc?export=view&id=1BnhsuMdm4tsVHaSUEbKuhzjPXUiuxnG3" alt="Пример применения техники One-Hot Encoding" width="50%"/>

При отработке техники прямого кодирования One-Hot Encoding можно столкнуться с так называемой *дамми-ловушкой* (англ. dummy trap, «ловушка фиктивных признаков»), когда столбцы, добавляемые в датасет функцией `pd.get_dummies()`, сильно взаимосвязаны между собой. Это означает избыточность данных, что плохо для обучения.  
В примере с обработакой техникой прямого кодирования столбца `'Gender'` это, например, столбец `'Gender_F'`, значения которого однозначно можно определить исходя из значений двух других столбцов `'Gender_M'` и `'Gender_None'`. Соответственно, столбец `'Gender_F'` лишний и его нужно удалить.  
Удаление осуществляется с помощью параметра `drop_first=True` функции `pd.get_dummies()`.  
Пример:
``` python
data_ohe = pd.get_dummies(data['Gender'], drop_first=True)
```

Альтернативный пример реализации техники прямого кодирования.  
Использование функции `OneHotEncoder()` (более предпочтительно, чем `pd.get_dummies()`).

``` python
# отключение предупреждения 'SettingWithCopy'
pd.options.mode.chained_assignment = None
# кодирование категориальных признаков в обучающей выборке,
# имена столбцов в списке 'list_category'
encoder = OneHotEncoder(drop='first', sparse=False)
features_train[encoder.get_feature_names()] = encoder.fit_transform(
                                              features_train[list_category])
# после обработки добавились новые столбцы, образованные из исходных,
# старые столбцы удаляем
features_train = features_train.drop(list_category, axis=1)

# кодирование категориальных признаков в валидационной выборке энкодером,
# который уже обучен на обучающей выборке
features_valid[encoder.get_feature_names()] = encoder.transform(
                                              features_valid[list_category])
# удаляем старые, теперь не нужные столбцы
features_valid = features_valid.drop(list_category, axis=1)
```

### Техника порядкового кодирования

Также преобразует категориальные признаки в численные.  
Подходит для моделей "решающее дерево" и "случайный лес". Для "логистической регрессии" не подходит, так как .  
Кодирует цифрами выраженные категории в столбцах. Ordinal Encoding (от англ. «кодирование по номеру категории»). Работает следующим образом:
- Фиксируется, какой цифрой кодируется класс.
- Цифры размещаются в столбце.

Функция для применения техники прямого кодирования `OrdinalEncoder()` находится в модуле `sklearn.preprocessing`.

*Важно!*  
Функция `OrdinalEncoder()` перекодирует все столбцы в переданном ей датасете и категориальные и числовые. Данные в числовых столбцах изменятся!

``` python
# импортируем OrdinalEncoder из библиотеки
from sklearn.preprocessing import OrdinalEncoder

# Преобразование выполняется в три этапа:
# 1. Создаём объект этой структуры данных
encoder = OrdinalEncoder()
# 2. Вызываем метод fit(), чтобы получить список категориальных признаков
encoder.fit(data)
# 3. Преобразуем данные функцией transform()
data_ordinal = encoder.transform(data)

# преобразуем в датафрейм с названиями столбцов, как в исходном data
data_ordinal = pd.DataFrame(encoder.transform(data), columns=data.columns)
```

``` python
# два варианта написания `fit()` и `transform()` в одну строку
# (результат одинаковый):
# первый
data_ordinal = pd.DataFrame(encoder.fit(data).transform(data), columns=data.columns)
# второй
data_ordinal = pd.DataFrame(encoder.fit_transform(data), columns=data.columns)
```
<img src="https://drive.google.com/uc?export=view&id=1BuFSUAvBx8tY8iyAve-9o9OJjaDJ6rck" alt="Пример применения техники Ordinal Encoding" width="40%"/>

Пример кода с применением порядкового кодирования Ordinal Encoding и обучения модели "решающее дерево":
``` python
# импортирование необходимых библиотек и функций
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import OrdinalEncoder
# загрузка данных
data = pd.read_csv('/datasets/travel_insurance.csv')
# применение прямого кодирования
encoder = OrdinalEncoder()
data_ordinal = pd.DataFrame(encoder.fit_transform(data), columns=data.columns)
# деление выборки на обучающую и валидационную
target = data_ordinal['Claim']
features = data_ordinal.drop('Claim', axis=1)
features_train, features_valid, target_train, target_valid = train_test_split(
                        features, target, test_size=0.25, random_state=12345)
# обучение модели "решающее дерево" на обучающей выборке
model = DecisionTreeClassifier(random_state=12345)
model.fit(features_train, target_train)
```

Техника порядкового кодирования `Ordinal Encoding` используется реже, чем техника прямого кодирования `One-Hot Encoding`.

### Масштабирование признаков

Часто признаки имеют разный масштаб, поэтому их нужно выравнивать - стандартизировывать.  
Например, в столбце `Age` возможен возраст от 0 до 100 лет, а в столбце `Commission` страховая комиссия от 100 долларов до 1000. Значения и их разбросы в столбце Commission больше, поэтому алгоритм автоматически решит, что этот признак важнее возраста. А на самом дела для нас все признаки одинаково значимы.  
Чтобы избежать этой ловушки, признаки масштабируют — приводят к одному масштабу.
Один из методов масштабирования — **стандартизация данных**.

Функция `StandardScaler()` из модуля `sklearn.preprocessing` используется для стандартизации данных.
``` python
# импортирование функции масштабирования данных
from sklearn.preprocessing import StandardScaler
# создание объекта функции масштабирования данных и настройка его на обучающих данных
# (настройка — это вычисление среднего и дисперсии)
scaler = StandardScaler()
scaler.fit(features_train)
# преобразование (масштабирование) обучающей и валидационной выборки функцией `transform()`
features_train_scaled = scaler.transform(features_train)
features_valid_scaled = scaler.transform(features_valid)
```

При записи изменённых признаков в исходный датафрейм код может вызывать предупреждение `SettingWithCopy`. Причина этого в особенности поведения `sklearn` и `pandas`.  Чтобы предупреждение не появлялось, в код добавляют строчку:
``` python
pd.options.mode.chained_assignment = None
```

*Важно!*  
масштабирование функцией `StandardScaler()` применяется к числовым данным, поэтому в методах `.fit()` и `.transform()` этой функции надо передавать только столбцы датасета с числовыми данными.

Пример кода с применением масштабирования с помощью функции `StandardScaler()`:
``` python
# импортирование необходимых библиотек
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
# отключение предупреждения, связанного с работой функции `StandardScaler()`
pd.options.mode.chained_assignment = None
# загрузка данных
data = pd.read_csv('/datasets/travel_insurance.csv')
# разделение выборки на обучающую и валидационную
target = data['Claim']
features = data.drop('Claim', axis=1)
features_train, features_valid, target_train, target_valid = train_test_split(
    features, target, test_size=0.25, random_state=12345)
# список числовых столбцов для масштабирования
numeric = ['Duration', 'Net Sales', 'Commission (in value)', 'Age']
# инициация и обучение функции масштабирования
scaler = StandardScaler()
scaler.fit(features_train[numeric])
# применение функции масштабирования
features_train[numeric] = scaler.transform(features_train[numeric])
features_valid[numeric] = scaler.transform(features_valid[numeric])
# просмотр результатов в обучающей выборке
print(features_train.head())
```

## Балансирование классов

Для балансировки классов применяют следующие техники:
- Взвешивание классов.
- Изменение размеров выборки (масштабирование или стандартизация):
  - увеличение выборки (upsampling);
  - уменьшение выборки (downsampling).

### Техника взвешивания классов

Для балансировки классов при создании моделей используется параметр `class_weight='balanced'`, который есть в функциях создания моделей `DecisionTreeClassifier()`, `RandomForestClassifier()` и `LogisticRegression()`. Он увеличивает вес класса, которого меньше. Например, если "1" в 3 раза меньше, чем "0", то у "0" будет вес 1, а у "1" будет вес 3.

Пример:

``` python
model = DecisionTreeClassifier(random_state=12345, max_depth=depth, class_weight='balanced')
```

### Техника "upsampling"

Преобразование проходит в несколько этапов:
- разделить обучающую выборку на отрицательные и положительные объекты;
- скопировать несколько раз положительные объекты;
- с учётом полученных данных создать новую обучающую выборку;
- перемешать данные.

Перемешивание данных осуществляется с помощью функции `upsample()`.  
Объем выборки после применения "upsampling" увеличивается.

Пример балансировки выборки в которой "1" меньше "0" в 4 раза:

``` python
# делим обучающие выборки на отрицательные и положительные объекты
features_zeros = features_train_balans[target_train_balans == 0]
features_ones = features_train_balans[target_train_balans == 1]
target_zeros = target_train_balans[target_train_balans == 0]
target_ones = target_train_balans[target_train_balans == 1]

# увеличиваем количество положительных объектов в 4 раза путем копирования
features_train_upsampled = pd.concat([features_zeros] + [features_ones] * 4)
target_train_upsampled = pd.concat([target_zeros] + [target_ones] * 4)

# перемешиваем
features_train_upsampled, target_train_upsampled = shuffle(
  features_train_upsampled, target_train_upsampled, random_state=12345)
```

### Техника "downsampling"

Преобразование проходит в несколько этапов:
- разделить обучающую выборку на отрицательные и положительные объекты;
- случайным образом отбросить часть из отрицательных объектов;
- с учётом полученных данных создать новую обучающую выборку;
- перемешать данные.

Чтобы удалить из выборки случайные элементы, применяется функция `sample()`. На вход она принимает аргумент `frac`. Возвращает случайные элементы в таком количестве, чтобы их доля от исходной таблицы была равна `frac`.  
Объем выборки после применения "downsampling" уменьшается.

Пример балансировки выборки сокращением доли "0" до 0,1:

``` python
# делим обучающие выборки на отрицательные и положительные объекты
features_zeros = features[target == 0]
features_ones = features[target == 1]
target_zeros = target[target == 0]
target_ones = target[target == 1]
# сокращаем долю "0" в 10 раз, удаляя и оставляя их долю
# в размере 0,1 от исходной выборки "0"
features_downsampled = pd.concat([features_zeros.sample(
  frac=.1, random_state=12345)] + [features_ones])
target_downsampled = pd.concat([target_zeros.sample(
  frac=.1, random_state=12345)] + [target_ones])
# перемешиваем
features_downsampled, target_downsampled = shuffle(
  features_downsampled, target_downsampled, random_state=12345)
```