# Масштабирование

**Масштабирование признаков**

Масштабированием называется общий процесс изменения диапазона признака. Это необходимый шаг, потому что признаки измеряются в разных единицах, а значит покрывают разные диапазоны.

*Например, столбцы возраста и месячной зарплаты будут иметь совершенно разный диапазон.*

Это сильно искажает результаты таких алгоритмов, как *метод опорных векторов* и *метод k-ближайших соседей*, которые учитывают расстояния между измерениями. А масштабирование позволяет этого избежать. И хотя методы вроде *линейной регрессии* и *«случайного леса»* не требует масштабирования признаков, лучше не пренебрегать этим этапом при сравнении нескольких алгоритмов.

**Существует два распространенных способа масштабирования:**

1. **Нормализация**

В данном случае все значения будут находиться в диапазоне от 0 до 1. Дискретные бинарные значения определяются как 0 и 1.

Расчёт нового значения происходит по формуле:

$X_{norm} = \frac{X-X_{min}}{X_{max}-X_{min}}$


2. **Стандартизация**

Масштабирует значения с учетом стандартного отклонения. Если стандартное отклонение функций другое, их диапазон также будет отличаться друг от друга. Это снижает влияние выбросов в элементах. В следующей формуле стандартизации среднее значение показано как $μ$, а стандартное отклонение показано как $σ$.

$X_{std} = \frac{X-μ}{σ}$

Стандартизация приводит все исходные значения набора данных, независимо от их начальных распределений и единиц измерения, к набору значений из распределения с **нулевым средним значением** и **единичным стандартным отклонением** (т.е. по сути приводит все к нормальному распределению).

Пакет `sklearn.preprocessing` содержит в себе множество различных функции предобработки данных, в том числе функции, позволяющие выполнять масштабирование признаков:

- **StandardScaler()** - класс для стандартизации
- **MinMaxScaler()** - класс для нормализации

In [None]:
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import numpy as np
import pandas as pd

# вектор признаков
X_train = np.array([[ 1000., -15.,  2.],
                    [ 2500.,  10.,  1.],
                    [ 3000.,  13., -1.]])

In [None]:
X_train = pd.DataFrame(X_train, columns=['f1','f2','f3'])
X_train

Unnamed: 0,f1,f2,f3
0,1000.0,-15.0,2.0
1,2500.0,10.0,1.0
2,3000.0,13.0,-1.0


In [None]:
X_train.mean(axis=0)

f1    2166.666667
f2       2.666667
f3       0.666667
dtype: float64

## Стандартизация. Пример

In [None]:
# Стандартизация
std = StandardScaler()

X_std = std.fit_transform(X_train) # type - numpy array

std.fit(X_train)
X_std = std.transform(X_train)
X_std = std.transform(X_test)

X_std = pd.DataFrame(X_std, columns=['f1','f2','f3'])
X_std

Unnamed: 0,f1,f2,f3
0,-1.372813,-1.407465,1.069045
1,0.392232,0.584231,0.267261
2,0.980581,0.823235,-1.336306


In [None]:
X_std['new'] = [1000, 1001, 1002]
X_std

Unnamed: 0,f1,f2,f3,new
0,-1.372813,-1.407465,1.069045,1000
1,0.392232,0.584231,0.267261,1001
2,0.980581,0.823235,-1.336306,1002


In [None]:
X_std['new'] = std.fit_transform(X_std[['new']])

In [None]:
X_std

Unnamed: 0,f1,f2,f3,new
0,-1.372813,-1.407465,1.069045,-1.224745
1,0.392232,0.584231,0.267261,0.0
2,0.980581,0.823235,-1.336306,1.224745


In [None]:
# среднее значение по каждому столбцу
X_std.mean(axis=0).round(0)

f1     0.0
f2     0.0
f3     0.0
new    0.0
dtype: float64

In [None]:
# среднее отклонение по каждому столбцу
X_std.std(axis=0).round()

f1     1.0
f2     1.0
f3     1.0
new    1.0
dtype: float64

## Нормализация. Пример

In [None]:
mmsc = MinMaxScaler()
X_norm = mmsc.fit_transform(X_train) # type - numpy array

X_norm = pd.DataFrame(X_norm, columns=['f1','f2','f3'])
X_norm

Unnamed: 0,f1,f2,f3
0,0.0,0.0,1.0
1,0.75,0.892857,0.666667
2,1.0,1.0,0.0


In [None]:
# среднее значение по каждому столбцу
X_norm.mean(axis=0)

f1    0.583333
f2    0.630952
f3    0.555556
dtype: float64

In [None]:
# среднее отклонение по каждому столбцу
X_norm.std(axis=0)

f1    0.520416
f2    0.549041
f3    0.509175
dtype: float64

## Дополнительно можно почитать

1. https://datascience.xyz/theory/masshtabirovanie-standartizaciya-ili-normalizaciya-s-pomoshhju-scikit-learn.html

2. https://medium.com/physics-and-machine-learning/feature-scaling-with-scikit-learn-understand-it-correctly-d877cf44b8f6