### Шкалирование признака

In [5]:
import numpy as np
from sklearn import preprocessing
from sklearn.preprocessing import minmax_scale

feature = np.array([[-500.5],[-100.1],[0],[100.1],[900.9]])
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0,1))
scaled_feature = minmax_scale.fit_transform(feature)

scaled_feature

array([[0.        ],
       [0.28571429],
       [0.35714286],
       [0.42857143],
       [1.        ]])

Шкалирование - общепринятая задача предобработки в машинном самообучении. <br>
Многие алгоритмы исходят из того, что все признаки находятся на одинаковой шкале, как правило от 0 до 1. <br>
Существует целый ряд методов шкалирования, один из самых простых - минимаксное шкалирование. <br>
В таком шкалировании минимальное и максимальное значения признака используются для шкалирования значений в пределах диапазона <br>
$$x'_1 = \frac{x_1 - min(x)}{max(x)-min(x)}$$

### Стандартизация признака <br>
Требуется преобразовать признак, чтобы он имел среднее значение 0 и стандартное отклонение 1

In [11]:
from sklearn import preprocessing
x = np.array([[-1000.1],[-200.2],[500.5],[600.6],[9000.9]])

scaler = preprocessing.StandardScaler()
standardized = scaler.fit_transform(x)
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

Альтернатива минимаксному шкалированию - шкалирование признаков, при котором они должны быть приближенно стандартно распределены. <br>
Для этого используется стандартизация, в ходе которой даннные преобразуются таким образом, что они имеют среднее значение:
 $$\bar{x}=0$$ <div align="center">и стандартное отклонение </div> $$\omega =1 $$
 <div align="center">  </div>

In [12]:
print("Среднее:", round(standardized.mean()))
print("Стандартное отклонение:", round(standardized.std()))

Среднее: 0
Стандартное отклонение: 1


In [13]:
robust_scaler = preprocessing.RobustScaler()
robust_scaler.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

### Нормализация наблюдений <br>
нормализуем каждое наблюдение (строку данных) так, чтобы его норма стала равна 1

In [14]:
from sklearn.preprocessing import Normalizer
features = np.array([[0.5, 0.5],
                     [1.1, 3.4],
                     [1.5, 20.2],
                     [1.63, 34.4],
                     [10.9, 3.3]])
normalizer = Normalizer(norm="l2")
normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

Нормализация убирает влияние "размера" (длины текста, яркости изображения и т.п.) оставляя только **пропорции** <br>
$$
||x||_2=\sqrt{x^2_1+x^2_2+...+x^2_n}
$$
Этот тип шкалирования часто используют, когда имеется много эквивалентных признаков (например, в классификации текста, <br>когда каждое слово или группа n-слов является признаком)

In [17]:
normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.07405353, 0.99725427],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

Также существует манхэттенская норма L1
$$
||x||_1= \sum_{i=1}^{n} |x_i|
$$


In [18]:
features_l1_norm = Normalizer(norm="l1").transform(features)
features_l1_norm

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.06912442, 0.93087558],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

Норма L2 рассматривается как расстояние между двумя точками в Нью-Йорке пролетаемой птицей, по прямой.<br>
L1 как расстояние пройденного человеком пути по улицам = манхэттенская норма.

In [19]:
print("Сумма значений первого наблюдения:",
      features_l1_norm[0,0]+features_l1_norm[0,1])

Сумма значений первого наблюдения: 1.0
