# `Виды нормализаторов`

In [1]:
from sklearn import preprocessing
import numpy as np
from sklearn.datasets import load_iris

## MinMaxScaler()
диапазон от 0 до 1

`устойчив к небольшим стандартным отклонениям`

In [2]:
x = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
scaled_x = preprocessing.MinMaxScaler().fit_transform(x)
scaled_x


array([[0.5       , 0.        , 1.        ],
       [1.        , 0.5       , 0.33333333],
       [0.        , 1.        , 0.        ]])

`можно задать свой диапазон`

In [3]:
scaled_x = preprocessing.MinMaxScaler(feature_range=(-1, 1)).fit_transform(x)  # диапазон от -5 до 5
scaled_x

array([[ 0.        , -1.        ,  1.        ],
       [ 1.        ,  0.        , -0.33333333],
       [-1.        ,  1.        , -1.        ]])

# MaxAbsScaler()
`Предназначен для данных, центрированных на нуле или для разреженных наборов данных`

`Устойчив к небольшим стандартным отклонениям`

диапазон от -1 до 1

In [4]:
scaled_x = preprocessing.MaxAbsScaler().fit_transform(x)
scaled_x

array([[ 0.5, -1. ,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -0.5]])

# RobustScaler()

`предназначени для наборов данных с большим количеством выбросов`

диапазон от -1 до 1

In [5]:
scaled_x = preprocessing.RobustScaler().fit_transform(x)
scaled_x

array([[ 0.        , -1.        ,  1.33333333],
       [ 1.        ,  0.        ,  0.        ],
       [-1.        ,  1.        , -0.66666667]])

# QuantileTransformer()

`Преобразует массив данных очень близко к значению процентиля`

`Равномерное распределение`

диапазон от 0 до 1

In [6]:
x, y = load_iris(return_X_y=True)

In [7]:
print(f'до преобразования: {np.percentile(x[:, 0], [0, 25, 50, 75, 100]).round(2)}')
scaled_data = preprocessing.QuantileTransformer().fit_transform(x)
print(f'после преобразования: {np.percentile(scaled_data[:, 0], [0, 25, 50, 75, 100]).round(2)}')

до преобразования: [4.3 5.1 5.8 6.4 7.9]
после преобразования: [0.   0.24 0.51 0.74 1.  ]




# normalize

`часто используется в моделях классификации и кластеризации текстов`

`может быть полезен при работе со скалярным произведением`

In [14]:
x = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])

scaled_x = preprocessing.normalize(x, 'max')
scaled_x

array([[ 0.5, -0.5,  1. ],
       [ 1. ,  0. ,  0. ],
       [ 0. ,  1. , -1. ]])