# Работа с числовыми данными
Количественные данные служат для измерения чего-либо — будь то размер класса, ежемесячные продажи или оценки учащихся. Естественным способом представления этих величин является числовое представление (например, 29 студентов, 234 876 ₽ продаж.   
Рассмотрим некоторые стратегии преобразования сырых числовых данных в признаки, целеноправленно формируемые для алгоритмов машинного обучения.


***


### 1. Шкалирование признака
##### Задача
Требуется шкалировать числовой признак в диапазон между двумя значениями
##### Решение
Для шкалирования признаков используем класс `MinMaxScaler` библиотеки `Scikit-learn`.

In [5]:
# Загрузить библиотеки
import numpy as np
from sklearn import preprocessing

# Создать признак
feature = np.array([
    [-500.5],
    [-100.1],
    [0],
    [100.1],
    [909.9]
])

# Создать шкалировщик
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))

# Прошкалировать признак
scaled_feature = minmax_scale.fit_transform(feature)

# Показать прошкалированный признак
scaled_feature

array([[0.        ],
       [0.28389109],
       [0.35486387],
       [0.42583664],
       [1.        ]])

**Шкалирование** — это общепринятая задача предобработки данных в машинном обучении. Многие алгоритмы МО исходят из того, что все признаки находятся на одинаковой шкале, как правило от `0` до `1` или от `-1` до `1`. Существует целый ряд методов шкалирования, но один из самых простых называется *минимаксным шкалированием*. В минимаксном шкалировании минимальное и максимальное значения признака используют для шкалирования значений внутри диапазона.    В частности минимаксвычисляется следующим образом:  
$$x^`_i = \frac{x_i - min(x)}{max(x) - min(x)}$$
где $x$ – это вектор признака, $x_i$ – отдельный элемент признака $x$, $x^`_i$ – прошкалированный элемент.    

В данном примере из выведенного массива видно, что признак ьыл успешно прошкалирован в диапазон от 0 до 1. Установить дианазон позволяет аргумент конструктора класса `MinMaxScaler` `feature_range=`.    
Класс библиотеки scikit-learn `MinMaxScaler` предлагает два варианта шкалирования признака:
* первый вариант – использовать метод `fit()` для вычисления минимального и максимального значения признака, а затем применить метод `transform()` для шкалирования;
* второй вариант – вызвать метод `fit_transform()` для выполнения обеих операций одновременно.   

Между этими двумя вариантаминет никакой математической разницы, но иногда есть практическая выгода в том, чтобы разделить эти операции, потому как это позволяет применять одно и тоже преобразование к разным наборам данных.
#####  Дополнительные материалы
* "Шкалирование признаков", Википедия: https://ru.wikipedia.org/wiki/%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D1%88%D0%BA%D0%B0%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5     
* Себастьян Рашка "О шкалировании и нормализации признаков": http://sebastianraschka.com/Articles/2014_about_feature_scaling.html 


### 2. Стандартизация признака
##### Задача
Требуется преобразовать признак, чтобы он имел среднее значение равное `0` и стандартное отклонение равное `1`
##### Решение
Используем класс `StandardScaler` библиотеки `scikit-learn`

In [6]:
# Создать признак
x = np.array([
    [-1000.1],
    [-200.2],
    [500.5],
    [600.6],
    [9000.9]
])

# Создать шкалировщик
standard_scale =preprocessing.StandardScaler()

# Преобразовать признак
standardized = standard_scale.fit_transform(x)

# Показать признак
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

Распространенной альтернативой минимаксному шкалированию является шкалирование признаков, при котором они должны быть приближены к стандартному распределению. Для этого используется стандартизация, в ходе которой данные преобразуются таким образом, что они имееют среднее значение $\bar{x} = 0$ и стандартное отклонение $\sigma = 1$.   
В частности каждый элемент в признаке преобразуется таким образом, чтобы:   
$$x^`_i = \frac{x_i - x}{\sigma}$$
где $x^`_i$ – наша тандартизированная форма $x_i$. Преобразованный признак представляет собой количество стандартных отклонений, на которое исходное значение отстоит от среднего значения признака – так называемая *$z$-оценка* в статистике.    
В ммашинном обучении стандартизация является распространенным методом шкалирования с челью предобработки и на практике используется чаще, чем минимаксное шкалирование. Однако выбор варианта шкалирования признаков зависит от обучающегося алгоритма. Например, метод главных компонент часто работает лучше с использованием стандартизации, в то время как для нейронных сетей часто рекомендуется минимаксное шкалирование. В качестве общего правила, если нет причин использовать конкретный тип шкалирования, лучше примениять страндартизацию.     
Можно видеть эффект стандартизации, обратившись к среднему значению и стандартному отклонению результата решения:

In [7]:
# Напечатать среднее значение и стандартное отклонение
print('Среднее: ', round(standardized.mean()))
print('Стандартное отклонение: ', standardized.std())

Среднее:  0.0
Стандартное отклонение:  1.0


Если данные имеют значительные выбросы, то это может негативно повлиять на стандартизацию, сказываясь на среднем значении и дисперсии признаков. В таком случае часто бывает полезно проанализировать признаки, используя медиану и межквартильный размах. В библиотеки `scikit-learn` для этого используется  класс `RobustScaler`, реализующий метод робастного шкалирования:

In [9]:
# Создать шкалировщик
robust_scale = preprocessing.RobustScaler()

# Преобразовать признак
robust_scale.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

### 3. Нормализация наблюдений
##### Задача
Требуется прошкалировать значения признаков в наблюдениях для получения единичной нормы (общей длиной 1)
##### Решение
Изспользуем класс `Normolizer` с аргументом `norm=`

In [25]:
# Загрузить библиотеки
from sklearn.preprocessing import Normalizer

# Создать матрицу признаков
features = np.array([
    [0.5, 0.5],
    [1.1, 3.4],
    [1.5, 3.4],
    [1.63, 34.4],
    [10.9, 3.3]
])

# Создать нормализатор
normalizer = Normalizer(norm='l2')

# Преобразовать матрицу признаков
normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.40364021, 0.9149178 ],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

Многие методы шкалирования, напрмер минимаксное шкалирование и стандартизация, работают с признаками; однако можно шкалировать и отдельные наблюдения. Класс `Normalizer` шкалирует значения в отдельных наблюдениях, приводя их к единичной норме (сумма их длин равна 1). Этот тип шкалирования часто используют, когда имеется много эквивалентных признаков, например в классификации текста, где каждое слово или группа $n$-слоев является признаком.    
Класс `Normolizer` предоставляет три варианта нормы, приэтом евклидова норма (нередко именуемая $L^2$-нормой) является аргументом по умолчанию.    
$$||x||_2 = \sqrt{x^2_1 + x^2_2 + \ldots + x^2_n}$$
где $x$ – отдельное наблюдение; $x_n$ – значение этого наблюдения для $n$-го признака.

In [27]:
# Пребразовать матрицу признаков
features_l2_norm = Normalizer(norm='l2').transform(features)

# Показать матрицу признкаов
features_l2_norm

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.40364021, 0.9149178 ],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

В качестве альтернативы можно указать манхэттенскую норму ($L^1$):
$$||x||_1 = \sum_{i=1}^n{|x_i|}$$

In [28]:
# Преобразовать матрицу признаков
features_l1_norm = Normalizer(norm='l1').transform(features)

# Показать матрицу признаков
features_l1_norm

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.30612245, 0.69387755],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

Интуитивно норму $L^2$ можно воспринимать как расстояние между двумя точка в Нью-Йорке, пролетаемое птицей (т.е. по прямой), в то время как $L^1$ можно воспринимать как расстояние между теме же точками, но пройденное человеком по улицам, поэтому такое название "манхэттенская норма" или "таксомоторная норма".     
На практике заметим, что `norm=l1` шкалирует значения наблюдения таким образом, что в сумме они дают `1`. Иногда такая сумма может быть желательным качеством.

In [29]:
# Напечатать сумму
print("Сумма значений первого наблюдения: ", features_l1_norm[0][0] + features_l1_norm[0][1])

Сумма значений первого наблюдения:  1.0
