# Глава 4: Работа с числовыми данными


Введение:

Количественные данные что-то измеряют— будь то размер класса, ежемесячные продажи или оценки учащихся. 
Естественным способом представления этих вели­ чин является численное (например, 29 студентов, $529 392 продаж). 
В этой главе мы рассмотрим многочисленные стратегии преобразования сырых числовых дан­ ных в признаки, целенаправленно формируемые для машинно-обучающихся алго­ритмов.

# 4.1 Шкалирование признака

Задача: Требуется прошкалировать числовой признак в диапазон между двумя значениями.

Решение: для шкалирования массива признаков использовать класс MinMaxScaler библиотеки scikit-learn

Обуждение: 

Шкалирование - общепринятая задача предобработки в машинном самобучении. Многие алгоритмы, описываемые далее в этой книге, исходят из того, что все признаки находятся в одной шкале, как правило от 0 до 1 или от -1 до 1.
Существует целый ряд методов шкалирования, но один из самых простых называется минимаксным шкалированием.
В минимаксном шкалировании минимальное и максимальное значения признака используются для шкалирования значений в пределах диапазона. 
В частности, минимакс вычисляется следующим образом:

![image.png](attachment:image.png)

Где x - вектор признака, x(i) - отдельный эл-нт признака x





In [2]:
import numpy as np 
from sklearn import preprocessing

# Создать признак:
feature = np.array([[-500.5],
                    [-100.0], 
                    [0],
                    [100.1],
                    [900.9]])

# Создать шкалировщик:
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0,1))

# Прошклировать признак:
scaled_feature = minmax_scale.fit_transform(feature)

# Показать прошклированный признак:
scaled_feature

array([[0.        ],
       [0.28578564],
       [0.35714286],
       [0.42857143],
       [1.        ]])

Класс библиотеки scikit-leam MinMaxScaier предлагает два варианта шкалирования признака.

Один вариант — использовать метод fit для вычисления минимального и максимального значений признака, а затем применить метод transform для шка­ лирования признака. 

Второй вариант — вызвать метод fit transform для выполне­ ния обеих операций одновременно.
 
Между этими двумя вариантами нет никакой математической разницы, но иногда есть практическая выгода в том, чтобы разде­ лить эти операции, потому что это позволяет применять одно и то же преобразова­ ние к разным наборам данных.

# 4.2 Стандартизация признака

Задача: Требуется преобразовать признак, чтобы он имел среднее значение 0 и стандартное отклонение 1

Решение: Класс standardscaier библиотеки scikit-leam выполняет оба преобразования

In [3]:
# Создать признак:
x = np.array([[-1000.1],
              [-200.2],
              [500.5],
              [600.6],
              [9000.9]])

# Создать шкалироващик:
scaler = preprocessing.StandardScaler()

# Преобразовать признак:
standardized = scaler.fit_transform(x)

standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

Обсуждение:
Распространенной альтернативой "минимаксному шкалированию", описанному мной в 4.1, является шкалирование признаков, при котором они должны быть приближенно стандартно распределены. Для этого я использую стандартизацию, в ходе которой данные преобразуются таким образом, что они имеют среднее зна­чение х = 0 и стандартное отклонение sigma = 1.

В частности, каждый элемент в при­знаке преобразуется таким образом, чтобы:

![image.png](attachment:image.png)

х' — стандартизированная форма х,. Преобразованный признак пред­ставляет собой количество стандартных отклонений, на которое исходное значение отстоит от среднего значения признака (так называемую z-оценку в статистике)