# Работа с числовыми данными
Количественные данные служат для измерения чего-либо — будь то размер класса, ежемесячные продажи или оценки учащихся. Естественным способом представления этих величин является числовое представление (например, 29 студентов, 234 876 ₽ продаж.   
Рассмотрим некоторые стратегии преобразования сырых числовых данных в признаки, целеноправленно формируемые для алгоритмов машинного обучения.


***


### 1. Шкалирование признака
##### Задача
Требуется шкалировать числовой признак в диапазон между двумя значениями
##### Решение
Для шкалирования признаков используем класс `MinMaxScaler` библиотеки `Scikit-learn`.

In [5]:
# Загрузить библиотеки
import numpy as np
from sklearn import preprocessing

# Создать признак
feature = np.array([
    [-500.5],
    [-100.1],
    [0],
    [100.1],
    [909.9]
])

# Создать шкалировщик
minmax_scale = preprocessing.MinMaxScaler(feature_range=(0, 1))

# Прошкалировать признак
scaled_feature = minmax_scale.fit_transform(feature)

# Показать прошкалированный признак
scaled_feature

array([[0.        ],
       [0.28389109],
       [0.35486387],
       [0.42583664],
       [1.        ]])

**Шкалирование** — это общепринятая задача предобработки данных в машинном обучении. Многие алгоритмы МО исходят из того, что все признаки находятся на одинаковой шкале, как правило от `0` до `1` или от `-1` до `1`. Существует целый ряд методов шкалирования, но один из самых простых называется *минимаксным шкалированием*. В минимаксном шкалировании минимальное и максимальное значения признака используют для шкалирования значений внутри диапазона.    В частности минимаксвычисляется следующим образом:  
$$x^`_i = \frac{x_i - min(x)}{max(x) - min(x)}$$
где $x$ – это вектор признака, $x_i$ – отдельный элемент признака $x$, $x^`_i$ – прошкалированный элемент.    

В данном примере из выведенного массива видно, что признак ьыл успешно прошкалирован в диапазон от 0 до 1. Установить дианазон позволяет аргумент конструктора класса `MinMaxScaler` `feature_range=`.    
Класс библиотеки scikit-learn `MinMaxScaler` предлагает два варианта шкалирования признака:
* первый вариант – использовать метод `fit()` для вычисления минимального и максимального значения признака, а затем применить метод `transform()` для шкалирования;
* второй вариант – вызвать метод `fit_transform()` для выполнения обеих операций одновременно.   

Между этими двумя вариантаминет никакой математической разницы, но иногда есть практическая выгода в том, чтобы разделить эти операции, потому как это позволяет применять одно и тоже преобразование к разным наборам данных.
#####  Дополнительные материалы
* "Шкалирование признаков", Википедия: https://ru.wikipedia.org/wiki/%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D0%B5_%D1%88%D0%BA%D0%B0%D0%BB%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5     
* Себастьян Рашка "О шкалировании и нормализации признаков": http://sebastianraschka.com/Articles/2014_about_feature_scaling.html 


### 2. Стандартизация признака
##### Задача
Требуется преобразовать признак, чтобы он имел среднее значение равное `0` и стандартное отклонение равное `1`
##### Решение
Используем класс `StandardScaler` библиотеки `scikit-learn`

In [6]:
# Создать признак
x = np.array([
    [-1000.1],
    [-200.2],
    [500.5],
    [600.6],
    [9000.9]
])

# Создать шкалировщик
standard_scale =preprocessing.StandardScaler()

# Преобразовать признак
standardized = standard_scale.fit_transform(x)

# Показать признак
standardized

array([[-0.76058269],
       [-0.54177196],
       [-0.35009716],
       [-0.32271504],
       [ 1.97516685]])

Распространенной альтернативой минимаксному шкалированию является шкалирование признаков, при котором они должны быть приближены к стандартному распределению. Для этого используется стандартизация, в ходе которой данные преобразуются таким образом, что они имееют среднее значение $\bar{x} = 0$ и стандартное отклонение $\sigma = 1$.   
В частности каждый элемент в признаке преобразуется таким образом, чтобы:   
$$x^`_i = \frac{x_i - x}{\sigma}$$
где $x^`_i$ – наша тандартизированная форма $x_i$. Преобразованный признак представляет собой количество стандартных отклонений, на которое исходное значение отстоит от среднего значения признака – так называемая *$z$-оценка* в статистике.    
В ммашинном обучении стандартизация является распространенным методом шкалирования с челью предобработки и на практике используется чаще, чем минимаксное шкалирование. Однако выбор варианта шкалирования признаков зависит от обучающегося алгоритма. Например, метод главных компонент часто работает лучше с использованием стандартизации, в то время как для нейронных сетей часто рекомендуется минимаксное шкалирование. В качестве общего правила, если нет причин использовать конкретный тип шкалирования, лучше примениять страндартизацию.     
Можно видеть эффект стандартизации, обратившись к среднему значению и стандартному отклонению результата решения:

In [7]:
# Напечатать среднее значение и стандартное отклонение
print('Среднее: ', round(standardized.mean()))
print('Стандартное отклонение: ', standardized.std())

Среднее:  0.0
Стандартное отклонение:  1.0


Если данные имеют значительные выбросы, то это может негативно повлиять на стандартизацию, сказываясь на среднем значении и дисперсии признаков. В таком случае часто бывает полезно проанализировать признаки, используя медиану и межквартильный размах. В библиотеки `scikit-learn` для этого используется  класс `RobustScaler`, реализующий метод робастного шкалирования:

In [9]:
# Создать шкалировщик
robust_scale = preprocessing.RobustScaler()

# Преобразовать признак
robust_scale.fit_transform(x)

array([[-1.87387612],
       [-0.875     ],
       [ 0.        ],
       [ 0.125     ],
       [10.61488511]])

### 3. Нормализация наблюдений
##### Задача
Требуется прошкалировать значения признаков в наблюдениях для получения единичной нормы (общей длиной 1)
##### Решение
Изспользуем класс `Normolizer` с аргументом `norm=`

In [25]:
# Загрузить библиотеки
from sklearn.preprocessing import Normalizer

# Создать матрицу признаков
features = np.array([
    [0.5, 0.5],
    [1.1, 3.4],
    [1.5, 3.4],
    [1.63, 34.4],
    [10.9, 3.3]
])

# Создать нормализатор
normalizer = Normalizer(norm='l2')

# Преобразовать матрицу признаков
normalizer.transform(features)

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.40364021, 0.9149178 ],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

Многие методы шкалирования, напрмер минимаксное шкалирование и стандартизация, работают с признаками; однако можно шкалировать и отдельные наблюдения. Класс `Normalizer` шкалирует значения в отдельных наблюдениях, приводя их к единичной норме (сумма их длин равна 1). Этот тип шкалирования часто используют, когда имеется много эквивалентных признаков, например в классификации текста, где каждое слово или группа $n$-слоев является признаком.    
Класс `Normolizer` предоставляет три варианта нормы, приэтом евклидова норма (нередко именуемая $L^2$-нормой) является аргументом по умолчанию.    
$$||x||_2 = \sqrt{x^2_1 + x^2_2 + \ldots + x^2_n}$$
где $x$ – отдельное наблюдение; $x_n$ – значение этого наблюдения для $n$-го признака.

In [27]:
# Пребразовать матрицу признаков
features_l2_norm = Normalizer(norm='l2').transform(features)

# Показать матрицу признкаов
features_l2_norm

array([[0.70710678, 0.70710678],
       [0.30782029, 0.95144452],
       [0.40364021, 0.9149178 ],
       [0.04733062, 0.99887928],
       [0.95709822, 0.28976368]])

В качестве альтернативы можно указать манхэттенскую норму ($L^1$):
$$||x||_1 = \sum_{i=1}^n{|x_i|}$$

In [28]:
# Преобразовать матрицу признаков
features_l1_norm = Normalizer(norm='l1').transform(features)

# Показать матрицу признаков
features_l1_norm

array([[0.5       , 0.5       ],
       [0.24444444, 0.75555556],
       [0.30612245, 0.69387755],
       [0.04524008, 0.95475992],
       [0.76760563, 0.23239437]])

Интуитивно норму $L^2$ можно воспринимать как расстояние между двумя точка в Нью-Йорке, пролетаемое птицей (т.е. по прямой), в то время как $L^1$ можно воспринимать как расстояние между теме же точками, но пройденное человеком по улицам, поэтому такое название "манхэттенская норма" или "таксомоторная норма".     
На практике заметим, что `norm=l1` шкалирует значения наблюдения таким образом, что в сумме они дают `1`. Иногда такая сумма может быть желательным качеством.

In [29]:
# Напечатать сумму
print("Сумма значений первого наблюдения: ", features_l1_norm[0][0] + features_l1_norm[0][1])

Сумма значений первого наблюдения:  1.0


### 4. Генерирование полиномиальных и взаимодействующих признаков
##### Задача
Требуется создать полиномиальные и взаимодействующие признаки
##### Решение
Используем класс `PolynomialFeatures` библиотеки `scikit=learn`

In [32]:
# Загрузить библиотеки
from sklearn.preprocessing import PolynomialFeatures

# Создать матрицу признаков
features = np.array([
    [2, 3],
    [2, 3],
    [2, 3]
])

# Создать объект PolynomialFeatures
polynomial_interaction = PolynomialFeatures(degree=2, include_bias=False)

# Создать полиномиальные признаки
polynomial_interaction.fit_transform(features)

array([[2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.],
       [2., 3., 4., 6., 9.]])

Параметр `degree=` определяет максимальный порядок полинома. Например, `degree=2` создаст новые признаки, возведенные во вторую степень:
$$x_1, x_2, x^2_1, x^2_2,$$
в то время как `degree=3` создаст новые признаки возведенные во вторую и в третью степени:
$$x_1, x_2, x^2_1, x^2_2, x^3_1, x^3_2.$$
Более того, как по умолчанию метод, реализованный в класса `PolynomialFeatures` включает в себя признаки взаимодействия:
$$x_1, x_2.$$
Можно ограничить создаваемые признаки только признаками взаимодействия, установив для `interaction_only=` значение `True`:

In [33]:
interaction = PolynomialFeatures(degree=2, interaction_only=True, include_bias=False)
interaction.fit_transform(features)

array([[2., 3., 6.],
       [2., 3., 6.],
       [2., 3., 6.]])

Полиномиальные признаки часто создаются, когда предполагается, что существует нелинейная связь между признаками и целью. Например, можно подозревать, что влияние возраста на вероятность наличия серьезных заболеваний не является постоянным с течением времени, а возрастает по мере увеличения возраста. Можно закодировать этот неконстантный эффект в признаке $x$, генерируя формы признака более высокого порядка – $x^2$, $x^3$ и т.д.   

Кроме того, нередко приходится сталкиваться с ситуациями, когда эффект одного признака зависит от другого признака. Просты примером была попытка предсказать является ли кофе сладким при следующих двух признаках:
1) был ли кофе перемешан;
2) добавляли ли в него сахар.    

Отдельно каждый признак сладость кофе не предсказывает, но соченание признаков – это делает. Т.е. кофе будет сладким, если в нем есть сахар и он перемешан. Влияние кадого признака на цель (сладость) зависит друг от друга. Такую связь можно кодировать, включив взаимодействующий признак, который является произведением отдельных признаков.

### 5.  Преобразование признаков
##### Задача
Требуется выполнить собственное преобразование одного или нескольких признаков
##### Решение
Используем класс `FunctionTransformer` библиотеки `scikit-learn` для применения функции к набору признаков

In [35]:
# Загрузить библиотеки
from sklearn.preprocessing import FunctionTransformer

# Создать матрицу признаков
features = np.array([
    [2, 3],
    [2, 3],
    [2, 3]
])

# Определить простую функцию
def add_ten(n):
    return n + 10

# Создать преобразователь
ten_transformer = FunctionTransformer(add_ten)

# Преобразовать матрицу признаков
ten_transformer.transform(features)



array([[12, 13],
       [12, 13],
       [12, 13]])

Альтернативный вариант – использовать функцию `apply()` библиотеки `pandas`

In [36]:
# Загрузить библиотеку
import pandas as pd 

# Создать фрейм данных
df = pd.DataFrame(data=features, columns=['Признак 1', 'Признак 2'])

# Применить функцию
df.apply(add_ten)

Unnamed: 0,Признак 1,Признак 2
0,12,13
1,12,13
2,12,13


Часто возникает необходимость выполнить определенные собственные преобразования для одного или более признаков. Например, мы можем создать признак, который является натуральным логарифмом значений другого признака. Сделать это можно создав функцию, а затем применив ее на признаки с помощью либо класса `FunctionTransform` библиотеки `scikit-learn`, либо в помощью метода `apply()` библиотеки`pandas`.

### 6. Обнаружение выбросов
##### Задача
Требуется индетифицировать предельные значения
##### Решение
Используем класс `EllipticEnvelope` библиотеки `scikit-learn`

Обнаружение выбросов часто больше искусство, чем наука. Вместе с тем распространенным методом является принятие допущения о том, что данные норально распределены. Основываясь на этом допущении мы можем "рисовать" эллипс вокруг данных, классифицируя любое наблюдение внутри эллипса как не выброс (помечаем как `1`) и любое наблюдение за пределами эллипса как выброс (помечаем как `-1`).

In [38]:
# Загрузить библиотеки
from sklearn.covariance import EllipticEnvelope
from sklearn.datasets import make_blobs 

# Создать симулированные данные
features, _ = make_blobs(n_samples=10, n_features=2, centers=1, random_state=1)

# Заменить значения первого наблюдения предельными значениями
features[0, 0] = 100000
features[0, 1] = 200000

# Создать детектор
outlier_detector = EllipticEnvelope(contamination=.1)

# Выполнить подгонку детектора
outlier_detector.fit(features)

# Предсказать выбросы
outlier_detector.predict(features)

array([-1,  1,  1,  1,  1,  1,  1,  1,  1,  1])

Явным ограничением этого подхода является необходимость указания парметра загрязнения `contamination=`, который представляет собой долю наблюдений являющихся выбросами — значение, которое мы не знаем. Можно думать о загрязнении как о собственной оценке чистоты данных. Если ожидается, что исследуемые данные будут иметь несколько выбросов, можно задать параметр `contamination=` с каким-нибудь небольшим значением. Однако если данные имеют большое количество выбросов, то для данного параметра можно установить более высокое значение.

Вместо того, чтобы смотреть на наблюдения в целом, можно взглнять на отдельные признаки и индетифицировать в этих признаках предельные значения, используя межквартильный размах (МКР, IQR):


In [40]:
# Создать один признак
feature = features[:,0]

# Создать функцию, которая возвращает индекс выбросов
def indicates_of_outliers(x):
    q1, q3 = np.percentile(x, [25, 75])
    iqr = q3 - q1
    lower_bound = q1 - (iqr * 1.5)
    upper_bound = q3 + (iqr * 1.5)
    return np.where((x > upper_bound) | (x < lower_bound))

# Выполнить функцию
indicates_of_outliers(feature)

(array([0]),)

Межквартильный размах – это разница между первым и третьим квартилями набора данных. МКР можно представить как разброс основной части данных, где выбросы отдаленные от соновной части данных. Выбросы обычно определяются как любое значение, которое на 1.5 МКР меньше первого квартиля или на 1.5 МКР больше третьего квартиля.

Единого наилучшего метода оьнаружения выбросов не существует. Вместо этого у нас есть коллекция методов, все со своими преимуществами и недостатками. Часто лучшая стратегия состоит в том, чтобы пытаться использовать несколько методов, например: и `EllipticEnvelop`, и обнаружение на основе МКР.

Если это возможно необходимо посмотреть на те наблюдения, которые были характеризованы как выбросы, и попытаться их понять. Например, возьмем набор данных о домах, в котором один из признаков является количество комнат. Является ли выброс со 100 комнатами действительно домом или это на самом деле отель, который был неправильно классифицирован?

##### Дополнительные материалы
* Статья "Три способа обнаружения выбросов": http://colingorrie.github.io/outlier-detection.html 

### 7. Обработка выбросов
##### Задача
Имеются выбросы
##### Решение
Для обработки выбросов можно использовать три стратегии:   
1) отбросить выбросы;   
2) пометить как выбросы и включить их в качестве признака;   
3) преобразовать признак, чтобы ослабить эффект выброса    

***1) Отбросить выбросы***

In [41]:
# Создать фрейм данных
houses = pd.DataFrame()
houses['Цена'] = [534433, 392298, 1238823, 4322032]
houses['Ванные'] = [2, 3.5, 2, 116]
houses['Кв_футы'] = [1500, 2500, 1500, 48000]

# Отфильтровать наблюдения
houses[houses['Ванные'] < 20]


Unnamed: 0,Цена,Ванные,Кв_футы
0,534433,2.0,1500
1,392298,3.5,2500
2,1238823,2.0,1500


***2) Включить выбросы как признак***

In [42]:
# Создать признак на основе услвного выражения
houses['Выброс'] = np.where(houses['Ванные'] < 20, 0, 1)

# Показать данные
houses

Unnamed: 0,Цена,Ванные,Кв_футы,Выброс
0,534433,2.0,1500,0
1,392298,3.5,2500,0
2,1238823,2.0,1500,0
3,4322032,116.0,48000,1


***3) Преобразовать выброс, ослабить его эффект***

In [44]:
# Взять логарифм признака
houses['Логарифм кв_футов'] = [np.log(x) for x in houses['Кв_футы']]

# Показать данные
houses

Unnamed: 0,Цена,Ванные,Кв_футы,Выброс,Логарифм кв_футов
0,534433,2.0,1500,0,7.31322
1,392298,3.5,2500,0,7.824046
2,1238823,2.0,1500,0,7.31322
3,4322032,116.0,48000,1,10.778956


Подобно обнаружению выбросов, заведенных правил обработки выбросов не существует. В общем случа стратегия должна основываться на двух аспектах:
* во-первых, необходимо понять, что делает данные выбросами. Если выбросы идентифицированны как ошибки в данных, например, из-за сломанного датчика или неверного значения, то необходимо исключить это наблюдение или заменить значения выбросов на `NaN`, т.к. этим значениям нельзя верить. Однако, допустить, что выбросы являются подлинными предельными значениями (нпример, дом с 200 ванными), то более уместной будет маркировка их как выбросы или преобразование их значений;
* во-вторых, стратегия обраотки выбросов должна основываться целях машинного обучения. Например, если необходимо предсказать цены на жилье на основе признаков дома, то было бы разумно предположить, что цена на особняки с более чем 100 ванными комнатами обусловлена другой динамикой, чем обучные семейные дома. Кроме того, если производится подготовка модели для использования в качестве части веб-приложения онлайн-кредитования на жилье, то можно предположить, что среди клиентов не будет миллиардеров, желающих купить особняк.

В общем виде алгоритм по работе с выбросами такой: 
* необходимо определить почему выбросы являются выбросами;
* необходимо держать в уме цели обработки набора данных для конкретной задачи машинного обучения.

Само по себе непринятие решения об удалении или работе в выбросами само по себе является решением с последствиями.
Если в данных имеются выбросы, то, напрмер, стандартизация данных может оказаться неуместной, посколькусреднее значение и дисперсия сильно зависят от выбросов. В таком случае необходимо использовать более устойчивый в выбросам метод, например `RobustScaler`.

##### Дополнительные материалы
* Документация по робастному шкалировщику `RobustScaler`: https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.RobustScaler.html#sklearn.preprocessing.RobustScaler