# Предварительная обработка данных

In [1]:
import numpy as np
from sklearn import preprocessing

In [2]:
input_data = np.array([ [5.1, -2.9, 3.3],
                        [-1.2, 7.8, -6.1],
                        [3.9, 0.4, 2.1],
                        [7.3, -9.9, -4.5] ])

рассмотрим несколько различных способов предобработки данных

## Бинаризация

Применяется, когда хотим преобразовать числовые значение в булевые.

In [3]:
print(input_data)

[[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]


In [4]:
data_binarized = preprocessing.Binarizer(threshold=2.1).transform(input_data)
#установленно значение 2.1 в качестве порогового
#значения выше 2.1 принудительно становятся равными 1, остальные 0

print('Binarized data:\n', data_binarized)

Binarized data:
 [[1. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]


## Исключение среднего

Методика предварительной обработки данных, обычно используется в машинном обучении. Как правило из векторов-признаков (feature vectors) целесообразно исключать средние значения, чтобы каждый признак (feature) центрировался на нуле. Это делается с той целью, чтобы исключить из рассмотрения смещение значений в вкеторах признаков.

In [5]:
print(input_data)

[[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]


In [6]:
#вывод среднего значения и стандартного отклонения для входных данных 
#(по каждому столбцу)
print('Before:')
print('Mean = ', input_data.mean(axis = 0))
print('Std deviation =', input_data.std(axis = 0))

#исклюим среднее
data_scaled = preprocessing.scale(input_data)
print('\nAfter:')
print('Mean = ', data_scaled.mean(axis = 0))
print('Std deviation = ', data_scaled.std(axis = 0))

Before:
Mean =  [ 3.775 -1.15  -1.3  ]
Std deviation = [3.12039661 6.36651396 4.0620192 ]

After:
Mean =  [1.11022302e-16 0.00000000e+00 2.77555756e-17]
Std deviation =  [1. 1. 1.]


Можно заметить, что среднее значение практически равно 0, а стандартное отклонение 1

## Масштабирование

В векторе признаков каждое значение может меняться в некотороых случайных пределах. Поэтому важно масштабировать признаки, чтобы они представляли собой ровное игровое поле для тренировки алгоритма машинного обучения. Мы не хотим, чтобы любой из признаков мог принимать искусственно большое или малое значение лишь в силу природы измерений.

In [7]:
print(input_data)

[[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]


In [8]:
#Масштабирование MinMax
data_scaler_minmax =  preprocessing.MinMaxScaler(feature_range = (0, 1))
data_scaler_minmax = data_scaler_minmax.fit_transform(input_data)

print('Min max scaler data:\n', data_scaler_minmax)

Min max scaler data:
 [[0.74117647 0.39548023 1.        ]
 [0.         1.         0.        ]
 [0.6        0.5819209  0.87234043]
 [1.         0.         0.17021277]]


Каждая строка масштабированна так, чтобы максимальным значением было 1, а все остальные знаения определялись относительного него

## Нормализация

Процесс нормализации заключается в изменении значений в векторе признаков таким образом, чтобы для их измерения можно было использовать одну общую шкалу.<br>
&emsp;&emsp; В наиболее распространенных формах нормализации значения изменияются так, чтобы их сумма была равна 1
- L1-нормализация - исопльзуюет метод наименьших абсолютных отклонений (Least Absolute Deviation), обеспечивает равенство 1 суммы абсолютных значений в каждом ряду.
- L2-нормализация - использует метод наименьших квадратов, обеспечивает равенство 1 суммы квадратов значений.

&emsp;&emsp;Вообще техника L1-нормализации считается более надежной по сравнению с L2-нормализацией, поскольку она менее чувствительна к выбросам. Очень часто данные содеражат выбросы, и с этим ничего не сделать. Если бы мы решали задачу, в котрой выбросы играют важную роль, то, верятно, лучшим выбором была бы L2-нормализация.  

In [9]:
print(input_data)

[[ 5.1 -2.9  3.3]
 [-1.2  7.8 -6.1]
 [ 3.9  0.4  2.1]
 [ 7.3 -9.9 -4.5]]


In [10]:
data_normalized_l1 = preprocessing.normalize(input_data, norm = 'l1')
data_normalized_l2 = preprocessing.normalize(input_data, norm = 'l2')

print('L1-normalized data\n', data_normalized_l1)
print('\nL2-normalized data\n', data_normalized_l2)

L1-normalized data
 [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]]

L2-normalized data
 [[ 0.75765788 -0.43082507  0.49024922]
 [-0.12030718  0.78199664 -0.61156148]
 [ 0.87690281  0.08993875  0.47217844]
 [ 0.55734935 -0.75585734 -0.34357152]]
