Бинаризация

Этот процесс применяется в тех случаях, когда мы хотим преобразовать
наши числовые значения в булевы. Воспользуемся встроенным методом для
бинаризации входных данных, установив значение 2 . 1 в качестве порогового.

In [3]:
import numpy as np
from sklearn import preprocessing

In [4]:
input_data = np.array([[5.1, -2.9, 3.3],
                       [-1.2, 7.8, -6.1],
                       [3.9, 0.4, 2.1],
                       [7.3, -9.9, -4.5]])

In [5]:
data_binarized = preprocessing.Binarizer(threshold=2.1).transform(input_data)
print("\nBinarized data:\n", data_binarized)


Binarized data:
 [[1. 0. 1.]
 [0. 1. 0.]
 [1. 0. 0.]
 [1. 0. 0.]]


Исключение среднего

Исключение среднего - методика предварительной обработки данных,
обычно используемая в машинном обучении. Как правило, из векторов признаков
(feature vectors) целесообразно исключать средние значения, чтобы
каждый признак (feature) центрировался на нуле. Эго делается с той целью,
чтобы исключить из рассмотрения смещение значений в векторах признаков.

In [6]:
# Print mean and standard deviation
print("\nBEFORE:")
print("Mean =", input_data.mean(axis=0))
print("Std deviation =", input_data.std(axis=0))



BEFORE:
Mean = [ 3.775 -1.15  -1.3  ]
Std deviation = [3.12039661 6.36651396 4.0620192 ]


In [7]:
data_scaled = preprocessing.scale(input_data)
print("\nAFTER:")
print("Mean =", data_scaled.mean(axis=0))
print("Std deviation =", data_scaled.std(axis=0))


AFTER:
Mean = [1.11022302e-16 0.00000000e+00 2.77555756e-17]
Std deviation = [1. 1. 1.]


Нормализация и стандартизация данных

Некоторые алгоритмы машинного обучения чувствительны к масштабу данных,
поэтому важно привести их к единому виду. Существует два основных метода:
нормализация и стандартизация.

Нормализация приводит значения к диапазону от 0 до 1.

In [8]:
# Min max scaling
data_scaler_minmax = preprocessing.MinMaxScaler(feature_range=(0, 1))
data_scaled_minmax = data_scaler_minmax.fit_transform(input_data)
print("\nMin max scaled data:\n", data_scaled_minmax)


Min max scaled data:
 [[0.74117647 0.39548023 1.        ]
 [0.         1.         0.        ]
 [0.6        0.5819209  0.87234043]
 [1.         0.         0.17021277]]


Процесс нормализации заключается в изменении значений в векторе признаков
таким образом, чтобы для их измерения можно было использовать
одну общую шкалу. В машинном обучении используются различные формы
нормализации. В наиболее распространенных из них значения изменяются
так, чтобы их сумма была равна 1. Ll-нормализация, использующая метод
наименьших абсолютных отклонений (Least Absolute Deviations), обеспечивает
равенство 1 суммы абсолютных значений в каждом ряду. L2-нормализация,
использующая метод наименьших квадратов, обеспечивает
равенство 1 суммы квадратов значений.

Вообще rоворя, техника Ll-нормализации считается более надежной по
сравнению с L2-нормализацией, поскольку она менее чувствительна к выбросам.
Очень часто данные содержат выбросы, и с этим ничеrо не поделаешь.
Мы хотим использовать безопасные методики, позволяющие игнорировать
выбросы в процессе вычислений. Если бы мы решали задачу, в которой выбросы
иrрают важную роль, то, вероятно, лучшим выбором была бы L2-нормализация.

In [9]:
# Normalize data
data_normalized_l1 = preprocessing.normalize(input_data, norm='l1')
data_normalized_l2 = preprocessing.normalize(input_data, norm='l2')
print("\nL1 normalized data:\n", data_normalized_l1)
print("\nL2 normalized data:\n", data_normalized_l2)


L1 normalized data:
 [[ 0.45132743 -0.25663717  0.2920354 ]
 [-0.0794702   0.51655629 -0.40397351]
 [ 0.609375    0.0625      0.328125  ]
 [ 0.33640553 -0.4562212  -0.20737327]]

L2 normalized data:
 [[ 0.75765788 -0.43082507  0.49024922]
 [-0.12030718  0.78199664 -0.61156148]
 [ 0.87690281  0.08993875  0.47217844]
 [ 0.55734935 -0.75585734 -0.34357152]]


Стандартизация делает так, чтобы данные имели среднее значение 0 и стандартное
отклонение 1:

In [2]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

Какой метод выбрать?
- Нормализация используется, когда данные имеют разные единицы измерения или
находятся в фиксированном диапазоне.
- Стандартизация подходит для данных с нормальным распределением, где важна
интерпретация отклонений от среднего.

Кодирование меток

Как правило, в процессе классификации данных мы имеем дело со множеством
меток (labels). Ими моrут быть слова, числа или другие объекты.
Функции машинного обучения, входящие в библиотеку sklearn, ожидают,
что метки являются числами. Поэтому, если метки - это уже числа, мы можем
использовать их непосредсrвенно для того, чтобы начать тренировку.
Однако обычно это не так.

На практике метками служат слова, поскольку в таком виде они лучше
всего воспринимаются человеком. Мы помечаем тренировочные данные
словами, чтобы облегчить отслеживание соответсrвий. Для преобразования
слов в числа необходимо использовать кодирование. Под кодированием меток
(label encoding) подразумевается процесс преобразования словесных меток в
числовую форму. Благодаря этому алгоритмы моrут оперировать нашими
данными.

In [10]:
input_labels = ['red', 'black', 'red', 'green', 'black', 'yellow', 'white']

In [11]:
encoder = preprocessing.LabelEncoder()
encoder.fit(input_labels)
print("\nLabel mapping:")
for i, item in enumerate(encoder.classes_):
    print(item, '-->', i)


Label mapping:
black --> 0
green --> 1
red --> 2
white --> 3
yellow --> 4


In [12]:
test_labels = ['green', 'red', 'black']
encoded_values = encoder.transform(test_labels)
print("\nLabels =", test_labels)
print("Encoded values =", list(encoded_values))


Labels = ['green', 'red', 'black']
Encoded values = [1, 2, 0]


In [13]:
encoded_values = [3, 0, 4, 1]
decoded_list = encoder.inverse_transform(encoded_values)
print("\nEncoded values =", encoded_values)
print("Decoded labels =", list(decoded_list))


Encoded values = [3, 0, 4, 1]
Decoded labels = ['white', 'black', 'yellow', 'green']
