## Введение

Часто бывает полезно разбивать объекты на категории не по количеству, а по качеству. Эта качественная информация нередко представляется как принадлежность наблюдения к отдельной категории, такой как пол, цвет, или марка автомобиля. Однаков не все категориальные данные одинаковые. Наборы категорий без внутреннего упорядочения называются номинальными. 
Пример номинальных категорий:
 * Синий, красный, зеленый
 * мужчина, женщина
 * банан, клубника, яблоко
 С другой стороны, когда набор категорий имеет некое естественное упорядочение, его называют порядковым. Например:
 * низкий, средний, высокий
 * молодые, старые
 * согласен, нейтрален, не согласен
 Более того, категориальная информация часто представлена в данных в виду вектора или столбца символьных значений (например, "Мэн", "Техас", "Делавер"). Проблема в том, что большинство машинно-обучающихся алгоритмов требуют ввода числовых значений.
 
 Алгоритм k ближайших соседей предоставляет простой пример. Одним из шагов в алгоритме является вычисление расстояния между наблюдениями - часто с использованием евклидова расстояния:
 
 $\sqrt{\sum_{i=1}^{n} (x_i-y_i)^2}$
 
 где x и y - это два наблюдения; i - номер признака наблюдений.
 Однако вычисление расстояния, очевидно, невозможно, если значение $x_i$ является строковым типом (например, "Техас"). Для того чтобы его можно было ввести в уравнение евклидова расстояния, нужно преобразовать строковое значение в числовой формат. Наша цель - сделать преобразование, которое правильно передает информацию в категориях (упорядоченность, относительные интервалы между категориями и тд)

##  Кодирование номинальных категориальных признаков

Дан признак с номинальными классами, который не имеет внутренней упорядоченности (например, яблоко, груша, банан)

In [1]:
import numpy as np
from sklearn.preprocessing import LabelBinarizer, MultiLabelBinarizer

feature = np.array([['Texas'],
                   ['California'],
                   ['Delaware'],
                   ['Texas'],
                   ['Moscow'],
                   ['Kotlas']])
# Создать кодировщик одного активного состояния
one_hot = LabelBinarizer()

# Преобразовать признак в кодировку с одним активным состоянием
one_hot.fit_transform(feature)

array([[0, 0, 0, 0, 1],
       [1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 0, 0, 1],
       [0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0]])

In [2]:
one_hot.classes_

array(['California', 'Delaware', 'Kotlas', 'Moscow', 'Texas'],
      dtype='<U10')

In [3]:
# Обрабить кодирование
one_hot.inverse_transform(one_hot.transform(feature))

array(['Texas', 'California', 'Delaware', 'Texas', 'Moscow', 'Kotlas'],
      dtype='<U10')

In [4]:
# Аналог в pandas
import pandas as pd

pd.get_dummies(feature[:,0])

Unnamed: 0,California,Delaware,Kotlas,Moscow,Texas
0,0,0,0,0,1
1,1,0,0,0,0
2,0,1,0,0,0
3,0,0,0,0,1
4,0,0,0,1,0
5,0,0,1,0,0


In [5]:
# Для работы с мудьтиклассовыми признаками
multiclass_feature = [('Texas', 'Florida'),
                     ('California', 'Alabama'),
                     ('Texas', 'Florida'),
                     ('Delawer','Florida'),
                     ('Texas','Alabama')]

# Создать мультиклассовый кодировщик, преобразующий признак в кодировку с одним к=активным состоянием
one_hot_multiclass = MultiLabelBinarizer()

# Кодировать мультиклассовый признак в кодировку с одним активным состоянием
one_hot_multiclass.fit(multiclass_feature)

In [6]:
one_hot_multiclass.transform(multiclass_feature)

array([[0, 0, 0, 1, 1],
       [1, 1, 0, 0, 0],
       [0, 0, 0, 1, 1],
       [0, 0, 1, 1, 0],
       [1, 0, 0, 0, 1]])

In [8]:
one_hot_multiclass.classes_

array(['Alabama', 'California', 'Delawer', 'Florida', 'Texas'],
      dtype=object)

## Кодирование порядковых категориальных признаков

Выполнить кодировку порядкового категориального признак (высокий, средний, низкий)
