# Кодирование категориальных признаки для регрессионной модели

Регрессионные модели, как и большинство других, требуют особого внимания к кодированию категориальных признаков. Категориальные или номинальные признаки отличаются тем, что между ними ними можно только лишь установить отношения равенства/неравенства, а вот даже упорядочить уже нельзя, не говоря о том, чтобы установить количественные отношения во сколько меньше/во сколько больше. Примерами данных такого типа являются города, цвета, товарные категории и многое другое. Упорядоченные типы данных, такие как уровень образования также иногда кодируют как категориальные.

Проблема с признаками такого типа заключается в том, что все модели работают с матрицами чисел, и, следовательно, для того, чтобы скормить им изначательно нечисловые признаки, необходимо преобразовать из в числовую форму. Самый простой способ сделать это -- соотнести с каждой категорией некоторое число, которое будет использоваться вместо неё. Этот способ кодирования номинальных признаков называется *label encoding*.

Однако такой способ имеет очевидный недостаток -- перекодировав категории таким образом, мы определили для них целый ряд операций, свойственных для чисел: сравнение, сложение, умножение. Предположим, мы решили таким образом закодировать переменную "пол": 1 -- мужчина, 2 -- женщина, 3 -- не определён. Тогда в результате этого кодирования мы получим равенство мужчина + женщина = неопределённый пол, что, возможно, и можно считать истиной, но вот представить, как из двух мужчин можно получить одну женщину, уже сложнее.

In [46]:
df = pd.DataFrame({
    "Sex": ["M", "F", "F", "M", "U"],
    "LabelEncoding": [1, 2, 2, 1, 3]
    
})
df

Unnamed: 0,Sex,LabelEncoding
0,M,1
1,F,2
2,F,2
3,M,1
4,U,3


По этой причине для кодирования категориальных переменных чаще всего используется техника под названием one-hot-encoding, при которой для каждой категории создаётся отдельный признк, где он кодируется как бинарный. Такие новые признаки называются фиктивными переменными (dummies). Для их создания в pandas имеется функция под названием `get_dummies`, а в scikit-learn класс [`OneHotEncoder`](https://scikit-learn.org/0.22/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing.OneHotEncoder)

In [47]:
pd.get_dummies(df.Sex)

Unnamed: 0,F,M,U
0,0,1,0
1,1,0,0
2,1,0,0
3,0,1,0
4,0,0,1


https://www.youtube.com/watch?v=tZuUNMwWhOU

С one-hot-encoding, применительно к регрессионной модели так же есть одна проблема -- выделив по столбцу для каждой категории мы, на самом деле, создали больше признаков, чем на в действительности необходимо.

## Категориальные переменные в решающих деревьях