One Hot Encoding — это метод преобразования категориальных переменных в двоичный формат. Он создает новые столбцы для каждой категории, где 1 означает, что категория присутствует, а 0 — что ее нет. Основная цель One Hot Encoding — гарантировать, что категориальные данные могут эффективно использоваться в моделях машинного обучения.

__Важность горячего кодирования__
Мы используем одну горячую кодировку, потому что:

- Устранение ординальности : многие категориальные переменные не имеют внутреннего порядка (например, «Мужской» и «Женский»). Если бы мы присвоили числовые значения (например, Мужской = 0, Женский = 1), модель могла бы ошибочно интерпретировать это как ранжирование и привести к предвзятым прогнозам. One Hot Encoding устраняет этот риск, рассматривая каждую категорию независимо.
- Улучшение производительности модели : путем предоставления более подробного представления категориальных переменных. One Hot Encoding может помочь улучшить производительность моделей машинного обучения. Он позволяет моделям фиксировать сложные взаимосвязи в данных, которые могли бы быть упущены, если бы категориальные переменные рассматривались как отдельные сущности.
- Совместимость с алгоритмами : многие алгоритмы машинного обучения, в частности, основанные на линейной регрессии и градиентном спуске, которые требуют числового ввода. Это гарантирует, что категориальные переменные преобразуются в подходящий формат.

__Реализация прямого кодирования с использованием Python__

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

data = {
    'Employee id': [10, 20, 15, 25, 30],
    'Gender': ['M', 'F', 'F', 'M', 'F'],
    'Remarks': ['Good', 'Nice', 'Good', 'Great', 'Nice']
}

df = pd.DataFrame(data)
print(f"Original Employee Data:\n{df}\n")
# Use pd.get_dummies() to one-hot encode the categorical columns
df_pandas_encoded = pd.get_dummies(df, columns=['Gender', 'Remarks'], drop_first=True)
print(f"One-Hot Encoded Data using Pandas:\n{df_pandas_encoded}\n")

encoder = OneHotEncoder(sparse_output=False)

one_hot_encoded = encoder.fit_transform(df[categorical_columns])

one_hot_df = pd.DataFrame(one_hot_encoded, 
                          columns=encoder.get_feature_names_out(categorical_columns))

df_sklearn_encoded = pd.concat([df.drop(categorical_columns, axis=1), one_hot_df], axis=1)

print(f"One-Hot Encoded Data using Scikit-Learn:\n{df_sklearn_encoded}\n")


кодирование с использованием библиотеки Scikit Learn

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

data = {'Employee id': [10, 20, 15, 25, 30],
        'Gender': ['M', 'F', 'F', 'M', 'F'],
        'Remarks': ['Good', 'Nice', 'Good', 'Great', 'Nice'],
        }
df = pd.DataFrame(data)
print(f"Employee data : \n{df}")

categorical_columns = df.select_dtypes(include=['object']).columns.tolist()
encoder = OneHotEncoder(sparse_output=False)

one_hot_encoded = encoder.fit_transform(df[categorical_columns])

one_hot_df = pd.DataFrame(one_hot_encoded, columns=encoder.get_feature_names_out(categorical_columns))

df_encoded = pd.concat([df, one_hot_df], axis=1)

df_encoded = df_encoded.drop(categorical_columns, axis=1)
print(f"Encoded Employee data : \n{df_encoded}")

__Лучшие практики для One Hot Encoding__

Чтобы максимально эффективно использовать One Hot Encoding, необходимо учитывать следующие рекомендации:

- Ограничьте количество категорий : если у вас есть категориальные переменные с высокой кардинальностью, рассмотрите возможность ограничения количества категорий с помощью группировки или проектирования признаков.
- Использовать выбор признаков : Реализовать методы выбора признаков для определения и сохранения только наиболее релевантных признаков после One Hot Encoding. Это может помочь снизить размерность и улучшить производительность модели.
- Мониторинг производительности модели : регулярно оценивайте производительность вашей модели после применения One Hot Encoding. Если вы заметили признаки переобучения или другие проблемы, рассмотрите альтернативные методы кодирования.
- Поймите свои данные : прежде чем применять One Hot Encoding, потратьте время на то, чтобы понять природу ваших категориальных переменных. Определите, имеют ли они естественный порядок и подходит ли One Hot Encoding.

__Альтернативы One Hot Encoding__

Хотя One Hot Encoding является популярным выбором для обработки категориальных данных, существует несколько альтернатив, которые могут быть более подходящими в зависимости от контекста:

1. Кодирование меток : в случаях, когда категориальные переменные имеют естественный порядок (например, «Низкий», «Средний», «Высокий») кодирование меток может быть лучшим вариантом. Этот метод назначает уникальное целое число каждой категории, не внося тех же рисков неправильной интерпретации иерархии, что и с номинальными данными.
2. Двоичное кодирование : этот метод объединяет преимущества One Hot Encoding и кодирования меток. Он преобразует категории в двоичные числа, а затем создает двоичные столбцы. Этот метод может уменьшить размерность, сохраняя информацию.(https://www.geeksforgeeks.org/encoding-categorical-data-in-sklearn/)
3. Целевое кодирование : в целевом кодировании мы заменяем каждую категорию средним значением целевой переменной для этой категории. Этот метод может быть особенно полезен для категориальных переменных с большим количеством уникальных значений, но он также несет риск утечки, если не обрабатывается должным образом.(https://www.geeksforgeeks.org/target-encoding-using-nested-cv-in-sklearn-pipeline/)

Как выполнить кодирование меток в Python

Предположим, у нас есть столбец Height в некотором наборе данных, который содержит элементы Tall, Medium и short. Чтобы преобразовать этот категориальный столбец в числовой столбец, мы применим кодировку меток к этому столбцу. После применения кодировки меток столбец Height преобразуется в числовой столбец с элементами 0, 1 и 2, где 0 — метка для tall , 1 — метка для medium , а 2 — метка для short height.

In [None]:
import numpy as np
import pandas as pd

df = pd.read_csv('../../data/Iris.csv')
df['species'].unique()

array(['Ирис щетинистый', 'Ирис разноцветный', 'Ирис виргинский'], dtype=object)

In [None]:
from sklearn import preprocessing

label_encoder = preprocessing.LabelEncoder()
df['species']= label_encoder.fit_transform(df['species'])

df['species'].unique()


array([0, 1, 2], dtype=int64)