### One-Hot Encoder
- Нужно для: преобразования категориальных данных без учета их порядка или относительной важности. Это полезно, когда все категории являются равноправными, и их взаимосвязь не важна. Например, для кодирования цветов, городов или других категорий, где порядок не имеет значения.

### Target Encoding 
- Нужно для: кодирования категориальных данных на основе целевой переменной. Это может быть полезно в задачах прогнозирования, где категориальные признаки имеют сильную корреляцию с целевой переменной. Например, для кодирования регионов на основе среднего дохода или успеха продаж в данном регионе.

###  Label Encoding
 - Нужно для: преобразования категориальных данных в числовые значения, когда категории можно упорядочить. Это особенно полезно для алгоритмов, которые могут работать с числовыми данными, таких как деревья решений. Например, для кодирования полов (мужчина, женщина) или других категорий, где порядок не имеет значения, но числовое представление допустимо.

### OrdinalEncoder
- Нужно для: кодирования категориальных данных, имеющих естественный порядок. Это полезно, когда важен порядок значений, но расстояние между ними не имеет значения. Например, для кодирования уровней образования (начальное, среднее, высшее) или размеров (маленький, средний, большой).

In [None]:
import numpy as np
from sklearn.preprocessing import OrdinalEncoder

# Данные: список из трёх категорий
data = np.array([["плохо"], ["хорошо"], ["средне"], ["хорошо"]])

# Создание экземпляра OrdinalEncoder
encoder = OrdinalEncoder(categories=[["плохо", "средне", "хорошо"]])

# Обучение энкодера (фиксация порядка категорий)
encoder.fit(data)

# Преобразование категорий в числа
encoded_data = encoder.transform(data)

print("Закодированные данные:")
print(encoded_data)

### FeatureHasher

In [26]:
from sklearn.feature_extraction import FeatureHasher
h = FeatureHasher(n_features=10)
D = [{'dog': 1, 'cat':2, 'elephant':4},{'dog': 2, 'run': 5}]
f = h.fit_transform(D)
f.toarray()

array([[ 0.,  0., -4., -1.,  0.,  0.,  0.,  0.,  0.,  2.],
       [ 0.,  0.,  0., -2., -5.,  0.,  0.,  0.,  0.,  0.]])

With input_type="string", the input must be an iterable over iterables of strings:

In [29]:
h = FeatureHasher(n_features=8, input_type="string")
raw_X = [["dog", "cat", "snake"], ["snake", "dog"], ["cat", "bird"]]
f = h.fit_transform(raw_X)
f.toarray()

array([[ 0.,  0.,  0., -1.,  0., -1.,  0.,  1.],
       [ 0.,  0.,  0., -1.,  0., -1.,  0.,  0.],
       [ 0., -1.,  0.,  0.,  0.,  0.,  0.,  1.]])

###  Binary Encoding