# OneHotEncoder
La entrada de este transformador debe ser una matriz de números enteros o cadenas que denoten los valores que toman las características categóricas (discretas). Las características se codifican utilizando un esquema de codificación one-hot (también conocido como "one-of-K" o "dummy"). Esto crea una columna binaria para cada categoría y devuelve una matriz dispersa o una matriz densa (según el sparse_outputparámetro).

Lo primero que hacemos es importar la librería de OneHotEncoder de `sklearn`.

In [21]:
from sklearn.preprocessing import OneHotEncoder

Después creamos una instancia de `OneHotEncoder` que tenga como parámetro `handle_unknow='ignore'` para que ignore las categorías desconocidas durante el entrenamiento.

In [22]:
enc = OneHotEncoder(handle_unknown='ignore')

Se importa un conjunto de datos. Este conjunto tiene varias instancias, cada intancias tiene dos características: El género y el grupo.

In [23]:
import pandas as pd

df = pd.read_csv('dataset1.csv', header=None)
X = df.values.tolist()
X = [[row[0], int(row[1])] for row in X]

print(X)


[['Male', 1], ['Female', 3], ['Male', 3], ['Female', 1], ['Female', 2], ['Male', 2], ['Female', 3], ['Male', 1], ['Female', 2], ['Male', 3], ['Female', 1], ['Female', 2], ['Male', 3], ['Female', 3], ['Male', 2], ['Female', 1], ['Male', 3], ['Female', 2], ['Male', 2], ['Female', 1], ['Female', 3], ['Male', 3], ['Male', 2], ['Female', 1]]


Se ajusta el codificador (`encoder`) a los datos de entrenamiento. Así el codificador (`encoder` que es una instancia de `OneHotEncoder`) aprende de las categorías únicas. Podemos ver estas categorías con el atributo `.categories_`.

In [24]:
enc.fit(X)
enc.categories_

[array(['Female', 'Male'], dtype=object), array([1, 2, 3], dtype=object)]

Se utiliza el método `transform()` para codificar un nuevo conjunto de datos utilizando el codificador entrenado. En este caso, se codifican dos filas nuevas: `['Female', 1]` y `['Male', 4]`. El resultado se convierte en un array utilizando `toarray()`.

In [25]:
enc.transform([['Female', 1], ['Male', 4]]).toarray()

array([[1., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0.]])

Se utiliza el método `get_feature_names_out()` para obtener los nombres de las características generadas después de la codificación. Se pasa una lista con los nombres de las características originales (`['gender', 'group']`) como argumento. Esto devuelve una lista con los nombres de las características codificadas.

In [26]:
enc.get_feature_names_out(['gender', 'group'])

array(['gender_Female', 'gender_Male', 'group_1', 'group_2', 'group_3'],
      dtype=object)