# Pipelines de procesamiento de datos categóricos

## Métodos para procesar variables categóricas

De manera que sean fácilmente interpretables en modelos de Machine Learning son

* **Dummy**:
    - Es la representación más compacta que se pueden obtener de los datos.
    - Es mejor usarla para inputs que son linealmente independientes.
* **One-hot**: 
    - Va a resultar en atributos numéricos que van a ser más extensos para las variables categóricas.
    - Permite describir categorías no incluidas inicialmente.
    - Permite representar todas las categorías de una forma que cuando llegue una categoría desconocida o un valor que no estaba inicialmente, *one-hot* también lo puede representar numéricamente.

Ambos siguen la filosofía de que nosotros debemos mapear numéricamente las categorías

# Procesamiento para variables categóricas con Python

````
|Categoría | Dummy | One-Hot |
|----------|-------|---------|
|inglés    |[0,0]  |[1,0,0]  |
|español   |[0,1]  |[0,1,0]  |
|francés   |[1,0]  |[0,0,1]  |
| nan      | ?     |[0,0,0]  |
````

El **Dummy** no existe en las librerias que vamos a ver, todos trabajan con **one-hot**.

Trabajaremos con el dataset de autos que se ha estado utilizando.

In [None]:
import pandas as pd

In [None]:
df = pd.read_csv('cars.csv')

En Pandas existe una función llamada **get_dummies**, cuya información se encuentra [aquí](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html).

Pandas crea tres columna, por lo que cada fila es un vector con tres componentes, el 1 sólo está en la categoría que le corresponde, esto coincide con lo que conocemos como **one-hot**.

In [None]:
pd.get_dummies(df['engine_type'])

Unnamed: 0,diesel,electric,gasoline
0,0,0,1
1,0,0,1
2,0,0,1
3,0,0,1
4,0,0,1
...,...,...,...
38526,0,0,1
38527,1,0,0
38528,0,0,1
38529,0,0,1


**One-hot** con sklearn: [documentación](https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features).

Trabajaremos con one-hot en sklearn. Primero importamos sklearn.preprocessing que contiene todas las reglas de procesamiento tanto para numéricos como categóricos.

En la línea:

````
encoder = preprocessing.OneHotEncoder(handle_unknown='ignore')
````
creamos un `encoder`, es decir, un método de codificación de variables categóricas, el cual va a ser el método *OneHotEnconder*. Damos el argumento `handle_unknown='ignore'`, cuando lleguen valores que no están en las variables contempladas que se necesiten codificar, se puede codificar como vector de ceros.

In [None]:
import sklearn.preprocessing as preprocessing
encoder = preprocessing.OneHotEncoder(handle_unknown='ignore')

La idea es ajustar el encoder a las categorías de nuestro dataset. Le decimos que se ajuste a los valores de la columna *engine_type*. Dicho encoder ya podrá ser usado para hacer la transformación de categorías.

In [None]:
encoder.fit(df[['engine_type']].values)

OneHotEncoder(handle_unknown='ignore')

Vamos a hacer la transformación con ejemplos particulares. Inventamos una categoría que no está en el conjunto para ver que el método puede entender estas categorías raras.


In [None]:
encoder.transform([['gasoline'],['diesel'],['oil']]).toarray()

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])

### ¿Podemos trabajar variables numéricas como si fueran categóricas?

Sí se puede, veamos un caso que funciona.

In [None]:
encoder.fit(df[['year_produced']].values)

OneHotEncoder(handle_unknown='ignore')

In [None]:
encoder.transform([[2016],[2009],[2020]]).toarray()

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

La desventaja del one-hot es que cuando codificamos una variable categórica a atributos numéricos, cada elemento de los vectores que resultan se convierten en variables. Lo que hace es aumentar demasiado la dimensionalidad de nuestro dataset, que puede afectar el rendimiento.

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=8b8f8c16-0c57-41f8-8529-691d02522b0e' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>