# Procesamiento de datos categóricos

In [10]:
import pandas as pd
# Contiene todas las reglas de preprocesamiento apra datos numéricos y categóricos
import sklearn.preprocessing as preprocessing

In [11]:
cars_df = pd.read_csv("../data/cars.csv")

## Encoding con `Pandas`

La función `get_dummies()` en realizad aplica el encoding `one-hot`; el cual cuenta las categorías y de cada una crea un espacio un vector con valores de `0` y `1`.
- `1`: Se coloca cuando aparece la categoría.
- `0`: Se coloca cuando no aparece la categoría.

[Documentación](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html)

In [12]:
pd.get_dummies(cars_df["engine_type"])

Unnamed: 0,diesel,electric,gasoline
0,0,0,1
1,0,0,1
2,0,0,1
3,0,0,1
4,0,0,1
...,...,...,...
38526,0,0,1
38527,1,0,0
38528,0,0,1
38529,0,0,1


## Econding con `Sickit learn`

El argumento `handle_unknown="ingnore"` codifica los elementos nuevos que se agregan al dataset que ya se habia codifica con `0`'s en el vector. Con ello cumple con la característica de `one-hot enoding`:
- Permite describir categorías no incluidas al inicio.

In [17]:
encoder = preprocessing.OneHotEncoder(handle_unknown="ignore")

Le decimos al codificador que variable categorica es con la que va a trabajar.

In [19]:
encoder.fit(cars_df[["engine_type"]].values)

Se le indica al codificador que variables son las que va a transformar.

In [22]:
encoder.transform([["gasoline"], ["diesel"], ["electric"], ["other"]]).toarray()

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 0.]])

> 📌 **NOTA**: La variable "other" no existe en el data set, sin embargo la función `transform` del encoder la convirtio en en un vector de logintud 3 igual que las demas, con la diferencia de que esta constituida con putos `0`'s.

## Variables numéricas como categóricas

Dependiendo del caso de uso es posible trabajar con variables numéricas como si fuesen categóricas. Todo depende del caso de uso que le demos a nuestros datos.

En el ejemplo de los carros usuados la variable `year_produced` es de tipo `int64` sin embargo podemos moldearla para que nos ayude a categorizar los automoviles por el año en que fueron producidos.

In [33]:
encoder.fit(cars_df[["year_produced"]])
encoder.transform([[2000], [2005], [2010], [2015], [2020]]).toarray()



array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0

El array resultante de la transformación de la variable `year_produced` consta de:
- **4 vectores**: Cada uno representa el valor codificado que le indicamos en la función `transform()`.
- **64 espacios por vector**: **64** es la cantidad de valores diferentes dentro de la columna en el dataset. Donde aparezca el `1` indica que allí se encuentra el valor transformado.


> 📌 **NOTA**: El dataset no contiene automoviles producidos en el año 2020, por esa razon el último vector del array esta compuesto de solo `0`'s.


⚠️ La principal desventaja de este tipo de transformaciones es que una solo variable categorica a una numérica puede generar `N` espacios en los vectores, esto es como crear nuevas variables, esto provaca un enorme crecimiento en el dataset y por ende afecte el rendimiento del mismo.