# Procesamiento de datos categóricos

Existen dos métodos para representar variables categóricas:

- ### Mapeo Dummy 🥸

    - Es la representación más compacta que se puede tener de los datos.
    - Es mejor usarla cuando se sabe con anticipación que las variables del modelo son linealmente independienes, lo que quiere decir no dependen unas de otras.

- ### Mapeo One-Hot 🥵
    -  Es un mapeo que puede ser mucho más grande, va a resultar en atributos numéricos más extensos para los datos categóricos.
    -  Permite representar las categorías de manera tal que si llega un valor que no estaba incluido inicialmente, puede representarlo sin problema. En muchos casos esta cualidad es muy conveniente.

Ambas técnicas siguen la idea de que hay que mapear las categorías de manera numérica. Las categorías pueden ser ordinales u no ordinales. En las categorías no hay interpolaciones.

#### ¿Sé pueden tratar variables numéricas como categóricas?
Sí se puede, su utilidad depende del caso en especial que estemos tratando.

#### Ejemplo de la representación de los dos mapeos:

| Categoría | Dummy 🥸 | One-hot 🥵 |
|-----------|-----------|-----------|
| <span style="color:red">Inglés</span>    | [0, 0]    | [1, 0, 0]   |
| <span style="color:red">Español</span>    | [0, 1]    | [0, 1, 0]    |
| <span style="color:red">Francés</span>    | [1, 0]    | [0, 0, 1]   |
| <span style="color:cyan; font-style: italic">"nan"</span>    | ? ☠️    | [0, 0, 0]    |

In [11]:
import pandas as pd 
import os

# Verify if the code is run as an script or in an interactive environment
# Get the current directory

if '__file__' in globals():
    current_dir = os.path.dirname(__file__)
else:
    current_dir = os.getcwd()

csv_path = os.path.join(current_dir, "datasets", "cars.csv")

csv_path

df = pd.read_csv(csv_path)

df.head()

Unnamed: 0,manufacturer_name,model_name,transmission,color,odometer_value,year_produced,engine_fuel,engine_has_gas,engine_type,engine_capacity,...,feature_1,feature_2,feature_3,feature_4,feature_5,feature_6,feature_7,feature_8,feature_9,duration_listed
0,Subaru,Outback,automatic,silver,190000,2010,gasoline,False,gasoline,2.5,...,True,True,True,False,True,False,True,True,True,16
1,Subaru,Outback,automatic,blue,290000,2002,gasoline,False,gasoline,3.0,...,True,False,False,True,True,False,False,False,True,83
2,Subaru,Forester,automatic,red,402000,2001,gasoline,False,gasoline,2.5,...,True,False,False,False,False,False,False,True,True,151
3,Subaru,Impreza,mechanical,blue,10000,1999,gasoline,False,gasoline,3.0,...,False,False,False,False,False,False,False,False,False,86
4,Subaru,Legacy,automatic,black,280000,2001,gasoline,False,gasoline,2.5,...,True,False,True,True,False,False,False,False,True,7


### One-Hot 🥵

Pandas dummies: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

En este caso la función get_dummies corresponde con lo que hemos definido como un one-hot

In [12]:
pd.get_dummies(df['engine_type'])

Unnamed: 0,diesel,electric,gasoline
0,False,False,True
1,False,False,True
2,False,False,True
3,False,False,True
4,False,False,True
...,...,...,...
38526,False,False,True
38527,True,False,False
38528,False,False,True
38529,False,False,True


One-hot con Scikit: https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features 

In [13]:
import sklearn.preprocessing as preprocessing
encoder = preprocessing.OneHotEncoder(handle_unknown='ignore')

Acá le indicamos que se ajuste a la columna engine_type

In [14]:
encoder.fit(df[['engine_type']].values)

En la transformación de las categorías, agregaremos una categoría que no está en la data 'aceite' para ver como lo manipula:

In [15]:
encoder.transform([['gasoline'], ['diesel'], ['aceite']]).toarray()

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])

Y así vemos como codifica un valor desconocido por medio del one-hot

#### ¿Sé pueden tratar variables numéricas como categóricas?

Sí, variables numéricas pueden ser codificadas como categóricas, veamos como:

In [17]:
encoder.fit(df[['year_produced']])

In [18]:
encoder.transform([[2016], [2009], [1990], [2011]]).toarray()



array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0

Aquí vemos la principal desventaja del one-hot: cuando codificamos una variable categórica, cada valor se vuelve una variable, cada variable se vuelve un valor posible, esto aumenta demasiado la dimensionalidad del dataset, afectando el rendimiento. Es en parte por esto por lo que buscamos hacer una reducción de los datos.