# <span style="color:royalblue"><center> Mapeos numéricos </center></span>
¿Cómo poder interpretar variables categóricas en procesamientos de ML?

* Dummy: usarlo cuando son inputs de variables linealmente independientes, es decir que no tengan un gradode correlación significativo. 
1. Representación más compacta de un conjunto de categorías
2. Mejor para inputs linealmente independientes

* One-hot: Va a resultar en atirbutos más grandes y la diferencia que tiene respecto del Dummy, es que **Permite describir categorías no incluidas inicialmente**. 

Ambos siguen la filosofía de mapear las categorías, por ejemplo, no ordinales... Como los motores de los carros. 

La idea fundamental es pdoer transformar variables categóricas a numéricas que después se puedan interpretar e ingresar dentro de algoritmos de DS y ML; el problema es en si aplica o no al caso que estamos tratando.

| Categoría| Dummy| One-Hot |
| -------- | ---- | ------- |
| inglés  |[0,0]|[1,0,0]|
| español |[0,1]|[0,1,0]|
| francés |[1,0]|[0,0,1]|
| *NaN* |????|[0,0,0]|

En la tabla anterior es fácil observar que cuando ingresa un valor aleatorio a la categoría, en el Dummy se queda corta la forma de poder entenderlo, es ?. En tanto que en el One-Hot es fácilmente entendido como un 0,0,0 proque no corresponde a ninguna de las características.

In [2]:
import pandas as pd 

df = pd.read_csv('cars.csv')

Pandas dummies: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [4]:
"""
Es una función integrada de Pandas que está tratada como 
un dummy aunque es fácilmente visible que es lit el caso
del One-Hot
"""
pd.get_dummies(df['engine_type'])

Unnamed: 0,diesel,electric,gasoline
0,0,0,1
1,0,0,1
2,0,0,1
3,0,0,1
4,0,0,1
...,...,...,...
38526,0,0,1
38527,1,0,0
38528,0,0,1
38529,0,0,1


One-hot con Scikit: https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features 

In [None]:
import sklearn.preprocessing as preprocessing
encoder = preprocessing.OneHotEncoder(handle_unknown='ignore')

In [None]:
encoder.fit(df[['engine_type']].values)

OneHotEncoder(handle_unknown='ignore')

El hecho de agregar una columna que no existe, por ejemplo la columna "aceite", hace que el encoder, que es le OneHot no se buguee por el hecho de que simplemente ninguno de los elementos que hay en la database va a tener ese valor como existente, sino que simplemente pasa a ser un agregado.

In [None]:
encoder.transform([['gasoline'],['diesel'],['aceite']]).toarray()

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])

Variables numéricas discretas pueden ser codificadas como categoricas

In [None]:
encoder.fit(df[['year_produced']].values)

OneHotEncoder(handle_unknown='ignore')

In [None]:
encoder.transform([[2016],[2009],[190]]).toarray()

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

Uno de los inconvenientes con el OneHot es que cada variable se vuelve otras variables más, end onde cada variable simplemente refleja la nueva búsqueda. Esto incrementa la dimensionalidad.
Lo normal después del procesamiento es normal que se haga después la reducción de dimensionalidad. 

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=3f569948-e9a8-454f-8f4d-a27aa1610a87' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>