## Mapeos Numéricos:

* Dummy : es la representación más compacta que se puede tener de los datos. Es mejor usarla cuando los inputs son variables linealmente independientes 

* One-hot : es más extenso. Permite incluir categorías que no estaban en el dataset inicialmente. De forma que si se filtra una categoría que no estaba incluida, igual se pueda representar numéricamente y no de error en el modelo

Los conceptos de "dummy encoding" (codificación de variables ficticias) y "one-hot encoding" (codificación one-hot) son técnicas utilizadas en el procesamiento de datos para convertir variables categóricas en representaciones numéricas, que pueden ser utilizadas por algoritmos de aprendizaje automático.

Cuando se trabaja con algoritmos de aprendizaje automático, es común que los modelos solo acepten variables numéricas como entrada. Sin embargo, en muchos conjuntos de datos, hay variables categóricas que no tienen una representación numérica directa. Aquí es donde entran en juego el dummy encoding y el one-hot encoding.

El dummy encoding implica la creación de nuevas variables binarias para cada categoría presente en la variable categórica original. Cada nueva variable binaria (también llamada variable ficticia) representa una categoría específica y tiene un valor de 0 o 1. Si una instancia tiene una categoría determinada, la variable ficticia correspondiente tendrá un valor de 1 para esa instancia y 0 en caso contrario. Esto permite que la variable categórica se represente de forma numérica sin asumir un orden o relación entre las categorías.

Por otro lado, el one-hot encoding también convierte una variable categórica en una representación numérica, pero en este caso, se utiliza un enfoque ligeramente diferente. En lugar de crear una variable binaria para cada categoría, se crea un conjunto de variables binarias, donde cada variable representa una categoría distinta y tiene un valor de 0 o 1. En el one-hot encoding, solo una variable binaria puede tener el valor de 1 para cada instancia, mientras que todas las demás variables binarias tendrán el valor de 0. Esto permite representar de manera única cada categoría en forma de vector binario.

La elección entre dummy encoding y one-hot encoding depende del contexto y del algoritmo de aprendizaje automático que se utilice. Algunos algoritmos pueden funcionar bien con el dummy encoding, mientras que otros pueden requerir el one-hot encoding para capturar correctamente la información categórica.

En resumen, el dummy encoding y el one-hot encoding son técnicas utilizadas para convertir variables categóricas en representaciones numéricas, permitiendo que los algoritmos de aprendizaje automático las utilicen como entrada. El dummy encoding crea variables binarias para cada categoría, mientras que el one-hot encoding crea un conjunto de variables binarias únicas para representar cada categoría.

* Supongamos que tenemos una variable categórica llamada "Color" con tres categorías: Rojo, Verde y Azul. 

Ejemplo:
| Color  | Dummy | One-Hot|
|--------|-------|--------|
| Rojo   | [0,0] | [1,0,0]|
| Verde  | [1,0] | [0,1,0]|
| Azul   | [0,1] | [0,0,1]|
| Rojo   | [0,0] | [1,0,0]|
| Verde  | [1,0] | [0,1,0]|
| otros  | error | [0,0,0]|

En ambos casos, la variable categórica original "Color" se convierte en variables numéricas binarias que representan cada categoría. La diferencia está en la cantidad de variables creadas. Con el dummy encoding, se crea una variable binaria por cada categoría, mientras que con el one-hot encoding se crea un conjunto de variables binarias, donde solo una variable tiene el valor de 1 para cada instancia y las demás tienen el valor de 0.

Nota_01: En pandas la interpretación Dummy da como resultado un One-Hot.
Nota_02: Estas metodologías intruducen una cantidad importante de nuevos datos dentro del dataset.

In [1]:
import pandas as pd 

df = pd.read_csv('cars.csv')

Pandas dummies: https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html

In [2]:
pd.get_dummies(df['engine_type'])

Unnamed: 0,diesel,electric,gasoline
0,0,0,1
1,0,0,1
2,0,0,1
3,0,0,1
4,0,0,1
...,...,...,...
38526,0,0,1
38527,1,0,0
38528,0,0,1
38529,0,0,1


One-hot con Scikit: https://scikit-learn.org/stable/modules/preprocessing.html#encoding-categorical-features 

In [3]:
import sklearn.preprocessing as preprocessing

In [4]:
#Creando método de codificación de variables categóricas.
encoder = preprocessing.OneHotEncoder(handle_unknown='ignore')
#"handle_unknown='ignore" lo codifica como un vector de ceros.

In [5]:
#Ajustando el encoding a la columna "engine_type"
encoder.fit(df[['engine_type']].values)

In [6]:
#Generando la codificación con una categoría extraña "aceite"
encoder.transform([['gasoline'],['diesel'],['aceite']]).toarray()

array([[0., 0., 1.],
       [1., 0., 0.],
       [0., 0., 0.]])

### Variables numéricas discretas pueden ser codificadas como categoricas

In [7]:
#Ajustando el encoding a la columna "engine_type"
encoder.fit(df[['year_produced']].values)

In [8]:
#Generando la codificación con una categoría extraña "190"
encoder.transform([[2016],[2009],[190]]).toarray()

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=3f569948-e9a8-454f-8f4d-a27aa1610a87' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>