# Encoding with Pandas get_dummies

En este notebook, exploraremos el uso de la función `get_dummies` de pandas para la codificación de variables categóricas. La codificación es un paso crucial en el procesamiento de datos para modelos de machine learning, ya que estos modelos requieren datos numéricos.

Nos basaremos en el artículo [Encoding with Pandas get_dummies](https://medium.com) por Hasan Ersan YAĞCI.


## Introducción a get_dummies

La función `get_dummies` de pandas es una forma sencilla de implementar la codificación one-hot (one-hot encoding). Esta función transforma columnas categóricas en columnas binarias.

Empezaremos aplicando `get_dummies` a la columna "Body Color" de un dataframe de ejemplo.


In [1]:
import pandas as pd

# Datos de ejemplo
df = pd.DataFrame({
    'Body Color': ['Black', 'Red', 'Blue', 'Red', 'Black', 'White'],
    'Price': [20000, 25000, 27000, 30000, 22000, 21000]
})

# Aplicar get_dummies
df_dummies = pd.get_dummies(df['Body Color'])

print(df_dummies)


   Black   Blue    Red  White
0   True  False  False  False
1  False  False   True  False
2  False   True  False  False
3  False  False   True  False
4   True  False  False  False
5  False  False  False   True


## Uso del parámetro `drop_first`

El parámetro `drop_first` se utiliza para eliminar la primera columna generada por `get_dummies`. Esto reduce la multicolinealidad en los modelos de regresión.


In [2]:
# Aplicar get_dummies con drop_first=True
df_dummies_drop_first = pd.get_dummies(df['Body Color'], drop_first=True)

print(df_dummies_drop_first)


    Blue    Red  White
0  False  False  False
1  False   True  False
2   True  False  False
3  False   True  False
4  False  False  False
5  False  False   True


## Uso del parámetro `prefix`

El parámetro `prefix` se usa para agregar un prefijo a las columnas generadas. Esto es útil cuando se aplican dummies a varias columnas para evitar conflictos de nombres.


In [3]:
# Aplicar get_dummies con prefix
df_dummies_prefix = pd.get_dummies(df['Body Color'], prefix='Color')

print(df_dummies_prefix)


   Color_Black  Color_Blue  Color_Red  Color_White
0         True       False      False        False
1        False       False       True        False
2        False        True      False        False
3        False       False       True        False
4         True       False      False        False
5        False       False      False         True


## Aplicar get_dummies a múltiples columnas

Podemos aplicar `get_dummies` directamente a todo el dataframe. Se recomienda usar el parámetro `columns` para especificar las columnas a codificar.


In [4]:
# Datos de ejemplo con múltiples columnas categóricas
df = pd.DataFrame({
    'Make_Model': ['Toyota_Corolla', 'Honda_Civic', 'Ford_Focus', 'Toyota_Corolla'],
    'Body Color': ['Black', 'Red', 'Blue', 'Red'],
    'Gear Type': ['Manual', 'Automatic', 'Manual', 'Automatic'],
    'Price': [20000, 25000, 27000, 30000]
})

# Aplicar get_dummies a columnas específicas
df_dummies_multi = pd.get_dummies(df, columns=['Make_Model', 'Body Color', 'Gear Type'])

print(df_dummies_multi)


   Price  Make_Model_Ford_Focus  Make_Model_Honda_Civic  \
0  20000                  False                   False   
1  25000                  False                    True   
2  27000                   True                   False   
3  30000                  False                   False   

   Make_Model_Toyota_Corolla  Body Color_Black  Body Color_Blue  \
0                       True              True            False   
1                      False             False            False   
2                      False             False             True   
3                       True             False            False   

   Body Color_Red  Gear Type_Automatic  Gear Type_Manual  
0           False                False              True  
1            True                 True             False  
2           False                False              True  
3            True                 True             False  


## Uso de `str.get_dummies` para columnas con múltiples categorías

La función `str.get_dummies` se utiliza para columnas que contienen múltiples categorías en una sola celda, separadas por un delimitador.


In [5]:
# Datos de ejemplo con una columna que contiene múltiples categorías
df = pd.DataFrame({
    'Extras': ['Alloy Wheels,Sunroof', 'Sunroof', 'Leather Seats,Alloy Wheels', 'Sunroof,Leather Seats'],
    'Price': [20000, 25000, 27000, 30000]
})

# Aplicar str.get_dummies
df_extras_dummies = df['Extras'].str.get_dummies(sep=',')

print(df_extras_dummies)


   Alloy Wheels  Leather Seats  Sunroof
0             1              0        1
1             0              0        1
2             1              1        0
3             0              1        1


## Conclusión

La función `get_dummies` de pandas es una herramienta poderosa y flexible para la codificación de variables categóricas. Nos permite convertir datos no numéricos en un formato adecuado para modelos de machine learning de manera sencilla y eficiente.


## Diferencias entre `get_dummies` y One Hot Encoding

**One Hot Encoding:**
- One Hot Encoding es una técnica general utilizada para convertir variables categóricas en una forma que puede ser proporcionada a algoritmos de Machine Learning para mejorar las predicciones.
- En One Hot Encoding, cada categoría en una característica categórica es representada por un vector binario.
- En términos de implementación, One Hot Encoding se puede realizar utilizando varias bibliotecas como `pandas` (con `get_dummies`), `scikit-learn` (con `OneHotEncoder`), entre otras.

**`pd.get_dummies`:**
- `pd.get_dummies` es una implementación específica de One Hot Encoding en la biblioteca `pandas`.
- Es fácil de usar y se integra bien con los dataframes de `pandas`.
- Permite un control sencillo sobre las columnas generadas con parámetros como `prefix` y `drop_first`.
- `pd.get_dummies` no maneja automáticamente el ajuste de datos de entrenamiento y prueba como lo hace `OneHotEncoder` de `scikit-learn`.

**`OneHotEncoder` de `scikit-learn`:**
- `OneHotEncoder` de `scikit-learn` ofrece una funcionalidad más robusta y es parte del pipeline de preprocesamiento de `scikit-learn`.
- Puede manejar datos nuevos (test data) que no estaban presentes en el conjunto de entrenamiento, permitiendo transformaciones consistentes.
- Permite la opción de manejar automáticamente la rareza de categorías, ignorar categorías desconocidas, y más configuraciones avanzadas.
