### Variables Dummy
La codificación de categorías en variables binarias es una técnica utilizada en el análisis de datos para convertir variables categóricas en variables binarias o binarias-dummys. Esto implica asignar un valor numérico 0 o 1 a cada categoría de la variable, donde 0 representa la ausencia de la categoría y 1 representa la presencia de la categoría.

Esta técnica se utiliza cuando se desea incorporar variables categóricas en modelos de aprendizaje automático que solo pueden manejar datos numéricos.

Ejemplo:

Supongamos que tenemos un conjunto de datos con una columna llamada "Color de ojos" que tiene tres categorías: "Azul", "Verde" y "Café". Queremos codificar esta variable en variables binarias para su uso en un modelo de aprendizaje automático.

ID	Color de ojos
1	Azul
2	Verde
3	Café
4	Café
5	Azul

La codificación de categorías en variables binarias nos daría las siguientes columnas adicionales:

ID	Color de ojos_Azul	Color de ojos_Verde	Color de ojos_Café
1	1	0	0
2	0	1	0
3	0	0	1
4	0	0	1
5	1	0	0

Cada nueva columna representa una categoría única de la variable original. Si un registro tiene esa categoría en particular, el valor correspondiente en la columna será 1; de lo contrario, será 0.

Este resultado se puede obtener fácilmente usando Pandas

In [None]:
import pandas as pd

data = {
    'ID': [1, 2, 3, 4, 5],
    'Color de ojos': ['Azul', 'Verde', 'Café', 'Café', 'Azul']
}

df = pd.DataFrame(data)

# Generar variables dummy
dummy_df = pd.get_dummies(df['Color de ojos'], prefix='Color de ojos')

# Concatenar el DataFrame original y el DataFrame de variables dummy
result_df = pd.concat([df, dummy_df], axis=1)

# Eliminar la columna "Color de ojos" del DataFrame resultante si se desea
result_df.drop('Color de ojos', axis=1, inplace=True)

# Mostrar el DataFrame resultante
print(result_df)