# One-Hot Encoding: Concepto, Motivación y Aplicaciones

## Introducción

En el contexto del aprendizaje automático, los modelos suelen requerir que los datos de entrada estén representados en un formato numérico para ser procesados. Sin embargo, en muchas aplicaciones del mundo real, los datos incluyen variables categóricas, es decir, características cuyos valores pertenecen a un conjunto discreto de categorías. Una de las estrategias más utilizadas para transformar estas variables en un formato adecuado para modelos numéricos es el **one-hot encoding**.

## Motivación y Problema de Representación de Variables Categóricas

Las variables categóricas pueden clasificarse en **ordinales** y **nominales**:

- **Ordinales**: Poseen un orden intrínseco (ej., "bajo", "medio", "alto").
- **Nominales**: No poseen un orden natural (ej., "rojo", "verde", "azul").

Una forma ingenua de representar variables categóricas es asignarles valores numéricos arbitrarios. Por ejemplo, si tenemos los colores {rojo, verde, azul}, podríamos asignar:

- Rojo = 1
- Verde = 2
- Azul = 3

Sin embargo, este enfoque introduce una relación ordinal artificial, ya que el modelo podría interpretar que Azul (>3) es mayor que Verde (>2) y que Verde es mayor que Rojo, lo que no tiene sentido en este contexto.

## Definición de One-Hot Encoding

El **one-hot encoding** resuelve este problema transformando cada categoría en una representación binaria en la que solo una posición es activada (1) y las demás permanecen en 0. La idea es mapear cada categoría en un vector de dimensión igual al número total de categorías.

Siguiendo con el ejemplo de los colores, la representación one-hot sería:

- Rojo = [1, 0, 0]
- Verde = [0, 1, 0]
- Azul = [0, 0, 1]

En esta codificación, cada categoría se convierte en un vector independiente, evitando la introducción de relaciones ordinales espurias.

## Ventajas de One-Hot Encoding

1. **Evita relaciones numéricas espurias**: Como no se asignan valores numéricos directos, el modelo no infiere relaciones inexistentes entre las categorías.
2. **Compatibilidad con modelos lineales y basados en distancia**: Modelos como regresión logística o algoritmos basados en distancia (k-NN, SVM) pueden verse afectados si los datos categóricos se representan con valores numéricos arbitrarios.

## Limitaciones de One-Hot Encoding

A pesar de sus ventajas, esta técnica tiene algunas limitaciones:

1. **Explosión de dimensionalidad**: Si la variable categórica tiene un número elevado de categorías (ej., nombres de ciudades o palabras en un corpus de texto), la matriz resultante será muy grande y dispersa.
2. **Aumento del costo computacional**: La representación con muchas dimensiones puede aumentar el tiempo de entrenamiento y requerir más memoria.
3. **Posible pérdida de información semántica**: No captura relaciones entre categorías. Por ejemplo, en datos de colores, no refleja que "rojo" y "naranja" son más similares entre sí que "rojo" y "azul".

## Colinealidad en One-Hot Encoding

Un problema que surge con el one-hot encoding es la **colinealidad** entre las variables resultantes. Dado que cada fila contiene una única variable con el valor de 1 y el resto son ceros, la suma de todas las columnas siempre será 1. Esto introduce redundancia y puede causar problemas en algunos modelos de regresión lineal y análisis estadísticos.

Para evitar la colinealidad, una práctica común es eliminar una de las columnas generadas. Esto no afecta la información contenida en los datos, ya que el valor eliminado puede inferirse a partir de las demás columnas. Por ejemplo, en la codificación one-hot del país de residencia:

| País   | EE.UU. | Canadá | México |
| ------ | ------ | ------ | ------ |
| EE.UU. | 1      | 0      | 0      |
| Canadá | 0      | 1      | 0      |
| México | 0      | 0      | 1      |

Podemos eliminar una columna, por ejemplo "México":

| País   | EE.UU. | Canadá |
| ------ | ------ | ------ |
| EE.UU. | 1      | 0      |
| Canadá | 0      | 1      |
| México | 0      | 0      |

Aquí, si ninguna de las columnas "EE.UU." ni "Canadá" tiene un valor de 1, se puede inferir que el país es "México".

OBS: esto es fundamental hacerlo pues en múltiples métodos se debe asegurar que las variables indepentientes no presenten relación entre sí.

## Estrategias para Mitigar sus Limitaciones

1. **Usar técnicas de reducción de dimensionalidad**: Métodos como PCA (técnica de reducción de la dimensionalidad) pueden ser aplicados sobre la matriz one-hot para reducir su tamaño.
2. **Agrupación de categorías**: En variables con muchas categorías, se pueden agrupar en clases más generales antes de aplicar one-hot encoding.
3. **Codificación alternativa**: Métodos como **embedding vectors** (aprendidos en modelos de redes neuronales) pueden ser más eficientes para representar categorías con relaciones semánticas.



## Ejemplo Conceptual

### Ejemplo con Datos Numéricos y Categóricos

Consideremos un dataset con dos variables numéricas y una categórica:

| ID | Edad | Ingreso | Categoría |
| -- | ---- | ------- | --------- |
| 1  | 25   | 30000   | A         |
| 2  | 45   | 70000   | B         |
| 3  | 35   | 50000   | C         |
| 4  | 50   | 80000   | A         |
| 5  | 28   | 40000   | B         |
| 6  | 40   | 60000   | C         |

Aplicando one-hot encoding sobre la columna "Categoría":

| ID | Edad | Ingreso | A | B |
| -- | ---- | ------- | - | - |
| 1  | 25   | 30000   | 1 | 0 |
| 2  | 45   | 70000   | 0 | 1 |
| 3  | 35   | 50000   | 0 | 0 |
| 4  | 50   | 80000   | 1 | 0 |
| 5  | 28   | 40000   | 0 | 1 |
| 6  | 40   | 60000   | 0 | 0 |

La categoría "C" ha sido eliminada para evitar la colinealidad.

# Ejemplo usando scikitlearn

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Crear un pequeño dataset de ejemplo con 10 filas
# Incluye dos variables numéricas (Edad, Ingreso) y una categórica (Categoría)
df = pd.DataFrame({
    "ID": range(1, 11),
    "Edad": [25, 45, 35, 50, 28, 40, 30, 55, 38, 42],
    "Ingreso": [30000, 70000, 50000, 80000, 40000, 60000, 45000, 85000, 55000, 65000],
    "Categoría": ["A", "B", "C", "A", "B", "C", "A", "B", "C", "A"]
})

# Mostrar dataframe original
print("\nDataFrame Original (dos columnas numéricas y una categórica):")
print(df)


# Inicializar el OneHotEncoder de Scikit-Learn
# 'drop="first' elimina la primera categoría para evitar colinealidad
# 'sparse_output=False' devuelve un array en lugar de una matriz sparse

# Crear el codificador OneHot, especificando drop='first' para evitar multicolinealidad
onehot = OneHotEncoder(sparse_output=False, drop='first')

# Ajustar y transformar la columna 'Categoría'
categoria_encoded = onehot.fit_transform(df[['Categoría']])

# Crear nombres para las nuevas columnas (excluyendo la primera categoría)
feature_names = onehot.get_feature_names_out(['Categoría'])

# Convertir el array numpy a DataFrame
categoria_df = pd.DataFrame(categoria_encoded, columns=feature_names)

# Concatenar el DataFrame original con las nuevas columnas codificadas
df_final = pd.concat([df.drop('Categoría', axis=1), categoria_df], axis=1)

# Mostrar el resultado
print("\nDataFrame con codificación OneHot:")
print(df_final)




DataFrame Original (dos columnas numéricas y una categórica):
   ID  Edad  Ingreso Categoría
0   1    25    30000         A
1   2    45    70000         B
2   3    35    50000         C
3   4    50    80000         A
4   5    28    40000         B
5   6    40    60000         C
6   7    30    45000         A
7   8    55    85000         B
8   9    38    55000         C
9  10    42    65000         A

DataFrame con codificación OneHot:
   ID  Edad  Ingreso  Categoría_B  Categoría_C
0   1    25    30000          0.0          0.0
1   2    45    70000          1.0          0.0
2   3    35    50000          0.0          1.0
3   4    50    80000          0.0          0.0
4   5    28    40000          1.0          0.0
5   6    40    60000          0.0          1.0
6   7    30    45000          0.0          0.0
7   8    55    85000          1.0          0.0
8   9    38    55000          0.0          1.0
9  10    42    65000          0.0          0.0


# Agrupamiento de clases en clases superiores

Un ejemplo clásico de una variable categórica con muchas categorías que se puede agrupar en menos es el **código postal** en un estudio de mercado o análisis geográfico.

### Caso: Códigos Postales de Montevideo
Supongamos que tenemos una base de datos donde los participantes indican su código postal en Montevideo. La variable "código postal" puede contener decenas de valores distintos, por ejemplo:

11000, 11200, 11300, 11400, 11500, 11600, 11700, 11800, 11900, 12000, 12100, 12200, 12300, 12400, 12500, 12600, 12700, 12800, 12900, 13000, ...

Dado que hay demasiados códigos postales, el análisis de los datos puede volverse complicado. Para simplificar, podemos agruparlos en **zonas más generales**, como:

1. **Zona Centro**: 11000, 11100, 11200, 11300, 11400
2. **Zona Este**: 11500, 11600, 11700, 11800, 11900, 12000
3. **Zona Oeste**: 12100, 12200, 12300, 12400
4. **Zona Norte**: 12500, 12600, 12700, 12800
5. **Zona Sur y Costera**: 12900, 13000 y demás códigos costeros

Este proceso de agrupación permite reducir la cantidad de categorías sin perder información relevante para el análisis.

**Técnicas para la agrupación:**
- **Agrupación geográfica/manual** (como el ejemplo anterior).
- **Agrupación por frecuencia**: Si hay muchos códigos postales con pocos casos, agruparlos en "Otros".
- **Agrupación basada en similitud estadística**: Usando algoritmos como clustering o análisis de componentes principales (PCA) para encontrar grupos naturales.
- **Basado en impacto en la variable objetivo**: Si la variable categórica se usa en un modelo predictivo, agrupar códigos con efectos similares sobre la variable objetivo.

