# Encodings categóricos para Machine Learning

## Introducción
- Importancia de la transformación de variables categóricas en Machine Learning
- Objetivos de la presentación: Entender las principales técnicas de encoding categórico y sus aplicaciones

## One-Hot Encoding
- Definición: Transformar variables categóricas en vectores binarios
- Ejemplo:
  - Variable original: "Rojo", "Verde", "Azul"
  - One-Hot Encoding: [1, 0, 0], [0, 1, 0], [0, 0, 1]
- Ventajas:
  - Fácil de entender e implementar
  - Mantiene la independencia entre variables
- Desventajas:
  - Crea un gran número de nuevas variables
  - No considera la relación entre categorías

## Frequency Encoding
- Definición: Asignar a cada categoría un valor numérico basado en la frecuencia de ocurrencia
- Ejemplo:
  - Variable original: "Rojo", "Verde", "Azul", "Rojo"
  - Frequency Encoding: 2, 1, 1, 2
- Ventajas:
  - Mantiene la información de la distribución de las categorías
  - Reduce la dimensionalidad en comparación con One-Hot
- Desventajas:
  - Puede introducir sesgos si la distribución de las categorías no es uniforme
  - No considera la relación inherente entre categorías

## Target Encoding
- Definición: Asignar a cada categoría un valor numérico basado en la media/mediana de la variable objetivo
- Ejemplo:
  - Variable original: "Rojo", "Verde", "Azul"
  - Variable objetivo: Ingresos
  - Target Encoding: 45000, 38000, 52000
- Ventajas:
  - Captura la relación entre las categorías y la variable objetivo
  - Reduce la dimensionalidad
- Desventajas:
  - Puede generar sobreajuste si no se maneja adecuadamente
  - Requiere más cuidado en la implementación


## Escenarios de uso
- One-Hot Encoding:
  - Cuando las categorías son independientes y no tienen una relación inherente
  - Cuando la dimensionalidad no es un problema importante
- Frequency Encoding:
  - Cuando las categorías tienen una distribución desbalanceada
  - Cuando se desea mantener información sobre la frecuencia de las categorías
- Target Encoding:
  - Cuando existe una relación entre las categorías y la variable objetivo
  - Cuando se desea reducir la dimensionalidad sin perder información relevante

## Ejemplos Prácticos
* One-Hot Encoding: Es ideal cuando tienes variables categóricas con pocas categorías (por ejemplo, gender o day_of_week). En estos casos, la dimensionalidad no aumenta mucho y cada categoría puede ser representada claramente sin un gran costo en términos de memoria o tiempo de cómputo.

* Target Encoding: Muy útil para problemas supervisados (como clasificación) donde ciertas categorías están correlacionadas directamente con el target. Por ejemplo, en un modelo de predicción de churn, si sabes que ciertos productos tienen más churn, Target Encoding podría capturar esta relación directa.

* Frequency Encoding: Funciona bien en variables categóricas con muchas categorías (alta cardinalidad), como códigos de aeropuerto, nombres de ciudades o identificadores específicos, donde la frecuencia de una categoría (cuán común es) podría influir en el comportamiento del target. Esto es especialmente útil en modelos de árboles de decisión, que pueden aprovechar la información de la frecuencia para dividir ramas sin necesidad de expandir el número de columnas.

## Estrategia para Elegir el Método de Codificación
Una buena estrategia al seleccionar la codificación es evaluar la cardinalidad (cantidad de categorías únicas) y el tipo de modelo que usarás:

* Baja cardinalidad (<20 categorías): One-Hot Encoding generalmente funciona bien.
* Media a alta cardinalidad (20-100 categorías): Considera Target Encoding si tienes una relación conocida con el target, o Frequency Encoding si no hay una relación directa.
* Alta cardinalidad (>100 categorías): Frequency Encoding es preferible, especialmente si el modelo es un árbol de decisión o un ensemble basado en árboles.

![image.png](attachment:image.png)