# One-Hot Encoding y Ordinal Encoding

En el mundo de la ciencia de datos, **One-Hot Encoding** y **Ordinal Encoding** son dos técnicas fundamentales para transformar datos categóricos en formatos numéricos, lo cual facilita su uso en algoritmos de Machine Learning.

---

## ¿Qué Son One-Hot Encoding y Ordinal Encoding?

### 1. One-Hot Encoding
**One-Hot Encoding** es una técnica que convierte cada categoría única de una variable categórica en una nueva columna binaria (0 o 1). 

- **Ejemplo**: Supongamos que tenemos una variable de color con valores posibles: `rojo`, `azul`, y `verde`. Con One-Hot Encoding, crearemos tres nuevas columnas, una para cada color. 

  | Color  | Rojo | Azul | Verde |
  |--------|------|------|-------|
  | Rojo   | 1    | 0    | 0     |
  | Azul   | 0    | 1    | 0     |
  | Verde  | 0    | 0    | 1     |

### 2. Ordinal Encoding
**Ordinal Encoding** asigna un valor entero único a cada categoría en función de un orden específico. Esta técnica se utiliza cuando existe una relación de jerarquía natural entre las categorías.

- **Ejemplo**: Si tenemos una variable `nivel_educativo` con valores `Primaria`, `Secundaria`, y `Universidad`, podemos asignar números para reflejar el orden:

  | Nivel Educativo | Codificación Ordinal |
  |-----------------|----------------------|
  | Primaria        | 1                    |
  | Secundaria      | 2                    |
  | Universidad     | 3                    |

---

## ¿Cuándo Utilizar One-Hot Encoding y Ordinal Encoding?

### Usos de One-Hot Encoding
One-Hot Encoding es ideal en los siguientes casos:

1. **Variables No Ordinales**: Cuando las categorías no tienen un orden intrínseco, como `color` o `género`.
2. **Algoritmos Sensibles al Orden**: Como K-Nearest Neighbors y regresión logística, que funcionan mejor con datos sin un orden numérico explícito.
3. **Modelos que No Requieren Gran Dimensionalidad**: Es útil en casos en los que la cantidad de categorías no es extremadamente grande (por ejemplo, si tenemos menos de 10 categorías).

**Ventajas**:
   - **Evitación de Orden Implícito**: No asigna un valor jerárquico a categorías no ordinales.
   - **Compatibilidad con Algoritmos**: Funciona bien con muchos algoritmos de machine learning, especialmente aquellos que basan sus cálculos en la distancia o el peso.

**Desventajas**:
   - **Alta Dimensionalidad**: Para variables con muchas categorías (como `ciudad`), el número de columnas aumenta rápidamente, lo que puede ser un problema en términos de memoria y tiempo de procesamiento.
   
### Usos de Ordinal Encoding
Ordinal Encoding es más adecuado en los siguientes escenarios:

1. **Variables con Orden Natural**: Como `tamaño` (pequeño, mediano, grande) o `nivel educativo` (primaria, secundaria, universidad).
2. **Modelos Insensibles a la Magnitud del Valor**: Algoritmos como árboles de decisión, donde el orden relativo es más relevante que la magnitud exacta.
3. **Casos de Bajo Número de Categorías**: Se recomienda para variables con pocas categorías ordenadas, donde cada categoría puede asignarse a un valor entero único sin problemas de sesgo.

**Ventajas**:
   - **Codificación Compacta**: Ocupa menos espacio y es más rápido de computar comparado con One-Hot Encoding.
   - **Captura Orden Natural**: Refleja relaciones jerárquicas entre categorías que son relevantes para ciertos modelos y análisis.

**Desventajas**:
   - **Introduce Sesgo No Intencionado**: Si se usa en datos no ordinales, puede confundir al modelo.
   - **Problemas con Modelos Basados en Distancia**: Los valores ordinales pueden hacer que los modelos interpreten que dos categorías están más cercanas entre sí que otras, aunque eso no sea necesariamente cierto.

---

## ¿Cuándo NO Utilizar One-Hot Encoding y Ordinal Encoding?

### Casos en los que **NO** es recomendable usar One-Hot Encoding:
   - **Alta Cardinalidad**: Si una variable tiene muchas categorías únicas, One-Hot Encoding generará un gran número de columnas, lo cual es ineficiente.
   - **Modelos de Árboles de Decisión**: Para árboles de decisión y algunos modelos basados en árboles (como random forests y gradient boosting), One-Hot Encoding puede no ser eficiente ni necesario, ya que estos modelos son capaces de trabajar con variables categóricas de forma natural.

### Casos en los que **NO** es recomendable usar Ordinal Encoding:
   - **Datos No Ordinales**: No se recomienda para variables categóricas sin orden, como `nombres de países`, `géneros`, etc., ya que introduce un orden jerárquico inexistente.
   - **Modelos Basados en Distancias**: Algoritmos como K-Nearest Neighbors o clustering basan sus cálculos en la magnitud de los valores, por lo que los valores ordinales pueden causar problemas de interpretación.

---

## Curiosidades y Ejemplos Prácticos

1. **Curiosidad 1: One-Hot Encoding y Redes Neuronales**  
   En redes neuronales, es común usar One-Hot Encoding para la clasificación de salida en problemas de clasificación multi-clase. De esta forma, cada clase tiene su columna con un valor binario, lo que ayuda a que la red entienda de manera clara a qué clase pertenece una observación.

2. **Curiosidad 2: Codificación Ordinal para Datos Temporales**  
   En series de tiempo, la codificación ordinal puede utilizarse para variables como `mes`, `día`, y `año`. Por ejemplo, los meses pueden codificarse de 1 a 12, reflejando el orden de ocurrencia en el tiempo.

3. **Ejemplo en Python con One-Hot Encoding y Ordinal Encoding**  
   A continuación, un ejemplo práctico en Python usando la librería `pandas`:

In [4]:

import pandas as pd
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder

# Datos de ejemplo
data = pd.DataFrame({
    'Color': ['Rojo', 'Azul', 'Verde', 'Rojo'],
    'Nivel_Educativo': ['Secundaria', 'Primaria', 'Universidad', 'Secundaria']
   })

# One-Hot Encoding
ohe = OneHotEncoder(sparse_output=False)
color_encoded = ohe.fit_transform(data[['Color']])
color_df = pd.DataFrame(color_encoded, columns=ohe.get_feature_names_out(['Color']))

# Ordinal Encoding
ordinal_encoder = OrdinalEncoder(categories=[['Primaria', 'Secundaria', 'Universidad']])
nivel_educativo_encoded = ordinal_encoder.fit_transform(data[['Nivel_Educativo']])
nivel_educativo_df = pd.DataFrame(nivel_educativo_encoded, columns=['Nivel_Educativo'])

# Resultado final
data_encoded = pd.concat([data, color_df, nivel_educativo_df], axis=1)
data_encoded

Unnamed: 0,Color,Nivel_Educativo,Color_Azul,Color_Rojo,Color_Verde,Nivel_Educativo.1
0,Rojo,Secundaria,0.0,1.0,0.0,1.0
1,Azul,Primaria,1.0,0.0,0.0,0.0
2,Verde,Universidad,0.0,0.0,1.0,2.0
3,Rojo,Secundaria,0.0,1.0,0.0,1.0
