## Datos categóricos ordinales: Contexto

### ¿Qué tan satisfecho está con el servicio?

- Muy insatisfecho
- Insatisfecho
- Neutral
- Satisfecho
- Muy satisfecho

### ¿Cómo calificaría la calidad de los alimentos?

- Mala
- Buena
- Muy buena
- Excelente


In [1]:
import pandas as pd
import numpy as np

categorias_servicio = ["Muy insatisfecho", "Insatisfecho", 
                       "Neutral", "Satisfecho", "Muy satisfecho"]

categorias_calidad = ["Mala", "Buena", "Muy buena", "Excelente"]

encuesta = {"servicio" : ["Muy insatisfecho", "Insatisfecho",
                          "Neutral", "Satisfecho", "Muy satisfecho",
                          "Muy insatisfecho"],
            
            "alimentos" : ["Mala", "Buena", "Muy buena",
                           "Excelente", "Mala", "Buena"]}

# 0: cliente esporádico       1: cliente frecuente
tipo_cliente = [0, 0, 1, 1, 0, 1] 

pd.DataFrame(encuesta)

Unnamed: 0,servicio,alimentos
0,Muy insatisfecho,Mala
1,Insatisfecho,Buena
2,Neutral,Muy buena
3,Satisfecho,Excelente
4,Muy satisfecho,Mala
5,Muy insatisfecho,Buena


-------------------------------

## Maldición de la Dimensionalidad

La **maldición de la dimensionalidad** se refiere a los problemas y desafíos que surgen cuando se trabaja con datos de alta dimensión en algoritmos de Machine Learning y análisis de datos. A medida que el número de características (dimensiones) de los datos aumenta, el volumen del espacio de búsqueda crece exponencialmente, lo que provoca varios problemas.

Las "dimensiones" en el contexto de datos y Machine Learning se refieren a las **variables o características** de los datos. Cada columna en un conjunto de datos puede ser considerada como una dimensión, y cada fila es una observación o ejemplo.

### ¿Qué es una Dimensión?

En términos simples, una **dimensión** es un valor que describe algún aspecto de un conjunto de datos. Por ejemplo, si tienes un conjunto de datos con las siguientes columnas:

| Nombre  | Edad | Altura | Peso |
|---------|------|--------|------|
| Juan    | 25   | 1.75   | 70   |
| María   | 30   | 1.68   | 65   |
| Pedro   | 22   | 1.80   | 75   |

En este caso, cada columna (Edad, Altura, Peso) es una dimensión, y cada persona (Juan, María, Pedro) es una observación. Así, estos datos tienen **tres dimensiones**.

### ¿Qué son las "Altas Dimensiones"?

Cuando hablamos de **"altas dimensiones"** o **"datos de alta dimensionalidad"**, nos referimos a conjuntos de datos que tienen un gran número de variables (o características). Por ejemplo, un conjunto de datos con miles de columnas o características puede considerarse de alta dimensionalidad.

### Ejemplos de Dimensiones en Diferentes Contextos:

1. **Imágenes**: Si trabajas con imágenes de tamaño 100x100 píxeles en blanco y negro, cada píxel puede ser una dimensión. Así, una imagen tendría 10,000 dimensiones (100 píxeles por 100 píxeles).
2. **Texto**: Si representas un texto como una secuencia de palabras, puedes tener una dimensión para cada palabra en tu vocabulario. Si tu vocabulario tiene 50,000 palabras, tu texto estará representado en un espacio de 50,000 dimensiones.
3. **Datos médicos**: Si trabajas con datos de pacientes que incluyen edad, altura, peso, presión arterial, y muchos otros factores, cada uno de esos factores es una dimensión.

### ¿Por qué son Problemáticas las Altas Dimensiones?

A medida que el número de dimensiones aumenta, los algoritmos de Machine Learning pueden volverse menos efectivos. Esto ocurre debido a un fenómeno conocido como la **"maldición de la dimensionalidad"**, que describe cómo, cuando el número de dimensiones crece, el espacio de datos se vuelve extremadamente grande y disperso, lo que hace más difícil identificar patrones significativos.

Por ejemplo:

- **Distancia entre puntos**: En espacios de alta dimensionalidad, la distancia entre puntos (observaciones) crece mucho, lo que puede hacer más difícil agrupar datos similares o identificar relaciones entre ellos.
- **Overfitting (sobreajuste)**: Cuando tienes muchas dimensiones pero relativamente pocos datos, es más probable que tu modelo aprenda patrones que solo existen en los datos de entrenamiento, pero que no generalizan bien a datos nuevos.

### Resumiendo:

- Una **dimensión** es una característica o variable que describe algún aspecto de los datos.
- **Altas dimensiones** se refieren a conjuntos de datos con muchas características.
- La **maldición de la dimensionalidad** puede hacer que trabajar con datos de alta dimensionalidad sea complicado para muchos algoritmos de Machine Learning, ya que el espacio de datos se vuelve más disperso y difícil de modelar.

Las técnicas de reducción de dimensionalidad, como **PCA (Análisis de Componentes Principales)** o **t-SNE**, se utilizan para manejar mejor los datos de alta dimensionalidad. Estas técnicas ayudan a reducir el número de dimensiones sin perder demasiada información, haciendo más fácil que los algoritmos de Machine Learning trabajen con ellos.


-------------------------------

## Codificación Ordinal con `OrdinalEncoder`

El **`OrdinalEncoder`** es una herramienta proporcionada por la librería `scikit-learn` que se utiliza para convertir variables categóricas en valores numéricos enteros. Es especialmente útil para trabajar con **datos categóricos ordinales**, aquellos que tienen un orden intrínseco o una jerarquía, como niveles de satisfacción o rangos de calificación.

### ¿Cómo funciona el `OrdinalEncoder`?

El `OrdinalEncoder` asigna a cada categoría un número entero basado en el orden en el que aparecen las categorías. Por ejemplo, si tienes una columna con las siguientes categorías ordinales:

- **Muy insatisfecho**
- **Insatisfecho**
- **Neutral**
- **Satisfecho**
- **Muy satisfecho**

El `OrdinalEncoder` podría asignar los siguientes valores:

- Muy insatisfecho → 0
- Insatisfecho → 1
- Neutral → 2
- Satisfecho → 3
- Muy satisfecho → 4

Este tipo de codificación es útil cuando el orden de las categorías tiene un significado en el análisis y debe ser respetado durante el entrenamiento del modelo.

### Ventajas del `OrdinalEncoder`:

- **Simplicidad**: El `OrdinalEncoder` es sencillo de usar y adecuado cuando los datos categóricos tienen un orden natural.
- **Respeta el orden de las categorías**: A diferencia de otras técnicas como el One-Hot Encoding, este método es ideal cuando el orden de las categorías es importante para el modelo.

### Limitaciones:

- **Introduce relaciones no lineales**: Si los datos no son ordinales (es decir, no tienen un orden intrínseco), la utilización de `OrdinalEncoder` puede introducir sesgos en el modelo. Por ejemplo, si se usa en variables categóricas nominales (como países o colores), el modelo podría interpretar erróneamente que una categoría es "mayor" o "mejor" que otra solo por su valor numérico.
- **Distancia artificial entre categorías**: Aunque las categorías estén ordenadas, el modelo podría interpretar que la diferencia entre las categorías es lineal (por ejemplo, que la diferencia entre 0 y 1 es la misma que entre 2 y 3), lo cual puede no ser cierto.

### Ejemplo de uso:

In [2]:
from sklearn.preprocessing import OrdinalEncoder

# Creamos un DataFrame a partir de los datos de la encuesta (ya debe estar cargado en la variable 'encuesta')
datos_ord = pd.DataFrame(encuesta)

# Definimos el codificador ordinal con las categorías ordenadas para cada columna
# 'categorias_servicio' y 'categorias_calidad' contienen los valores de las categorías en orden 
codificador = OrdinalEncoder(categories=[categorias_servicio, categorias_calidad])

# Aplicamos el codificador al DataFrame, transformando las columnas de datos categóricos en valores numéricos según el orden
# Se crea un nuevo DataFrame con las columnas renombradas a "servicio" y "alimentacion"
datos_ord = pd.DataFrame(codificador.fit_transform(datos_ord),
                         columns=["servicio", "alimentacion"])

# Imprimimos el DataFrame transformado, mostrando las nuevas codificaciones numéricas para cada categoría
datos_ord

Unnamed: 0,servicio,alimentacion
0,0.0,0.0
1,1.0,1.0
2,2.0,2.0
3,3.0,3.0
4,4.0,0.0
5,0.0,1.0


In [3]:
# Imprimimos las categorías utilizadas para la codificación, para ver el orden establecido
codificador.categories_

[array(['Muy insatisfecho', 'Insatisfecho', 'Neutral', 'Satisfecho',
        'Muy satisfecho'], dtype=object),
 array(['Mala', 'Buena', 'Muy buena', 'Excelente'], dtype=object)]