<a href="https://colab.research.google.com/github/amorelo01/simulacion/blob/main/M3_S4_Categorizaci%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<p><img alt="banner" height="252px" width="1080px" src="https://docs.google.com/uc?export=download&id=18D9zTLyHjMFbwtI2Eenr0l5oGeH9a1Wq"  align="center" hspace="10px" vspace="0px" ></p>

# <font color='056938'> **Introducción** </font>

Después de haber tratado con valores faltantes, duplicados, valores atípicos, etc., el siguiente paso importante en el preprocesamiento de los datos es gestionar las variables categóricas.

Las variables categóricas usalmente tienen formatos de cadena de caracteres, aunque es posible que también tomen valores enteros o boleanos. Por ejemplo:

* La marca de los vehiculos en una base de datos de vehiculos usados es normalmente una variable categorica del tipo cadena de caracteres.
* El diametro de las ruedas de las bicicletas ofrecidas en un alamcen deportivo, a pesar de ser un valor entero $29$, y en algunos casos real $27.5$, usualmente es interpretado como un valor categórico
* La presencia o no de cierta caracteristica en un dispositivo celular puede almacnerase como una variable boolean. El valor de `True` indicaría que se cuenta con la carácteristica y el valor de `False` que esta o esta presente.



Antes de profundizar en los métodos para tratar con las variables categóricas, es importante comprender sus tipos.

**Datos nominales** — En los datos nominales, las categorías no tienen un orden específico. Cambiar el orden de las categorías no afecta la naturaleza de los datos. Por ejemplo, género, color, país, ciudad, etc. son datos nominales.

**Datos ordinales** — Como sugiere el nombre, las categorías en los datos ordinales tienen un orden específico y cambiar ese orden puede afectar los datos. Por ejemplo, el nivel educativo (1.º, 2.º, 3.º, etc.), las calificaciones (A, B, C...) tienen niveles y, por lo tanto, son datos ordinales.

# <font color='056938'> **Conjunto de datos de prueba** </font>

Usaremos como conjunto de datos para el analisis, unna base de datos generada con base en la base de datos `taxis` de `Seaborn` que proporciona información sobre los viajes en taxi en Nueva York


Las variables consideradas en la base de datos son


* `pickup`: Fecha y hora en que comenzó el viaje en taxi.
* `dropoff`: Fecha y hora en que finalizó el viaje.
* `passengers`: Número de pasajeros en el taxi durante el viaje.
* `distance`: Distancia recorrida en el viaje, medida en millas o kilómetros.
* `total`: Costo total del viaje, incluyendo tarifa, propinas y peajes.
* `tip`: indica si el pasajero entrego propina o no.
* `color`: Color del taxi utilizado para el viaje.
* `payment`: Método de pago utilizado por el pasajero para el viaje.
* `pickup_zone`: Zona geográfica donde se realizó la recogida.
* `dropoff_zone`: Zona geográfica donde se realizó la entrega.
* `pickup_borough`: Distrito de la ciudad donde comenzó el viaje.
* `dropoff_borough`: Distrito de la ciudad donde finalizó el viaje.
* `service_eval`: Evaluación del servicio realizada por el usuario.




In [None]:
# Importar libreria seaborn
import seaborn as sns
import numpy as np

# Cargar datos
taxis = sns.load_dataset('taxis')
taxis = taxis[['pickup', 'dropoff', 'passengers', 'total', 'tip', 'color',  'payment',  'pickup_zone', 'dropoff_zone',  'pickup_borough', 'dropoff_borough']]

# agregar columnas ficticias
cat_service = ["very bad", "bad", "fair", "good", "excellent"]
prob_service = [0.05, 0.10, 0.4, 0.25, 0.2]
taxis['service_eval'] = np.random.choice(cat_service, size=len(taxis), p=prob_service)
taxis['tip'] = taxis['tip'] > 0

# Mostrar el DataFrame

taxis.head()




# <font color='056938'> **Codificación o *encoding*** </font>

 Codificación (o *Encoding*) en el contexto de analítica datos y aprendizaje automático, se refiere al proceso de transformar datos categóricos en un formato numérico que los modelos matemáticos puedan procesar.

 Existen diversas técnicas para manejar datos categóricos. Estas técnicas ayudan a convertir las variables categóricas en un formato numérico



## <font color='8EC044'> **Label encoding** </font>

El *label encoding* (codificación por etiquetas) asigna un número entero único a cada categoría.

Por ejemplo,  Si tenemos las categorías `Bajo`, `Medio` y `Alto`, la codificación de etiquetas podría ser:
> ```
Bajo: 0
Medio: 1
Alto: 2
```

* El *label encoding* es apropiado cuando los valores categóricos tienen una relación ordinal (un orden inherente). Por ejemplo, si las etiquetas representan niveles como "Bajo", "Medio", "Alto".

* Para datos no ordinales (como nombres de colores, ciudades o países), el *label econding* puede no ser la mejor opción.



### <font color='157699'> **Nota de uso** </font>
Es importante tener en cuenta que la codificación de etiquetas puede introducir un orden artificial entre las categorías, lo que puede ser inapropiado si no existe un orden natural. **Por ejemplo**, asignar los números 0, 1 y 2 a las categorías "Rojo", "Verde" y "Azul" implica un orden implícito que no necesariamente refleja la realidad.

Adicionalmente, los números mantienen relaciones. **Por ejempl**o, cuatro es el doble de dos y, al convertir categorías en números directamente, se crean estas relaciones a pesar de que no existen entre las categorías originales. al categorizar

> ```
  Rojo: 0
  Verde: 1
  Azul: 2
  ```


Note que `Azul` se convierte en el doble de `Verde`, lo cual no es exactamente correcto.

Esto es especialmente problemático para algoritmos como `K-Means`, donde se calcula una medida de distancia al ejecutar el modelo.

In [None]:
from sklearn.preprocessing import LabelEncoder

label_encoder = LabelEncoder()

taxis['service_eval_encoded'] = label_encoder.fit_transform(taxis['service_eval'])
taxis.sample(5)

<font color='46B8A9'> **Pregunta:** </font>

**¿Qué observa en la codificación generara?**


---

Note que las categorias no quedaron en el orden deseado, pues se esperaba que estas fueran `["very bad", "bad", "fair", "good", "excellent"]`.

## <font color='8EC044'> **Ordinal encoding** </font>

Según lo obseervado en al aplicar el *label encoding*, quiza debemos especificar el orden en que queremos que se nombren las categorias, pues `LabelEncoder` lo hace segun su orden de aparición en el dataframe. Esto es precisamente lo que hace el *Ordinal encoding*. Para ello, podriamos usar `OrdinalEncoder` de la libreria from `sklearn`



In [None]:
from sklearn.preprocessing import OrdinalEncoder

# Categories
categories = [["very bad", "bad", "fair", "good", "excellent"]]  # Note: Nested list for order

# Create the OrdinalEncoder and specify the order
ordinal_encoder = OrdinalEncoder(categories=categories)

# Aplly the encoder
taxis['service_eval_encoded'] = ordinal_encoder.fit_transform(taxis[['service_eval']])
taxis.sample(5)

###<font color='46B8A9'> **Ejercicio** </font>

Usando funciones de pandas es posible obtener el mismo resultado. ¿Que función emplearía?

In [None]:
# Escriba aquí su respuesta


## <font color='8EC044'> **One-Hot Encoding** </font>

El **One-Hot Encoding** es una de las forma más comunes de tratar con datos categóricos no ordinales. Para cada categoría dentro de una característica, se crea una nueva columna binaria (0 o 1). Cada observación original se representa como un vector de 1s y 0s, donde un `1` indica que la observación pertenece a esa categoría específica y `0` en caso contrario.

Por ejemplo, el vector de datos de colores `[rojo, verde, rojo, azul]` se codificaria de la siguiente manera:

Supongamos que tienes una característica "Color" con tres posibles categorías: Rojo, Azul y Verde. Con One-Hot Encoding, generarías tres nuevas columnas como estas:

|  Rojo | Azul | Verde |
|------|------|-------|
|   1   |  0   |   0   |
|   0   |  0   |   1   |
|   1   |  0   |   0   |
|   0   |  1   |   1   |


El **One-Hot Encoding** maneja correctamente los datos no ordinales evitando la interpretación incorrecta del significado ordinalque no se asigna un rango numérico, los algoritmos no asumen que una categoría es mayor que otra. Sin embargo, este enfoque también tiene algunas desventajas:


*  Si la variable categórica tiene muchas categorías únicas, One-Hot Encoding creará una gran cantidad de características, lo que genera conjuntos de datos de alta dimensión más difíciles de procesar.
*  Más características significan mayor uso de memoria, especialmente en casos con muchas categorías o conjuntos de datos grandes.
*  Para categorías que aparecen con poca frecuencia, las nuevas columnas pueden tener muchos valores cero, lo que lleva a datos dispersos y, posiblemente, a ineficiencias durante el entrenamiento del modelo.


Es posible codificar los datos usando el enfoque de one-hot-encoding directamente desde pandas medienta la función `get_dummies()`.

In [None]:
import pandas as pd

taxis_encoded = pd.get_dummies(taxis, columns=['payment'])
taxis_encoded.head()

Eliminar la última columna en técnicas como **One-Hot Encoding** es una práctica común para evitar un problema llamado multicolinealidad en modelos lineales y otros algoritmos que son sensibles a relaciones lineales entre variables. La multicolinealidad ocurre cuando una de las variables puede predecirse exactamente como una combinación lineal de otras, lo que puede llevar a inestabilidad en los coeficientes del modelo y hacer que los resultados sean difíciles de interpretar.

###<font color='46B8A9'> **Ejercicio** </font>

Note que las columnas resultantes estan siendo codificadas como datos booleanos. Consulte la [documentación](https://pandas.pydata.org/docs/reference/api/pandas.get_dummies.html) de la fución `get_dummies()` y modificue el código anterior para que:
* Codifique las variabes con `0` y `1`
* Cree una categoria para los datos faltantes
* Elimine la primera columna de la codificación

In [None]:
# escriba aquí su respuesta


También es posible realizar la codificación a través de librerias como `sklearn`

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

# Crear el codificador
encoder = OneHotEncoder(sparse_output=False)  # sparse_output=False para obtener un array denso

# Aplicar el codificador
encoded = encoder.fit_transform(taxis[['payment']])
encoded_df = pd.DataFrame(encoded, columns=encoder.get_feature_names_out(['payment']))
encoded_df


# <font color='46B8A9'> **Reto** </font>

Discuta como gestionaria las diferentes variables categoricas de la base de datos en el dataframe `taxis`

In [None]:
# Escriba aquí su respuesta

