<a href="https://colab.research.google.com/github/GustavoBD-Dev/AnalyticalModelsWithPythonCourse/blob/Session-4/11_CategoricalVariables.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#**Codificación de variables categóricas**

### Codificación de Variables Categóricas

Las variables categóricas son aquellas que toman un conjunto limitado de valores discretos, como colores, categorías de productos o tipos de vivienda. Al construir modelos analíticos, es esencial convertir estas variables categóricas en una representación numérica adecuada, ya que la mayoría de los algoritmos de machine learning trabajan mejor con datos numéricos.

#### Técnicas Comunes de Codificación

1. **One-Hot Encoding:**
   Esta técnica convierte cada categoría en una nueva columna binaria (0 o 1). Es ideal cuando la variable categórica no tiene un orden inherente.
   
   **Ejemplo:**
   ```python
   import pandas as pd
   from sklearn.preprocessing import OneHotEncoder
   
   df = pd.DataFrame({'color': ['rojo', 'azul', 'verde']})
   encoder = OneHotEncoder(sparse=False)
   encoded_data = encoder.fit_transform(df[['color']])
   one_hot_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out())
   print(one_hot_df)
   ```
   Esto genera un DataFrame con columnas como `color_rojo`, `color_azul` y `color_verde`.

**Consideraciones:**
- Aumenta la dimensionalidad, lo que puede ser ineficiente para variables con muchas categorías.
- No asume ninguna relación de orden entre las categorías.

2. **Label Encoding:**
   Asigna un valor numérico entero a cada categoría. Es adecuado cuando existe un orden natural entre las categorías (e.g., bajo, medio, alto).
   
   **Ejemplo:**
   ```python
   from sklearn.preprocessing import LabelEncoder

   df = pd.DataFrame({'tamaño': ['bajo', 'medio', 'alto']})
   encoder = LabelEncoder()
   df['tamaño_encoded'] = encoder.fit_transform(df['tamaño'])
   print(df)
   ```
   Aquí, `bajo` puede ser codificado como 0, `medio` como 1, y `alto` como 2.

**Consideraciones:**
- Introduce un supuesto de orden entre las categorías. No es recomendable para variables sin orden inherente, ya que podría inducir relaciones espurias en el modelo.

3. **Target Encoding:**
   Asigna a cada categoría el valor medio de la variable objetivo (target) para las observaciones correspondientes. Es útil para variables categóricas con muchas categorías, pero debe manejarse con cuidado para evitar el sobreajuste.
   
   **Ejemplo:**
   ```python
   import pandas as pd
   
   df = pd.DataFrame({
       'barrio': ['A', 'B', 'C', 'A', 'B', 'C'],
       'precio': [300, 200, 250, 400, 300, 350]
   })
   
   mean_target_encoding = df.groupby('barrio')['precio'].mean().to_dict()
   df['barrio_encoded'] = df['barrio'].map(mean_target_encoding)
   print(df)
   ```
   Esto genera una codificación basada en la media del precio por barrio.

**Consideraciones:**
- Riesgo de sobreajuste, especialmente en datasets pequeños. Se recomienda usar técnicas de validación cruzada para mitigar este riesgo.
- Es sensible a la distribución de la variable objetivo.

#### Mejores Prácticas

- **Análisis previo:** Antes de seleccionar una técnica de codificación, analiza la distribución y el significado de las categorías. Determina si las categorías tienen un orden inherente y la cantidad de categorías únicas.
  
- **Evaluación de impacto en el modelo:** Prueba diferentes métodos de codificación y evalúa el impacto en el rendimiento del modelo, utilizando métricas de validación.
  
- **Evitar alta dimensionalidad:** Al usar One-Hot Encoding en variables con muchas categorías, considera reducir la dimensionalidad o combinar categorías poco frecuentes.

- **Regularización:** Cuando uses técnicas como Target Encoding, aplica regularización para evitar el sobreajuste, especialmente en conjuntos de datos pequeños.

- **Transformaciones específicas para algoritmos:** Algunos algoritmos, como los árboles de decisión, pueden manejar directamente variables categóricas sin codificación. Es importante conocer las características del algoritmo que se va a utilizar antes de decidir la técnica de codificación.

##**Ejercicios**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

file_id = '1GxFpnjaEPauGQ0PRe-YTzjhDaCwd-wTN'
raw_url = f'https://drive.google.com/uc?id={file_id}&export=download'

import pandas as pd
data = pd.read_csv(raw_url)

print(data.head())

Mounted at /content/drive
   User_ID Product_ID Gender   Age  Occupation City_Category  \
0  1000001  P00069042      F  0-17          10             A   
1  1000001  P00248942      F  0-17          10             A   
2  1000001  P00087842      F  0-17          10             A   
3  1000001  P00085442      F  0-17          10             A   
4  1000002  P00285442      M   55+          16             C   

  Stay_In_Current_City_Years  Marital_Status  Product_Category_1  \
0                          2               0                   3   
1                          2               0                   1   
2                          2               0                  12   
3                          2               0                  12   
4                         4+               0                   8   

   Product_Category_2  Product_Category_3  Purchase  
0                 NaN                 NaN      8370  
1                 6.0                14.0     15200  
2                 

####**Ejercicio 1: Codificación One-Hot para una Variable**
**Objetivo:** Aplicar la codificación one-hot a la columna Gender.

In [None]:
import pandas as pd
from sklearn.preprocessing import OneHotEncoder

df = pd.DataFrame({'color': ['rojo', 'azul', 'verde']})
encoder = OneHotEncoder(sparse=False)
encoded_data = encoder.fit_transform(df[['color']])
one_hot_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out())
print(one_hot_df)

   color_azul  color_rojo  color_verde
0         0.0         1.0          0.0
1         1.0         0.0          0.0
2         0.0         0.0          1.0




In [None]:
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder(sparse=False)
encoded_data = encoder.fit_transform(data[['Gender']])
one_hot_df = pd.DataFrame(encoded_data, columns=encoder.get_feature_names_out())



In [None]:
one_hot_df

Unnamed: 0,Gender_F,Gender_M
0,1.0,0.0
1,1.0,0.0
2,1.0,0.0
3,1.0,0.0
4,0.0,1.0
...,...,...
550063,0.0,1.0
550064,1.0,0.0
550065,1.0,0.0
550066,1.0,0.0


####**Ejercicio 2: Codificación Ordinal de la Edad**
**Objetivo:** Codificar la columna Age como una variable ordinal, asignando valores numéricos según el rango de edad.

In [None]:
age_mapping = {'0-17': 0, '18-25': 1, '26-35': 2, '36-45': 3, '46-50': 4, '51-55': 5, '56-65': 6, '66+': 7}
data['Age_encoded'] = data['Age'].map(age_mapping)
print(data[['Age', 'Age_encoded']])

          Age  Age_encoded
0        0-17          0.0
1        0-17          0.0
2        0-17          0.0
3        0-17          0.0
4         55+          NaN
...       ...          ...
550063  51-55          5.0
550064  26-35          2.0
550065  26-35          2.0
550066    55+          NaN
550067  46-50          4.0

[550068 rows x 2 columns]


####**Ejercicio 3: Codificación de la Variable City_Category usando Target Encoding**
**Objetivo:** Codificar la columna City_Category usando target encoding, basándose en la media de la columna Purchase.

####**Ejercicio 4: Codificación Frecuencial de Occupation**
**Objetivo:** Codificar la columna Occupation según la frecuencia de aparición de cada ocupación.

####**Ejercicio 5: Codificación de Stay_In_Current_City_Years usando Label Encoding**
**Objetivo:** Codificar la columna Stay_In_Current_City_Years usando label encoding.

####**Ejercicio 6: Aplicar Codificación de Variables Cruzadas (Interaction Features)**
**Objetivo:** Crear una nueva columna que represente la interacción entre Gender y Age.

####**Ejercicio 7: Codificación One-Hot con Limitación de Categorías**
**Objetivo:** Realizar una codificación one-hot de la columna Product_ID pero limitando el número de categorías a las 5 más frecuentes.

####**Ejercicio 8: Codificación Binaria de Marital_Status**
**Objetivo:** Codificar la columna Marital_Status como una variable binaria.

####**Ejercicio 9: Codificación Basada en Agrupaciones Personalizadas**
**Objetivo:** Agrupar las categorías de Product_Category_1 en grupos personalizados y asignarles códigos.