# Análisis exploratorio de datos

## Unidad 5: Conversión de variables categóricas a numéricas

**Índice**   
1. [Tipos de datos categóricos](#id1)
2. [Codificación de categorías: Label Encoding y One Hot Encoding](#id2)

### 1. Tipos de datos categóricos <a name="id1"></a>

Los datos categóricos representan variables que pueden tomar un conjunto limitado y bien definido de valores. Hay varios tipos de datos categóricos, y se pueden clasificar de diferentes maneras según sus características:

1. **Nominales:**
   - Los datos nominales son categorías que no tienen un orden inherente.
   - Ejemplos: colores (rojo, verde, azul), género (masculino, femenino, otro), tipos de animales (perro, gato, pájaro, pez), ciudades (Nueva York, París, Tokio, Londres).

2. **Ordinales:**
   - En los datos ordinales el orden de las categorías es importante, pero las distancias entre ellas no son necesariamente uniformes o bien definidas.
   - Ejemplos: niveles de educación (primaria, secundaria, universitaria), clasificación socioeconómica (bajo, medio, alto), talla ropa (pequeña, mediana, grande).

3. **Binarios:**
   - Los datos binarios solo tienen dos categorías posibles.
   - Ejemplos: sí/no, positivo/negativo, éxito/fracaso.



Vamos a ver ejemplos de estos datos categóricos en un dataset.

In [None]:
# Montamos la unidad Drive para acceder a los archivos de Google Drive
from google.colab import drive
drive.mount('/content/drive')

# Especificamos la ruta hasta la carpeta donde tenemos los archivos de la Unidad 5-6
%cd /content/drive/MyDrive/Colab_Notebooks/Analisis_exploratorio_datos/Unidad5_6

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
/content/drive/MyDrive/Colab_Notebooks/Analisis_exploratorio_datos/Unidad5_6


In [None]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np

# Cargamos el archivo csv en un DataFrame
starbucks_df = pd.read_csv(
    "data/starbucks_drinks.csv", encoding='utf-8', encoding_errors='replace'
    )

# Mostramos el tamaño del df
print("Tamaño df:\n", starbucks_df.shape)

# Mostramos el nombre de las columnas
print("Columnas del df:\n", starbucks_df.columns)

# Visualizamos las 3 primeras filas con el comando head()
starbucks_df.head(3)

Tamaño df:
 (110, 19)
Columnas del df:
 Index(['Beverage', 'Beverage_category', 'Beverage_prep', 'Milk_type',
       'Calories', 'Total Fat (g)', 'Trans Fat (g) ', 'Saturated Fat (g)',
       'Sodium (mg)', 'Total Carbohydrates (g) ', 'Cholesterol (mg)',
       'Dietary Fibre (g)', 'Sugars (g)', 'Protein (g) ', 'Vitamin A (% DV) ',
       'Vitamin C (% DV)', 'Calcium (% DV) ', 'Iron (% DV) ', 'Caffeine (mg)'],
      dtype='object')


Unnamed: 0,Beverage,Beverage_category,Beverage_prep,Milk_type,Calories,Total Fat (g),Trans Fat (g),Saturated Fat (g),Sodium (mg),Total Carbohydrates (g),Cholesterol (mg),Dietary Fibre (g),Sugars (g),Protein (g),Vitamin A (% DV),Vitamin C (% DV),Calcium (% DV),Iron (% DV),Caffeine (mg)
0,Brewed Coffee,Coffee,Short,No Milk,3,0.1,0.0,0.0,0,5,0,0,0,0.3,0%,0%,0%,0%,175
1,Brewed Coffee,Coffee,Tall,No Milk,4,0.1,0.0,0.0,0,10,0,0,0,0.5,0%,0%,0%,0%,260
2,Brewed Coffee,Coffee,Grande,No Milk,5,0.1,0.0,0.0,0,10,0,0,0,1.0,0%,0%,0%,0%,330


In [None]:
starbucks_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 110 entries, 0 to 109
Data columns (total 19 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Beverage                  110 non-null    object 
 1   Beverage_category         110 non-null    object 
 2   Beverage_prep             110 non-null    object 
 3   Milk_type                 110 non-null    object 
 4   Calories                  110 non-null    int64  
 5   Total Fat (g)             110 non-null    float64
 6   Trans Fat (g)             110 non-null    float64
 7   Saturated Fat (g)         110 non-null    float64
 8   Sodium (mg)               110 non-null    int64  
 9   Total Carbohydrates (g)   110 non-null    int64  
 10  Cholesterol (mg)          110 non-null    int64  
 11  Dietary Fibre (g)         110 non-null    int64  
 12  Sugars (g)                110 non-null    int64  
 13  Protein (g)               110 non-null    float64
 14  Vitamin A 

Podemos ver que las columnas 2-4 contienen datos categóricos.

In [None]:
# Nos indica el tipo de bebida
# Es un dato categórico nominal, no hay ningún orden
starbucks_df.Beverage_category.unique()

array(['Coffee', 'Classic Espresso Drinks', 'Signature Espresso Drinks',
       'Tazo® Tea Drinks', 'Shaken Iced Beverages', 'Smoothies',
       'Frappuccino® Blended Coffee', 'Frappuccino® Light Blended Coffee',
       'Frappuccino® Blended Crème'], dtype=object)

In [None]:
# Nos indica el tamaño de la bebida
# Es un dato categórico ordinal, si que hay un orden
# de más pequeño (short) a grande (venti)
starbucks_df.Beverage_prep.unique()

array(['Short', 'Tall', 'Grande', 'Venti'], dtype=object)

In [None]:
# Nos indica si la bebida contiene leche o no
# Es un dato categórico binario (con leche o sin leche)
starbucks_df.Milk_type.unique()

array(['No Milk', 'Nonfat Milk'], dtype=object)

### 2. Codificación de categorías: Label Encoding y One Hot Encoding <a name="id2"></a>


Los datos categóricos contienen información sobre etiquetas/categorias y, en muchos casos, se representan en forma de texto. Aunque esta manera de visualizar estos datos es muy intuitiva para las personas, los algoritmos de machine learning no suelen trabajar con texto, sino con información numérica. Por este motivo, es importante codificar/transformar las variables categóricas a variables numéricas para su posterior uso en modelos y análisis.

La transformación de datos categóricos depende del contexto y del tipo de análisis que se esté llevando a cabo.


**Codificación de Variables Categóricas**

Convertir variables categóricas en variables numéricas para que puedan ser utilizadas por algoritmos que requieran datos numéricos. Las técnicas más comunes son:
- **Codificación One-Hot:** Se trata de crear columnas binarias para cada categoría. Cada fila con un 1 en la columna correspondiente a su categoría y 0 en todas las demás.
- **Codificación Ordinal:** Asignar un valor numérico a cada categoría basado en su orden.
- **Manejo de Datos Binarios**: Para variables binarias, al tener solo 2 valores, pueden representarse directamente como 0 y 1.

In [None]:
# Vamos a transformar estas varibles para el dataset

starbucks_df.head(3)


Unnamed: 0,Beverage,Beverage_category,Beverage_prep,Milk_type,Calories,Total Fat (g),Trans Fat (g),Saturated Fat (g),Sodium (mg),Total Carbohydrates (g),Cholesterol (mg),Dietary Fibre (g),Sugars (g),Protein (g),Vitamin A (% DV),Vitamin C (% DV),Calcium (% DV),Iron (% DV),Caffeine (mg)
0,Brewed Coffee,Coffee,Short,No Milk,3,0.1,0.0,0.0,0,5,0,0,0,0.3,0%,0%,0%,0%,175
1,Brewed Coffee,Coffee,Tall,No Milk,4,0.1,0.0,0.0,0,10,0,0,0,0.5,0%,0%,0%,0%,260
2,Brewed Coffee,Coffee,Grande,No Milk,5,0.1,0.0,0.0,0,10,0,0,0,1.0,0%,0%,0%,0%,330


In [None]:
# Para transformar variables categóricas en binarias
# podemos usar la función de pandas get_dummies()

# Empezamos por el tipo de leche
# Podemos especificar un prefijo para que
# el nombre de la columna sea más informativo
sb_new_df = pd.get_dummies(
    starbucks_df, columns=['Milk_type'], prefix='Milk_type')

# Mostramos las nuevas columnas
sb_new_df[['Milk_type_No Milk','Milk_type_Nonfat Milk']]


Unnamed: 0,Milk_type_No Milk,Milk_type_Nonfat Milk
0,True,False
1,True,False
2,True,False
3,True,False
4,False,True
...,...,...
105,False,True
106,False,True
107,False,True
108,False,True


In [None]:
# Ahora nos centramos en la variable Beverage_category
# Vamos a ver sus valores
print("Valores únicos iniciales", sb_new_df.Beverage_category.unique())

# Simplificamos los tipos de bebidas
sb_new_df.Beverage_category = sb_new_df.Beverage_category.replace(
    'Frappuccino® Blended Coffee', 'Frappuccino'
    )

sb_new_df.Beverage_category = sb_new_df.Beverage_category.replace(
    'Frappuccino® Light Blended Coffee', 'Frappuccino'
    )

sb_new_df.Beverage_category = sb_new_df.Beverage_category.replace(
    'Frappuccino® Blended Crème', 'Frappuccino'
    )

sb_new_df.Beverage_category = sb_new_df.Beverage_category.replace(
    'Classic Espresso Drinks', 'Espresso Drink'
    )

sb_new_df.Beverage_category = sb_new_df.Beverage_category.replace(
    'Signature Espresso Drinks', 'Espresso Drink'
    )

# Mostramos los nuevos valores
print("Valores únicos modificados", sb_new_df.Beverage_category.unique())

Valores únicos iniciales ['Coffee' 'Classic Espresso Drinks' 'Signature Espresso Drinks'
 'Tazo® Tea Drinks' 'Shaken Iced Beverages' 'Smoothies'
 'Frappuccino® Blended Coffee' 'Frappuccino® Light Blended Coffee'
 'Frappuccino® Blended Crème']
Valores únicos modificados ['Coffee' 'Espresso Drink' 'Tazo® Tea Drinks' 'Shaken Iced Beverages'
 'Smoothies' 'Frappuccino']


In [None]:
# Después de la modificación podemos codificar la información
sb_new_df = pd.get_dummies(sb_new_df,
                           columns=['Beverage_category'],
                           prefix='Beverage_category'
                           )

# Mostramos las nuevas columnas
sb_new_df[['Beverage_category_Coffee','Beverage_category_Espresso Drink', 'Beverage_category_Frappuccino',
       'Beverage_category_Shaken Iced Beverages',
       'Beverage_category_Smoothies', 'Beverage_category_Tazo® Tea Drinks']]


Unnamed: 0,Beverage_category_Coffee,Beverage_category_Espresso Drink,Beverage_category_Frappuccino,Beverage_category_Shaken Iced Beverages,Beverage_category_Smoothies,Beverage_category_Tazo® Tea Drinks
0,True,False,False,False,False,False
1,True,False,False,False,False,False
2,True,False,False,False,False,False
3,True,False,False,False,False,False
4,False,True,False,False,False,False
...,...,...,...,...,...,...
105,False,False,True,False,False,False
106,False,False,True,False,False,False
107,False,False,True,False,False,False
108,False,False,True,False,False,False


In [None]:
# Para acabar tenemos la columna de Beverage_prep
# que nos indica el tamaño

# En este caso, podemos representar la información como
# una variable categórica nominal (con orden)
print("Valores únicos iniciales", starbucks_df.Beverage_prep.unique())

# Hay una función que representa las categorias de forma numérica
# LabelEncoder de la librería sklearn
from sklearn.preprocessing import LabelEncoder

# Inicializamos la transformación Label Encoder (LE)
le = LabelEncoder()

# Creamos y aplicamos la transformación a nuestros datos
starbucks_df['Beverage_size'] = le.fit_transform(starbucks_df.Beverage_prep)


Valores únicos iniciales ['Short' 'Tall' 'Grande' 'Venti']


In [None]:
# Podemos ver algo raro?
starbucks_df[['Beverage_prep', 'Beverage_size']]

Unnamed: 0,Beverage_prep,Beverage_size
0,Short,1
1,Tall,2
2,Grande,0
3,Venti,3
4,Short,1
...,...,...
105,Tall,2
106,Grande,0
107,Venti,3
108,Tall,2


In [None]:
# Con LabelEncoder() no podemos escoger el valor que se asigna a cada categoría
# Por lo tanto, nos puede interesar más hacerlo manualmente para especificar
# el orden (e.g. Short 0, Tall 1, Grande 2, Venti 3)

# Podemos crear una lista con el orden que queremos
list_orden =  ['Short', 'Tall', 'Grande', 'Venti']

# Inicializamos otra vez la columna a 0
starbucks_df['Beverage_size'] = 0
for i, elem in enumerate(list_orden):
  # Asignamos el valor de Beverage_size según la posición del elemento en la lista
  starbucks_df.loc[starbucks_df.Beverage_prep==elem, 'Beverage_size'] = i

In [None]:
# Comprobamos que ahora está bien!
starbucks_df[['Beverage_prep', 'Beverage_size']]

Unnamed: 0,Beverage_prep,Beverage_size
0,Short,0
1,Tall,1
2,Grande,2
3,Venti,3
4,Short,0
...,...,...
105,Tall,1
106,Grande,2
107,Venti,3
108,Tall,1


In [None]:
# Juntamos todas las nuevas columnas en el df

# Creamos una lista con las columnas de la categoría
cols_category = ['Beverage_category_Coffee',
                 'Beverage_category_Espresso Drink',
                 'Beverage_category_Frappuccino',
                 'Beverage_category_Shaken Iced Beverages',
                 'Beverage_category_Smoothies',
                 'Beverage_category_Tazo® Tea Drinks']

# Creamos una lista con las columnas del tipo de leche
cols_milk = ['Milk_type_No Milk','Milk_type_Nonfat Milk']

# Concatenamos los dos datasets
starbucks_preproc_df = pd.concat([starbucks_df, sb_new_df[cols_category+cols_milk]], axis=1)

In [None]:
# Mostramos el nombre de las columnas
print("Las columnas del nuevo df son: ", starbucks_preproc_df.columns)

# Mostramos las 3 primeras filas
starbucks_preproc_df.head(3)

Las columnas del nuevo df son:  Index(['Beverage', 'Beverage_category', 'Beverage_prep', 'Milk_type',
       'Calories', 'Total Fat (g)', 'Trans Fat (g) ', 'Saturated Fat (g)',
       'Sodium (mg)', 'Total Carbohydrates (g) ', 'Cholesterol (mg)',
       'Dietary Fibre (g)', 'Sugars (g)', 'Protein (g) ', 'Vitamin A (% DV) ',
       'Vitamin C (% DV)', 'Calcium (% DV) ', 'Iron (% DV) ', 'Caffeine (mg)',
       'Beverage_size', 'Beverage_category_Coffee',
       'Beverage_category_Espresso Drink', 'Beverage_category_Frappuccino',
       'Beverage_category_Shaken Iced Beverages',
       'Beverage_category_Smoothies', 'Beverage_category_Tazo® Tea Drinks',
       'Milk_type_No Milk', 'Milk_type_Nonfat Milk'],
      dtype='object')


Unnamed: 0,Beverage,Beverage_category,Beverage_prep,Milk_type,Calories,Total Fat (g),Trans Fat (g),Saturated Fat (g),Sodium (mg),Total Carbohydrates (g),...,Caffeine (mg),Beverage_size,Beverage_category_Coffee,Beverage_category_Espresso Drink,Beverage_category_Frappuccino,Beverage_category_Shaken Iced Beverages,Beverage_category_Smoothies,Beverage_category_Tazo® Tea Drinks,Milk_type_No Milk,Milk_type_Nonfat Milk
0,Brewed Coffee,Coffee,Short,No Milk,3,0.1,0.0,0.0,0,5,...,175,0,True,False,False,False,False,False,True,False
1,Brewed Coffee,Coffee,Tall,No Milk,4,0.1,0.0,0.0,0,10,...,260,1,True,False,False,False,False,False,True,False
2,Brewed Coffee,Coffee,Grande,No Milk,5,0.1,0.0,0.0,0,10,...,330,2,True,False,False,False,False,False,True,False


In [None]:
# Guardamos el nuevo df para usarlo en la siguiente unidad
#starbucks_preproc_df.to_csv("data/starbucks_preproc_df.csv", index=False)