In [None]:
# @title Librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler, StandardScaler, LabelEncoder
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer

# Usar la siguiente librería, solo SI, el programa se ejecuta en Google-Colab
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# PARTE I
El Dataset a utilizar para elaborar esta actividad, es **Healthy Eating Dataset**, este dataset fue obtenido el día 30 de septiembre de 2025, de la página de *Kaggle*, elaborado por *Khushi Yadav*.
El dataset se puede obtener del siguiente link: https://www.kaggle.com/datasets/khushikyad001/healthy-eating-dataset/data

El datatset **Healthy Eating Dataset**, cuenta con 2000 registros sintéticos de comidas con información nutricional detallada, detalles de preparación e indicadores de salud.
Este dataset está diseñado para analizar patrones alimentarios, información nutricional y clasificar comidas según su nivel de salubridad. El conjunto de datos está completamente limpio, sin valores nulos, y abarca una amplia gama de cocinas internacionales, tipos de comida y métodos de preparación.

El dataset incluye tanto variables numéricas (información nutricional, tiempos de preparación, valoraciones) como variables categóricas (tipo de cocina, método de cocción, tipo de dieta), lo que lo hace ideal para análisis estadísticos exploratorios, modelado predictivo y estudios nutricionales.

## Descripción Detallada de Cada Columna
### Variables de Identificación
1. meal_id (int64) ---> Identificador único numérico para cada comida en el dataset. Los valores van del 1 al 2,000, asignando un número secuencial único a cada registro. Esta variable sirve como clave primaria para identificar cada comida de manera inequívoca.
2. meal_name (object) ---> Nombre descriptivo de la comida. Los nombres siguen un patrón de dos palabras (ej: "Kid Pasta", "Husband Rice", "Activity Rice"). Aunque los nombres son sintéticos, proporcionan una identificación legible para cada comida y pueden indicar el tipo de plato (pasta, rice, salad, stew, soup, curry, wrap).

### Variables Categóricas de Clasificación
3. cuisine (object) ---> Tipo de cocina o origen gastronómico de la comida. El dataset incluye 8 tipos de cocina diferentes:

    - Indian (282 comidas - 14.1%)

    - Mediterranean (266 comidas - 13.3%)

    - American (261 comidas - 13.1%)

    - Mexican (251 comidas - 12.6%)

    - Chinese (245 comidas - 12.3%)

    - Thai (233 comidas - 11.7%)

    - Italian (232 comidas - 11.6%)

    - Japanese (230 comidas - 11.5%)

4. meal_type (object) ---> Categoriza la comida según el momento del día en que típicamente se consume:

    - Lunch (513 comidas - 25.7%): Comida principal del mediodía

    - Breakfast (504 comidas - 25.2%): Desayuno

    - Dinner (493 comidas - 24.7%): Cena

    - Snack (490 comidas - 24.5%): Refrigerio o merienda

5. diet_type (object) ---> Tipo de dieta o régimen alimentario al que se adecúa la comida:

    - Balanced (352 comidas - 17.6%): Dieta equilibrada estándar

    - Vegan (345 comidas - 17.3%): Sin productos de origen animal

    - Low-Carb (338 comidas - 16.9%): Baja en carbohidratos

    - Vegetarian (324 comidas - 16.2%): Vegetariana (incluye lácteos y huevos)

    - Keto (322 comidas - 16.1%): Cetogénica (muy baja en carbohidratos, alta en grasas)

    - Paleo (319 comidas - 16.0%): Basada en alimentos paleolíticos

### Variables Nutricionales Cuantitativas
6. calories (int64) ---> Contenido calórico total de la porción, medido en kilocalorías. Rango: 100-1,200 calorías, con una media de 650 calorías. Esta variable es fundamental para evaluar el aporte energético de cada comida.

7. protein_g (float64) ---> Contenido de proteínas en gramos. Rango: 5.0-79.9g, con una media de 42.9g. Las proteínas son esenciales para el crecimiento, reparación de tejidos y función muscular.

8. carbs_g (float64) ---> Contenido de carbohidratos en gramos. Rango: 0.0-150.0g, con una media de 75.9g. Los carbohidratos son la principal fuente de energía del cuerpo.

9. fat_g (float64) ---> Contenido de grasas totales en gramos. Rango: 0.0-60.0g, con una media de 30.1g. Las grasas proporcionan energía y son necesarias para la absorción de vitaminas liposolubles.

10. fiber_g (float64) ---> Contenido de fibra dietética en gramos. Rango: 0.0-30.0g, con una media de 15.2g. La fibra es importante para la salud digestiva y el control del colesterol.

11. sugar_g (float64) ---> Contenido de azúcares en gramos. Rango: 0.0-50.0g, con una media de 24.6g. Incluye azúcares naturales y añadidos.

12. sodium_mg (int64) ---> Contenido de sodio en miligramos. Rango: 50-2,499mg, con una media de 1,257mg. El sodio es importante para el equilibrio de fluidos pero su exceso puede ser problemático para la salud cardiovascular.

13. cholesterol_mg (int64) ---> Contenido de colesterol en miligramos. Rango: 0-300mg, con una media de 150mg. El colesterol dietético puede influir en los niveles sanguíneos de colesterol.

### Variables de Preparación y Presentación
14. serving_size_g (int64) ---> Tamaño de la porción en gramos. Rango: 100-500g, con una media de 303g. Indica la cantidad física de alimento que constituye una porción.

15. cooking_method (object) ---> Método de cocción utilizado para preparar la comida:

    - Fried (315 comidas - 15.8%): Frito

    - Boiled (306 comidas - 15.3%): Hervido

    - Roasted (295 comidas - 14.8%): Asado

    - Baked (294 comidas - 14.7%): Horneado

    - Steamed (280 comidas - 14.0%): Al vapor

    - Raw (267 comidas - 13.4%): Crudo

    - Grilled (243 comidas - 12.2%): A la parrilla

16. prep_time_min (int64) ---> Tiempo de preparación en minutos, excluyendo el tiempo de cocción. Rango: 5-60 minutos, con una media de 33 minutos.

17. cook_time_min (int64) ---> Tiempo de cocción en minutos. Rango: 5-120 minutos, con una media de 62 minutos.

### Variables de Evaluación
18. rating (float64) ---> Calificación de la comida en una escala del 1.0 al 5.0, donde 5.0 representa la máxima calificación. Media de 2.98, indicando una calificación promedio ligeramente por debajo del punto medio.

19. is_healthy (int64) ---> Variable binaria que indica si la comida se considera saludable:

    - 0: No saludable (1,813 comidas - 90.7%)

    - 1: Saludable (187 comidas - 9.4%)

Esta variable puede servir como variable dependiente para modelos de clasificación.

20. image_url (object)
URL de ejemplo de una imagen de la comida. Todas las URLs siguen el patrón "https://example.com/images/meal_X.jpg" donde X es el meal_id. Estas son URLs sintéticas para propósitos de demostración.

In [None]:
# Guardado de dataset en variable
df = pd.read_csv('/content/drive/MyDrive/CUATRIMESTRES/1/ESTADISTICA APLICADA/SEMANA 3/healthy_eating_dataset.csv') # Ruta del dataset en formato .csv
df.head() # Muestra las primeras 5 filas del dataset

Unnamed: 0,meal_id,meal_name,cuisine,meal_type,diet_type,calories,protein_g,carbs_g,fat_g,fiber_g,sugar_g,sodium_mg,cholesterol_mg,serving_size_g,cooking_method,prep_time_min,cook_time_min,rating,is_healthy,image_url
0,1,Kid Pasta,Indian,Lunch,Keto,737,52.4,43.9,34.3,16.8,42.9,2079,91,206,Grilled,47,56,4.4,0,https://example.com/images/meal_1.jpg
1,2,Husband Rice,Mexican,Lunch,Paleo,182,74.7,144.4,0.1,22.3,38.6,423,7,317,Roasted,51,34,2.4,0,https://example.com/images/meal_2.jpg
2,3,Activity Rice,Indian,Snack,Paleo,881,52.9,97.3,18.8,20.0,37.5,2383,209,395,Boiled,58,29,4.3,0,https://example.com/images/meal_3.jpg
3,4,Another Salad,Mexican,Snack,Keto,427,17.5,73.1,7.6,9.8,41.7,846,107,499,Grilled,14,81,4.6,0,https://example.com/images/meal_4.jpg
4,5,Quite Stew,Thai,Lunch,Vegan,210,51.6,104.3,26.3,24.8,18.2,1460,42,486,Raw,47,105,4.3,0,https://example.com/images/meal_5.jpg


# PARTE II

In [None]:
# Eliminacion de duplicados
df = df.drop_duplicates()
df.head()

Unnamed: 0,meal_id,meal_name,cuisine,meal_type,diet_type,calories,protein_g,carbs_g,fat_g,fiber_g,sugar_g,sodium_mg,cholesterol_mg,serving_size_g,cooking_method,prep_time_min,cook_time_min,rating,is_healthy,image_url
0,1,Kid Pasta,Indian,Lunch,Keto,737,52.4,43.9,34.3,16.8,42.9,2079,91,206,Grilled,47,56,4.4,0,https://example.com/images/meal_1.jpg
1,2,Husband Rice,Mexican,Lunch,Paleo,182,74.7,144.4,0.1,22.3,38.6,423,7,317,Roasted,51,34,2.4,0,https://example.com/images/meal_2.jpg
2,3,Activity Rice,Indian,Snack,Paleo,881,52.9,97.3,18.8,20.0,37.5,2383,209,395,Boiled,58,29,4.3,0,https://example.com/images/meal_3.jpg
3,4,Another Salad,Mexican,Snack,Keto,427,17.5,73.1,7.6,9.8,41.7,846,107,499,Grilled,14,81,4.6,0,https://example.com/images/meal_4.jpg
4,5,Quite Stew,Thai,Lunch,Vegan,210,51.6,104.3,26.3,24.8,18.2,1460,42,486,Raw,47,105,4.3,0,https://example.com/images/meal_5.jpg


In [None]:
# Imputacion de valores faltantes
# Ver cuántos valores faltantes hay por columna
display(df.isnull().sum())

# Imputar valores faltantes numéricos con la mediana
num_cols = df.select_dtypes(include=[np.number]).columns
df[num_cols] = df[num_cols].fillna(df[num_cols].median())

# Imputar valores faltantes categóricos con la moda (el valor más frecuente)
cat_cols = df.select_dtypes(include=['object']).columns
df[cat_cols] = df[cat_cols].fillna(df[cat_cols].mode().iloc[0])

Unnamed: 0,0
meal_id,0
meal_name,0
cuisine,0
meal_type,0
diet_type,0
calories,0
protein_g,0
carbs_g,0
fat_g,0
fiber_g,0


In [None]:
# Deteccion y manejo de valores atipicos (outliers)

# Usaremos el método del rango intercuartílico (IQR)
for col in num_cols:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    # Reemplazamos los outliers por los límites (winsorización)
    df[col] = np.where(df[col] < lower, lower, df[col])
    df[col] = np.where(df[col] > upper, upper, df[col])

In [None]:
# Normalizacion y estandarizacion de datos
scaler_std = StandardScaler()
scaler_mm = MinMaxScaler()

# Estandarización (media=0, varianza=1)
df_std = pd.DataFrame(scaler_std.fit_transform(df[num_cols]), columns=[col+"_std" for col in num_cols])

# Normalización (0 a 1)
df_mm = pd.DataFrame(scaler_mm.fit_transform(df[num_cols]), columns=[col+"_mm" for col in num_cols])

# Concatenamos al dataset original
df = pd.concat([df, df_std, df_mm], axis=1)
df.head()

Unnamed: 0,meal_id,meal_name,cuisine,meal_type,diet_type,calories,protein_g,carbs_g,fat_g,fiber_g,...,fat_g_mm,fiber_g_mm,sugar_g_mm,sodium_mg_mm,cholesterol_mg_mm,serving_size_g_mm,prep_time_min_mm,cook_time_min_mm,rating_mm,is_healthy_mm
0,1.0,Kid Pasta,Indian,Lunch,Keto,737.0,52.4,43.9,34.3,16.8,...,0.571667,0.56,0.858,0.828501,0.303333,0.265,0.763636,0.443478,0.85,0.0
1,2.0,Husband Rice,Mexican,Lunch,Paleo,182.0,74.7,144.4,0.1,22.3,...,0.001667,0.743333,0.772,0.152307,0.023333,0.5425,0.836364,0.252174,0.35,0.0
2,3.0,Activity Rice,Indian,Snack,Paleo,881.0,52.9,97.3,18.8,20.0,...,0.313333,0.666667,0.75,0.952634,0.696667,0.7375,0.963636,0.208696,0.825,0.0
3,4.0,Another Salad,Mexican,Snack,Keto,427.0,17.5,73.1,7.6,9.8,...,0.126667,0.326667,0.834,0.325031,0.356667,0.9975,0.163636,0.66087,0.9,0.0
4,5.0,Quite Stew,Thai,Lunch,Vegan,210.0,51.6,104.3,26.3,24.8,...,0.438333,0.826667,0.364,0.575745,0.14,0.965,0.763636,0.869565,0.825,0.0


In [None]:
# Conversion de tipos de datos

# Si alguna columna numérica está como texto, la convertimos
for col in df.columns:
    if df[col].dtype == 'object':
        try:
            df[col] = pd.to_numeric(df[col])
        except:
            pass  # si no se puede convertir, se queda como categórica


In [None]:
# Codificacion de variables categoricas
# Cambiar a forma numérica las variables categóricas independientes

df_encoded = pd.DataFrame(index=df.index)
for col in cat_cols:
    df_encoded[col] = LabelEncoder().fit_transform(df[col])

df_encoded

Unnamed: 0,meal_name,cuisine,meal_type,diet_type,cooking_method,image_url
0,741,2,2,1,3,0
1,670,6,2,3,5,1111
2,11,2,3,3,1,1223
3,72,6,3,1,3,1334
4,1142,7,2,4,4,1445
...,...,...,...,...,...,...
1995,22,5,2,1,3,1107
1996,831,5,3,0,5,1108
1997,1399,2,2,0,5,1109
1998,129,0,1,1,2,1110


In [None]:
# Escalado de caracteristicas
# Aplicar MinMaxScaler a todo el conjunto ya codificado
scaler_full = MinMaxScaler()
df_scaled = pd.DataFrame(scaler_full.fit_transform(df_encoded), columns=df_encoded.columns, index=df_encoded.index)
df_scaled

Unnamed: 0,meal_name,cuisine,meal_type,diet_type,cooking_method,image_url
0,0.423671,0.285714,0.666667,0.2,0.500000,0.000000
1,0.383076,0.857143,0.666667,0.6,0.833333,0.555778
2,0.006289,0.285714,1.000000,0.6,0.166667,0.611806
3,0.041166,0.857143,1.000000,0.2,0.500000,0.667334
4,0.652945,1.000000,0.666667,0.8,0.666667,0.722861
...,...,...,...,...,...,...
1995,0.012579,0.714286,0.666667,0.2,0.500000,0.553777
1996,0.475129,0.714286,1.000000,0.0,0.833333,0.554277
1997,0.799886,0.285714,0.666667,0.0,0.833333,0.554777
1998,0.073756,0.000000,0.333333,0.2,0.333333,0.555278


In [None]:
# Deteccion y correccion de errores tipograficos
# Ejemplo: normalizar texto eliminando espacios y pasando a minúsculas
for col in cat_cols:
    df[col] = df[col].astype(str).str.strip().str.lower()


In [None]:
# Agrupacion y discretizacion de variables
# Discretizar "rating" en bins
if 'rating' in df.columns:
    df['rating_group'] = pd.cut(df['rating'], bins=[0, 2, 4, 5],
                             labels=['Malo','Regular','Bueno'])

In [None]:
# Creacion de nuevas caracteristicas (feature engineering)
# Total de calorías diarias si existen columnas de macronutrientes
nutrients = ['protein_g','fat_g','carbs_g']
if set(nutrients).issubset(df.columns):
    df['total_calories'] = df['protein_g']*4 + df['fat_g']*9 + df['carbs_g']*4

df

Unnamed: 0,meal_id,meal_name,cuisine,meal_type,diet_type,calories,protein_g,carbs_g,fat_g,fiber_g,...,sugar_g_mm,sodium_mg_mm,cholesterol_mg_mm,serving_size_g_mm,prep_time_min_mm,cook_time_min_mm,rating_mm,is_healthy_mm,rating_group,total_calories
0,1.0,kid pasta,indian,lunch,keto,737.0,52.4,43.9,34.3,16.8,...,0.858,0.828501,0.303333,0.2650,0.763636,0.443478,0.850,0.0,Bueno,693.9
1,2.0,husband rice,mexican,lunch,paleo,182.0,74.7,144.4,0.1,22.3,...,0.772,0.152307,0.023333,0.5425,0.836364,0.252174,0.350,0.0,Regular,877.3
2,3.0,activity rice,indian,snack,paleo,881.0,52.9,97.3,18.8,20.0,...,0.750,0.952634,0.696667,0.7375,0.963636,0.208696,0.825,0.0,Bueno,770.0
3,4.0,another salad,mexican,snack,keto,427.0,17.5,73.1,7.6,9.8,...,0.834,0.325031,0.356667,0.9975,0.163636,0.660870,0.900,0.0,Bueno,430.8
4,5.0,quite stew,thai,lunch,vegan,210.0,51.6,104.3,26.3,24.8,...,0.364,0.575745,0.140000,0.9650,0.763636,0.869565,0.825,0.0,Bueno,860.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1995,1996.0,admit curry,mediterranean,lunch,keto,163.0,16.0,48.1,3.6,26.6,...,0.818,0.381380,0.516667,0.8675,0.581818,0.573913,0.075,0.0,Malo,288.8
1996,1997.0,majority sandwich,mediterranean,snack,balanced,177.0,79.5,24.4,12.9,27.1,...,0.272,0.637811,0.903333,0.2775,1.000000,0.034783,0.125,0.0,Malo,531.7
1997,1998.0,speech sandwich,indian,lunch,balanced,419.0,31.8,42.9,42.7,9.4,...,0.582,0.466313,0.670000,0.3700,0.818182,0.782609,0.700,0.0,Regular,683.1
1998,1999.0,away rice,american,dinner,keto,1123.0,6.9,119.6,23.1,0.8,...,0.354,0.126582,0.486667,0.6050,0.181818,0.130435,0.800,0.0,Bueno,713.9
