# 🔎 Análisis exploratorio: 🏃🏻‍➡️ Life Style Data 

## 1️⃣ **Entender el contexto del proyecto**

El análisis exploratorio que se va a realizar es sobre el dataset **Life Style Data**, el cuál puedes encontrar en el siguiente enlace:
🔗[https://www.kaggle.com/datasets/jockeroika/life-style-data](https://www.kaggle.com/datasets/jockeroika/life-style-data)

---

### 🎯 **Objetivo del análisis**

El propósito de este análisis es **explorar y comprender cómo los hábitos de vida, la alimentación y la actividad física influyen en distintos indicadores de salud y rendimiento físico**.  

A través de un análisis exploratorio detallado, se pretende:
- Identificar patrones generales en los datos relacionados con el estilo de vida de los participantes.  
- Evaluar la relación entre variables como la frecuencia de ejercicio, la dieta, el IMC y el consumo calórico.  
- Detectar posibles valores atípicos o inconsistencias en los datos que puedan afectar el modelado posterior.  
- Preparar el dataset para aplicar modelos predictivos que permitan **estimar indicadores de salud o rendimiento físico** (por ejemplo, las calorías quemadas o el porcentaje de grasa corporal).  

Además, en etapas posteriores se implementarán técnicas de **regresión lineal (simple y múltiple)**, **regularización (Ridge y Lasso)**, y **modelos de aprendizaje automático basados en árboles de decisión y ensambles (Random Forest y Gradient Boosting)** para comparar su rendimiento y capacidad predictiva.

En conjunto, este proyecto busca **extraer información útil y visualmente comprensible** sobre los factores que contribuyen a un estilo de vida saludable, apoyando la toma de decisiones y el diseño de rutinas personalizadas.

---

### 🧩 **Significado de las variables**

| **Columna** | **Descripción** |
|--------------|----------------|
| `Age` | Edad del participante (en años). |
| `Gender` | Género biológico (Masculino/Femenino). |
| `Weight (kg)` | Peso del individuo en kilogramos. |
| `Height (m)` | Altura del individuo en metros. |
| `Max_BPM` | Frecuencia cardíaca máxima registrada durante una sesión de ejercicio. |
| `Avg_BPM` | Frecuencia cardíaca promedio mantenida durante la sesión. |
| `Resting_BPM` | Frecuencia cardíaca en reposo antes de iniciar el entrenamiento. |
| `Session_Duration (hours)` | Duración de la sesión de ejercicio, en horas. |
| `Calories_Burned` | Total de calorías quemadas durante la sesión. |
| `Workout_Type` | Tipo de entrenamiento realizado (por ejemplo: fuerza, HIIT, cardio). |
| `Fat_Percentage` | Porcentaje de grasa corporal del individuo. |
| `Water_Intake (liters)` | Promedio diario de consumo de agua, en litros. |
| `Workout_Frequency (days/week)` | Número de días de entrenamiento por semana. |
| `Experience_Level` | Nivel de experiencia física (1 = Principiante, 2 = Intermedio, 3 = Avanzado). |
| `BMI` | Índice de Masa Corporal (IMC), medida de grasa corporal basada en peso y altura. |
| `Daily meals frequency` | Número de comidas consumidas diariamente. |
| `Physical exercise` | Indica el tipo o la frecuencia de la actividad física realizada. |
| `Carbs` | Consumo diario de carbohidratos (en gramos). |
| `Proteins` | Consumo diario de proteínas (en gramos). |
| `Fats` | Consumo diario de grasas (en gramos). |
| `Calories` | Total de calorías ingeridas a través de la alimentación diaria. |
| `meal_name` | Nombre de la comida (por ejemplo: desayuno, almuerzo, cena). |
| `meal_type` | Tipo de comida (por ejemplo: snack, plato principal, bebida). |
| `diet_type` | Tipo de dieta seguida (por ejemplo: cetogénica, vegana, equilibrada). |
| `sugar_g` | Contenido de azúcar en gramos por comida. |
| `sodium_mg` | Contenido de sodio en miligramos por comida. |
| `cholesterol_mg` | Contenido de colesterol en miligramos por comida. |
| `serving_size_g` | Tamaño de la porción del alimento en gramos. |
| `cooking_method` | Método de cocción utilizado (por ejemplo: hervido, frito, a la parrilla). |
| `prep_time_min` | Tiempo de preparación de la comida, en minutos. |
| `cook_time_min` | Tiempo de cocción de la comida, en minutos. |
| `rating` | Valoración de la comida o entrenamiento (escala de 1 a 5). |
| `is_healthy` | Indicador booleano (Verdadero/Falso) que señala si la comida o el entrenamiento es saludable. |
| `Name of Exercise` | Nombre del ejercicio realizado. |
| `Sets` | Número de series completadas en el ejercicio. |
| `Reps` | Número de repeticiones por serie. |
| `Benefit` | Descripción del beneficio físico del ejercicio. |
| `Burns Calories (per 30 min)` | Calorías estimadas que se queman en 30 minutos de ese ejercicio. |
| `Target Muscle Group` | Grupo muscular principal trabajado en el ejercicio. |
| `Equipment Needed` | Equipamiento necesario para realizar el ejercicio. |
| `Difficulty Level` | Nivel de dificultad del ejercicio (Principiante, Intermedio, Avanzado). |
| `Body Part` | Parte del cuerpo principalmente involucrada (por ejemplo: brazos, piernas, pecho). |
| `Type of Muscle` | Tipo de músculo implicado (por ejemplo: superior, core, fuerza de agarre). |
| `Workout` | Nombre específico del entrenamiento o ejercicio. |

---

🗒️ *Fuente de los datos: Kaggle - Global Coffee Health Dataset (2024)*  

---

## 2️⃣ **Análisis descriptivo inicial**

In [2]:
import pandas as pd          # manejo de datos (tablas)
import numpy as np           # operaciones numéricas
import matplotlib.pyplot as plt  # gráficos
import seaborn as sns        # gráficos más bonitos
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeRegressor, plot_tree
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

In [None]:
df = pd.read_csv("data/life_style_data.csv")

# Mostramos todas las columnas que tiene el dataset
print(df.columns)

# Mostramos las 5 primeras filas
print(df.head())

# Mostramos estadísticas básicas de cada columna
print(df.describe())

Index(['Age', 'Gender', 'Weight (kg)', 'Height (m)', 'Max_BPM', 'Avg_BPM',
       'Resting_BPM', 'Session_Duration (hours)', 'Calories_Burned',
       'Workout_Type', 'Fat_Percentage', 'Water_Intake (liters)',
       'Workout_Frequency (days/week)', 'Experience_Level', 'BMI',
       'Daily meals frequency', 'Physical exercise', 'Carbs', 'Proteins',
       'Fats', 'Calories', 'meal_name', 'meal_type', 'diet_type', 'sugar_g',
       'sodium_mg', 'cholesterol_mg', 'serving_size_g', 'cooking_method',
       'prep_time_min', 'cook_time_min', 'rating', 'Name of Exercise', 'Sets',
       'Reps', 'Benefit', 'Burns Calories (per 30 min)', 'Target Muscle Group',
       'Equipment Needed', 'Difficulty Level', 'Body Part', 'Type of Muscle',
       'Workout', 'BMI_calc', 'cal_from_macros', 'pct_carbs', 'protein_per_kg',
       'pct_HRR', 'pct_maxHR', 'cal_balance', 'lean_mass_kg', 'expected_burn',
       'Burns Calories (per 30 min)_bc', 'Burns_Calories_Bin'],
      dtype='object')
     Age  Gender

## 3️⃣ **Revisar los tipos de las variables**

In [6]:
# Mostramos un resumen de los tipos de datos de cada columna
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20000 entries, 0 to 19999
Data columns (total 54 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Age                             20000 non-null  float64
 1   Gender                          20000 non-null  object 
 2   Weight (kg)                     20000 non-null  float64
 3   Height (m)                      20000 non-null  float64
 4   Max_BPM                         20000 non-null  float64
 5   Avg_BPM                         20000 non-null  float64
 6   Resting_BPM                     20000 non-null  float64
 7   Session_Duration (hours)        20000 non-null  float64
 8   Calories_Burned                 20000 non-null  float64
 9   Workout_Type                    20000 non-null  object 
 10  Fat_Percentage                  20000 non-null  float64
 11  Water_Intake (liters)           20000 non-null  float64
 12  Workout_Frequency (days/week)   

## 4️⃣ **Detección y tratamiento datos ausentes**

## 5️⃣ **Identificación y tratamiento de datos atípicos**

## 6️⃣ **Análisis de correlaciones**

## 7️⃣ **Modelado predictivo**

## 8️⃣ **Regularización**

## 9️⃣ **Árboles de regresión y ajuste de hiperparámetros**

## 🔟 **Random Forest vs Gradient Boosting**

## 📢 **Conclusiones finales**