# 🏥 Regresión Lineal: Estimando Salud desde Estilo de Vida
Este notebook utiliza un dataset de salud sintético para predecir el **Health Score** a partir de variables como edad, dieta, ejercicio, sueño, tabaquismo y alcohol.

Es ideal para simular un caso de prevención en APS usando regresión lineal con Scikit-learn.

In [None]:
# Librerías
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
# Cargar el dataset
df = pd.read_csv("synthetic_health_data.csv")
df.head()

## 🔍 Análisis exploratorio de los datos

In [None]:
# Correlaciones
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title("Correlación entre variables")
plt.show()

## 🧠 Modelo de regresión lineal

In [None]:
# Variables predictoras y objetivo
X = df.drop(columns=['Health_Score'])
y = df['Health_Score']

# División train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenamiento
model = LinearRegression()
model.fit(X_train, y_train)

## 📊 Interpretación de coeficientes

In [None]:
pd.DataFrame({
    'Variable': X.columns,
    'Coeficiente': model.coef_
}).sort_values(by='Coeficiente', key=abs, ascending=False)

## 🔁 Validación cruzada (5-fold)

In [None]:
scores = cross_val_score(model, X, y, cv=5, scoring='r2')
print("R2 promedio (cross-validation):", scores.mean())

## 📈 Evaluación en test set

In [None]:
y_pred = model.predict(X_test)
print("R2 en test:", r2_score(y_test, y_pred))
print("Error cuadrático medio:", mean_squared_error(y_test, y_pred))

sns.scatterplot(x=y_test, y=y_pred)
plt.xlabel("Health Score real")
plt.ylabel("Predicción")
plt.title("Predicción vs Realidad")
plt.show()

## 📝 Actividad guiada para estudiantes
- Agrega una variable cuadrática (`BMI**2`) y vuelve a entrenar.
- Quita la variable `Alcohol_Consumption` y evalúa si mejora el modelo.
- Cambia `test_size` a 0.3 y repite la validación cruzada.