# 📈 Regresión Lineal con Scikit-Learn (Simulación en salud)
Este notebook te guiará por el desarrollo de un modelo de **regresión lineal**, interpretando coeficientes y validando el rendimiento con validación cruzada.

**Escenario simulado en salud:** predecir la cantidad de días de hospitalización a partir de edad, sexo y tarifa estimada (como analogía educativa usando el dataset del Titanic).

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score, train_test_split
from sklearn.metrics import mean_squared_error, r2_score

In [None]:
# Cargar dataset y simular variable 'DiasHospitalizado'
df = pd.read_csv('Titanic-Dataset.csv')
df = df[['Pclass', 'Sex', 'Age', 'Fare']].dropna()
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})
np.random.seed(42)
df['DiasHospitalizado'] = 2 * df['Age'] + 0.5 * df['Fare'] + np.random.normal(0, 10, len(df))
df.head()

## 🔢 Entrenamiento de modelo de regresión lineal

In [None]:
# Variables independientes y dependiente
X = df[['Age', 'Fare', 'Sex']]
y = df['DiasHospitalizado']

# División de datos
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenamiento
model = LinearRegression()
model.fit(X_train, y_train)

## 📊 Interpretación de coeficientes

In [None]:
coef_df = pd.DataFrame({
    'Variable': X.columns,
    'Coeficiente': model.coef_
})
print("Intercepto:", model.intercept_)
coef_df

## 🧪 Validación cruzada (cross-validation)

In [None]:
scores = cross_val_score(model, X, y, cv=5, scoring='r2')
print("R2 promedio (5-fold):", scores.mean())

## 📈 Evaluación del modelo en el conjunto de prueba

In [None]:
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print("Error cuadrático medio:", mse)
print("R2 score:", r2)

sns.scatterplot(x=y_test, y=y_pred)
plt.xlabel("Valores reales")
plt.ylabel("Predicciones")
plt.title("Predicción vs Realidad - Días Hospitalizado")
plt.show()

## 📝 Actividad
1. Agrega una nueva variable categórica (por ejemplo, Pclass) y vuelve a entrenar el modelo.
2. Prueba eliminar una variable y observa cómo cambia el R².
3. Cambia el tamaño del conjunto de prueba (ej. 0.3) y repite la validación cruzada.