# **Linear Regression - Life Expectancy Prediction**

En este notebook se entrena un modelo de **Regresi√≥n Lineal** para predecir la esperanza de vida a partir del dataset procesado (en el notebook `EDA_processed.ipynb`).  
La regresi√≥n lineal se utiliza como un modelo **baseline**, ya que es sencillo de interpretar y sirve como referencia frente a modelos m√°s complejos.

Del EDA_processed.ipynb exportamos dos datasets:

- features_no_scaling.csv ‚Üí para √°rboles, Random Forest, XGBoost.

- features_scaled.csv ‚Üí para modelos sensibles a la escala (Regresi√≥n Lineal, KNN, SVM...).
Adem√°s del target_y.csv.

## **Paso 1. Importaci√≥n de librer√≠as y carga de datasets procesados**

**Sobre el dataset usado:**
En este notebook trabajamos con **Regresi√≥n Lineal**, un modelo sensible a la magnitud de las variables.  
Por eso cargamos el dataset **escalado** (`features_scaled.csv`), generado en el notebook `EDA_processed.ipynb` con `StandardScaler`.  

Esto asegura que todas las variables tengan media 0 y varianza 1, evitando que variables con unidades m√°s grandes (por ejemplo PIB o gasto sanitario) dominen a otras m√°s peque√±as.

In [None]:
# ===================================
# 1. Importar librer√≠as
# ===================================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.model_selection import train_test_split

# Visualizaci√≥n m√°s est√©tica
plt.style.use("seaborn-v0_8")
sns.set(font_scale=1.2)

# ===================================
# Cargar datasets procesados
# ===================================
X_scaled = pd.read_csv("../data/processed/features_scaled.csv")
y = pd.read_csv("../data/processed/target_y.csv").squeeze()  # convertir en Serie



## **Paso 2. Divisi√≥n en entrenamiento y validaci√≥n**

En este bloque:

- Separamos el dataset en **conjunto de entrenamiento (80%)** y **conjunto de validaci√≥n (20%)**.  
Esto nos permite entrenar el modelo con una parte de los datos y luego evaluar su rendimiento en datos que no ha visto antes.


De esta manera, podremos comparar los algoritmos de forma justa y evitar errores de entrenamiento.

- x = todas las columnas salvo la variable objetivo.
- y = la variable objetivo.
- train_test_split divide los datos en:
  - x_train, y_train (80%) ‚Üí para entrenar el modelo.
  - x_valid, y_valid (20%) ‚Üí para validar el modelo. 
  - random_state=42 ‚Üí asegura que la divisi√≥n sea reproducible.

Este paso es obligatorio para poder comparar modelos en condiciones.

In [None]:
# ===================================
# 2. Divisi√≥n train/validaci√≥n
# ===================================
X_train, X_valid, y_train, y_valid = train_test_split(
    X_scaled, y, test_size=0.2, random_state=42
)

print("üîπ Dataset escalado")
print("Tama√±o entrenamiento:", X_train.shape, y_train.shape)
print("Tama√±o validaci√≥n:", X_valid.shape, y_valid.shape)


## **Paso 3. Entrenamiento y evaluaci√≥n del modelo**


En este bloque entrenamos el modelo de **Regresi√≥n Lineal** con el conjunto de entrenamiento y lo evaluamos con el conjunto de validaci√≥n.  

1. **Entrenamiento (`fit`)**:  
   Ajustamos el modelo a los datos de entrenamiento (`X_train`, `y_train`).  
   Esto significa que el algoritmo calcula los coeficientes (pesos) de la ecuaci√≥n lineal que mejor explican la relaci√≥n entre las variables independientes y la esperanza de vida.

2. **Predicci√≥n (`predict`)**:  
   Usamos los datos de validaci√≥n (`X_valid`) para que el modelo prediga valores de `y`.  
   Estos valores predichos (`preds`) se comparan con los valores reales (`y_valid`).

3. **M√©tricas de evaluaci√≥n**:  
   - **RMSE (Root Mean Squared Error)**: error cuadr√°tico medio en la misma escala que la variable objetivo. Cuanto m√°s bajo, mejor.  
     Penaliza m√°s los errores grandes, por eso es √∫til para detectar desviaciones fuertes.  
   - **MAE (Mean Absolute Error)**: error absoluto medio. Es m√°s robusto frente a valores at√≠picos que el RMSE.  
     Representa, en promedio, cu√°nto se equivoca el modelo al predecir.  
   - **R¬≤ (Coeficiente de determinaci√≥n)**: mide qu√© proporci√≥n de la variabilidad de la variable objetivo se explica con el modelo.  
     Su valor est√° entre 0 y 1 (aunque puede ser negativo si el modelo es muy malo). Valores cercanos a 1 indican un buen ajuste.

En resumen:  
- Un **RMSE y MAE bajos** indican que las predicciones son precisas.  
- Un **R¬≤ alto** indica que el modelo explica gran parte de la variabilidad en la esperanza de vida.


In [None]:
# ===================================
# 3. Entrenar y evaluar modelo
# ===================================

lr = LinearRegression()
lr.fit(X_train, y_train)

preds = lr.predict(X_valid)



# M√©tricas
rmse = np.sqrt(mean_squared_error(y_valid, preds))
mae = mean_absolute_error(y_valid, preds)
r2 = r2_score(y_valid, preds)

print("üìä Linear Regression (con datos escalados)")
print(f"RMSE: {rmse:.3f}")
print(f"MAE: {mae:.3f}")
print(f"R¬≤: {r2:.3f}")


# ===================================
# Funci√≥n para guardar m√©tricas estandarizadas
# ===================================
def save_results(model_name, y_true, y_pred, filepath):
    """
    Calcula m√©tricas (RMSE, MAE, R¬≤) y guarda en CSV estandarizado.
    """
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    mae = mean_absolute_error(y_true, y_pred)
    r2 = r2_score(y_true, y_pred)

    results = pd.DataFrame([{
        "Modelo": model_name,
        "RMSE": rmse,
        "MAE": mae,
        "R¬≤": r2
    }])

    results.to_csv(filepath, index=False)
    print(f"‚úÖ Resultados de {model_name} guardados en {filepath}")
    return results



# ===================================
# Guardar m√©tricas Linear Regression
# ===================================
results_lr = save_results(
    "Linear Regression",
    y_valid,
    preds,
    "../data/results_linear.csv"
)





## **Paso 4. Visualizaci√≥n de resultados**

Este gr√°fico muestra la relaci√≥n entre los valores reales de la esperanza de vida y las predicciones del modelo.  
- Si el modelo fuera perfecto, todos los puntos caer√≠an sobre la l√≠nea roja diagonal.  
- La dispersi√≥n alrededor de la l√≠nea refleja el error de predicci√≥n.  


**¬øPor qu√© seguimos viendo puntos alejados de la recta si "limpiamos" Outliers en el EDA inicial?**

### Outliers ‚â† todo punto lejos de la recta de regresi√≥n

En el **EDA** aplicamos un tratamiento de *outliers* usando reglas como **IQR (rango intercuart√≠lico)** o **boxplots** sobre las variables.  

Eso sirve para detectar valores extremos en cada **variable independiente (features)** de forma **univariada**.  

Sin embargo, cuando ajustamos una **regresi√≥n lineal**, los *puntos alejados de la recta* que vemos son **residuos grandes** (casos donde el modelo no predijo bien).  

üëâ No siempre esos puntos son *outliers* en las features: a veces son valores leg√≠timos que simplemente no siguen la relaci√≥n lineal.


### Qu√© puede estar pasando aqu√≠
- Eliminamos los outliers univariados, pero **no necesariamente los outliers multivariados** (casos raros en combinaci√≥n de varias variables).  
- La **regresi√≥n lineal es muy sensible**: aunque un dato no sea extremo en cada feature, puede ser influyente y alejarse de la recta.  


### Opciones que tenemos
1. **Revisar los residuos**: graficar `y_valid vs. preds` y un histograma de los residuos.  
   - Si vemos muchos puntos dispersos lejos, el modelo no est√° capturando bien la complejidad.  
2. **Usar m√©tricas robustas (MAE)** adem√°s de RMSE, porque el RMSE se dispara con outliers.  
3. **Considerar modelos no lineales** (Decision Tree, Random Forest o XGBoost), que manejan mucho mejor estos casos.  


In [None]:
# ===================================
# 4. Gr√°fico de comparaci√≥n
# ===================================
plt.figure(figsize=(7,7))
sns.scatterplot(x=y_valid, y=preds, alpha=0.7)
plt.plot([y_valid.min(), y_valid.max()],
         [y_valid.min(), y_valid.max()],
         color="red", linestyle="--")
plt.title("Predicciones vs Valores Reales - Regresi√≥n Lineal")
plt.xlabel("Valor real (Life Expectancy)")
plt.ylabel("Predicci√≥n")
plt.show()


## **Paso 5. Importancia de caracter√≠sticas (coeficientes del modelo)**

üîé En este gr√°fico vemos la importancia relativa de cada variable en el modelo:  
- Un **coeficiente positivo** implica que la variable est√° asociada con un aumento en la esperanza de vida.  
- Un **coeficiente negativo** indica relaci√≥n inversa (a mayor valor de la variable, menor esperanza de vida).  
- Esto nos da **interpretabilidad** del modelo, aunque hay que tener cuidado con la multicolinealidad (cuando varias variables est√°n muy correlacionadas entre s√≠).  


In [None]:
# ===================================
# 5. Importancia de variables (coeficientes)
# ===================================
coef_df = pd.DataFrame({
    "Variable": X_train.columns,
    "Coeficiente": lr.coef_
}).sort_values(by="Coeficiente", ascending=False)

plt.figure(figsize=(8,10))
sns.barplot(
    x="Coeficiente",
    y="Variable",
    data=coef_df,
    hue="Variable",        # asignar la variable al hue
    dodge=False,           # evita duplicados en barras
    legend=False,          # no mostrar leyenda redundante
    palette="coolwarm"
)
plt.title("Coeficientes de la Regresi√≥n Lineal", fontsize=14)
plt.xlabel("Peso del coeficiente")
plt.ylabel("Variable")
plt.show()

# Mostrar top 10 coeficientes en tabla
coef_df.head(10)

## **Paso 6. Diagn√≥stico de residuos en Regresi√≥n Lineal**


Un **residuo** es la diferencia entre el valor real (`y_valid`) y la predicci√≥n del modelo (`preds`).  

Analizar los residuos es importante porque:  
- Si el modelo es adecuado, los residuos deber√≠an distribuirse alrededor de **0**, sin patrones claros.  
- Residuos grandes indican observaciones mal ajustadas (posibles *outliers multivariados*).  
- Si hay un patr√≥n sistem√°tico (curvas, abanicos, etc.), significa que la relaci√≥n **no es estrictamente lineal** y el modelo lineal no captura toda la complejidad.  

En los gr√°ficos que veremos:  

- **Gr√°fico real vs. predicciones**: si los puntos se agrupan alrededor de la diagonal (l√≠nea roja; l√≠nea `y = x`), el modelo se ajusta o est√° prediciendo bien. Si hay dispersi√≥n indica mala capacidad de predicci√≥n. 

- **Histograma / distribuci√≥n de residuos**: deber√≠a parecerse a una distribuci√≥n normal centrada en 0 (centrados en 0) y con forma aproximadamente normal. Colas largas sugieren outliers o mala especificaci√≥n.

- **Gr√°fico de residuos vs. predicciones**: los residuos deber√≠an distribuirse o estar dispersos de manera aleatoria alrededor de 0 (sin curva o abanico). Si vemos un patr√≥n (curva, abanico, etc.), indica que el modelo lineal no est√° capturando bien la relaci√≥n.

Estos gr√°ficos permiten detectar:  
- **Heterocedasticidad**: cuando los residuos aumentan o disminuyen con el valor de las predicciones.  
- **Outliers multivariados**: puntos con residuos extremadamente altos.  



In [None]:
# ===================================
# 6. Diagn√≥stico de residuos
# ===================================

# Calcular residuos
residuos = y_valid - preds

#--- Configuraci√≥n de estilo global ---
plt.rcParams.update({
    "figure.figsize": (7,5),
    "axes.titlesize": 14,
    "axes.labelsize": 12,
    "xtick.labelsize": 10,
    "ytick.labelsize": 10
})

# --- Gr√°fico 1: Valores reales vs. predicciones ---
plt.figure()
sns.scatterplot(x=y_valid, y=preds, alpha=0.7, color="steelblue", edgecolor="k")
plt.plot([y_valid.min(), y_valid.max()], [y_valid.min(), y_valid.max()], 'r--', linewidth=2)
plt.xlabel("Valores reales")
plt.ylabel("Predicciones")
plt.title("Valores reales vs. Predicciones")
plt.show()

# --- Gr√°fico 2: Histograma de residuos ---
plt.figure()
sns.histplot(residuos, bins=30, kde=True, color="steelblue")
plt.axvline(0, color="red", linestyle="--", linewidth=2)
plt.title("Distribuci√≥n de residuos")
plt.xlabel("Residuos (y_real - y_pred)")
plt.show()

# --- Gr√°fico 3: Residuos vs. Predicciones ---
plt.figure()
sns.scatterplot(x=preds, y=residuos, alpha=0.7, color="steelblue", edgecolor="k")
plt.axhline(0, color="red", linestyle="--", linewidth=2)
plt.xlabel("Predicciones")
plt.ylabel("Residuo")
plt.title("Residuos vs. Predicciones")
plt.show()


# --- Chequeo estad√≠stico ---
print("üìä Resumen de residuos:")
print(residuos.describe())

# --- Detectar outliers multivariados ---
umbral = 2 * residuos.std()  # criterio simple: 2 desviaciones est√°ndar
outliers = residuos[np.abs(residuos) > umbral]
print(f"üîé Posibles outliers multivariados detectados: {len(outliers)}")


## **Paso 7. Conclusi√≥n del notebook del algoritmo de Regresi√≥n Lineal**

# üìå Conclusiones de la Regresi√≥n Lineal
- La regresi√≥n lineal ofrece una **primera aproximaci√≥n** sencilla para este problema.  
- Funciona bien cuando la relaci√≥n entre variables es aproximadamente lineal y no hay demasiados outliers.  
- Sus m√©tricas (RMSE, MAE, R¬≤) nos servir√°n de **baseline** para comparar con modelos m√°s avanzados como √Årboles de Decisi√≥n, Random Forest y XGBoost. 


- La **Regresi√≥n Lineal** se ha entrenado sobre el dataset ya procesado (outliers tratados, nulos imputados, variables codificadas y escaladas).  
- Hemos obtenido m√©tricas de rendimiento razonables que servir√°n como **baseline**.  
- Visualizamos las predicciones frente a los valores reales, comprobando la capacidad predictiva del modelo.  
- Identificamos las variables m√°s influyentes mediante sus coeficientes.  
- A partir de aqu√≠, podremos comparar este modelo con otros m√°s complejos (√°rboles, Random Forest, XGBoost, Ridge, Lasso, ElasticNet, KNN).  

‚úÖ Este notebook queda como **referencia inicial** para nuestro proyecto.  

