In [1]:
import sys
print(sys.executable)


c:\Users\Aaron\OneDrive\Escritorio\ProgramacionIA\CopiaPython\.venv\Scripts\python.exe


In [4]:
# Importar librer√≠as necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# Cargar el dataset de Diabetes
diabetes = load_diabetes()
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df["DiseaseProgression"] = diabetes.target  # Variable objetivo

# Seleccionar variables independientes (X) y la variable objetivo (y)
X = df.drop(columns=["DiseaseProgression"])  # Variables predictoras
y = df["DiseaseProgression"]  # Variable objetivo

# Comprobamos el rango de valores de la variable objetivo
print(f"Valor m√≠nimo de DiseaseProgression: {y.min()}")
print(f"Valor m√°ximo de DiseaseProgression: {y.max()}")

# Escalar las variables independientes con StandardScaler()
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X) # Devuelve un array NumPy

# Calcular la correlaci√≥n con la variable objetivo
df_scaled = pd.DataFrame(X_scaled, columns=X.columns) 
df_scaled["DiseaseProgression"] = y  # Agregamos la variable objetivo para calcular correlaci√≥n
correlaciones = df_scaled.corr()["DiseaseProgression"].sort_values(ascending=False)

# Calcular el VIF para detectar colinealidad entre variables
vif_data = pd.DataFrame()
vif_data["Variable"] = X.columns
vif_data["VIF"] = [variance_inflation_factor(X_scaled, i) for i in range(X_scaled.shape[1])]

# Dividir el dataset en entrenamiento (80%) y prueba (20%) con train_test_split()
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

# Entrenar el modelo de Regresi√≥n Lineal con LinearRegression()
modelo = LinearRegression()
modelo.fit(X_train, y_train)

# Obtener e interpretar los coeficientes y el intercepto del modelo
coeficientes = pd.Series(modelo.coef_, index=X.columns)

print("Intercepto:", modelo.intercept_)
print("Coeficientes del modelo:")
print(coeficientes)

# Realizar predicciones con modelo.predict(X_test)
y_pred = modelo.predict(X_test)

# Evaluar el modelo 
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

# Mostrar resultados
print(f"MAE (Error Absoluto Medio): {mae:.4f}")
print(f"MSE (Error Cuadr√°tico Medio): {mse:.4f}")
print(f"RMSE (Ra√≠z del Error Cuadr√°tico Medio): {rmse:.4f}")
print(f"R¬≤ (Coeficiente de Determinaci√≥n): {r2:.4f}")

Valor m√≠nimo de DiseaseProgression: 25.0
Valor m√°ximo de DiseaseProgression: 346.0
Intercepto: 151.3456045398599
Coeficientes del modelo:
age     1.802910
sex   -11.509071
bmi    25.800705
bp     16.538585
s1    -44.306406
s2     24.641710
s3      7.773096
s4     13.095537
s5     35.017409
s6      2.315027
dtype: float64
MAE (Error Absoluto Medio): 42.7941
MSE (Error Cuadr√°tico Medio): 2900.1936
RMSE (Ra√≠z del Error Cuadr√°tico Medio): 53.8534
R¬≤ (Coeficiente de Determinaci√≥n): 0.4526


## **An√°lisis e interpretaci√≥n del modelo de regresi√≥n lineal m√∫ltiple - Diabetes Dataset**

Este modelo de regresi√≥n lineal m√∫ltiple intenta predecir la **progresi√≥n de la diabetes** en pacientes bas√°ndose en diversas variables m√©dicas. Sin embargo, los resultados indican que el modelo **no tiene una gran precisi√≥n**. Podemos concluir esto en base a los resultados que nos arroja el modelo, que vamos a ir analizando uno por uno:

---

### **1Ô∏è‚É£ MAE (Error Absoluto Medio)**
üìå **Valor obtenido:** `42.7941`  

El **Error Absoluto Medio (MAE)** indica el error promedio entre las predicciones del modelo y los valores reales. En este caso, el modelo tiene un **error promedio de aproximadamente 43 unidades**, lo que significa que las predicciones pueden desviarse considerablemente de los valores reales.  

Un **MAE alto** indica que el modelo **comete errores significativos** en sus predicciones. Aunque el MAE da una idea del error medio, no diferencia entre errores peque√±os y grandes, por lo que analizaremos tambi√©n otros indicadores.  

---

### **2Ô∏è‚É£ MSE (Error Cuadr√°tico Medio)**
üìå **Valor obtenido:** `2900.1936`  

El **Error Cuadr√°tico Medio (MSE)** mide el promedio de los errores elevados al cuadrado. Penaliza m√°s los errores grandes, lo que lo hace √∫til para detectar **predicciones extremadamente alejadas de los valores reales**.  

üîç **Interpretaci√≥n:**  
- Un **MSE alto** indica que el modelo **comete errores significativos**, especialmente errores grandes.  
- Aunque este valor es √∫til, su magnitud es dif√≠cil de interpretar, por lo que usamos su ra√≠z cuadrada (**RMSE**) para tener una mejor idea del error medio en las unidades originales.  

---

### **3Ô∏è‚É£ RMSE (Ra√≠z del Error Cuadr√°tico Medio)**
üìå **Valor obtenido:** `53.8534`  

El **RMSE** es la ra√≠z cuadrada del MSE y **se expresa en las mismas unidades que la variable objetivo**. En este caso, un **RMSE de aproximadamente 54 unidades** significa que el modelo, en promedio, comete errores de **m√°s de 50 unidades** al predecir la progresi√≥n de la diabetes.  

üîç **Interpretaci√≥n:**  
- El **RMSE alto** confirma que el modelo **no es muy preciso** en sus predicciones.  
- Un RMSE menor indicar√≠a un modelo con mejor capacidad predictiva.  

---

### **4Ô∏è‚É£ R¬≤ (Coeficiente de Determinaci√≥n)**
üìå **Valor obtenido:** `0.4526`  

El **coeficiente R¬≤** indica **qu√© porcentaje de la variabilidad en la progresi√≥n de la diabetes es explicada por el modelo**.  

üîç **Interpretaci√≥n:**  
- Un **R¬≤ de 0.4526** significa que **solo el 45.26% de la variabilidad** en la progresi√≥n de la diabetes puede ser explicada por las variables incluidas en el modelo.  
- Esto **indica que hay otros factores importantes** (no considerados en el modelo) que afectan la progresi√≥n de la enfermedad.  
- Un **R¬≤ cercano a 1** significar√≠a un modelo m√°s preciso, mientras que un valor cercano a 0 indicar√≠a que el modelo apenas tiene poder explicativo.  

üìå **Conclusi√≥n:** El modelo **explica menos de la mitad de la variabilidad**, lo que confirma que **no es un buen modelo predictivo** para esta tarea.  

---

## **üîé Conclusi√≥n general y posibles mejoras**
üìå **Conclusi√≥n:**  
- El modelo tiene un desempe√±o **moderado pero no satisfactorio**, con un error alto y una capacidad predictiva limitada.  
- No es un modelo lo suficientemente preciso para ser usado en aplicaciones reales.  

üîß **Posibles mejoras:**  
1Ô∏è‚É£ **Probar modelos m√°s avanzados** como **Random Forest o Redes Neuronales**.  
2Ô∏è‚É£ **Reducir la colinealidad** eliminando variables redundantes que podr√≠an estar afectando la estabilidad del modelo.  
3Ô∏è‚É£ **Agregar m√°s datos o variables relevantes** que puedan mejorar la capacidad predictiva.  
4Ô∏è‚É£ **Explorar relaciones no lineales** que podr√≠an ajustarse mejor al problema.  

üöÄ **Conclusi√≥n final:** Este modelo nos da una idea general sobre qu√© factores pueden influir en la progresi√≥n de la diabetes, pero **no es suficientemente preciso** para hacer predicciones confiables. Es necesario optimizar el enfoque o probar modelos m√°s avanzados para mejorar la precisi√≥n.  
