# Regresión lineal para predicción de progresión de diabetes
- age: Representa la edad del paciente, normalizada (no es la edad real, sino una representación estandarizada).
- sex: Sexo del paciente, representado como una variable numérica normalizada (valores entre -0.5 y 0.5).
- bmi: Índice de Masa Corporal (Body Mass Index, BMI), una medida del peso relativo al cuadrado de la altura.
- bp:
Promedio de presión arterial (Blood Pressure, BP), normalizada.
- s1: Nivel sérico de lípidos totales (colesterol total).
- s2: Nivel sérico de lipoproteínas de baja densidad (LDL, “colesterol malo”).
- s3: Nivel sérico de lipoproteínas de alta densidad (HDL, “colesterol bueno”).
- s4: Relación entre el colesterol total y HDL.
- s5: Nivel sérico de triglicéridos, representado como una medida numérica normalizada.
- s6: Nivel sérico de glucosa en ayuno, una medida clave en el monitoreo de la diabetes.

In [67]:
# Importar las librerías necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import load_diabetes

# Cargar el conjunto de datos
diabetes_data = load_diabetes()

# Convertir el conjunto de datos a un DataFrame para facilitar su manipulación
df = pd.DataFrame(data=diabetes_data.data, columns=diabetes_data.feature_names)
df['target'] = diabetes_data.target  # Agregar la variable objetivo al DataFrame

# Mostrar las primeras filas del DataFrame
df.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6,target
0,0.038076,0.05068,0.061696,0.021872,-0.044223,-0.034821,-0.043401,-0.002592,0.019907,-0.017646,151.0
1,-0.001882,-0.044642,-0.051474,-0.026328,-0.008449,-0.019163,0.074412,-0.039493,-0.068332,-0.092204,75.0
2,0.085299,0.05068,0.044451,-0.00567,-0.045599,-0.034194,-0.032356,-0.002592,0.002861,-0.02593,141.0
3,-0.089063,-0.044642,-0.011595,-0.036656,0.012191,0.024991,-0.036038,0.034309,0.022688,-0.009362,206.0
4,0.005383,-0.044642,-0.036385,0.021872,0.003935,0.015596,0.008142,-0.002592,-0.031988,-0.046641,135.0


In [68]:
#separar las características y la variable objetivo
X = df.drop('target', axis=1)
y = df['target']    
# asignar una parte de los datos para entrenamiento y otra para prueba
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y,   test_size=0.2, random_state=42) 


In [69]:
#imprimir algunos exemplos y dimensiones
print("Número de muestras de entrenamiento:", X_train.shape[0])
print("Número de muestras de prueba:", X_test.shape[0])
print("\nPrimeras 10 muestras de entrenamiento:\n", X_train.head(10))  

Número de muestras de entrenamiento: 353
Número de muestras de prueba: 89

Primeras 10 muestras de entrenamiento:
           age       sex       bmi        bp        s1        s2        s3  \
17   0.070769  0.050680  0.012117  0.056301  0.034206  0.049416 -0.039719   
66  -0.009147  0.050680 -0.018062 -0.033213 -0.020832  0.012152 -0.072854   
137  0.005383 -0.044642  0.049840  0.097615 -0.015328 -0.016345 -0.006584   
245 -0.027310 -0.044642 -0.035307 -0.029770 -0.056607 -0.058620  0.030232   
31  -0.023677 -0.044642 -0.065486 -0.081413 -0.038720 -0.053610  0.059685   
84   0.001751 -0.044642 -0.039618 -0.100934 -0.029088 -0.030124  0.044958   
360  0.016281 -0.044642  0.020739  0.021872 -0.013953 -0.013214 -0.006584   
390  0.009016  0.050680  0.069241  0.059744  0.017694 -0.023234 -0.047082   
369 -0.009147 -0.044642  0.037984 -0.040099 -0.024960 -0.003819 -0.043401   
94  -0.078165 -0.044642 -0.016984 -0.012556 -0.000193 -0.013527  0.070730   

           s4        s5        s6  
1

In [70]:
# con los datos separados y con el tipo de numeros entre -2 y 2 podemos entrenar el modelo
from sklearn.linear_model import LinearRegression
modelo_rl = LinearRegression()
modelo_rl.fit(X_train, y_train)

0,1,2
,fit_intercept,True
,copy_X,True
,tol,1e-06
,n_jobs,
,positive,False


In [71]:
#INFERENCIAS (predicciones)
#predicciones con datos de entrenamiento
y_train_pred = modelo_rl.predict(X_train)
print("\nPredicciones con datos de entrenamiento:\n", y_train_pred[:3])  # Mostrar las primeras 3 predicciones
#predicciones con datos de prueba
y_test_pred = modelo_rl.predict(X_test)
print("\nPredicciones con datos de prueba:\n", y_test_pred[:3])  # Mostrar las primeras 3 predicciones


Predicciones con datos de entrenamiento:
 [184.69998932 151.94648006 239.23281831]

Predicciones con datos de prueba:
 [139.5475584  179.51720835 134.03875572]


In [72]:
#evaluación del modelo
from sklearn.metrics import mean_squared_error, r2_score
rmse_train = np.sqrt(mean_squared_error(y_train, y_train_pred))
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
r2_train = r2_score(y_train, y_train_pred)
r2_test = r2_score(y_test, y_test_pred)     
print(f"\nRMSE de entrenamiento: {rmse_train:.2f}")
print(f"RMSE de prueba: {rmse_test:.2f}")
print(f"R² de entrenamiento: {r2_train:.2f}")
print(f"R² de prueba: {r2_test:.2f}")


RMSE de entrenamiento: 53.56
RMSE de prueba: 53.85
R² de entrenamiento: 0.53
R² de prueba: 0.45


In [73]:
#prediccion de un paciente nuevo
nuevo_paciente = np.array([[0.038075906, 0.05068012, 0.061696206, 0.021872354, -0.044223494,
                           -0.03482076, -0.043400846, -0.002592262, 0.01990749, -0.017646125]])
prediccion_nuevo = modelo_rl.predict(nuevo_paciente)
if prediccion_nuevo > 200:  
    print(f"paciente con avance de diabetes alto, valor predicho: {prediccion_nuevo[0]:.2f}")    
elif prediccion_nuevo < 200 and prediccion_nuevo > 100:
    print(f"paciente con avance moderada, valor predicho: {prediccion_nuevo[0]:.2f}")
else:
    print(f"paciente con avance bajo, valor predicho: {prediccion_nuevo[0]:.2f}")

paciente con avance de diabetes alto, valor predicho: 210.74




In [74]:
#prediccion de un paciente nuevo
nuevo_paciente_sano = np.array([[-0.07, -0.04, -0.08, -0.05, -0.04,
                                  -0.06, 0.04, -0.05, -0.07, -0.10]])
prediccion_nuevo_2 = modelo_rl.predict(nuevo_paciente_sano)
if prediccion_nuevo_2 > 200:  
    print(f"paciente con avance de diabetes alto, valor predicho: {prediccion_nuevo_2[0]:.2f}")    
elif prediccion_nuevo_2 < 200 and prediccion_nuevo_2 > 100:
    print(f"paciente con avance moderada, valor predicho: {prediccion_nuevo_2[0]:.2f}")
else:
    print(f"paciente con avance bajo, valor predicho: {prediccion_nuevo_2[0]:.2f}")

paciente con avance bajo, valor predicho: 40.14




In [75]:
#como mejorar el modelo 
#agregar una caracteristias nuevas como el BMI * s6 (nivel sérico glucosa)
df['BMI_s6'] = df['bmi'] * df['s6']
#agregar otra caracteristica  como edad * BMI
df['age_bmi'] = df['age'] * df['bmi']

#agregar bmi al cuadrado
df['bmi_squared'] = df['bmi'] ** 2

#volver a separar las características y la variable objetivo
X = df.drop('target', axis=1)
y = df['target']    
# asignar una parte de los datos para entrenamiento y otra para prueba
X_train, X_test, y_train, y_test = train_test_split(X, y,   test_size=0.2, random_state=42)     
#entrenar el modelo nuevamente
modelo_rl.fit(X_train, y_train)
#hacer predicciones nuevamente
y_test_pred = modelo_rl.predict(X_test)
#evaluar el modelo nuevamente
rmse_test = np.sqrt(mean_squared_error(y_test, y_test_pred))
r2_test = r2_score(y_test, y_test_pred)     
print(f"\nDespués de agregar nuevas características:")
print(f"RMSE de prueba: {rmse_test:.2f}")
print(f"RMSE de entrenamiento: {rmse_train:.2f}")
print(f"R² de entrenamiento: {r2_train:.2f}")
print(f"R² de prueba: {r2_test:.2f}")
print("Se observa una ligera mejora en el rendimiento del modelo.")




Después de agregar nuevas características:
RMSE de prueba: 53.20
RMSE de entrenamiento: 53.56
R² de entrenamiento: 0.53
R² de prueba: 0.47
Se observa una ligera mejora en el rendimiento del modelo.
