## Laboratorio 8: dataset diabetes

<img src="https://minas.medellin.unal.edu.co/images/Escudo_color.png" width="300">

**Elaborado por:** Catalina Restrepo Salgado

Fundamentos de Analítica

Semestre 2024-1S

Por medio de la presente actividad, se espera entrenar un modelo de regresión que permita predecir el progreso de la diabetes en un paciente, a partir de las características proporcionadas en el dataset que se muestra a continuación. En primer lugar, es preciso importar las librerías necesarias para realziar este ejercicio.

In [34]:
# Importación de librerías necesarias
import pandas as pd
import pickle
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
import seaborn as sns
from scipy import stats
import numpy as np

A continuación, se leen los datos de entrenamiento y prueba proporcionados en dos archivos separados.

In [35]:
# Lectura de los datos de entrenamiento y prueba
train = pd.read_csv('train_dataset.csv')
test = pd.read_csv('test_dataset.csv')

# Separación de las variables dependientes e independientes
X_train = train.drop(columns=['target'], axis=1)
y_train = train['target']

X_test = test.drop(columns=['target'], axis=1)
y_test = test['target']

Observando el dataset de entrenamiento, se identifican las 10 variables con las que se espera entrenar el modelo de regresión, adicionales a la variable `target`, que es el valor de predicción para este caso.

In [36]:
# Visualización del dataset de entrenamiento
X_train.head()

Unnamed: 0,age,sex,bmi,bp,s1,s2,s3,s4,s5,s6
0,0.019913,0.05068,0.104809,0.070072,-0.035968,-0.026679,-0.024993,-0.002592,0.003709,0.040343
1,-0.01278,-0.044642,0.060618,0.052858,0.047965,0.029375,-0.017629,0.034309,0.070207,0.007207
2,0.038076,0.05068,0.008883,0.042529,-0.042848,-0.021042,-0.039719,-0.002592,-0.018114,0.007207
3,-0.01278,-0.044642,-0.023451,-0.040099,-0.016704,0.004636,-0.017629,-0.002592,-0.03846,-0.038357
4,-0.023677,-0.044642,0.045529,0.090729,-0.01808,-0.035447,0.07073,-0.039493,-0.034522,-0.009362


El conjunto de datos tiene un total de 309 registros, correspondientes a un grupo de pacientes que ya tienen un valor asignado para el progreso de la diabetes.

In [37]:
# Dimensiones del dataset de entrenamiento
train.shape

(309, 11)

Puesto que ya se separaron las variables del valor de predicción, se llevará a cabo el entrenamiento del modelo, que para este caso será una Regresión Lineal: este modelo se considera adecuado, dadas las características del problema.

In [38]:
# Entrenamiento del modelo de regresión lineal
model_lr = LinearRegression()
model_lr.fit(X_train, y_train)

Una vez entrenado el modelo, se evaluará a través de una serie de métricas que miden su desempeño, tanto en el conjunto de datos de entrenamiento como en el de prueba.

In [39]:
# Métricas para los datos de entrenamiento
y_pred = model_lr.predict(X_train)

mse = mean_squared_error(y_train, y_pred)
print(f'Error cuadrático medio: {mse}')

mae = mean_absolute_error(y_train, y_pred)
print(f'Error absoluto medio: {mae}')

r2 = r2_score(y_train, y_pred)
print(f'R2: {r2}')

Error cuadrático medio: 2902.0483821109683
Error absoluto medio: 43.72789618474123
R2: 0.484122067464441


Luego, se realiza una predicción para el dataset de prueba, a fin de observar si se obtuvieron resultados favorables.

In [40]:
y_pred = model_lr.predict(X_test)

In [41]:
# Métricas para los datos de prueba
mse = mean_squared_error(y_test, y_pred)
print(f'Error cuadrático medio: {mse}')

mae = mean_absolute_error(y_test, y_pred)
print(f'Error absoluto medio: {mae}')

r2 = r2_score(y_test, y_pred)
print(f'R2: {r2}')

Error cuadrático medio: 2855.8184535056253
Error absoluto medio: 43.143476218056364
R2: 0.5690847834753974


Este conjunto de resultados se considera satisfactorio para efectos prácticos del ejercicio realizado, por lo tanto, el modelo puede ser guardado en disco para permitir su uso y evaluación posterior.

In [42]:
# Guardar el modelo
with open('model.pkl', 'wb') as file:
    pickle.dump(model_lr, file)