## Predicción del riesgo de diabetes en etapa temprana

Los datos fueron recopilados a partir de cuestionarios directos a los pacientes del Hospital de Diabetes Sylhet en Sylhet, Bangladesh, con el fin de analizar los factores de riesgo asociados con la diabetes tipo 2. Este estudio fue aprobado por un médico y tiene como objetivo mejorar la identificación temprana de la diabetes en la región.

**Modelos Utilizados:**
Se utilizaron los siguientes modelos para el análisis de los datos:

**Random Forest**

**Bagging**

**AdaBoost**

**Gradient Boosting**

**Objetivo del Estudio:**
Identificar los factores de riesgo clave para la diabetes tipo 2 y desarrollar modelos predictivos eficaces para ayudar a los profesionales de la salud a predecir la enfermedad en base a los datos recopilados.

| **Atributo**                  | **Descripción**                        | **Valores posibles**        |
|--------------------------------|-----------------------------------------|-----------------------------|
| **Edad**                      | Rango de edad                          | 1: 20-65                   |
| **Sexo**                      | Género del individuo                   | 1: Masculino, 2: Femenino  |
| **Poliuria**                  | Frecuencia urinaria elevada            | 1: Sí, 2: No               |
| **Polidipsia**                | Sed excesiva                           | 1: Sí, 2: No               |
| **Pérdida de peso**           | Pérdida rápida de peso                 | 1: Sí, 2: No               |
| **Debilidad**                 | Sensación de debilidad                 | 1: Sí, 2: No               |
| **Polifagia**                 | Aumento anormal del apetito            | 1: Sí, 2: No               |
| **Candidiasis genital**       | Infección por hongos genitales         | 1: Sí, 2: No               |
| **Visión borrosa**            | Dificultad para ver claramente         | 1: Sí, 2: No               |
| **Prurito**                   | Sensación de picazón                   | 1: Sí, 2: No               |
| **Irritabilidad**             | Cambios frecuentes de humor            | 1: Sí, 2: No               |
| **Retraso en cicatrización**  | Heridas tardan en sanar                | 1: Sí, 2: No               |
| **Parálisis parcial**         | Pérdida parcial de capacidad motora    | 1: Sí, 2: No               |
| **Rigidez muscular**          | Dificultad o rigidez en músculos       | 1: Sí, 2: No               |
| **Alopecia**                  | Pérdida de cabello                     | 1: Sí, 2: No               |
| **Obesidad**                  | Índice de masa corporal elevado        | 1: Sí, 2: No               |
| **Clase**                     | Diagnóstico de diabetes                | 1: Positiva, 2: Negativa   |



# Importación de librerías necesarias

In [4]:

import pandas as pd  # Para manipulación de datos en formato DataFrame
import numpy as np  # Para operaciones numéricas
import matplotlib.pyplot as plt  # Para graficar
import seaborn as sns  # Para visualizaciones estadísticas

from sklearn.model_selection import train_test_split  # División de datos
from sklearn.preprocessing import StandardScaler  # Estandarización de características
from sklearn.decomposition import PCA  # Análisis de Componentes Principales

from sklearn.ensemble import RandomForestClassifier, BaggingClassifier, GradientBoostingClassifier, AdaBoostClassifier  # Clasificadores


# Carga y exploración inicial del conjunto de datos

In [5]:
df = pd.read_csv("diabetes_data_upload.csv")  # Carga de datos desde archivo CSV
df.head()  # Muestra las primeras filas del conjunto de datos
df.shape  # Obtiene el tamaño (filas, columnas) del conjunto de datos
df.info()  # Muestra información sobre las columnas y los tipos de datos
df.isnull().sum()  # Cuenta los valores nulos en cada columna

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 520 entries, 0 to 519
Data columns (total 17 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Age                 520 non-null    int64 
 1   Gender              520 non-null    object
 2   Polyuria            520 non-null    object
 3   Polydipsia          520 non-null    object
 4   sudden weight loss  520 non-null    object
 5   weakness            520 non-null    object
 6   Polyphagia          520 non-null    object
 7   Genital thrush      520 non-null    object
 8   visual blurring     520 non-null    object
 9   Itching             520 non-null    object
 10  Irritability        520 non-null    object
 11  delayed healing     520 non-null    object
 12  partial paresis     520 non-null    object
 13  muscle stiffness    520 non-null    object
 14  Alopecia            520 non-null    object
 15  Obesity             520 non-null    object
 16  class               520 no

Age                   0
Gender                0
Polyuria              0
Polydipsia            0
sudden weight loss    0
weakness              0
Polyphagia            0
Genital thrush        0
visual blurring       0
Itching               0
Irritability          0
delayed healing       0
partial paresis       0
muscle stiffness      0
Alopecia              0
Obesity               0
class                 0
dtype: int64

# Limpieza y preprocesamiento de los datos

In [6]:

df['Age'] = df['Age'].clip(lower=24, upper=76)  # Limita la edad entre 24 y 76 años
df.columns  # Muestra los nombres de las columnas

# Transformación de variables categóricas a variables dummy
features_cat = [
    'Gender', 'Polyuria', 'Polydipsia', 'sudden weight loss', 'weakness',
    'Polyphagia', 'Genital thrush', 'visual blurring', 'Itching', 'Irritability',
    'delayed healing', 'partial paresis', 'muscle stiffness', 'Alopecia', 'Obesity'
]
df = pd.get_dummies(df, columns=features_cat)  # Crea variables binarias para categorías

df.shape  # Verifica el tamaño después de la transformación
df.head()  # Revisa las primeras filas tras la transformación


Unnamed: 0,Age,class,Gender_Female,Gender_Male,Polyuria_No,Polyuria_Yes,Polydipsia_No,Polydipsia_Yes,sudden weight loss_No,sudden weight loss_Yes,...,delayed healing_No,delayed healing_Yes,partial paresis_No,partial paresis_Yes,muscle stiffness_No,muscle stiffness_Yes,Alopecia_No,Alopecia_Yes,Obesity_No,Obesity_Yes
0,40,Positive,False,True,True,False,False,True,True,False,...,False,True,True,False,False,True,False,True,False,True
1,58,Positive,False,True,True,False,True,False,True,False,...,True,False,False,True,True,False,False,True,True,False
2,41,Positive,False,True,False,True,True,False,True,False,...,False,True,True,False,False,True,False,True,True,False
3,45,Positive,False,True,True,False,True,False,False,True,...,False,True,True,False,True,False,True,False,True,False
4,60,Positive,False,True,False,True,False,True,False,True,...,False,True,False,True,False,True,False,True,False,True


# Definición de características (features) y objetivo (target)

In [7]:
features = [
    'Age', 'Gender_Female', 'Gender_Male', 'Polyuria_No', 'Polyuria_Yes', 
    'Polydipsia_No', 'Polydipsia_Yes', 'sudden weight loss_No', 
    'sudden weight loss_Yes', 'weakness_No', 'weakness_Yes', 
    'Polyphagia_No', 'Polyphagia_Yes', 'Genital thrush_No', 'Genital thrush_Yes', 
    'visual blurring_No', 'visual blurring_Yes', 'Itching_No', 'Itching_Yes', 
    'Irritability_No', 'Irritability_Yes', 'delayed healing_No', 
    'delayed healing_Yes', 'partial paresis_No', 'partial paresis_Yes', 
    'muscle stiffness_No', 'muscle stiffness_Yes', 'Alopecia_No', 
    'Alopecia_Yes', 'Obesity_No', 'Obesity_Yes'
]
target = ['class']

X = df[features]  # Conjunto de características
y = df[target]  # Variable objetivo

# División de los datos en conjuntos de entrenamiento y prueba
X_tr, X_ts, y_tr, y_ts = train_test_split(X, y, test_size=0.3)  # 70% entrenamiento, 30% prueba


# Escalado y reducción de dimensionalidad

In [8]:

# Estandarización de características
std_scaler = StandardScaler().fit(X_tr)  # Ajusta el estándar con los datos de entrenamiento
X_tr = std_scaler.transform(X_tr)  # Escala los datos de entrenamiento
X_ts = std_scaler.transform(X_ts)  # Escala los datos de prueba

# Análisis de Componentes Principales (PCA)
pca = PCA().fit(X_tr)  # Ajusta PCA con los datos de entrenamiento
X_tr = pca.transform(X_tr)  # Aplica PCA a los datos de entrenamiento
X_ts = pca.transform(X_ts)  # Aplica PCA a los datos de prueba

# Definición de función para entrenar y evaluar modelos

In [9]:

def model_factory(X_tr=X_tr, X_ts=X_ts, y_tr=y_tr, y_ts=y_ts, model=None):
    model.fit(X_tr, y_tr)  # Entrena el modelo con los datos de entrenamiento
    score_tr = model.score(X_tr, y_tr)  # Precisión en entrenamiento
    score_ts = model.score(X_ts, y_ts)  # Precisión en prueba
    return model, score_tr, score_ts  # Devuelve el modelo y las puntuaciones


# Entrenamiento y evaluación de clasificadores


In [10]:

rf = RandomForestClassifier()  # Random Forest
rf, score_tr_rf, score_ts_rf = model_factory(model=rf)

bag = BaggingClassifier()  # Bagging
bag, score_tr_bag, score_ts_bag = model_factory(model=bag)

ada = AdaBoostClassifier()  # AdaBoost
ada, score_tr_ada, score_ts_ada = model_factory(model=ada)

gbc = GradientBoostingClassifier()  # Gradient Boosting
gbc, score_tr_gbc, score_ts_gbc = model_factory(model=gbc)

  return fit_method(estimator, *args, **kwargs)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)
  y = column_or_1d(y, warn=True)


# Comparación de resultados entre modelos


In [11]:

tr_scores = [score_tr_rf, score_tr_bag, score_tr_ada, score_tr_gbc]  # Puntuaciones en entrenamiento
ts_scores = [score_ts_rf, score_ts_bag, score_ts_ada, score_ts_gbc]  # Puntuaciones en prueba

models = ['randforest', 'bagging', 'adaboost', 'gradientboost']  # Nombres de modelos

# Creación de un DataFrame para mostrar las puntuaciones
dict_scores = {
    'train_score': tr_scores,  # Precisión en entrenamiento
    'test_score': ts_scores  # Precisión en prueba
}

# Visualización de las puntuaciones
pd.DataFrame(dict_scores, index=models)

Unnamed: 0,train_score,test_score
randforest,1.0,0.967949
bagging,1.0,0.967949
adaboost,1.0,0.961538
gradientboost,1.0,0.961538
