In [6]:
# Importar las librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split

# Cargar el dataset procesado desde un archivo CSV
input_file_path = "cleaned_and_scaled_dataset.csv"  # Cambiar por la ruta del archivo correcto si es necesario
df = pd.read_csv(input_file_path)

# Verificar las dimensiones del dataset cargado
print(f"Forma del dataset cargado: {df.shape}")

# Definir la columna objetivo ('diabetes_012') y las características (features)
y = df['diabetes_012']  # Columna objetivo
X = df.drop(columns=['diabetes_012'])  # El resto de las columnas son características

# Dividir los datos en conjuntos de entrenamiento y prueba (80% train, 20% test)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Imprimir las formas de los conjuntos resultantes
print(f"Forma del conjunto de entrenamiento (X_train): {X_train.shape}")
print(f"Forma del conjunto de entrenamiento (y_train): {y_train.shape}")
print(f"Forma del conjunto de prueba (X_test): {X_test.shape}")
print(f"Forma del conjunto de prueba (y_test): {y_test.shape}")


Forma del dataset cargado: (224143, 22)
Forma del conjunto de entrenamiento (X_train): (179314, 21)
Forma del conjunto de entrenamiento (y_train): (179314,)
Forma del conjunto de prueba (X_test): (44829, 21)
Forma del conjunto de prueba (y_test): (44829,)


In [8]:
# Importar la librería necesaria para Random Forest
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Instanciar el modelo Random Forest
model = RandomForestClassifier(random_state=42, n_estimators=100, max_depth=None)

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))

print("\nPrecisión General del Modelo:")
print(f"{accuracy_score(y_test, y_pred):.2f}")


Matriz de Confusión:
[[35950    51  1317]
 [  795     0    96]
 [ 5490     5  1125]]

Reporte de Clasificación:
              precision    recall  f1-score   support

         0.0       0.85      0.96      0.90     37318
         1.0       0.00      0.00      0.00       891
         2.0       0.44      0.17      0.25      6620

    accuracy                           0.83     44829
   macro avg       0.43      0.38      0.38     44829
weighted avg       0.77      0.83      0.79     44829


Precisión General del Modelo:
0.83


In [9]:
# Importar la librería necesaria para XGBoost
from xgboost import XGBClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Instanciar el modelo XGBoost
model = XGBClassifier(
    objective='multi:softmax',  # Clasificación multiclase con predicción de etiquetas
    num_class=3,               # Número de clases en la variable dependiente
    eval_metric='mlogloss',    # Métrica de evaluación (log-loss multiclase)
    use_label_encoder=False,   # Desactiva codificación automática de etiquetas (obsoleto)
    random_state=42,
    n_estimators=100,          # Número de árboles
    max_depth=6,               # Profundidad máxima del árbol
    learning_rate=0.1          # Tasa de aprendizaje
)

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))

print("\nPrecisión General del Modelo:")
print(f"{accuracy_score(y_test, y_pred):.2f}")


Matriz de Confusión:
[[36511     0   807]
 [  811     0    80]
 [ 5533     0  1087]]

Reporte de Clasificación:
              precision    recall  f1-score   support

         0.0       0.85      0.98      0.91     37318
         1.0       0.00      0.00      0.00       891
         2.0       0.55      0.16      0.25      6620

    accuracy                           0.84     44829
   macro avg       0.47      0.38      0.39     44829
weighted avg       0.79      0.84      0.80     44829


Precisión General del Modelo:
0.84


In [11]:
# Importar la librería necesaria para Extra Trees
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score

# Instanciar el modelo Extra Trees
model = ExtraTreesClassifier(
    n_estimators=100,       # Número de árboles
    max_depth=None,         # Profundidad máxima de los árboles (None = sin límite)
    random_state=42,        # Semilla para reproducibilidad
    criterion='gini',       # Criterio para dividir nodos ('gini' o 'entropy')
    n_jobs=-1               # Utilizar todos los núcleos disponibles para acelerar
)

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones en el conjunto de prueba
y_pred = model.predict(X_test)

# Evaluar el modelo
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred))

print("\nReporte de Clasificación:")
print(classification_report(y_test, y_pred))

print("\nPrecisión General del Modelo:")
print(f"{accuracy_score(y_test, y_pred):.2f}")


Matriz de Confusión:
[[35539    91  1688]
 [  782     3   106]
 [ 5417    11  1192]]

Reporte de Clasificación:
              precision    recall  f1-score   support

         0.0       0.85      0.95      0.90     37318
         1.0       0.03      0.00      0.01       891
         2.0       0.40      0.18      0.25      6620

    accuracy                           0.82     44829
   macro avg       0.43      0.38      0.38     44829
weighted avg       0.77      0.82      0.79     44829


Precisión General del Modelo:
0.82
