# Explore here

In [5]:
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, classification_report
import matplotlib.pyplot as plt
import seaborn as sns
import pickle

# Importación de datos ya limpios
- Como ya están limpios los datos y solamente hay que entrenar el modelo vamos a repetir el proceso de importar los datos, dividir los datos en las variables y luego dividirlos en train y test

In [2]:
df = pd.read_csv('diabetes_limpio.csv')

In [3]:
X = df.drop('Outcome', axis=1)
y = df['Outcome']

In [4]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

- Entrenamos un modelo básico

In [25]:
modelo = XGBClassifier(random_state=42)

In [26]:
modelo.fit(X_train, y_train)

In [27]:
y_pred = modelo.predict(X_test)

In [28]:
accuracy_score(y_test, y_pred)

0.7337662337662337

In [11]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.79      0.81      0.80       100
           1       0.63      0.59      0.61        54

    accuracy                           0.73       154
   macro avg       0.71      0.70      0.70       154
weighted avg       0.73      0.73      0.73       154



- Y aquí vemos que obtuvimos un score de 73%, el cuál es más bajo que el random forest, ahora vmaos a optimizarlo

In [None]:
grid = {
    'n_estimators': [50, 100, 150],
    'max_depth': [3, 5, 7],
    'learning_rate': [0.1, 0.05]
}

scale_pos_weight_value = (y_train.value_counts()[0] / y_train.value_counts()[1])

grid_search = GridSearchCV(estimator=XGBClassifier(objective='binary:logistic',random_state=42,scale_pos_weight=scale_pos_weight_value,use_label_encoder=False,eval_metric='logloss'),param_grid=grid,cv=3,scoring='f1',n_jobs=-1)

- El Scale_pos_weight_value permite establecer un peso configurable para la clase minoritaria como variable objetivo

In [16]:
grid_search.fit(X_train, y_train)

Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "use_label_encoder" } are not used.


In [18]:
mejor_modelo = grid_search.best_estimator_
mejor_modelo

- Vemos que el mejor modelo tiene un learning_rate de 0.05, n_estimators de 50 y el max_depth de 3

In [20]:
y_pred_optimizada = mejor_modelo.predict(X_test)
y_pred_optimizada

array([1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1,
       1, 1, 1, 0, 1, 0, 1, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 0, 0, 1,
       0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1,
       1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1,
       0, 0, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0,
       1, 1, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 1, 0])

In [21]:
grid_search.best_params_

{'learning_rate': 0.05, 'max_depth': 3, 'n_estimators': 50}

In [23]:
accuracy_score(y_test, y_pred_optimizada)

0.7532467532467533

In [24]:
print(classification_report(y_test, y_pred_optimizada))

              precision    recall  f1-score   support

           0       0.87      0.73      0.79       100
           1       0.61      0.80      0.69        54

    accuracy                           0.75       154
   macro avg       0.74      0.76      0.74       154
weighted avg       0.78      0.75      0.76       154



- Y aquí vemos que se obtuvo un mejor score que con el modelo sin optimizar, mejorando mucho el recall. Sin embargo, el modelo de random forest funcionó mejor para la predicción de si una persona es diabética o no.