<a href="https://colab.research.google.com/github/DeisyData/BIT_IA_Bootcamp/blob/main/S5_C3_XGBoost_Lab.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Laboratorio de XGBoost


Este laboratorio guía el uso de XGBoost para predecir el riesgo de ataque cardíaco en función de la edad, el peso y si la persona es fumadora.
Exploraremos los datos, entrenaremos un modelo, evaluaremos el rendimiento y realizaremos ajustes de hiperparámetros.


In [None]:

!pip install xgboost
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, precision_score, recall_score, classification_report


In [None]:

# Cargar el dataset
data_path = ''
data = pd.read_csv(data_path)
data.head()


In [None]:

# Información general del dataset
data.info()

# Distribución de la variable objetivo 'Risk'
data['Risk'].value_counts()


In [None]:

# Dividir las características (X) y la variable objetivo (y)
X = data[['Age', 'Weight', 'Smoker']]
y = data['Risk']

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [None]:

# Inicializar y entrenar el modelo XGBoost
xgb_model = XGBClassifier(use_label_encoder=False, eval_metric='logloss', n_estimators=100, random_state=42)
xgb_model.fit(X_train, y_train)


In [None]:

# Realizar predicciones en el conjunto de prueba
y_pred = xgb_model.predict(X_test)

# Evaluación del modelo
print("Exactitud:", accuracy_score(y_test, y_pred))
print("Precisión:", precision_score(y_test, y_pred))
print("Sensibilidad:", recall_score(y_test, y_pred))
print("\nReporte de Clasificación:\n", classification_report(y_test, y_pred))


In [None]:

# Importancia de las características
importances = xgb_model.feature_importances_
feature_names = X.columns
feature_importance_df = pd.DataFrame({'Característica': feature_names, 'Importancia': importances})
feature_importance_df.sort_values(by='Importancia', ascending=False, inplace=True)
feature_importance_df


In [None]:

# Ajuste de hiperparámetros usando GridSearchCV (opcional)
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [3, 5, 10],
    'learning_rate': [0.01, 0.1, 0.2]
}
grid_search = GridSearchCV(estimator=xgb_model, param_grid=param_grid, cv=3, scoring='accuracy')
grid_search.fit(X_train, y_train)

# Mejor combinación de hiperparámetros
print("Mejores hiperparámetros:", grid_search.best_params_)

# Evaluación del modelo ajustado
best_xgb_model = grid_search.best_estimator_
y_pred_best = best_xgb_model.predict(X_test)
print("\nExactitud del modelo ajustado:", accuracy_score(y_test, y_pred_best))



### Conclusión
Hemos entrenado un modelo de XGBoost para predecir el riesgo de ataque cardíaco, explorado la importancia de cada característica y
realizado ajustes de hiperparámetros. Los resultados y la importancia de las características proporcionan una visión de los factores
relevantes en las predicciones del modelo.
