<a href="https://colab.research.google.com/github/jgesc-05/clase-inteligencia-artificial/blob/main/Fundamento_Cuaderno_15_XGBOOST.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### <font color="red">Cuaderno 15. XGBOOST</font>

XGBoost (Extreme Gradient Boosting) es una implementación avanzada del algoritmo de Gradient Boosting, vamos en este cuarderno a explicar los conceptos básicos y la implementacicóm del modelo de machine learning. Este es ampliamente utilizada en problemas de clasificación y regresión debido a su capacidad para lograr un alto rendimiento en competiciones y aplicaciones del mundo real, wa eficiente, flexible y rápido, mejorando el rendimiento del aprendizaje en comparación con otras implementaciones de Gradient Boosting como las de Scikit-learn.

![imagen](https://miro.medium.com/v2/resize:fit:1400/format:webp/0*nD4DibWC56hwhyrc.png)

En la imagen observamos cómo se construyen los árboles y cada uno de manera individual crean un clasificador "classifier 1,2, .., n) y luego se ensamblan los modelos. La gran diferencia con respecto a Bosques Aleoatorios es que cada arbol aprende de su antecesor y no son "aleatorios".

## <font color="red">15.1 Definciones de Gradient Boosting</font>
Gradient Boosting es un método de aprendizaje en equipo (ensemble learning) que construye un modelo robusto combinando múltiples modelos débiles (generalmente árboles de decisión) de manera secuencial. La idea clave es que cada nuevo modelo se construye para corregir los errores cometidos por los modelos anteriores.
* ***Modelos débiles:*** En Gradient Boosting, los modelos base son usualmente árboles de decisión con poca profundidad.
* Corrección de errores: En cada iteración, se entrena un nuevo modelo para minimizar el error residual del modelo anterior.
* ***Agregación:*** Los resultados de todos los modelos se combinan para hacer la predicción final.


---

## <font color="red">15.2 Diferencia entre otros modelos</font>
XGBoost es una implementación optimizada y mejorada de Gradient Boosting que incorpora características avanzadas para superar limitaciones comunes. Sus principales diferencias incluyen:

* ***Optimización del rendimiento:***
  * Implementa algoritmos altamente eficientes para la construcción de árboles.
  * Utiliza técnicas como shrinkage (reducción de la tasa de aprendizaje) y feature subsampling (submuestreo de características) para evitar el sobreajuste.
* ***Regularización:***
  * XGBoost incluye regularización L1L1L1 y L2L2L2 para penalizar la complejidad del modelo y evitar el sobreajuste, lo que lo hace más robusto que las implementaciones estándar de Gradient Boosting.
* ***Paralelismo:***
  * Implementa paralelismo a nivel de características, lo que reduce significativamente el tiempo de entrenamiento en comparación con otros métodos de Boosting.
* ***Capacidad de manejo de valores nulos:***
  * XGBoost puede manejar datos con valores faltantes de manera eficiente, ya que durante la construcción de los árboles aprende automáticamente cómo dividir las muestras faltantes.
* ***Escalabilidad:***
  * Puede manejar conjuntos de datos muy grandes y problemas de alta dimensionalidad debido a su diseño eficiente en memoria.
* ***Objetivos personalizables:***
  * Permite usar funciones de pérdida personalizadas, lo que lo hace flexible para adaptarse a una amplia gama de problemas.


---


## <font color="red">15.3 Funcionamiento Interno de XGBoost</font>
El proceso de XGBoost se basa en los siguientes pasos:
* ***Inicialización:***
  * Se predice un valor inicial (como la media en problemas de regresión o la proporción de la clase positiva en clasificación).
* ***Construcción de modelos:***
  * En cada iteración, XGBoost construye un árbol de decisión utilizando el gradiente de la función de pérdida para ajustar las predicciones y minimizar el error.
* ***Actualización:***
  * Los nuevos árboles corrigen los errores residuales de los árboles anteriores.
* ***Combinación de modelos:***
  * Los árboles entrenados se combinan usando pesos (generalmente controlados por la tasa de aprendizaje o learning rate).
* ***Regularización:***
  * Se penaliza la complejidad del modelo mediante regularización para reducir el riesgo de sobreajuste.


La función objetivo que optimiza XGBoost incluye dos términos:

$Obj(\theta) = \sum_{i=1}^n L(y_i, \hat{y}_i) + \sum_{j=1}^k \Omega(f_j)$



Donde:
* L: Es la función de pérdida (por ejemplo, error cuadrático para regresión o
$log-loss$ para clasificación).
* $\Omega(f_j)$: Es un término de regularización para controlar la complejidad de los árboles.


---

## <font color="red">15.4 Ventajas de XGBoost</font>
* Alto rendimiento:
  * Funciona muy bien con datos estructurados/tabulares y es el algoritmo favorito en competencias como Kaggle.
* Flexibilidad:
  * Permite configurar varios parámetros para personalizar el comportamiento del modelo.
* Soporte para clasificación y regresión:
  * Es versátil y puede aplicarse a problemas de regresión, clasificación binaria y multiclase.
* Velocidad:
  * Su optimización lo hace mucho más rápido que Gradient Boosting estándar.


---

## <font color="red">15.5 Desventajas de XGBoost</font>
* Mayor complejidad:
  * Requiere más experiencia y ajuste de parámetros en comparación con modelos más simples como Random Forest.
* Riesgo de sobreajuste:
  * Aunque incorpora regularización, aún puede sobreajustarse si no se configuran correctamente los hiperparámetros.
* No tan bueno para datos no estructurados:
  * En tareas como imágenes o texto, los modelos basados en redes neuronales (como CNNs y transformers) suelen ser más efectivos.


---


## <font color="red">15.6 Comparación: XGBoost vs. Random Forest</font>

| **Aspecto**               | **XGBoost**                                     | **Random Forest**                                |
|----------------------------|-------------------------------------------------|-------------------------------------------------|
| **Estrategia de aprendizaje** | Boosting (secuencial, modelos corrigen errores previos). | Bagging (paralelo, promedio de modelos independientes). |
| **Velocidad de predicción** | Más lento debido al enfoque secuencial.        | Más rápido debido al paralelismo.               |
| **Evitar sobreajuste**      | Regularización explícita ($L_1$, $L_2$).       | Promediado de múltiples árboles.                |
| **Precisión**               | Más preciso en datos estructurados.            | Menos preciso que XGBoost en general.           |
| **Manejo de valores nulos** | Se detectan automáticamente.                   | No tiene soporte automático, requiere preprocesamiento. |
| **Eficiencia computacional**| Optimizado con paralelismo.                    | Menos eficiente.                                |


---

## <font color="red">15.7 Bootstrapping</font>
El término Bootstrapping proviene de la expresión en inglés "pulling yourself up by your bootstraps o hacer las cosas por su cuenta.", que sugiere hacer algo sin ayuda externa. En el contexto del aprendizaje automático y estadísticas, hace referencia a una técnica que permite crear múltiples conjuntos de datos de entrenamiento a partir de un solo conjunto de datos original, mediante la muestra aleatoria con reemplazo.

![imagen](https://media.geeksforgeeks.org/wp-content/uploads/20210707140911/Boosting.png)

###¿Cómo funciona?
En la imagen anterior se aprecian los siguientes pasos:
* Creación de subconjuntos de entrenamiento:
  * Se toma el conjunto de datos original y, usando bootstrapping, se generan varios subconjuntos aleatorios de datos (con reemplazo). Cada subconjunto tiene el mismo tamaño que el conjunto original, pero algunos puntos de datos pueden repetirse y otros pueden no aparecer.
* Entrenamiento de modelos:
  * Para cada subconjunto generado, se entrena un modelo independiente. Estos modelos son entrenados de forma paralela y son "débiles" individualmente, es decir, tienen cierta capacidad de generalización, pero no son perfectos.
* Predicción:
  * Para la predicción de un nuevo dato, se realizan predicciones con cada uno de los modelos entrenados. La salida final es el resultado del promedio (en el caso de regresión) o de la votación mayoritaria (en el caso de clasificación) entre los modelos.

###¿Para qué se usa?
El bootstrapping se utiliza comúnmente en métodos de ensamble como el bagging y en la estimación de intervalos de confianza, ya que permite obtener estimaciones de los parámetros sin hacer suposiciones muy estrictas sobre la distribución de los datos.

### <font color="blue">15.7.1 Bagging (Bootstrap Aggregating)</font>
El Bagging es una técnica de ensamble que utiliza bootstrapping para crear varios modelos de aprendizaje, con el fin de reducir la varianza del modelo final y mejorar la precisión del mismo. El algoritmo más comúnmente asociado con bagging es el Árbol de Decisión, aunque también puede aplicarse a otros modelos como SVM, KNN, entre otros.


### Diferencia clave entre Bagging y Bootstrapping:
* Bootstrapping es la técnica que permite crear muestras aleatorias con reemplazo a partir de un conjunto de datos. Es más una técnica de re-muestreo que una técnica de modelado.
* Bagging es un método que utiliza bootstrapping para entrenar múltiples modelos y combinar sus resultados, con el objetivo de mejorar el rendimiento de los modelos.

### Visualización rápida:
* Bootstrapping: Genera subconjuntos de datos a partir del conjunto original.
* Bagging: Utiliza esos subconjuntos para entrenar varios modelos y promedia sus predicciones.


### Beneficios del Bagging:
* Reducción de varianza: Al combinar múltiples modelos, las predicciones finales son menos susceptibles a la varianza de los datos.
* Mejora de la estabilidad: Los modelos individuales pueden ser muy sensibles a los datos, pero el bagging mitiga esto combinando sus salidas.

### <font color="blue">15.7.2 Modelos Ensamblados (Ensemble Models)</font>


![imagen](https://miro.medium.com/v2/resize:fit:1400/format:webp/0*3ByacanwDwnH20OY.png)

Como se muesta en la imagen, Un modelo ensamblado es una técnica que combina varias predicciones de diferentes modelos (aggregating) para obtener una única predicción final (Bagging). La idea central detrás de los modelos ensamblados es que varios modelos "débiles" (independientes y con un rendimiento regular) pueden combinar sus fortalezas para crear un modelo "fuerte" que generaliza mejor en los datos.

Los modelos ensamblados pueden mejorar la precisión, reducir el sobreajuste (overfitting) y hacer que el modelo sea más robusto frente a los errores.

Existen varias técnicas de ensamblaje, siendo las más comunes:

* ***Bagging (Bootstrap Aggregating):** Ya lo mencionamos antes, donde varios modelos son entrenados en subconjuntos diferentes del conjunto de datos y sus predicciones se combinan para obtener una predicción final (votación o promedio).
* ***Boosting:*** A diferencia de bagging, en boosting los modelos se entrenan de manera secuencial. Cada modelo intenta corregir los errores del anterior. Esto suele dar lugar a modelos con mayor precisión, pero con un mayor riesgo de sobreajuste si no se controla adecuadamente.

* ***Stacking:*** En stacking, se entrenan varios modelos base (o "primer nivel") y sus salidas se combinan en un modelo meta (o "segundo nivel") que aprenderá a predecir la salida final. Es una combinación de varios modelos que buscan aprender de diferentes aspectos de los datos.



## <font color="red">10.4  Clasificación de pacientes con Diabetes usando con XGBoosting

Objetivo:
Vamos a usar  el mismo ejemplo de Bosques Aletorios para que compares los resultldos. Asi este modelo permite  predecir si un paciente tiene diabetes, basado en características como la glucosa, la presión arterial, el IMC, la edad, etc.

Pasos para el ejercicio:
1. Cargar los datos: Usamos pandas para cargar los datos directamente desde el archivo CSV en GitHub.

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
import xgboost as xgb
from sklearn.metrics import accuracy_score, classification_report

# Cargar el dataset desde el enlace proporcionado en GitHub
url = 'https://raw.githubusercontent.com/adiacla/bigdata/refs/heads/master/diabetes.csv'
df = pd.read_csv(url, sep=';')  # El separador es ';' según la muestra proporcionada

# Mostrar las primeras filas del dataset

df.head()

Unnamed: 0,Embarazos,Glucosa,PresiónArterial,GrosorDeLaPiel,Insulina,IMC,FunciónPedigríDeDiabetes,Edad,Resultad
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


2. Preprocesamiento de los datos: En este paso, manejamos valores faltantes, convertimos las columnas a tipos adecuados (si es necesario) y dividimos los datos en características (X) y la etiqueta objetivo (Y).

In [2]:
# Reemplazar valores nulos por la media de la columna
df.fillna(df.mean(), inplace=True)

In [3]:
# Reemplazar valores nulos (si los hubiera) por la media de la columna o eliminar las filas con nulos
df.fillna(df.mean(), inplace=True)

# Dividir los datos en características (X) y la variable objetivo (Y)
X = df.drop('Resultad', axis=1)  # 'Resultad' es la columna objetivo (0 o 1)
y = df['Resultad']  # Etiqueta: 0 = no tiene diabetes, 1 = tiene diabetes

Dividir los datos en conjuntos de entrenamiento y prueba: Separamos el conjunto de datos en un 80% para entrenamiento y un 20% para prueba utilizando train_test_split.

In [4]:
# Dividir los datos en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


**Definir el modelo XGBoost y aplicar Pipeline**

Para asegurarnos de que el proceso sea más estructurado, usaremos un Pipeline para incluir el escalado de los datos y el modelo XGBoost:
---



In [5]:
# Crear un pipeline con el escalado de características y XGBoost
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Normalizar las características
    ('xgboost', xgb.XGBClassifier(random_state=42))  # Modelo XGBoost
])


Definimos los parámetros para generacion de los diferentes modelos

In [6]:
# Definir los parámetros para GridSearchCV
param_grid = {
    'xgboost__max_depth': [3, 5, 7],  # Profundidad máxima de los árboles
    'xgboost__learning_rate': [0.01, 0.1, 0.2],  # Tasa de aprendizaje
    'xgboost__n_estimators': [50, 100, 200],  # Número de estimadores
    'xgboost__subsample': [0.8, 1.0],  # Proporción de muestras usadas para entrenar cada árbol
    'xgboost__colsample_bytree': [0.8, 1.0]  # Proporción de características usadas por árbol
}

**Realizar la búsqueda de hiperparámetros con GridSearchCV**

Utilizamos GridSearchCV para encontrar la mejor combinación de hiperparámetros para el modelo de XGBoost:

In [7]:
# Inicializar GridSearchCV con el pipeline y el parámetro grid
grid_search = GridSearchCV(pipeline, param_grid, cv=5, scoring='accuracy', n_jobs=-1, verbose=1)

# Entrenar el modelo utilizando GridSearchCV
grid_search.fit(X_train, y_train)

# Mejor modelo encontrado
best_model = grid_search.best_estimator_

# Imprimir los mejores hiperparámetros encontrados
print("Mejores hiperparámetros encontrados por GridSearchCV:")
print(grid_search.best_params_)


Fitting 5 folds for each of 108 candidates, totalling 540 fits
Mejores hiperparámetros encontrados por GridSearchCV:
{'xgboost__colsample_bytree': 1.0, 'xgboost__learning_rate': 0.1, 'xgboost__max_depth': 3, 'xgboost__n_estimators': 50, 'xgboost__subsample': 1.0}


**Evaluar el modelo**}

Una vez que tenemos el mejor modelo, evaluamos su rendimiento en el conjunto de prueba:

In [8]:
# Predecir los resultados en el conjunto de prueba
y_pred = best_model.predict(X_test)

# Evaluar el rendimiento del modelo
print("\nAccuracy del mejor modelo:", accuracy_score(y_test, y_pred))
print("\nReporte de clasificación del mejor modelo:")
print(classification_report(y_test, y_pred))



Accuracy del mejor modelo: 0.7467532467532467

Reporte de clasificación del mejor modelo:
              precision    recall  f1-score   support

           0       0.81      0.80      0.80        99
           1       0.64      0.65      0.65        55

    accuracy                           0.75       154
   macro avg       0.72      0.73      0.73       154
weighted avg       0.75      0.75      0.75       154



In [9]:
X_train.columns

Index(['Embarazos', 'Glucosa', 'PresiónArterial', 'GrosorDeLaPiel', 'Insulina',
       'IMC', 'FunciónPedigríDeDiabetes', 'Edad'],
      dtype='object')

**Ejemplo de predicción con nuevos datos**

Si queremos realizar una predicción con nuevos datos, podemos hacerlo con el modelo entrenado. A continuación te muestro cómo hacerlo:

In [10]:
# Supongamos que tenemos un nuevo dato
nuevo_dato = pd.DataFrame(np.array([[6, 148, 72, 35, 0, 33.6, 0.627, 50]]),columns=['Embarazos', 'Glucosa', 'PresiónArterial', 'GrosorDeLaPiel', 'Insulina','IMC', 'FunciónPedigríDeDiabetes', 'Edad'])  # Nuevo dato (con 8 características)

# Realizar la predicción con el modelo entrenado
prediccion = best_model.predict(nuevo_dato)

# Mostrar la predicción
if prediccion == 0:
    print("\nEl modelo predice que el paciente NO tiene diabetes.")
else:
    print("\nEl modelo predice que el paciente TIENE diabetes.")



El modelo predice que el paciente TIENE diabetes.
