### **XGBoost**
XGBoost es un algoritmo basado en árboles de decisión, muy eficiente en la construcción de modelos de clasificación y regresión. Utilizaremos el conjunto de datos **Iris**, que contiene 150 ejemplos de flores de tres especies distintas. Cada ejemplo está descrito por cuatro características (longitud y ancho del sépalo y pétalo), y la tarea es clasificar las flores según su especie.

Este es un ejemplo ilustrtivo para familiarizarnos con el uso de XGBoost. 

Para ejemplos consultar: https://github.com/dmlc/xgboost/tree/master/demo

### 1. **Hiperparámetros principales en XGBoost**

#### 1.1 **Tasa de aprendizaje (`learning_rate`)**
- **Descripción**: Controla el tamaño del paso que da el modelo en cada iteración. Una tasa de aprendizaje más baja hace que el modelo avance más lentamente pero con mayor precisión.
- **Rango típico**: [0.01, 0.3]
- **Impacto**: Tasa baja requiere más árboles pero es menos probable que sobreajuste. Una tasa alta converge más rápido pero puede llevar a una solución subóptima.
  
#### 1.2 **Número de árboles (`n_estimators`)**
- **Descripción**: Define el número de árboles que se entrenarán.
- **Rango típico**: [50, 500]
- **Impacto**: Un número mayor de árboles mejora el rendimiento si la tasa de aprendizaje es baja, pero también aumenta el riesgo de sobreajuste y el tiempo de entrenamiento.

#### 1.3 **Máxima profundidad de los árboles (`max_depth`)**
- **Descripción**: Establece la profundidad máxima de los árboles. Mayor profundidad permite capturar más patrones complejos pero aumenta el riesgo de sobreajuste.
- **Rango típico**: [3, 10]
- **Impacto**: Un valor bajo ayuda a reducir el sobreajuste, mientras que un valor alto mejora la capacidad predictiva para datos complejos.

#### 1.4 **Mínimo peso de la hoja (`min_child_weight`)**
- **Descripción**: Determina el peso mínimo de las hojas (número mínimo de instancias necesarias en una hoja). Controla la complejidad del árbol.
- **Rango típico**: [1, 10]
- **Impacto**: Valores bajos pueden conducir a un sobreajuste al permitir hojas muy pequeñas. Valores altos simplifican el modelo pero pueden perder información relevante.

#### 1.5 **Fracción de columnas a muestrear (`colsample_bytree`)**
- **Descripción**: Proporción de características que serán muestreadas para cada árbol.
- **Rango típico**: [0.3, 1.0]
- **Impacto**: Valores bajos ayudan a prevenir el sobreajuste y pueden mejorar la generalización. Valores altos utilizan más características por árbol y pueden capturar más patrones.

#### 1.6 **Fracción de muestras a muestrear (`subsample`)**
- **Descripción**: Porcentaje de muestras usadas para entrenar cada árbol.
- **Rango típico**: [0.5, 1.0]
- **Impacto**: Valores más bajos ayudan a prevenir el sobreajuste al introducir mayor aleatoriedad. Valores altos usan más muestras y generan árboles más completos.

#### 1.7 **Gamma (`gamma`)**
- **Descripción**: Controla si se deben realizar divisiones adicionales en los nodos de los árboles. Si el valor es mayor que cero, una división solo se realiza si el resultado mejora la métrica de pérdida.
- **Rango típico**: [0, 5]
- **Impacto**: Un valor alto requiere que una mejora significativa ocurra antes de realizar una división, lo que simplifica el modelo.

### 2. **Estrategia para la Sintonización de Hiperparámetros**
La sintonización de hiperparámetros puede realizarse utilizando técnicas como la **búsqueda en cuadrícula (Grid Search)** o la **búsqueda aleatoria (Random Search)**. Aquí utilizaremos **GridSearchCV** para realizar un ajuste sistemático.

### 3. **Ejemplo Práctico con el Dataset Iris**


In [1]:
import xgboost as xgb
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import accuracy_score

# Cargar el conjunto de datos Iris
iris = load_iris()
X, y = iris.data, iris.target

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Configuración del clasificador XGBoost
xgb_model = xgb.XGBClassifier(objective='multi:softmax', num_class=3)

# Definir los hiperparámetros a ajustar
param_grid = {
    'learning_rate': [0.01, 0.1, 0.3],
    'max_depth': [3, 5, 7],
    'n_estimators': [50, 100, 200],
    'subsample': [0.7, 1.0],
    'colsample_bytree': [0.7, 1.0],
    'gamma': [0, 1, 5],
    'min_child_weight': [1, 3, 5]
}

# Realizar la búsqueda de hiperparámetros
grid_search = GridSearchCV(estimator=xgb_model, param_grid=param_grid, scoring='accuracy', cv=3, verbose=1)
grid_search.fit(X_train, y_train)

# Mostrar los mejores hiperparámetros encontrados
print("Mejores hiperparámetros:", grid_search.best_params_)

# Predecir con los mejores hiperparámetros
best_xgb = grid_search.best_estimator_
y_pred = best_xgb.predict(X_test)

# Calcular precisión
accuracy = accuracy_score(y_test, y_pred)
print("Precisión en el conjunto de prueba:", accuracy)


Fitting 3 folds for each of 972 candidates, totalling 2916 fits
Mejores hiperparámetros: {'colsample_bytree': 0.7, 'gamma': 0, 'learning_rate': 0.01, 'max_depth': 3, 'min_child_weight': 1, 'n_estimators': 50, 'subsample': 0.7}
Precisión en el conjunto de prueba: 1.0


  _data = np.array(data, dtype=dtype, copy=copy,


In [5]:
#model = xgb.XGBClassifier(objective='multi:softmax', num_class=3)
model = xgb.XGBClassifier(n_estimators=2, max_depth=2, learning_rate=1, objective='binary:logistic')
model.fit(X_train, y_train)
y_pred = best_xgb.predict(X_test)

# Calcular precisión
accuracy = accuracy_score(y_test, y_pred)
print("Precisión en el conjunto de prueba:", accuracy)

Precisión en el conjunto de prueba: 1.0




### 4. **Resultados y Discusión:** Impacto de los hiperparámetros:

- **Tasa de aprendizaje (`learning_rate`)**: Valores más bajos de `learning_rate` generalmente conducen a una mejor generalización, pero requieren más árboles. Si el modelo sobreajusta, reducir la tasa de aprendizaje puede ser una buena opción.
  
- **Número de árboles (`n_estimators`)**: Un mayor número de árboles suele mejorar la precisión, pero al costo de tiempos de entrenamiento más largos. Si tienes un modelo subentrenado (baja precisión), aumentar `n_estimators` puede mejorar el rendimiento.

- **Máxima profundidad (`max_depth`)**: Este parámetro controla la complejidad del modelo. Un valor muy alto puede causar sobreajuste, especialmente en conjuntos de datos simples como Iris.

- **Fracción de columnas (`colsample_bytree`) y fracción de muestras (`subsample`)**: Reducir estos valores puede prevenir el sobreajuste, especialmente cuando tienes muchas características o datos limitados. Introduce más aleatoriedad y hace que los modelos sean más robustos.

- **`Gamma` y `min_child_weight`**: Ayudan a controlar la complejidad del árbol. Valores más altos tienden a simplificar el modelo, mientras que valores más bajos permiten captar más patrones pero pueden llevar al sobreajuste.



In [None]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_openml
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

In [None]:
# Cargar conjunto de datos MNIST
mnist = fetch_openml('mnist_784',parser='auto')
X = mnist.data / 255.0  # Normalize pixel values to 0-1 range
y = np.array(mnist.target).astype(int)
images =  np.zeros((28,1))
for i in range(10):
    image =np.array(X.iloc[i]).reshape((28,28))
    images=np.append(images,image,axis=1)
print("\n\n10 primeras imagenes de prueba")    
plt.imshow(images,cmap="gray"); 

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

num_class = np.unique(y).size

In [None]:
model = xgb.XGBClassifier(objective='multi:softmax', num_class=num_class, n_estimators=2)

#model = xgb.XGBClassifier(n_estimators=2, max_depth=2, learning_rate=1, objective='binary:logistic')


model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# Calcular precisión
accuracy = accuracy_score(y_test, y_pred)
print("Precisión en el conjunto de prueba:", accuracy)