# **Explicación de algoritmos**

## **Concepto clave: optimización metaheurística**

La **optimización metaheurística** es una rama de la inteligencia artificial y las matemáticas aplicadas que se centra en resolver problemas de optimización complejos mediante algoritmos inspirados en procesos naturales, biológicos o sociales. Estas técnicas son especialmente útiles para problemas donde los métodos tradicionales, como la programación matemática, no son prácticos debido a la dimensionalidad, la no linealidad o la falta de información sobre la función objetivo.


## **XGBoost**

**XGBoost (Extreme Gradient Boosting)** es un algoritmo de aprendizaje automático basado en árboles de decisión, específicamente en una variante del **Gradient Boosting Machine (GBM)**, que se ha popularizado por su eficiencia y efectividad en problemas de predicción.

### **Funcionamiento General**
XGBoost se utiliza principalmente para tareas de regresión y clasificación. La idea principal es construir modelos a partir de varios árboles de decisión, donde cada árbol posterior trata de corregir los errores de los árboles anteriores.

- **Modelo Aditivo:** XGBoost construye una predicción combinando múltiples árboles de decisión de manera secuencial. En cada iteración, un nuevo árbol se ajusta a los residuos (errores) del modelo previo, buscando reducir el error general.
  
- **Optimización:** XGBoost no solo minimiza el error de predicción (como RMSE o MAE), sino que también incluye un término de regularización que penaliza la complejidad de los árboles, ayudando a evitar el sobreajuste (overfitting).


### **Matemáticas de XGBoost**

1. **Función Objetivo:**
   La función objetivo de XGBoost se compone de dos términos: la **pérdida** y la **regularización**. La pérdida mide el error del modelo, mientras que la regularización penaliza la complejidad de los árboles.

   $$
   L(\theta) = \sum_{i=1}^{N} \ell(y_i, \hat{y}_i) + \sum_{k=1}^{K} \Omega(f_k)
   $$
   donde:
   - $ \ell(y_i, \hat{y}_i) $ es la función de pérdida, que mide el error entre el valor real $y_i$ y la predicción $ \hat{y}_i $.
   - $ \Omega(f_k) $ es el término de regularización del $ k $-ésimo árbol, que penaliza la complejidad del modelo.

2. **Regularización:**
   La regularización en XGBoost se realiza a través de dos términos:
   $$
   \Omega(f) = \gamma T + \frac{1}{2} \lambda \sum_{j=1}^T w_j^2
   $$
   donde:
   - $ T $ es el número de hojas del árbol.
   - $ w_j $ es el peso de la $ j $-ésima hoja.
   - $ \gamma $ y $ \lambda $ son hiperparámetros de regularización que controlan la complejidad del árbol.

   Esto asegura que el modelo no crezca demasiado y se mantenga generalizable, evitando el sobreajuste.

3. **Entrenamiento Incremental (Boosting):**
   XGBoost emplea un proceso de **boosting**, donde cada árbol posterior intenta corregir los errores del árbol anterior. Esto se realiza utilizando el **gradiente descendente** para minimizar la función objetivo.

   - **Paso 1:** Para cada instancia en el conjunto de datos, se calcula la **predicción residual** (el error entre la predicción actual y el valor real).
   - **Paso 2:** Un nuevo árbol es entrenado para predecir los errores residuales.
   - **Paso 3:** El árbol se agrega al modelo, y el proceso se repite hasta que se alcanza un número máximo de árboles o una mejora mínima en la función objetivo.

   La actualización de la predicción del modelo en cada iteración es:
   $$
   \hat{y}_i^{(t)} = \hat{y}_i^{(t-1)} + \eta \cdot f_t(x_i)
   $$
   donde:
   - $ \hat{y}_i^{(t)} $ es la predicción del $i$-ésimo ejemplo en la $t$-ésima iteración.
   - $ \eta $ es la tasa de aprendizaje (un hiperparámetro que controla la magnitud de la actualización).
   - $ f_t(x_i) $ es la predicción del árbol $t$ para el ejemplo $x_i$.


### **Optimización de XGBoost**
XGBoost se entrena utilizando un enfoque de optimización basado en **gradiente** para ajustar los hiperparámetros del modelo. En cada paso, el modelo ajusta los árboles de acuerdo con el gradiente de la función de pérdida, de manera que el modelo mejora progresivamente.

- **Tasa de aprendizaje ($\eta$):** Controla el tamaño de las actualizaciones en cada iteración. Un valor más bajo reduce el riesgo de sobreajuste, pero puede requerir más iteraciones.
- **Número de iteraciones (número de árboles):** Controla cuántos árboles se añaden al modelo. Demasiados árboles pueden llevar a sobreajuste.



### **Ventajas de XGBoost**
- **Eficiencia computacional:** XGBoost es muy eficiente en términos de tiempo y memoria. Utiliza técnicas como el paralelismo en el entrenamiento y la **optimización de columnas** (para manejar grandes volúmenes de datos).
- **Capacidad para manejar datos dispersos:** Gracias a su optimización, puede trabajar bien con conjuntos de datos grandes y dispersos (como los datos meteorológicos).
- **Robustez:** Ofrece una alta precisión y generalización en comparación con otros modelos, debido a la regularización y su capacidad para manejar interacciones no lineales entre las características.

---


## **Bayesian Optimization (BO - XGBoost)**

**Bayesian Optimization (BO)** es un algoritmo de optimización basado en un enfoque probabilístico, utilizado principalmente para encontrar el conjunto óptimo de hiperparámetros en modelos de aprendizaje automático con una cantidad limitada de evaluaciones de la función objetivo, que en este caso es la función de pérdida de XGBoost.

### **Funcionamiento general**

1. **Modelo Probabilístico:** 
   BO construye un modelo probabilístico, generalmente un **proceso Gaussiano** (GP), que aproxima la función de la cual se desea optimizar los hiperparámetros. Este modelo tiene una distribución sobre las posibles funciones objetivo, basada en las observaciones anteriores.

   - La función objetivo (en este caso, la pérdida del modelo XGBoost) es tratada como una función desconocida y costosa de evaluar.
   - A partir de un número limitado de muestras, BO aprende una distribución de probabilidad sobre la función objetivo.

2. **Función de Adquisición:**
   Para decidir qué conjunto de hiperparámetros probar a continuación, BO utiliza una **función de adquisición** que evalúa la ganancia esperada de la próxima muestra. Una de las más comunes es la **Expected Improvement (EI)**, que balancea la exploración de áreas no muestreadas con la explotación de áreas que ya se sabe que producen buenos resultados.

   - **Expected Improvement (EI):**
     $$ 
     EI(x) = \mathbb{E}[\max(0, f(x) - f_\text{best})]
     $$  
     Donde:
     - $f(x)$ es la predicción de la función objetivo en el punto \( x \).
     - $f_\text{best}$ es el mejor valor observado de la función objetivo hasta el momento.
     - $\mathbb{E}$ representa la esperanza matemática (promedio).

3. **Selección de Hiperparámetros:**
   Después de calcular la función de adquisición, BO selecciona el siguiente conjunto de hiperparámetros que maximiza esta función de adquisición, lo que significa que el algoritmo elegirá los puntos en el espacio de búsqueda que tienen la mayor probabilidad de mejorar el rendimiento del modelo.

4. **Iteración y Optimización:**
   - Una vez que se selecciona un nuevo conjunto de hiperparámetros, se evalúa la función objetivo (el error del modelo XGBoost).
   - El modelo probabilístico se actualiza con esta nueva información, y el proceso se repite.
   - Este ciclo continúa hasta que se alcanza un criterio de parada, como un número predefinido de iteraciones o cuando la mejora de la función objetivo es marginal.

### **Matemáticas del Proceso**
- **Modelo de Regresión Probabilística:** En BO, el proceso Gaussiano utilizado para modelar la función objetivo tiene una forma general de:
  $$
  f(x) \sim \mathcal{GP}(\mu(x), k(x, x'))
  $$
  donde:
  - $\mu(x)$ es la media de la distribución posterior en el punto $x$.
  - $ k(x, x')$ es la función de covarianza que describe la relación entre los puntos $ x $ y $ x' $.

### **Ventajas de BO**
- **Eficiencia en el número de evaluaciones:** BO es particularmente útil cuando las evaluaciones de la función objetivo son costosas, como es el caso de ajustar hiperparámetros en modelos de machine learning complejos, como XGBoost.
- **Optimización de funciones no diferenciables:** Es capaz de optimizar funciones que no son fáciles de derivar, lo cual es común cuando se trabaja con modelos de aprendizaje automático.
- **Exploración y Explotación balanceadas:** Gracias a su enfoque probabilístico, BO maneja de forma eficiente el equilibrio entre explorar nuevas áreas del espacio de hiperparámetros y explotar las áreas que ya se sabe que son prometedoras.

### **Aplicación en XGBoost**
- **BO-XGBoost** utiliza Bayesian Optimization para ajustar los hiperparámetros del modelo XGBoost, como la tasa de aprendizaje $( \eta )$, el número de árboles (boosting rounds), y la regularización $( \lambda)$, de manera eficiente. BO selecciona los hiperparámetros que maximizan el rendimiento del modelo mientras minimiza la función de pérdida.
---

## **Gray Wolf Optimization (GWO - XGBoost)**

El **Gray Wolf Optimization (GWO)** es un algoritmo metaheurístico inspirado en el comportamiento social y de caza de los lobos grises. Este enfoque organiza la población en una jerarquía y simula su estrategia de caza, que incluye el rastreo, el acoso y el ataque a la presa. En el caso de **GWO-XGBoost**, este algoritmo se utiliza para optimizar los hiperparámetros del modelo XGBoost, mejorando el rendimiento predictivo.



### **Funcionamiento general**

El GWO organiza las soluciones (posibles configuraciones de hiperparámetros) en una jerarquía basada en su desempeño, clasificándolas en:

1. **Alfa ($\alpha$):** La mejor solución conocida (líder de la manada).
2. **Beta ($\beta$):** La segunda mejor solución.
3. **Delta ($\delta$):** La tercera mejor solución.
4. **Omega ($\omega$):** Las soluciones restantes, que siguen a los líderes.

Cada iteración del GWO se basa en la interacción de estas posiciones para actualizar las soluciones.

#### **1. Modelo de Liderazgo:**
   Cada lobo ajusta su posición en relación con las soluciones líderes ($\alpha$, $\beta$ y $\delta$). Esto asegura que las nuevas posiciones estén influenciadas por las mejores soluciones conocidas.

   **Ecuación matemática:**
   $$
   \vec{X}(t+1) = \frac{\vec{X}_\alpha + \vec{X}_\beta + \vec{X}_\delta}{3}
   $$
   Donde:
   - $ \vec{X}_\alpha $, $ \vec{X}_\beta $, $ \vec{X}_\delta $: posiciones de las tres mejores soluciones.
   - $ \vec{X}(t+1) $: nueva posición de un lobo.


#### **2. Ajuste de Posiciones:**
   Cada lobo actualiza su posición individual utilizando fórmulas que representan su proximidad a las mejores soluciones ($\alpha$, $\beta$, $\delta$):

   **Ecuaciones para actualizar posiciones:**
   $$
   \vec{D}_\alpha = |\vec{C}_1 \cdot \vec{X}_\alpha - \vec{X}(t)|, \quad \vec{X}_1 = \vec{X}_\alpha - \vec{A}_1 \cdot \vec{D}_\alpha
   $$
   $$
   \vec{D}_\beta = |\vec{C}_2 \cdot \vec{X}_\beta - \vec{X}(t)|, \quad \vec{X}_2 = \vec{X}_\beta - \vec{A}_2 \cdot \vec{D}_\beta
   $$
   $$
   \vec{D}_\delta = |\vec{C}_3 \cdot \vec{X}_\delta - \vec{X}(t)|, \quad \vec{X}_3 = \vec{X}_\delta - \vec{A}_3 \cdot \vec{D}_\delta
   $$

   Donde:
   - $ \vec{D}_\alpha $, $ \vec{D}_\beta $, $ \vec{D}_\delta $: distancias de un lobo a las soluciones líderes.
   - $ \vec{A}_i = 2 \cdot a \cdot r_1 - a $: vector de ajuste que decrece linealmente.
   - $ \vec{C}_i = 2 \cdot r_2 $: vector aleatorio que controla la exploración.
   - $ r_1, r_2 $: números aleatorios en $ [0, 1] $.
   - $ a $: parámetro que decrece de $ 2 $ a $ 0 $ para equilibrar exploración y explotación.



#### **3. Combinación de Posiciones:**
   La nueva posición de un lobo se calcula como un promedio ponderado de las soluciones $\alpha$, $\beta$ y $\delta$:
   $$
   \vec{X}(t+1) = \frac{\vec{X}_1 + \vec{X}_2 + \vec{X}_3}{3}
   $$


### **Etapas del GWO**

1. **Inicialización:** 
   - Se genera una población inicial aleatoria de soluciones.
   - Se evalúa cada solución usando la función objetivo (en este caso, la métrica de error del modelo XGBoost).

2. **Actualización de Posiciones:** 
   - Cada solución ajusta su posición en función de las soluciones $\alpha$, $\beta$ y $\delta$.

3. **Criterio de Parada:**
   - El proceso se repite hasta que se alcanza un número máximo de iteraciones o una mejora mínima en la función objetivo.



### **Ventajas del GWO**

1. **Exploración y Explotación Balanceadas:**  
   GWO alterna entre buscar nuevas áreas del espacio de búsqueda (exploración) y refinar las soluciones encontradas (explotación), gracias al parámetro $a$ que decrece durante las iteraciones.

2. **Eficiencia Computacional:**  
   El algoritmo es ligero y puede manejar problemas de alta dimensionalidad.

3. **Flexibilidad:**  
   Es fácil de implementar y se adapta a diversas funciones objetivo.



### **Aplicación en XGBoost**

En **GWO-XGBoost**, este algoritmo se utiliza para ajustar hiperparámetros como:
- Tasa de aprendizaje ($\eta$).
- Profundidad máxima de los árboles.
- Número de iteraciones de boosting.
- Parámetros de regularización ($\lambda$, $\gamma$).

El objetivo es encontrar configuraciones óptimas que minimicen el error (como RMSE o MAE) mientras se mantienen tiempos de ejecución razonables.

---

## **Whale Optimization Algorithm (WOA - XGBoost)**

El **Whale Optimization Algorithm (WOA)** es un algoritmo metaheurístico inspirado en el comportamiento de alimentación de las ballenas jorobadas, particularmente su técnica de "caza por burbujas", donde se mueven en espiral alrededor de sus presas. Este enfoque se combina con **XGBoost** para ajustar los hiperparámetros del modelo, mejorando tanto la precisión como la eficiencia computacional.


### **Funcionamiento general**

El WOA combina dos comportamientos principales para explorar y explotar el espacio de búsqueda:

1. **Encerramiento de la presa (explotación local):**
   Las ballenas se acercan a la mejor solución conocida en el espacio de búsqueda, simulando el movimiento hacia la presa.

   $$
   \vec{X}(t+1) = \vec{X}_\text{best} - \vec{A} \cdot |\vec{C} \cdot \vec{X}_\text{best} - \vec{X}(t)|
   $$
   Donde:
   - $ \vec{X}(t+1) $ es la nueva posición.
   - $ \vec{X}_\text{best} $ es la mejor solución conocida hasta ahora.
   - $ \vec{X}(t) $ es la posición actual.
   - $ \vec{A} $ es el vector de contracción, calculado como:
     $$
     \vec{A} = 2 \cdot a \cdot \vec{r}_1 - a
     $$
     donde $a$ decrece linealmente de 2 a 0 durante las iteraciones, y $ \vec{r}_1 $ es un número aleatorio en $[0, 1]$.
   - $ \vec{C} $ es otro vector de ajuste aleatorio:
     $$
     \vec{C} = 2 \cdot \vec{r}_2
     $$
     donde $ \vec{r}_2 $ es un número aleatorio en $[0, 1]$.

2. **Movimiento en espiral (exploración global):**
   Simula el movimiento helicoidal de las ballenas alrededor de la presa. Este movimiento es generado mediante una ecuación basada en coordenadas polares.

   $$
   \vec{X}(t+1) = |\vec{D}| \cdot e^{b \cdot l} \cdot \cos(2 \pi l) + \vec{X}_\text{best}
   $$
   Donde:
   - $ \vec{D} = \vec{X}_\text{best} - \vec{X}(t) $ mide la distancia entre la ballena y la presa.
   - $ b $ es una constante que define la forma del espiral.
   - $ l $ es un número aleatorio en $[-1, 1]$.

3. **Selección Probabilística:**
   En cada iteración, con una probabilidad del 50%, el algoritmo elige entre:
   - Encerramiento de la presa (explotación local).
   - Movimiento en espiral (exploración global).

### **Etapas del WOA**
1. **Inicialización:** Se genera una población inicial de soluciones aleatorias (valores de hiperparámetros).
2. **Evaluación:** Cada solución se evalúa utilizando la función objetivo de XGBoost (como RMSE o MAE en un conjunto de validación).
3. **Actualización:** Las posiciones de las "ballenas" (soluciones) se ajustan iterativamente utilizando las fórmulas de encerramiento y espirales.
4. **Convergencia:** El algoritmo se detiene cuando se alcanza un criterio de parada, como un número máximo de iteraciones o una mejora mínima en la función objetivo.


### **Ventajas del WOA**

- **Exploración y explotación balanceadas:** El WOA combina efectivamente la búsqueda global (espirales) con la local (encerramiento), lo que lo hace adecuado para optimizar espacios de búsqueda complejos como los hiperparámetros de XGBoost.
- **Simplicidad y eficiencia:** El algoritmo es relativamente simple de implementar y no requiere muchas configuraciones adicionales.
- **Adaptabilidad:** Puede ajustarse para trabajar con diferentes tipos de problemas gracias a su naturaleza aleatoria y dinámica.



### **Aplicación en XGBoost**

En el contexto de **WOA-XGBoost**, el WOA se utiliza para optimizar los hiperparámetros clave de XGBoost, como:
- Tasa de aprendizaje ($\eta$).
- Profundidad máxima de los árboles.
- Número de iteraciones de boosting.
- Parámetros de regularización ($\lambda$, $\gamma$).


---




## **Comparación de los Algoritmos**

| Algoritmo   | Exploración global | Explotación local | Velocidad de convergencia | Robustez en problemas complejos |
|-------------|---------------------|---------------------|---------------------------|----------------------------------|
| BO-XGBoost  | Baja                | Muy alta            | Alta                      | Media                            |
| GWO-XGBoost | Alta                | Moderada            | Media                     | Alta                             |
| WOA-XGBoost | Moderada            | Alta                | Media                     | Alta                             |

Donde: 

1. **Exploración global**:
   - Indica la capacidad del algoritmo para buscar soluciones en diferentes partes del espacio de búsqueda. Una **alta exploración global** significa que el algoritmo es eficaz para evitar quedarse atrapado en mínimos o máximos locales y puede encontrar regiones prometedoras en el espacio de soluciones.

2. **Explotación local**:
   - Representa la habilidad del algoritmo para refinar soluciones cercanas a las mejores encontradas. Una **alta explotación local** implica que el algoritmo se centra en optimizar alrededor de las soluciones ya identificadas como prometedoras.

3. **Velocidad de convergencia**:
   - Se refiere a qué tan rápido el algoritmo converge hacia una solución óptima o cercana a ella. Una **alta velocidad de convergencia** significa que el algoritmo necesita menos iteraciones para encontrar una buena solución.

4. **Robustez en problemas complejos**:
   - Evalúa la capacidad del algoritmo para manejar problemas con relaciones no lineales, múltiples variables y posibles ruidos en los datos. Una **alta robustez** indica que el algoritmo es confiable y efectivo en problemas desafiantes como la predicción de fenómenos meteorológicos.



## **Diferencia entre exploración y explotación**

1. **Exploración global**:
   - El algoritmo busca en todo el espacio de soluciones posibles, incluso en áreas que no parecen prometedoras inicialmente, con el objetivo de evitar quedarse atrapado en mínimos o máximos locales.

2. **Explotación local**:
   - Una vez identificada una región prometedora (una buena solución inicial), el algoritmo se enfoca en refinar esa solución o encontrar soluciones ligeramente mejores dentro de esa área específica.


### **Ejemplo práctico en optimización metaheurística**
Imagina que estás buscando la cima más alta de una montaña en un paisaje lleno de colinas (el espacio de búsqueda):

- **Exploración global**:  
  Es como caminar por todo el terreno para encontrar las colinas más altas, incluso si están lejos entre sí. Esto asegura que no se pase por alto una colina más alta que las que inicialmente parecen mejores.

- **Explotación local**:  
  Una vez que encuentras una colina alta, comienzas a buscar alrededor de su cima para determinar el punto exacto más alto.


En los algoritmos como GWO, WOA y BO:
- GWO tiende a equilibrar exploración y explotación, pero su enfoque está más inclinado hacia la exploración.  
- WOA tiene una explotación local más pronunciada, especialmente cuando utiliza el mecanismo de contracción y el movimiento en espiral.  
- BO sobresale en explotación local al ajustar soluciones en las áreas con mayor probabilidad de mejora basada en modelos probabilísticos.
