## **ALPHA-BETA**

En esta sección exploraremos la técnica de poda de Alpha-Beta. Un optimizador importante del algoritmo Minimax para la toma de decisiones en juegos. Se cubrirán los siguientes aspectos:
1. Introducción general al concepto  

2. Mecanismo y principios fundamentales  

3. Algoritmo detallado: pseudocódigo  

4. Poda Alpha-Beta en el contexto de Pacman  

5. Beneficios de Alpha-Beta  

6. Inconvenientes 



### **1. Introducción general al concepto**

La poda de Alpha-Beta es una técnica de optimización para el algoritmo de minimax el cual es un algoritmo de  búsqueda que busca disminuir el número de nodos que son explorados por el algoritmo minimax en su árbol de búsqueda.

### **2. Mecanismo y principios fundamentales**

* Con Alpha-beta podemos lograr el mismo resultado que minimax pero evaluando menos nodos. Esto es posible porque la poda de alpha-beta corta ramas del árbol de búsqueda que posiblemente no pueden influir en la decisión final, solo lo hace más rápido.
* La eficiencia de la poda alpha-beta depende en gran medida del orden en que se evalúan los movimientos. Un ordenamiento óptimo puede llevar a una poda enorme, mientras que un ordenamiento en el peor de los casos puede llevar a no podar nada.
* Mantiene $2$ valores, $\alpha$ y $\beta$, que se representan la puntuación máxima y mínima que el jugador tiene asegurada, respectivamente.
*   Alpha se asocia con el jugador maximizador (a menudo llamado MAX), y beta se asocia con el jugador minimizador (a menudo llamado MIN).  

*   Inicialmente, alfa es infinito negativo y beta es infinito positivo.

Tabla de resumen:

| Término | Jugador | Descripción | Valor inicial |
| ------- | ------- | ----------- | ------------- |
| $\alpha$  | Max  |Mejor puntuación (más alta) garantizada para MAX a lo largo del camino actual.         |$-\infty$          |
| $\beta$  | Min  |Mejor puntuación (más baja) garantizada para MIN a lo largo del camino actual.        |$+\infty$           |


### **3. Algoritmo detallado: pseudocódigo**

El siguiente pseudocódigo ilustra la lógica fundamental de la búsqueda con poda Alfa-Beta:


\begin{equation} \nonumber
\begin{array}{l}
\text{Input: Root MAX node } J \leftarrow s \\
\text{Output: Optimal Minimax Value } V(J). \\
\\
\text{1. if } J \text{ is terminal then return } V(J) = e(J). \\
\text{2. for } k = 1, 2, \ldots, b: \\
\hspace{10pt} \text{1. Generate } J_k \text{ the } k\text{-th successor of } J \\
\hspace{10pt} \text{2. Evaluate } V(J_k) \; \text{[recursive call]} \\
\hspace{10pt} \text{3. if } k = 1, \text{ set } CV(J) \leftarrow V(J_1) \\
\hspace{10pt} \text{4. else:} \\
\hspace{20pt} \text{1. if } J \text{ is MAX then set } CV(J) \leftarrow \max[CV(J), V(J_k)] \\
\hspace{20pt} \text{2. if } J \text{ is MIN then set } CV(J) \leftarrow \min[CV(J), V(J_k)] \\
\text{3. return } V(J) = CV(J)
\end{array}
\end{equation}



### **4. Poda Alpha-Beta en el contexto de Pacman**

En el contexto de Pacman, la poda de alpha-beta se utiliza para determinar el mejor movimiento de pacman considerando las respuestas de los fantasmas. Pacman es el jugador max $($ tratando de obtener el $score$ más alto $)$ y los fantasmas son los jugadores min $($ tratando de terminar el juego o minimizar el $score$ de pacman $)$.

* **Evaluación de estado:** 
A cada estado del juego, es decir, donde está pacman, los fantasmas, la comida restante, etc. Se le asigna una puntuación mediante una función de avaluación explicada posteriormente. La poda alpha-beta utiliza estas puntuaciones para decidir qué partes del árbol del juego explorar.  

En nuestra implementación, la función `alphabeta` toma el estado actual del juego, la profundidad de búsqueda deseada, alpha, beta y el jugador actual, ya esa como Min o Max.  
Durante la búsqueda, si alpha se vuelve mayor o igual a beta, significa que la rama actual puede ser podada. Esto se debe a que el jugador max ya ha encontrado un movimiento que garantiza una puntuación mayor o igual a alpha y el jugador min ya ha encontrado un movimiento que garantiza una puntuación menor o igual a beta. Si $\alpha \geq \beta$, la posición actual no puede ser el resultado del mejor juego de ambos jugadores y, por lo tanto, no necesita ser explorada más a fondo.  


<div align="center">
<h1>Alpha-Beta<h1>
    <img src="../fotos/alpha_beta_funcion.png" style="width: 1300px;">
</div>



Con sus respectivos jugadores de Min y Max:  
  

<div style="width: 100%; text-align: center;">
    <div style="float: none; display: inline-block;">
    <h1>Max<h1>
        <img src="../fotos/alpha_beta_funcion_max.png" style="width: 900px;">
    </div>
    <div style="float: none; display: inline-block;">
    <h1> Min <h1>
        <img src="../fotos/alpha_beta_funcion_min.png" style="width: 900px;">
    </div>
</div>




### **5. Beneficios de Alpha-Beta**

*   **Espacio de búsqueda reducido:** Reduce significativamente el número de nodos a evaluar en el árbol de búsqueda en comparación con el minimax simple.  

*   **Decisiones más rápidas:** Conduce a una toma de decisiones más rápida, especialmente en juegos con grandes factores de ramificación o requisitos de búsqueda profunda.  
*   **Viabilidad para búsquedas más profundas:** Permite búsquedas más profundas dentro de los mismos límites de tiempo computacional, lo que potencialmente lleva a un mejor juego.    
  

Aquí un ejemplo de la poda de alpha-beta respecto a minimax normal (Los nodos rojos son Max y los azules Min), todo esto con profundidad $4$:  

<div style="width: 100%; text-align: center;">
<h1> AlphaBeta<h1>
    <div style="float: none; display: inline-block;">
        <img src="../fotos/alphabeta.png" style="width: 900px;">
    </div>
   <h1> Minimax<h1>
    <div style="float: none; display: inline-block;">
        <img src="../fotos/minimax.png" style="width: 900px;">
    </div>
</div>

### **6. Inconvenientes**

*   **Complejidad:** El algoritmo es ligeramente más complejo de implementar que el minimax simple debido a la gestión de los valores alfa y beta.  
*   **Dependencia del orden de los movimientos:** La efectividad de la poda depende en gran medida del orden en que se examinan los nodos posteriores. Si se examinan buenos movimientos tempranos, ocurre más poda.
*   **Necesidad de una buena función de evaluación:** El rendimiento de la poda alfa-beta en pacman depende críticamente de la función de evaluación. Si la función no evalúa con el estado del juego, el algoritmo podría tomar decisiones subóptimas. Por ejemplo, una función de evaluación que solo considera la puntuación podría llevar a pacman a una trampa si no pondera también factores como la proximidad a los fantasmas, la distancia a la comida más cercana o si las cápsulas están activas. Una buena función de evaluación en pacman debería considerar:  

    *   Puntuación actual del juego.
    *   Distancia a los fantasmas.  

    *   Distancia a la comida más cercana.
    *   Número de cápsulas restantes.
    *   Estado de las cápsulas.
    *   Si el estado actual es una victoria o una derrota.