\abstract{

Minimax es una regla de decisión usada en la teoría de la decisión, la teoría de juegos, las estadísticas y la filosofía para minimizar la posible pérdida para un escenario del peor caso(pérdida máxima). O de la misma forma hablando de ganacias, se conoce como "maximin" - para maximizar la ganancia mínima. Originalmente formulado para la teoría de juego de dos jugadores de suma cero, que abarca tanto los casos en que los jugadores toman movimientos alternativos como aquellos en los que realizan movimientos simultáneos, también se ha extendido a juegos más complejos ya la toma de decisiones generales en presencia de incertidumbre. En el siguiente informe se realizará una presentación de un algoritmo donde se optimice la ganancia mínima utilizando balanceo de cargas.

}

keywords: [Teoría de juego](https://en.wikipedia.org/wiki/Game_theory), [Zero-sum game](https://en.wikipedia.org/wiki/Zero-sum_game), [Teoría de la decisión](https://en.wikipedia.org/wiki/Decision_theory)

# Introducción

Existe un montón de aplicaciones en el campo de la IA, pero los juegos son los más interesantes y populares para el público. Estos se aplica en juegos de 2 jugadores como Tic Tac Toe, damas, ajedrez, go, etc. Todos estos juegos tienen al menos una cosa en común, son **juegos de lógica**. Esto significa que pueden ser **descritos por un conjunto de reglas y premisas**. Con ellos, es posible saber desde un punto determinado en el juego, cuáles son los próximos movimientos disponibles. Así que también comparten otras características, son "juegos de información completa". Cada jugador sabe todo acerca de los posibles movimientos del adversario.

En este sentido se tiene dos jugadores involucrados, **MAX y MIN**. Se genera un [árbol de búsqueda](https://en.wikipedia.org/wiki/Binary_search_tree), DFS, comenzando con la posición actual del juego hasta la posición final del juego. A continuación, se evalúa la posición final del juego desde el punto de vista de MAX. Posteriormente, los valores del nodo interno del árbol se rellenan de abajo hacia arriba con los valores evaluados. Los nodos que pertenecen al jugador MAX reciben el valor máximo de sus hijos. Los nodos para el jugador MIN seleccionarán el valor mínimo de sus hijos.

Entonces, los valores representan lo optimo que es un movimiento del juego ya sea para MAX o MIN. Así que el jugador MAX intentará seleccionar el movimiento con el valor más alto al final. Pero el jugador MIN tratará de seleccionar los movimientos que son mejores para él, minimizando así el resultado de MAX.

# Optimización

Ahora bien se ha mencionado solo juegos simples que pueden tener su búsqueda del árbol completo en poco tiempo. Para la mayoría de los juegos esto no es posible, el universo probablemente desaparecería primero. Así que hay algunas optimizaciones para agregar al algoritmo.

Pero debemos saber que al optimizar estamos negociando la información completa sobre los eventos del juego con probabilidades y atajos. En lugar de conocer el camino completo que conduce a la victoria, las decisiones se toman con el camino que podría conducir a la victoria. Si la optimización no está bien escogida, o está mal aplicada, entonces podríamos terminar con una IA muda. Y habría sido mejor usar movimientos aleatorios.

* Una optimización básica es limitar la profundidad del árbol de búsqueda. Esto nos ayuda debido a que si tenemos en frente a un problema complejo generar el árbol completo podría tomar mucho tiempo y además poder recorrerlo. Si un juego tiene un factor de ramificación de 3, esto significaría que cada nodo tiene hijos de árbol.

\begin{figure}[!h]
\centering
\includegraphics[scale=0.5]{ima/1.png}
\end{figure}

La secuencia muestra que a la profundidad n el árbol tendrá $3^{n}$ nodos. Para conocer el número total de nodos generados, necesitamos sumar el recuento de nodos en cada nivel. Así que el número total de nodos para un árbol con profundidad n es $\sum_{n=0}^{n}3^{n}$. Para muchos juegos, como el ajedrez que tienen un factor de ramificación muy grande, esto significa que el árbol podría no encajar en la memoria.

Incluso si este lo hiciera, tomaría mucho tiempo para generar. Supongamos que cada nodo tome 1s para ser analizado, eso significaría que para la optimización anterior, cada árbol de búsqueda tomaría $\sum_{n=0}^{n}3^n$. Para un árbol de búsqueda con profundidad 5, eso significaría $1 + 3 + 9 + 27 + 81 + 243 = 364 * 1 = 364s => 6minutos!$. Esto es demasiado largo para un juego. El jugador renunciaría a jugar el juego, si tuviera que esperar 6m por cada movimiento de la computadora.

* La segunda optimización es utilizar una función que evalúa la posición actual del juego desde el punto de vista de algún jugador. Esto lo hace dando un valor al estado actual del juego, como contar el número de piezas en el tablero, por ejemplo, el número de movimientos dejados al final del juego, o cualquier otra cosa que podamos usar para dar un valor a la posición del juego.

En lugar de evaluar la posición actual del juego, la función podría calcular cómo la posición actual del juego podría ayudar a terminar el juego. O en otras palabras, la probabilidad de que con la posición actual del juego, podamos ganar el juego. En este caso, la función se conoce como **función de estimación**.

Esta función tendrá que tener en cuenta algunas heurísticas. Heurística son los conocimientos que tenemos sobre el juego, y ayudar a generar mejores funciones de evaluación. Por ejemplo, en las fichas, las piezas en las esquinas y en las posiciones laterales no se pueden comer. Así podemos crear una función de evaluación que da valores más altos a las piezas que se encuentran en esas posiciones del tablero, dando así mayores resultados para los movimientos del juego que coloquen piezas en esas posiciones.

Una de las razones por las que la función de evaluación debe ser capaz de evaluar posiciones de juego para ambos jugadores es que no sabe a qué jugador pertenece la profundidad del límite. Sin embargo, se pueden evitar dos funciones si el juego es simétrico. Esto significa que la pérdida de un jugador es igual a las ganancias del otro. Estos juegos también se conocen como juegos ZERO-SUM. Para estos juegos una función de evaluación es suficiente, uno de los jugadores sólo tiene que negar el retorno de la función.

Aun así el algoritmo tiene algunos defectos, uno de los defectos es que si el juego es demasiado complejo la respuesta siempre tomará demasiado tiempo incluso con un límite de profundidad. Una solución es limitar el tiempo de búsqueda. Es decir, si el tiempo se agota se elige el mejor movimiento encontrado hasta el momento.

Un gran defecto es el problema horizonte limitado pues una posición de juego que parece ser muy buena puede resultar muy mala. Esto sucede porque el algoritmo no fue capaz de ver que unos pocos movimientos de juego por delante el adversario será capaz de hacer un movimiento que le traerá un gran resultado. El algoritmo perdió ese movimiento fatal porque estaba cegado por el límite de profundidad.

# Aceleración del algoritmo

Todavía se pueden hacer algunas cosas para reducir el tiempo de búsqueda. Observemos la figura 2. El valor para el nodo A es 3, y el primer valor encontrado para el subárbol que empieza en el nodo B es 2. Así que como el nodo B está en un nivel MIN, sabemos que el valor seleccionado para el Nodo B debe ser menor o igual a 2. Pero también sabemos que el nodo A tiene el valor 3 y los nodos A y B comparten el mismo padre en un nivel MAX. Esto significa que la ruta del juego que comienza en el nodo B no se seleccionaría porque 3 es mejor que 2 para el nodo MAX.

\begin{figure}[!h]
\centering
\includegraphics[scale=0.5]{ima/2.png}
\end{figure}

Esto significa que a veces la búsqueda puede ser abortada porque descubrimos que el subárbol de búsqueda no nos llevará a ninguna respuesta viable.

Esta optimización se conoce como alpha-beta cuttoffs y el algoritmo es el siguiente:

* Tenga dos valores pasados alrededor de los nodos de árbol:
    - el valor alfa que contiene el mejor valor MAX encontrado;
    - el valor beta que contiene el mejor valor MIN encontrado.
    
* En el nivel MAX, antes de evaluar cada ruta secundaria, compare el valor devuelto con el de la ruta anterior con el valor beta. Si el valor es mayor entonces abortamos la búsqueda del nodo actual;

* En el nivel MIN, antes de evaluar cada ruta secundaria, compare el valor devuelto con el de la ruta anterior con el valor alfa. Si el valor es menor entonces abortamos la búsqueda del nodo actual.

# Adición de límites de alfa-beta
Con toda esta charla sobre la velocidad de búsqueda muchos de ustedes podrían estar preguntándose de qué se trata todo esto. Bueno, la velocidad de búsqueda es muy importante en AI porque si un algoritmo toma demasiado tiempo para dar una buena respuesta el algoritmo puede no ser adecuado.

Por ejemplo, una buena implementación de algoritmo MinMax con una función de evaluación capaz de dar muy buenas estimaciones podría ser capaz de buscar 1000 posiciones por segundo. En el ajedrez touramental cada jugador tiene alrededor de 150 segundos para hacer un movimiento. Por lo tanto, probablemente sería capaz de analizar 150 000 posiciones durante ese período. Pero en el ajedrez cada movimiento tiene alrededor de 35 ramas posibles! Al final el programa sólo sería capaz de analizar alrededor de 3, a 4 movimientos adelante en el juego [1]. Incluso los seres humanos con muy pocas prácticas en el ajedrez pueden hacerlo mejor que esto.

Pero si utilizamos MinMax con puntos de corte alfa-beta, una vez más una implementación decente con una función de evaluación buena, el comportamiento de resultado podría ser mucho mejor. En este caso, el programa podría ser capaz de duplicar el número de posiciones analizadas y por lo tanto convertirse en un adversario mucho más duro.

# Un ejemplo de implementación
Un ejemplo es siempre una buena manera de mostrar cómo un algoritmo puede ser implementado. En 1999, yo y un amigo mío hemos implementado un juego de damas como una aplicación Java para la clase de AI en la universidad. Recientemente he portado el juego a C #.

El algoritmo MinMax no es una gran implementación. De hecho, debo mencionar que lo mejor de todo es que funciona. Sin embargo, creo que presenta una manera que el algoritmo podría ser implementado y como un ejemplo es lo suficientemente bueno.

El juego utiliza MinMax con puntos de corte alfa-beta para los movimientos de la computadora. La función de evaluación es un promedio ponderado de las posiciones ocupadas por las piezas de control. La figura 3 muestra los valores para cada posición del tablero. El valor de cada posición del tablero se multiplica por el tipo de pieza que descansa en esa posición, descrita en la Tabla 6. El Listado 5 muestra la implementación de Java de la función de evaluación. Se ha modificado ligeramente para el artículo.