# Teoría de Juegos Combinatorios

# Objetivos

# Introducción

"En teoría de juegos combinatorios estudiamos juegos de 2 jugadores con información perfecta sin movimientos aleatorios y con un resultado distinto de empate" [1]

En nuestro estudio veremos juegos donde el turno de los jugadores se alterna en cada jugada. Asi, estos juegos están determinados por:

**(Conjuntos de posiciones, posición inicial, Conjunto de posiciones finales, Jugador que comienza, Función que determina los movimientos posibles para cada posición)**

Ahora, si la función que determina los movimientos posibles para cada función depende de que jugador es su turno entonces estamos ante un *partizan game*, en caso contrario en un *impartial game*. Gráficamente:

![](./pictures/games-clasification.jpg)


Ahora, para todos los problemas que veremos a continuación consideren que cada jugador siempre hara 'el mejor movimiento posible' (esto último se entenderá mejor después de ver los ejemplos)

# IMPARTIAL GAMES

## WL states (Winning-Losing states)

**PROBLEMA**
Dos amigos (A y B) decidieron jugar un juego en el que el perdedor iria a comprar Pringles en Tambo. El juego tiene inicialmente una pila de `n` pringles. En cada turno un jugador debe comer 1, 2 o 3 pringles. El jugador que come las últimas pringles gana. Suponiendo que ambos jugadores juegan perfectamente y que A comienza. ¿Quién es el ganador?

**Subtasks:**

1. Resuelva el problema para n = 21
2. Resuelva el problema $\forall n \geq 0$

## Solución

1. Nos damos cuenta que:  
Sea:  
W: Winning position for A  
L: Losing position for A  
Entonces, tenemos  
- ans[0] = L: "No hay nada que comer"
- ans[1] = W: "Puedo comer 1 pringle y ganar"
- ans[2] = W: "Puedo comer 2 pringles y ganar"
- ans[3] = W: "Puedo comer 3 pringles y ganar"
- ans[4] = L: "No importa si como 1, 2, 3 pringles, la cantidad que quedara llevará a la victoria de B"
- ans[5] = W: "Puedo comer 1 pringle y poner a B en la situación que ocurria cuando habian 4 pringles"
- ans[6] = W: "Analogo a lo anterior"
- ans[7] = W: "Analogo a lo anterior"
- ans[8] = L: "Analogo a lo que ocurrió con ans[4]"
- ans[9] = W
- ans[10] = W
- ans[11] = W
- ans[12] = L
- ans[13] = W
- ans[14] = W
- ans[15] = W
- ans[16] = L
- ans[17] = W
- ans[18] = W
- ans[19] = W
- ans[20] = L
- ans[21] = W

Entonces, para N = 21 A gana :)

2. Con lo anterior nos damos cuenta que A pierde $\leftrightarrow n \bmod 4 = 0$

En el problema anterior, intuitivamente hemos desarrollado lo que llamaremos:
    
**Propiedad característica**
1. Todas las posiciones finales son posiciones L
2. Desde cada posición W hay almenos un movimiento a una posición L
3. Cada movimiento desde una posición L es a una posición W

**NOTA:** Todos los problemas que veamos hoy deberían tener en su enunciado algo como ("Ambos jugadores juegan alternandose y optimamente"), pero para evitar redundancia lo omitiré en los enunciados. 

**PROBLEMA: [10404 - Bachet's Game](https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&category=24&page=show_problem&problem=1345)**

Dado 2 jugadores (Stan y Ollie), una pila de `n` piedras y un conjunto de enteros $S = \{s_1, s_2, \dots, s_m\}$. Si en cada turno un jugador puede retirar $s_k$ piedras (si $s_k \in S \quad \land \quad s_k \leq $ piedras que quedan) y Stan comienza. ¿Quién ganará?

**Entrada:** 
Número indefinido de líneas de la forma:  
$n \quad m \quad s_1 \quad s_2 \quad s_3 \quad \dots \quad s_m$

**Salida:**  
Por cada línea imprimir  
"[nombreDelGanador] wins"  

**SOLUCIÓN**

```cpp
#include <bits/stdc++.h>

#define L_POS 1
#define W_POS 2
#define U_POS 3

using namespace std;

const int MAX_M = 12, MAX_N = 1e6 + 10;

int n, m, s[MAX_M], dp[MAX_N];

void print () {
  puts(dp[n] == W_POS ? "Stan wins" : "Ollie wins");
}

bool isNposition (int id) {
  bool ret = false;
  for (int k = 0; k < m and not ret; k++) if (id - s[k] >= 0) ret |= dp[id - s[k]] == L_POS;
  return ret;
}

void setWpositions (int id) {
  for (int k = 0; k < m; k++) if (id + s[k] <= n) dp[id + s[k]] = W_POS;
}

void solve () {
  dp[0] = L_POS;
  setWpositions(0);
  for (int id = 1; id <= n; id++) if (dp[id] == U_POS) dp[id] = isNposition(id) ? W_POS : L_POS;
}

void read () {
  for (int i = 0; i < m; i++) scanf("%d", s + i);    
}

void clear () {
  fill(dp, dp + n + 1, U_POS);
}

int main () {
  while (~scanf("%d %d", &n, &m)) {
    clear();
    read();
    solve();
    print();
  }
  return (0);
}

```

## Nim values

## El juego de Nim

Hay `n` pilas de piedras de tamaños $x_1, x_2, \dots, x_n$. Ahora, en cada turno un jugador escoge una pila 1 debe quitar al menos 1 piedra y como maximo toda la pila. El jugador que quite la(s) últimas piedras gana.

### Teorema de Bouton:

Sea:  
L: conjunto de posiciones perdedoras  
W: conjunto de posiciones ganadoras

Tenemos:

$(x_1, x_2, \dots, x_n) \in L \leftrightarrow \displaystyle \bigoplus_{1 \leq i \leq n} x_i = 0$

Nota: $\oplus $ es el operator xor

### Demostración:

Usaremos la propiedad característica para demostrar el teorema.

1. La unica posición final es $(0, 0, \dots, 0) \quad \land \quad \displaystyle \bigoplus 0 = 0$
2. Sea $(x_1, x_2, \dots, x_n) \in W$ si escribimos los números por columnas en su representación binaria (completando con 0s a la izquierda de ser necesario para que todos las representaciones tengan el mismo tamaño) notamos que existe al menos una columna con una cantidad impar de 1s (pues $\displaystyle \bigoplus x_i \not = 0$), luego si considero la columna más a la izquierda que cumple lo anteior, puede seleccionar un número que tenga un 1 en esa columna. Sea `p` el número escogido, ahora mi movimiento sera volver a `p` un número $p^{'} < p$. Entonces, $p^{'}$ lo formo de esta manera:   $p^{'}$ tendra 0 en su representación binaria en la columna escogida (y todas las que esten a la izquierda, si existen). Así, $p^{'} < p$, luego, para todas las columnas a la derecha puedo escoger poner un 1 o un 0 de tal manera que la cantidad de 1s en cada columna sea par. De esta forma, obtenga el estado $(x_1, x_2, \dots, p^{'}, \dots, x_n) \mid \bigoplus (x_1, x_2, \dots, p^{'}, \dots, x_n) = 0$, es decir, hemos alcanzado un estado que pertenece a `L`
3. Sea $(x_1, x_3, \dots, x_k, \dots, x_n) \in L$ Si pasamos al estado $x_k > x_{k^{'}} \quad (x_1, x_3, \dots, x_{k^{'}}, \dots, x_n)$ entonces $\bigoplus (x_1, x_3, \dots, x_{k^{'}}, \dots, x_n) \not = 0$. Supongamos lo contrario, entonces

$$\bigoplus(x_1, x_3, \dots, x_k, \dots, x_n) = \bigoplus(x_1, x_3, \dots, x_{k^{'}}, \dots, x_n)$$
$$x_k = x_{k^{'}} (\rightarrow \gets)$$

**PROBLEMA APLICATIVO DEL TEOREMA DE BOUTON: [10165 - Stone Game](https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&category=24&page=show_problem&problem=1106)**

El enunciado es el juego de Nim.

**Entrada**  
Recibiras un entero T, seguido de T casos  
En cada caso recibiras un `n` seguido de numeros $x_1 \quad x_2 \quad \dots \quad x_n$

**Salida**  
Imprimir 'No' si $(x_1, \dots, x_n) \in L$, sino 'Yes'

**SOLUCIÓN**

```cpp
#include <bits/stdc++.h>

using namespace std;

int main() {
  int n;
  while (scanf("%d", &n), n) {
    int xor_sum = 0;
    for (int i = 0, x_i; i < n; i++) {
      scanf("%d", &x_i);
      xor_sum ^= x_i;
    }
    puts(xor_sum == 0 ? "No" : "Yes");
  }
  return (0);
}

```

Recomndación: Leer [[1] sección 2.5 - Misère Nim](http://www.math.ucla.edu/%7Etom/Game_Theory/comb.pdf)

## EXTRA: Staircase Nim

**Problema:** Se tiene una escalera con n escalones, en cada escalon hay cierta cantidad de monedas. Sea $(x_1, \dots, x_n)$ la cantidad de monedas que hay en cada escalon. En cada turno un jugador debe escoger un escalon que contenga monedas y pasar al menos 1 y como maximo todas las monedas de ese escalon al siguiente escalon. Si las monedas son sacadas del escalon 1 son removidas del juego. El ganador es aquel que remueve las ultimas monedas del juego. ¿Cuales son las posiciones que pertenecen a L?

**Afirmo:**

$$(x_1, x_2, \dots, x_n) \in L \leftrightarrow \bigoplus (x_1, x_3, x_5, x_7, \dots x_{n - [n \bmod 2 = 0]}) = 0$$

Donde:

[`exp`] = 1 si se cumple `exp`, 0 en otro caso

Puedes intentar demostrar la afirmación anterior de manera similar al teorema de Bouton. Si te rindes puedes chequear este [link](https://math.stackexchange.com/questions/937495/relationship-between-regular-nim-and-laskers-nim)

Ahora, puedes intentar este problema usando lo aprendido: [G3](https://www.codechef.com/problems/G3)

Si deseas ver otro problema con staircase Nim puedes chequear [Move the Coins](https://www.hackerrank.com/contests/world-codesprint-april/challenges/move-the-coins). Revisar [[3]](https://codeforces.com/blog/entry/44651) te puede ayudar.

### Un poquito de grafos

Si nos damos cuenta, en los juegos anteriores en cada momentos estoy en un estado `S` y puedo pasar a un conjunto de nuevos estados $S_1, S_2, \dots, S_n$. Es decir, podría representar los juegos combinatorios mediante grafos así:

$G = (X, F)$

Donde:

$X = $ Conjunto de posibles estados

$F = \bigcup \, (x, y) \mid y \in \sigma(x)$, donde

$\sigma(x) = $ estados alcanzables a partir del estado x

Así, un juego combinatorio en G = (X, F) sigue las siguientes reglas:

1. El primer jugador comienza en el estado $x_0$ (estado fijo)
2. Los movimientos son alternados entre ambos jugadores
3. Si se esta en el estado `x`, el jugador puede moverse a un estado `y` $\mid y \in \sigma(x)$
4. Si un jugador comienza su turno en un estado terminal, este pierde

### Sprague-Grundy Function (Esto es lo que algunos conocen como Nim Values)

$$g(x) = min\{n \geq 0: n \not = g(y) \quad \forall y \in \sigma(x) \}$$

Lo anterior lo expresamos como:

$$g(x) = mex\{g(y): y \in \sigma(x) \}$$

Ahora, analogamente a la propiedad características de los estados WL, tenemos:
1. Si x es una posición terminal, entonces g(x) = 0
2. Si g(x) = 0, entonces $g(y) \not = 0 \quad \forall y \in \sigma(x) $
3. Si $g(x) \not = 0$, entontes $\exists y \in \sigma(x) \mid g(y) = 0$

Es decir, $g(x) = 0$ es equivalente a decir que $x \in L$

**Ejemplo:**
- Solucionar el primer problema calculando sus Nim values ("Ver pizarra")

**Ejercicio:**

Encontrar el Sprague-Grundy function para el siguiente grafo:

![](./pictures/ejercicio.png)

La solución la pueden encontrar en ./pictures

## The Sprague-Grundy Theorem

**Pregunta:** ¿Podriamos combinar un numero finito de juegos para formar un 'nuevo juego'?  
**Respuesta:** Podemos unir n juegos donde en cada turno un jugador debera escoger un juego y hacer un movimiento. Este juego tendra fin cuando todos los juegos alcancen un estado terminal y el ganador será el ganador del último juego que alcance un estado terminal.

Lo anterior se define formalmente asi:

Sea:

$G_i = (X_i, F_i) \quad [1 \leq i \leq n]$

Formamos $G = (X, F)$, donde:

$X = X_1 \times \dots \times X_n$

$F(x_1, \dots, x_n) = \{\sigma_1(x_1) \times \dots \times \sigma_n(x_n) \}$

Ahora, el teorema de Sprague-Grundy nos dice que:

$$g(x_1, \dots, x_n) = g_1(x_1) \oplus \dots \oplus g_n(x_n) $$

**Demostración:**

Ver [[1] - Capitulo 4](http://www.math.ucla.edu/%7Etom/Game_Theory/comb.pdf)


Un super resumen de impartial games lo pueden encontrar en [[7] - Capitulo 25](https://cses.fi/book/index.html)

## PROBLEMA [ASTRGAME](https://www.codechef.com/problems/ASTRGAME)

Teddy y Tracy tienen un string `S` y `n` strings $\{w_1, \dots, w_n\}$. Al inicio el unico string en juego es `S`. En cada turno el jugador escogera un string en juego (sea X) y un string $x_k$ tal que $X = Ax_kB$ donde A, B son substrings de X, posiblemente vacíos. Luego, Eliminará $x_k$ de X haciendo que ahora X ya no sea un string en juego, pero que si lo sean A y B. Perderá el jugador que ya no puede hacer un movimiento. Si Teddy comienza, ¿quién ganará?

**Entrada**

T: número de casos  
Para cada caso  
S, n  
Seguido de $w_1, \dots, w_n$

**Salida**  
'Teddy' si gana Teddy, 'Tracy' en caso contrario

**Especificaciones**
- $1 \leq T \leq 5$
- $1 \leq N \leq 30$
- $1 \leq |S| \leq 30$
- $1 \leq |w_i| \leq 30$
- $S$ y $w_i$ solo contiene caracteres 'a'-'z

## SOLUCIÓN

```cpp
#include <bits/stdc++.h>

using namespace std;

int T, N;
string S, word;
set <string> dict;
unordered_map <int, int> memo;

inline int _hash(const int& l, const int& r) {
  return l * S.size() + r;
}

int SGV (int l, int r) {
  if (r < l) return 0;
  int __hash = _hash(l, r);
  if (memo.find(__hash) != memo.end()) return memo[__hash];
  int mex = 0;
  unordered_set <int> Grundy;
  for (int i = l; i <= r; i++)
    for (int j = i; j <= r; j++)
      if (dict.find(string(S.begin() + i, S.begin() + j + 1)) != dict.end())
        Grundy.insert(SGV(l, i - 1) xor SGV(j + 1, r));
  while (Grundy.find(mex) != Grundy.end()) mex++;
  return memo[__hash] = mex;
}

int main () {
  cin >> T;
  while (T--) {
    memo.clear();
    dict.clear();
    cin >> S >> N;
    while (N--) cin >> word, dict.insert(word);
    puts(SGV(0, S.size() - 1) == 0 ? "Tracy" : "Teddy");
  }
  return (0);
}

```

# PARTIZAN GAMES

Ahora, si nos encontramos ante un `partizan game` en una competencia, es muy probable que nos den de entrada un estado del juego y nos pidan determinar quien ganará. Si intentaramos resolver esta clase de problemas usando las técnicas anteriormente mostradas, es muy probable que no lleguemos a nada o a una respuesta erroneo,

Por lo general, cuando se presenta una de estos problemas la solución consiste en simular el árbol de decisiones.

Ahora, recordamos que cuando queremos generar a partir de un estado todos los posibles estados que alcanza, y a partir de los estados alcanzados generar los nuevos estados que alcanza y ... Recordamos que podemos usar una técnica aprendida previamente:

## Backtracking

Usando backtracking nos damos cuenta que podemos formar todo el árbol de decisiones, y para determinar el ganador podemos asignar un valor de `utilidad` a cada estado terminal desde la perspectiva del primer jugador. Este valor `utilidad` podría indicar, por ejemplo, que tanto le conviene ese estado. Así, si es un estado en el que este jugador gana, podríamos representarlo por un número positivo, 0 en caso de empate y negativo en caso de perdida (para los problemas que veamos usualmente es suficiente usar valores de utilidad -1, 0 y 1).

Ahora, debido a que los jugadores juegan óptimamnte se presenta un escenario donde en cada turno del primer jugador este intentará ir hacia un estado que le de la mayor utilidad, mientras que el segundo jugador buscará que el primer jugador obtenga la menor utilidad.

Lo anterior es ilustrado en el siguiente gráfico para el juego de michi (o Tic-Tac-Toe como algunos lo conocen), puedes chequear [[4]](https://www.youtube.com/watch?v=6ELUvkSkCts) para una explicación más detallada:

![](./pictures/tic-tac-toe.png)

Ahora, debido a la frecuencia e importancia de este tipo de soluciones con backtracking, esta técnica anteriormente descrita recibe un nombre: Minimax (Recuerden el [Rumpelstiltskin Principle](https://alum.mit.edu/slice/rumpelstiltskin-principle))

## Minimax

**EJERCICIO:**

![](./pictures/minimax.png)

Usando la explicación anterior y la definición de la imagen. Determinar Minimax(A)

## Alpha-Beta Prunning

Para nuestro caso en particular, nuestro función utilidad solo toma valores -1, 0 o 1. Luego, por ejemplo, si estoy generando el arbol de decisiones y actualmente esty intentando maximimar el valor que puede alcanzar un estado y ya obtuve un 1, entonces ya no necesito recorrer otros estados que sean generados a partir de mi estado actual. De manera similar ocurre si estoy intentando minimizar un estado y ya encontre un -1.

Lo anterior descrito nos permite hacer prunning a nuestro backtracking (que llamamos Minimax para los casos que estamos estudiando). El prunning anteriormente descrito lo conoceremos como Alpha-Beta prunning.

Lo explicado aquí lo pueden encontrar en más detalle y con otras funciones de utilidad en [[5]](https://www.youtube.com/watch?v=d2maa6k2gYE)

## EJERCICIO [GAME 31](https://www.spoj.com/problems/GAME31/)

Se tiene una baraja de cartas del 1 al 6 en sus 4 tipos de cada valor. Asi, en total se tiene 24 cartas. En cada turno un jugador debe escoger una carta. El primero que escoja una carta tal que la suma de todas los valores de las cartas sacadas sea mayor a 31 pierde. Si dos jugadores (A y B) ya sacaron una cantida `n` de cartas $s_1 \dots s_n$ y A comenzo. ¿Quién ganará?

**Entrada**  
Un número indefinido de lineas. En cada línea recibirás:
$s_1 \dots s_n$ representando las cartas que ya han sido escogidas

**Salida**  
$s_1 \dots s_n$ [Ganador]


## SOLUCIÓN

```cpp
#include <bits/stdc++.h>

using namespace std;

const int LEN = 100, N_CARDS = 6;

int ct[N_CARDS + 1];
char moves[LEN];
bool ans;

namespace Minimax {
  int minVal();
  int maxVal();
  void solve();
}

namespace Minimax {
    
  int sum;
  const int WIN  =  1;
  const int FAIL = -1;

  int minVal () {
    if (sum > 31) return FAIL;
    int ret = WIN;
    for (int card = 1; card <= N_CARDS and ret != FAIL; card++) {
      if (ct[card]) {
        ct[card]--, sum += card;
        ret = min(ret, maxVal());
        ct[card]++, sum -= card;
      }
    }
    return ret;
  }

  int maxVal () {
    if (sum > 31) return WIN;
    int ret = FAIL;
    for (int card = 1; card <= N_CARDS and ret != WIN; card++) {
      if (ct[card]) {
        ct[card]--, sum += card;
        ret = max(ret, minVal());
        ct[card]++, sum -= card;
      }
    }
    return ret;
  }

  void solve () {
    sum = 0;
    int id;
    for (id = 0; moves[id]; id++) {
      ct[moves[id] - '0']--;
      sum += moves[id] - '0';
    }
    int res = (id & 1) ? minVal() : maxVal();
    ans = res == WIN;
  }
}


inline void print() {
  printf("%s %c\n", moves, "BA"[ans]);
}

inline bool read() {
  if (cin.getline(moves, LEN)) return true;
  return false;
}

inline void clear() {
  fill(ct, ct + N_CARDS, 4);
}

int main () {
  while (read()) {
    clear();
    Minimax::solve();
    print();
  }
  return (0);   
}


```

Una explicación más amplia de Minimax y Alpha-Beta prunning la pueden encontrar en [[6]](https://www.youtube.com/watch?v=STjW3eH0Cik&index=6&list=PLUl4u3cNGP63gFHB6xb-kVBiQHYe_4hSi)

## Bibliografía

1. [Game Theory - Tomas S. Ferguson](http://www.math.ucla.edu/%7Etom/Game_Theory/comb.pdf)
2. [Algorithm Games - Topcoder](https://www.topcoder.com/community/data-science/data-science-tutorials/algorithm-games/)
3. [Intro to Staircase Nim + Editorial for HackerRank "Move the Coins"](https://codeforces.com/blog/entry/44651)
4. [Minimax algorithm](https://www.youtube.com/watch?v=6ELUvkSkCts)
5. [Alpha beta prunning](https://www.youtube.com/watch?v=d2maa6k2gYE)
6. [Search: Games, Minimax, and Alpha-Beta](https://www.youtube.com/watch?v=STjW3eH0Cik&index=6&list=PLUl4u3cNGP63gFHB6xb-kVBiQHYe_4hSi)
7. [Competitive Programmer’s Handbook - Antti Laaksonen](https://cses.fi/book/index.html)