# Jogo da velha com Reinforcement Learning

In [1]:
import numpy as np
import velha as jv

from pathlib import Path

# Treinamento de políticas
Cria políticas para jogador que inicia (**X**) e que não inicia (**O**) com variações do número de rodadas de treinamento. Assumimos que quanto maior o número de rodadas de treinamento, melhor a política. Também é importante perceber que a política do jogador que inicia (**X**) é diferente da política do jogador que não inicia (**O**), além disso pode ser necessário que a política de **X** precise de mais rodadas de treinamento para ficar ótima que a política para **O**, ou vice-versa.

In [2]:
versao = "-v0.0"
sobrescreve = False

# Treinamento de dois jogadores por um número de rodadas

rodadas = 10 ** np.arange(3, 7)
fraco, medio, forte, muito_forte = rodadas


for rodadas_treinamento in rodadas:
    print(f'Iniciando treinamento com {rodadas_treinamento} rodadas...')
    verifica = rodadas_treinamento / 10
    politica_X = f"X{rodadas_treinamento}{versao}"
    politica_O = f"O{rodadas_treinamento}{versao}"

    if sobrescreve or (not jv.existe_politica(politica_X) or not jv.existe_politica(politica_O)):
        primeiro = jv.Maquina(politica_X)
        segundo = jv.Maquina(politica_O)
        treino = jv.jogoDaVelha(primeiro, segundo)
        treino.treinamento(rodadas_treinamento, verifica)
        print(f"Salvando políticas para {rodadas_treinamento} rodadas")
        print(f'Salvando política: {primeiro.nome}')
        primeiro.salva_politica()
        print(f'Salvando política: {segundo.nome}')
        segundo.salva_politica()
    else:
        print(f'Políticas {politica_O} e {politica_X} já existem')

Iniciando treinamento com 1000 rodadas...
Políticas O1000-v0.0 e X1000-v0.0 já existem
Iniciando treinamento com 10000 rodadas...
Políticas O10000-v0.0 e X10000-v0.0 já existem
Iniciando treinamento com 100000 rodadas...
Políticas O100000-v0.0 e X100000-v0.0 já existem
Iniciando treinamento com 1000000 rodadas...
Políticas O1000000-v0.0 e X1000000-v0.0 já existem


# Gera uma política combinando políticas para X e O
Ou seja, cria uma política que pode jogar como **X** e como **O**, juntando o resultado do treinamento de uma política para **X** e uma política para **O**

In [3]:
politica_combinada = f"XO{muito_forte}{versao}"
if sobrescreve or not jv.existe_politica(politica_combinada):
    primeiro = jv.Maquina("velhaRLX", taxa_exploracao=0.0)
    primeiro.carrega_politica(f"X{muito_forte}{versao}")
    segundo = jv.Maquina("velhaRLO", taxa_exploracao=0.0)
    segundo.carrega_politica(f"O{muito_forte}{versao}")

    primeiro.combina_e_salva_politica(segundo, politica_combinada)
    print(f"Salvando política {politica_combinada}!!!")
else:
    print(f"Arquivo de política {politica_combinada} já existe!")

Arquivo de política XO1000000-v0.0 já existe!


# Consulta à tabela Q de X

In [4]:
primeiro = jv.Maquina("velhaRL", taxa_exploracao=0.0)
primeiro.carrega_politica(f"X{forte}{versao}")

for tabuleiro in [[0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 2, 0, 0, 1, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 1, 2]]:
    estado = jv.gera_hash_tabuleiro(np.array(tabuleiro))
    print(f"Estado: {estado}")
    jv.mostra_tabuleiro(tabuleiro)
    print(f"Tabela Q: {primeiro.q[estado]}")
    print(f"Lance da política = {max(primeiro.q[estado], key=primeiro.q[estado].get)}\n")

Estado: [0 0 0 0 0 0 0 0 0]
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
Tabela Q: {0: -1.3205129232204567, 1: -1.3066054901742592, 2: -1.6052991667271466, 3: -1.2933183780019184, 4: -1.3796134125942907, 5: -1.575972575032678, 6: -1.3336408759830105, 7: -1.3031460319755253, 8: -1.289147952518566}
Lance da política = 8

Estado: [0 2 0 0 1 0 0 0 0]
-------------
|   | O |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Tabela Q: {0: 1.7403840622744235, 2: 1.7115601086676502, 3: 1.2133708175507354, 5: 2.610639794211019, 6: 3.7561633017053677, 7: -0.4460849132397475, 8: 4.787678270003432}
Lance da política = 8

Estado: [0 0 0 0 0 0 0 1 2]
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   | X | O | 
-------------
Tabela Q: {0: -1.2238398659657528, 1: -1.6079967841279998, 2: -1.2018912775734574, 3: -1.207642674929263, 4: -1.114661921404112, 5: -1.2183093540608574, 6: -1.215277885457

# Consulta à tabela Q de O

In [5]:
segundo = jv.Maquina("velhaRLO", taxa_exploracao=0.0)
segundo.carrega_politica(f"O{forte}{versao}")

for tabuleiro in [[0, 0, 0, 0, 1, 0, 0, 0, 0], [1, 0, 0, 0, 2, 0, 0, 0, 1], [0, 1, 0, 0, 0, 0, 0, 1, 2], [0, 0, 0, 0, 0, 0, 0, 0, 1]]:
    estado = jv.gera_hash_tabuleiro(np.array(tabuleiro))
    print(f"Estado: {estado}")
    jv.mostra_tabuleiro(tabuleiro)
    print(f"Tabela Q: {segundo.q[estado]}")
    print(f"Lance da política = {max(segundo.q[estado], key=segundo.q[estado].get)}\n")

Estado: [0 0 0 0 1 0 0 0 0]
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Tabela Q: {0: 1.6383878296476204, 1: -3.0602074953318925, 2: 1.3261501872477188, 3: -2.3546600269162665, 5: -2.9631429549331596, 6: 2.6344390499012884, 7: -2.3669798973339042, 8: 1.50252754222673}
Lance da política = 6

Estado: [1 0 0 0 2 0 0 0 1]
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
|   |   | X | 
-------------
Tabela Q: {1: 1.0619616230470306, 2: -1.310256799986957, 3: 2.34690983499783, 5: 1.142983023785888, 6: -1.9723385750846514, 7: 1.3702759190793066}
Lance da política = 3

Estado: [0 1 0 0 0 0 0 1 2]
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
|   | X | O | 
-------------
Tabela Q: {0: 0.0, 2: 0.0, 3: 0.0, 4: 4.461976418498759, 5: 0.0, 6: 0.0}
Lance da política = 4

Estado: [0 0 0 0 0 0 0 0 1]
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   |   | X | 
------------

# Tabela Q completa para X

[Pular para partidas](#Jogando-algumas-partidas)

In [6]:
primeiro.q

{'[0 0 0 0 0 0 0 0 0]': {0: -1.3205129232204567,
  1: -1.3066054901742592,
  2: -1.6052991667271466,
  3: -1.2933183780019184,
  4: -1.3796134125942907,
  5: -1.575972575032678,
  6: -1.3336408759830105,
  7: -1.3031460319755253,
  8: -1.289147952518566},
 '[0 0 0 2 0 0 0 0 1]': {0: 0.8646,
  1: 0.08119566009600002,
  2: 0.3821668535169024,
  4: 4.780838655379629,
  5: -0.27999999999999997,
  6: 0.33,
  7: 0.0},
 '[0 0 0 2 1 0 0 2 1]': {0: 1.197,
  1: -0.2407080056105841,
  2: 4.313151414954388,
  5: 0.60716272,
  6: 0.0},
 '[0 0 1 2 1 0 2 2 1]': {0: 3.1164942263452544, 1: -1.443488, 5: 0.0},
 '[0 1 0 2 0 0 0 0 0]': {0: 1.062005064064,
  2: -0.37707999999999997,
  4: 4.780828293409948,
  5: 0.4024772611736531,
  6: -0.34258065314230113,
  7: -0.23703526604800002,
  8: -0.27999999999999997},
 '[1 1 2 2 0 0 0 0 0]': {4: 0.0,
  5: -0.06999999999999999,
  6: 0.0,
  7: -0.27999999999999997,
  8: 0.61521472},
 '[1 1 2 2 0 2 0 1 0]': {4: 1.52988, 6: -0.532, 8: -0.532},
 '[0 0 0 0 0 0 0 2 1]':

# Jogando algumas partidas

In [7]:
politica_1 = jv.Maquina("X forte", taxa_exploracao=0.0, limite_exploracao=0.0, depuracao=False)
politica_1.carrega_politica(f"X{forte}{versao}")
politica_2 = jv.Maquina("O forte", taxa_exploracao=0.0)
politica_2.carrega_politica(f"O{forte}{versao}")
humano = jv.Humano("Roberto")

In [8]:
forte_x_humano = jv.jogoDaVelha(politica_1, humano)
resultado = forte_x_humano.partida(saida=True)

X forte jogou 8
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   |   | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 1
-------------
|   | O |   | 
-------------
|   |   |   | 
-------------
|   |   | X | 
-------------
X forte jogou 4
-------------
|   | O |   | 
-------------
|   | X |   | 
-------------
|   |   | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 0
-------------
| O | O |   | 
-------------
|   | X |   | 
-------------
|   |   | X | 
-------------
X forte jogou 2
-------------
| O | O | X | 
-------------
|   | X |   | 
-------------
|   |   | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 5
-------------
| O | O | X | 
-------------
|   | X | O | 
-------------
|   |   | X | 
-------------
X forte jogou 6
-------------
| O | O | X | 
-------------
|   | X | O | 
-------------
| X |   | X | 
-------------
X forte venceu!


In [9]:
humano_x_forte = jv.jogoDaVelha(humano, politica_2)
resultado = humano_x_forte.partida()

Qual a sua jogada, Roberto? Roberto jogou 1
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
O forte jogou 4
-------------
|   | X |   | 
-------------
|   | O |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 7
-------------
|   | X |   | 
-------------
|   | O |   | 
-------------
|   | X |   | 
-------------
O forte jogou 6
-------------
|   | X |   | 
-------------
|   | O |   | 
-------------
| O | X |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 2
-------------
|   | X | X | 
-------------
|   | O |   | 
-------------
| O | X |   | 
-------------
O forte jogou 0
-------------
| O | X | X | 
-------------
|   | O |   | 
-------------
| O | X |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
| O | X | X | 
-------------
|   | O |   | 
-------------
| O | X | X | 
-------------
O forte jogou 3
-------------
| O | X | X | 
-------------
| O | O | 

# Simulação de partidas
Entre uma política forte para **X** e fraca para **O**

In [10]:
Xforte = jv.Maquina("X forte", taxa_exploracao=0.0, limite_exploracao=0.0)
Xforte.carrega_politica(f"X{muito_forte}{versao}")
Ofraco = jv.Maquina("O fraco", taxa_exploracao=0.0, limite_exploracao=0.0)
Ofraco.carrega_politica(f"O{fraco}{versao}")

In [11]:
simulacao = jv.jogoDaVelha(Xforte, Ofraco)
total, tabuleiros = simulacao.simulacao(partidas=10000)

In [12]:
total

Counter({'X forte': 10000})

In [13]:
tabuleiros

Counter({'[1 1 1 0 2 1 2 0 2]': 2476,
         '[1 1 1 0 2 1 2 2 0]': 2500,
         '[0 1 1 2 2 1 2 0 1]': 2501,
         '[2 1 1 0 2 1 2 0 1]': 2523})

# Jogando todas políticas contra todas

In [14]:
for forca_X in rodadas:
    for forca_O in rodadas:
        X = jv.Maquina(f"X-{forca_X}", taxa_exploracao=0.0, limite_exploracao=0.0)
        X.carrega_politica(f"X{forca_X}{versao}")
        O = jv.Maquina(f"O-{forca_O}", taxa_exploracao=0.0, limite_exploracao=0.0)
        O.carrega_politica(f"O{forca_O}{versao}")

        simulacao = jv.jogoDaVelha(X, O)
        total, tabuleiros = simulacao.simulacao(partidas=10000)
        print(f"{X.nome}, {O.nome}")
        print(total)
        print()

X-1000, O-1000
Counter({'X-1000': 4993, 'Velha': 3300, 'O-1000': 1707})

X-1000, O-10000
Counter({'O-10000': 5018, 'Velha': 4982})

X-1000, O-100000
Counter({'O-100000': 5156, 'Velha': 4844})

X-1000, O-1000000
Counter({'O-1000000': 5008, 'Velha': 4992})

X-10000, O-1000
Counter({'Velha': 5020, 'X-10000': 4980})

X-10000, O-10000
Counter({'Velha': 10000})

X-10000, O-100000
Counter({'Velha': 10000})

X-10000, O-1000000
Counter({'Velha': 10000})

X-100000, O-1000
Counter({'X-100000': 5084, 'Velha': 4916})

X-100000, O-10000
Counter({'Velha': 10000})

X-100000, O-100000
Counter({'Velha': 10000})

X-100000, O-1000000
Counter({'Velha': 10000})

X-1000000, O-1000
Counter({'X-1000000': 10000})

X-1000000, O-10000
Counter({'Velha': 10000})

X-1000000, O-100000
Counter({'Velha': 10000})

X-1000000, O-1000000
Counter({'Velha': 10000})



# Usando a "política errada"
Humano como **X** e política **X** como **O**

In [15]:
humano = jv.Humano("Roberto")
partida = jv.jogoDaVelha(humano, Xforte)
_ = partida.partida()

Qual a sua jogada, Roberto? Roberto jogou 8
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   |   | X | 
-------------
X forte jogou 7
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   | O | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 5
-------------
|   |   |   | 
-------------
|   |   | X | 
-------------
|   | O | X | 
-------------
X forte jogou 4
-------------
|   |   |   | 
-------------
|   | O | X | 
-------------
|   | O | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 2
-------------
|   |   | X | 
-------------
|   | O | X | 
-------------
|   | O | X | 
-------------
Roberto venceu!


# Jogando contra a política combinada

In [16]:
XO = jv.Maquina("XO", taxa_exploracao=0.0, limite_exploracao=0.013)
XO.carrega_politica(f"XO{muito_forte}{versao}")
humano = jv.Humano("Roberto")
partida = jv.jogoDaVelha(humano, XO)
_ = partida.partida()

Qual a sua jogada, Roberto? Roberto jogou 3
-------------
|   |   |   | 
-------------
| X |   |   | 
-------------
|   |   |   | 
-------------
XO jogou 4
-------------
|   |   |   | 
-------------
| X | O |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 5
-------------
|   |   |   | 
-------------
| X | O | X | 
-------------
|   |   |   | 
-------------
XO jogou 7
-------------
|   |   |   | 
-------------
| X | O | X | 
-------------
|   | O |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 1
-------------
|   | X |   | 
-------------
| X | O | X | 
-------------
|   | O |   | 
-------------
XO jogou 6
-------------
|   | X |   | 
-------------
| X | O | X | 
-------------
| O | O |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
|   | X |   | 
-------------
| X | O | X | 
-------------
| O | O | X | 
-------------
XO jogou 2
-------------
|   | X | O | 
-------------
| X | O | X | 
-------------
|

In [17]:
partida = jv.jogoDaVelha(XO, humano)
_ = partida.partida()

XO jogou 1
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 7
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
|   | O |   | 
-------------
XO jogou 3
-------------
|   | X |   | 
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 0
-------------
| O | X |   | 
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
XO jogou 4
-------------
| O | X |   | 
-------------
| X | X |   | 
-------------
|   | O |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 5
-------------
| O | X |   | 
-------------
| X | X | O | 
-------------
|   | O |   | 
-------------
XO jogou 2
-------------
| O | X | X | 
-------------
| X | X | O | 
-------------
|   | O |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 6
-------------
| O | X | X | 
-------------
| X | X | O | 
-------------
|