# Jogo da velha com Reinforcement Learning

In [1]:
import numpy as np
import velha as jv

from pathlib import Path

# Treinamento de políticas
Cria políticas para jogador que inicia (**X**) e que não inicia (**O**) com variações do número de rodadas de treinamento. Assumimos que quanto maior o número de rodadas de treinamento, melhor a política. Também é importante perceber que a política do jogador que inicia (**X**) é diferente da política do jogador que não inicia (**O**), além disso pode ser necessário que a política de **X** precise de mais rodadas de treinamento para ficar ótima que a política para **O**, ou vice-versa.

In [2]:
versao = "-v0.0"
sobrescreve = False

# Treinamento de dois jogadores por um número de rodadas

rodadas = 10 ** np.arange(3, 7)
fraco, medio, forte, muito_forte = rodadas


for rodadas_treinamento in rodadas:
    print(f'Iniciando treinamento com {rodadas_treinamento} rodadas...')
    verifica = rodadas_treinamento / 10
    politica_X = f"X{rodadas_treinamento}{versao}"
    politica_O = f"O{rodadas_treinamento}{versao}"

    if sobrescreve or (not jv.existe_politica(politica_X) or not jv.existe_politica(politica_O)):
        primeiro = jv.Maquina(politica_X)
        segundo = jv.Maquina(politica_O)
        treino = jv.jogoDaVelha(primeiro, segundo)
        treino.treinamento(rodadas_treinamento, verifica)
        print(f"Salvando políticas para {rodadas_treinamento} rodadas")
        print(f'Salvando política: {primeiro.nome}')
        primeiro.salva_politica()
        print(f'Salvando política: {segundo.nome}')
        segundo.salva_politica()
    else:
        print(f'Políticas {politica_O} e {politica_X} já existem')

Iniciando treinamento com 1000 rodadas...
Políticas O1000-v0.0 e X1000-v0.0 já existem
Iniciando treinamento com 10000 rodadas...
Políticas O10000-v0.0 e X10000-v0.0 já existem
Iniciando treinamento com 100000 rodadas...
Políticas O100000-v0.0 e X100000-v0.0 já existem
Iniciando treinamento com 1000000 rodadas...
Políticas O1000000-v0.0 e X1000000-v0.0 já existem


# Gera uma política combinando políticas para X e O
Ou seja, cria uma política que pode jogar como **X** e como **O**, juntando o resultado do treinamento de uma política para **X** e uma política para **O**

In [3]:
politica_combinada = f"XO{muito_forte}{versao}"
if not jv.existe_politica(politica_combinada):
    primeiro = jv.Maquina("velhaRLX", taxa_exploracao=0.0)
    primeiro.carrega_politica(f"X{muito_forte}{versao}")
    segundo = jv.Maquina("velhaRLO", taxa_exploracao=0.0)
    segundo.carrega_politica(f"O{muito_forte}{versao}")

    primeiro.combina_e_salva_politica(segundo, politica_combinada)
    print(f"Salvando política {politica_combinada}!!!")
else:
    print(f"Arquivo de política {politica_combinada} já existe!")

Arquivo de política XO1000000-v0.0 já existe!


# Consulta à tabela Q de X

In [4]:
primeiro = jv.Maquina("velhaRL", taxa_exploracao=0.0)
primeiro.carrega_politica(f"X{forte}{versao}")

for tabuleiro in [[0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 2, 0, 0, 1, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 1, 2]]:
    estado = jv.gera_hash_tabuleiro(np.array(tabuleiro))
    print(f"Estado: {estado}")
    jv.mostra_tabuleiro(tabuleiro)
    print(f"Tabela Q: {primeiro.q[estado]}")
    print(f"Lance da política = {max(primeiro.q[estado], key=primeiro.q[estado].get)}\n")

Estado: [0 0 0 0 0 0 0 0 0]
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
Tabela Q: {0: 2.745972684222658, 1: 3.0066712466848045, 2: 3.045443109893605, 3: 3.0053900278469876, 4: 4.010079990981401, 5: 3.7588507697571085, 6: 3.074059934773083, 7: 2.5158419050483825, 8: 3.4086967291018095}
Lance da política = 4

Estado: [0 2 0 0 1 0 0 0 0]
-------------
|   | O |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Tabela Q: {0: 6.4104342507031635, 2: 5.460372261024529, 3: 5.725930855936707, 5: 5.490414199970252, 6: 5.17746722713262, 7: 1.7983872544590518, 8: 5.370639645651923}
Lance da política = 0

Estado: [0 0 0 0 0 0 0 1 2]
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   | X | O | 
-------------
Tabela Q: {0: 0.33280827997767026, 1: -0.29496206060129904, 2: 2.459341296474895, 3: -0.3648697743985969, 4: 3.5587126562184483, 5: 1.4471788561642898, 6: 0.3964688043189167}
Lance da pol

# Consulta à tabela Q de O

In [5]:
segundo = jv.Maquina("velhaRLO", taxa_exploracao=0.0)
segundo.carrega_politica(f"O{forte}{versao}")

for tabuleiro in [[0, 0, 0, 0, 1, 0, 0, 0, 0], [1, 0, 0, 0, 2, 0, 0, 0, 1], [0, 1, 0, 0, 0, 0, 0, 1, 2], [0, 0, 0, 0, 0, 0, 0, 0, 1]]:
    estado = jv.gera_hash_tabuleiro(np.array(tabuleiro))
    print(f"Estado: {estado}")
    jv.mostra_tabuleiro(tabuleiro)
    print(f"Tabela Q: {segundo.q[estado]}")
    print(f"Lance da política = {max(segundo.q[estado], key=segundo.q[estado].get)}\n")

Estado: [0 0 0 0 1 0 0 0 0]
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Tabela Q: {0: 2.93639818473063, 1: -1.7472962023689758, 2: 1.5422224860624212, 3: 0.9883733267895038, 5: 0.2050034863012656, 6: 2.4812983955073595, 7: -1.5171831582139976, 8: 3.801544539592053}
Lance da política = 8

Estado: [1 0 0 0 2 0 0 0 1]
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
|   |   | X | 
-------------
Tabela Q: {1: 2.8254869738918615, 2: -0.8401813562139346, 3: 4.729465934073385, 5: 2.858870616566162, 6: -0.5809220231392913, 7: 3.473689584250379}
Lance da política = 3

Estado: [0 1 0 0 0 0 0 1 2]
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
|   | X | O | 
-------------
Tabela Q: {0: -1.2970688, 2: -0.053400603734835184, 3: 0.2655084646400001, 4: 5.217108578027564, 5: -1.6449863167999998, 6: -0.7927160647679998}
Lance da política = 4

Estado: [0 0 0 0 0 0 0 0 1]
-------------
|   |   |   | 


# Tabela Q completa para X

[Pular para partidas](#Jogando-algumas-partidas)

In [6]:
primeiro.q

{'[0 0 0 0 0 0 0 0 0]': {0: 2.745972684222658,
  1: 3.0066712466848045,
  2: 3.045443109893605,
  3: 3.0053900278469876,
  4: 4.010079990981401,
  5: 3.7588507697571085,
  6: 3.074059934773083,
  7: 2.5158419050483825,
  8: 3.4086967291018095},
 '[0 0 0 1 0 0 0 0 2]': {0: 1.9563977185279,
  1: 0.03309870389370384,
  2: 2.1369429734085803,
  4: 1.8955009094284652,
  5: 0.9705045511359958,
  6: 4.471782977028431,
  7: -1.0810612014857681},
 '[0 0 0 1 0 1 0 2 2]': {0: 0.5368, 1: 0.0, 2: -0.38, 4: 1.368, 6: 0.0},
 '[0 0 0 1 0 0 2 0 0]': {0: 1.4881656909731367,
  1: 0.12494491010383485,
  2: 0.8093393833365227,
  4: 2.9696546516793245,
  5: 1.3488986595367929,
  7: 1.3641442085862072,
  8: 2.005294541580549},
 '[0 0 1 1 0 0 2 0 2]': {0: -0.05250394067270761,
  1: -0.684,
  4: 0.4450651568666274,
  5: 0.4963392000000001,
  7: 0.9362473886721621},
 '[0 1 0 1 0 0 2 2 0]': {0: -0.05999999999999994,
  2: 0.23135296,
  4: -0.38,
  5: -0.38,
  8: 1.7752415065190401},
 '[1 1 0 1 0 2 2 2 0]': {2: 0.

# Jogando algumas partidas

In [7]:
politica_1 = jv.Maquina("X forte", taxa_exploracao=0.0, limite_exploracao=0.0, depuracao=False)
politica_1.carrega_politica(f"X{forte}{versao}")
politica_2 = jv.Maquina("O forte", taxa_exploracao=0.0)
politica_2.carrega_politica(f"O{forte}{versao}")
humano = jv.Humano("Roberto")

In [8]:
forte_x_humano = jv.jogoDaVelha(politica_1, humano)
resultado = forte_x_humano.partida(saida=True)

X forte jogou 4
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 0
-------------
| O |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
X forte jogou 8
-------------
| O |   |   | 
-------------
|   | X |   | 
-------------
|   |   | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 7
-------------
| O |   |   | 
-------------
|   | X |   | 
-------------
|   | O | X | 
-------------
X forte jogou 5
-------------
| O |   |   | 
-------------
|   | X | X | 
-------------
|   | O | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 3
-------------
| O |   |   | 
-------------
| O | X | X | 
-------------
|   | O | X | 
-------------
X forte jogou 2
-------------
| O |   | X | 
-------------
| O | X | X | 
-------------
|   | O | X | 
-------------
X forte venceu!


In [9]:
humano_x_forte = jv.jogoDaVelha(humano, politica_2)
resultado = humano_x_forte.partida()

Qual a sua jogada, Roberto? Roberto jogou 3
-------------
|   |   |   | 
-------------
| X |   |   | 
-------------
|   |   |   | 
-------------
O forte jogou 0
-------------
| O |   |   | 
-------------
| X |   |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 6
-------------
| O |   |   | 
-------------
| X |   |   | 
-------------
| X |   |   | 
-------------
O forte jogou 4
-------------
| O |   |   | 
-------------
| X | O |   | 
-------------
| X |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 7
-------------
| O |   |   | 
-------------
| X | O |   | 
-------------
| X | X |   | 
-------------
O forte jogou 8
-------------
| O |   |   | 
-------------
| X | O |   | 
-------------
| X | X | O | 
-------------
O forte venceu!


# Simulação de partidas
Entre uma política forte para **X** e fraca para **O**

In [10]:
Xforte = jv.Maquina("X forte", taxa_exploracao=0.0, limite_exploracao=0.0)
Xforte.carrega_politica(f"X{muito_forte}{versao}")
Ofraco = jv.Maquina("O fraco", taxa_exploracao=0.0, limite_exploracao=0.0)
Ofraco.carrega_politica(f"O{fraco}{versao}")

In [11]:
simulacao = jv.jogoDaVelha(Xforte, Ofraco)
total, tabuleiros = simulacao.simulacao(partidas=10000)

In [12]:
total

Counter({'X forte': 10000})

In [13]:
tabuleiros

Counter({'[1 2 0 1 1 2 1 0 2]': 2454,
         '[1 2 0 1 1 1 2 0 2]': 2534,
         '[1 2 2 1 1 1 0 0 2]': 2491,
         '[1 2 0 1 1 0 1 2 2]': 2521})

# Jogando todas políticas contra todas

In [14]:
for forca_X in rodadas:
    for forca_O in rodadas:
        X = jv.Maquina(f"X {forca_X}", taxa_exploracao=0.0, limite_exploracao=0.0)
        X.carrega_politica(f"X{forca_X}{versao}")
        O = jv.Maquina(f"O {forca_O}", taxa_exploracao=0.0, limite_exploracao=0.0)
        O.carrega_politica(f"O{forca_O}{versao}")

        simulacao = jv.jogoDaVelha(X, O)
        total, tabuleiros = simulacao.simulacao(partidas=10000)
        print(f"X: {forca_X}, O: {forca_O}")
        print(total)
        print()

X: 1000, O: 1000
Counter({'Velha': 10000})

X: 1000, O: 10000
Counter({'Velha': 5001, 'O 10000': 4999})

X: 1000, O: 100000
Counter({'O 100000': 10000})

X: 1000, O: 1000000
Counter({'O 1000000': 10000})

X: 10000, O: 1000
Counter({'X 10000': 10000})

X: 10000, O: 10000
Counter({'Velha': 10000})

X: 10000, O: 100000
Counter({'Velha': 10000})

X: 10000, O: 1000000
Counter({'Velha': 10000})

X: 100000, O: 1000
Counter({'X 100000': 10000})

X: 100000, O: 10000
Counter({'Velha': 10000})

X: 100000, O: 100000
Counter({'Velha': 10000})

X: 100000, O: 1000000
Counter({'Velha': 10000})

X: 1000000, O: 1000
Counter({'X 1000000': 10000})

X: 1000000, O: 10000
Counter({'Velha': 10000})

X: 1000000, O: 100000
Counter({'Velha': 10000})

X: 1000000, O: 1000000
Counter({'Velha': 10000})



# Usando a "política errada"
Humano como **X** e política **X** como **O**

In [15]:
humano = jv.Humano("Roberto")
partida = jv.jogoDaVelha(humano, Xforte)
_ = partida.partida()

Qual a sua jogada, Roberto? Roberto jogou 3
-------------
|   |   |   | 
-------------
| X |   |   | 
-------------
|   |   |   | 
-------------
X forte jogou 7
-------------
|   |   |   | 
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 2
-------------
|   |   | X | 
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
X forte jogou 0
-------------
| O |   | X | 
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 4
-------------
| O |   | X | 
-------------
| X | X |   | 
-------------
|   | O |   | 
-------------
X forte jogou 1
-------------
| O | O | X | 
-------------
| X | X |   | 
-------------
|   | O |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 5
-------------
| O | O | X | 
-------------
| X | X | X | 
-------------
|   | O |   | 
-------------
Roberto venceu!


# Jogando contra a política combinada

In [16]:
XO = jv.Maquina("XO", taxa_exploracao=0.0, limite_exploracao=0.013)
XO.carrega_politica(f"XO{muito_forte}{versao}")
humano = jv.Humano("Roberto")
partida = jv.jogoDaVelha(humano, XO)
_ = partida.partida()

Qual a sua jogada, Roberto? Roberto jogou 0
-------------
| X |   |   | 
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
XO jogou 4
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
|   |   | X | 
-------------
XO jogou 1
-------------
| X | O |   | 
-------------
|   | O |   | 
-------------
|   |   | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 7
-------------
| X | O |   | 
-------------
|   | O |   | 
-------------
|   | X | X | 
-------------
XO jogou 6
-------------
| X | O |   | 
-------------
|   | O |   | 
-------------
| O | X | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 2
-------------
| X | O | X | 
-------------
|   | O |   | 
-------------
| O | X | X | 
-------------
XO jogou 5
-------------
| X | O | X | 
-------------
|   | O | O | 
-------------
|

In [17]:
partida = jv.jogoDaVelha(XO, humano)
_ = partida.partida()

XO jogou 4
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   | O | 
-------------
XO jogou 0
-------------
| X |   |   | 
-------------
|   | X |   | 
-------------
|   |   | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 6
-------------
| X |   |   | 
-------------
|   | X |   | 
-------------
| O |   | O | 
-------------
XO jogou 7
-------------
| X |   |   | 
-------------
|   | X |   | 
-------------
| O | X | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 1
-------------
| X | O |   | 
-------------
|   | X |   | 
-------------
| O | X | O | 
-------------
XO jogou 5
-------------
| X | O |   | 
-------------
|   | X | X | 
-------------
| O | X | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 3
-------------
| X | O |   | 
-------------
| O | X | X | 
-------------
|