# Jogo da velha com Reinforcement Learning

In [1]:
import numpy as np
import velha as jv

from pathlib import Path

# Treinamento de políticas
Cria políticas para jogador que inicia (**X**) e que não inicia (**O**) com variações do número de rodadas de treinamento. Assumimos que quanto maior o número de rodadas de treinamento, melhor a política. Também é importante perceber que a política do jogador que inicia (**X**) é diferente da política do jogador que não inicia (**O**), além disso pode ser necessário que a política de **X** precise de mais rodadas de treinamento para ficar ótima que a política para **O**, ou vice-versa.

In [2]:
versao = "-v0.0"
sobrescreve = True

# Treinamento de dois jogadores por um número de rodadas

rodadas = 10 ** np.arange(3, 7)
fraco, medio, forte, muito_forte = rodadas


for rodadas_treinamento in rodadas:
    print(f'Iniciando treinamento com {rodadas_treinamento} rodadas...')
    verifica = rodadas_treinamento / 10
    politica_X = f"X{rodadas_treinamento}{versao}"
    politica_O = f"O{rodadas_treinamento}{versao}"

    if sobrescreve or (not jv.existe_politica(politica_X) or not jv.existe_politica(politica_O)):
        primeiro = jv.Maquina(politica_X)
        segundo = jv.Maquina(politica_O)
        treino = jv.jogoDaVelha(primeiro, segundo)
        treino.treinamento(rodadas_treinamento, verifica)
        print(f"Salvando políticas para {rodadas_treinamento} rodadas")
        print(f'Salvando política: {primeiro.nome}')
        primeiro.salva_politica()
        print(f'Salvando política: {segundo.nome}')
        segundo.salva_politica()
    else:
        print(f'Políticas {politica_O} e {politica_X} já existem')

Iniciando treinamento com 1000 rodadas...
Rodadas: 0
Rodadas: 100
Rodadas: 200
Rodadas: 300
Rodadas: 400
Rodadas: 500
Rodadas: 600
Rodadas: 700
Rodadas: 800
Rodadas: 900
Treinamento finalizado: 1000 rodadas
Salvando políticas para 1000 rodadas
Salvando política: X1000-v0.0
Salvando política: O1000-v0.0
Iniciando treinamento com 10000 rodadas...
Rodadas: 0
Rodadas: 1000
Rodadas: 2000
Rodadas: 3000
Rodadas: 4000
Rodadas: 5000
Rodadas: 6000
Rodadas: 7000
Rodadas: 8000
Rodadas: 9000
Treinamento finalizado: 10000 rodadas
Salvando políticas para 10000 rodadas
Salvando política: X10000-v0.0
Salvando política: O10000-v0.0
Iniciando treinamento com 100000 rodadas...
Rodadas: 0
Rodadas: 10000
Rodadas: 20000
Rodadas: 30000
Rodadas: 40000
Rodadas: 50000
Rodadas: 60000
Rodadas: 70000
Rodadas: 80000
Rodadas: 90000
Treinamento finalizado: 100000 rodadas
Salvando políticas para 100000 rodadas
Salvando política: X100000-v0.0
Salvando política: O100000-v0.0
Iniciando treinamento com 1000000 rodadas...
R

# Gera uma política combinando políticas para X e O
Ou seja, cria uma política que pode jogar como **X** e como **O**, juntando o resultado do treinamento de uma política para **X** e uma política para **O**

In [3]:
politica_combinada = f"XO{muito_forte}{versao}"
if sobrescreve or not jv.existe_politica(politica_combinada):
    primeiro = jv.Maquina("velhaRLX", taxa_exploracao=0.0)
    primeiro.carrega_politica(f"X{muito_forte}{versao}")
    segundo = jv.Maquina("velhaRLO", taxa_exploracao=0.0)
    segundo.carrega_politica(f"O{muito_forte}{versao}")

    primeiro.combina_e_salva_politica(segundo, politica_combinada)
    print(f"Salvando política {politica_combinada}!!!")
else:
    print(f"Arquivo de política {politica_combinada} já existe!")

Salvando política XO1000000-v0.0!!!


# Consulta à tabela Q de X

In [4]:
primeiro = jv.Maquina("velhaRL", taxa_exploracao=0.0)
primeiro.carrega_politica(f"X{forte}{versao}")

for tabuleiro in [[0, 0, 0, 0, 0, 0, 0, 0, 0], [0, 2, 0, 0, 1, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0, 0, 1, 2]]:
    estado = jv.gera_hash_tabuleiro(np.array(tabuleiro))
    print(f"Estado: {estado}")
    jv.mostra_tabuleiro(tabuleiro)
    print(f"Tabela Q: {primeiro.q[estado]}")
    print(f"Lance da política = {max(primeiro.q[estado], key=primeiro.q[estado].get)}\n")

Estado: [0 0 0 0 0 0 0 0 0]
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
Tabela Q: {0: 2.1099979400066196, 1: 0.8919901973928549, 2: 0.08713458616187686, 3: 0.5911069797846922, 4: 2.57783253511812, 5: 1.4712767077834767, 6: 1.5065066865083754, 7: 2.234512293817398, 8: 1.8093727905006314}
Lance da política = 4

Estado: [0 2 0 0 1 0 0 0 0]
-------------
|   | O |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Tabela Q: {0: 4.455761264793934, 2: 4.614721112050143, 3: 4.229854762932585, 5: 4.612193375615335, 6: 4.402591699817726, 7: 1.6282028093827599, 8: 4.492087939297913}
Lance da política = 2

Estado: [0 0 0 0 0 0 0 1 2]
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   | X | O | 
-------------
Tabela Q: {0: 0.28704865272304225, 1: -0.15637585806694043, 2: 0.7262293623417253, 3: 0.2826562228393255, 4: 1.517534551804716, 5: -0.7112530703667609, 6: -0.14025117684449112}
Lance da

# Consulta à tabela Q de O

In [5]:
segundo = jv.Maquina("velhaRLO", taxa_exploracao=0.0)
segundo.carrega_politica(f"O{forte}{versao}")

for tabuleiro in [[0, 0, 0, 0, 1, 0, 0, 0, 0], [1, 0, 0, 0, 2, 0, 0, 0, 1], [0, 1, 0, 0, 0, 0, 0, 1, 2], [0, 0, 0, 0, 0, 0, 0, 0, 1]]:
    estado = jv.gera_hash_tabuleiro(np.array(tabuleiro))
    print(f"Estado: {estado}")
    jv.mostra_tabuleiro(tabuleiro)
    print(f"Tabela Q: {segundo.q[estado]}")
    print(f"Lance da política = {max(segundo.q[estado], key=segundo.q[estado].get)}\n")

Estado: [0 0 0 0 1 0 0 0 0]
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Tabela Q: {0: 0.7427130545306753, 1: -0.3184620117804853, 2: 1.432543337293052, 3: -1.1501162739103854, 5: -1.9567797266019757, 6: 1.6327449502218214, 7: -1.5413860652166884, 8: 0.8892000207325527}
Lance da política = 6

Estado: [1 0 0 0 2 0 0 0 1]
-------------
| X |   |   | 
-------------
|   | O |   | 
-------------
|   |   | X | 
-------------
Tabela Q: {1: 1.9364459145116215, 2: 0.2898033445436452, 3: 2.5730021126793767, 5: 5.259120895838552, 6: 0.651091891980262, 7: 1.9353792760945616}
Lance da política = 5

Estado: [0 1 0 0 0 0 0 1 2]
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
|   | X | O | 
-------------
Tabela Q: {0: -1.6220185600000003, 2: -0.8592780286164994, 3: -0.524, 4: 5.353522426743888, 5: -0.45600000000000007, 6: -1.6196592640000003}
Lance da política = 4

Estado: [0 0 0 0 0 0 0 0 1]
-------------
|   |   |   | 
-

# Tabela Q completa para X

[Pular para partidas](#Jogando-algumas-partidas)

In [6]:
primeiro.q

{'[0 0 0 0 0 0 0 0 0]': {0: 2.1099979400066196,
  1: 0.8919901973928549,
  2: 0.08713458616187686,
  3: 0.5911069797846922,
  4: 2.57783253511812,
  5: 1.4712767077834767,
  6: 1.5065066865083754,
  7: 2.234512293817398,
  8: 1.8093727905006314},
 '[0 2 0 0 0 0 0 1 0]': {0: 0.950779170691906,
  2: 0.9950816089893479,
  3: 1.437537021543335,
  4: 0.08775488514788904,
  5: 0.13616418274063496,
  6: 1.3928759705766978,
  8: 0.30444849171101207},
 '[0 2 0 2 0 0 0 1 1]': {0: 0.44286,
  2: 1.5374840732518402,
  4: 0.0,
  5: 0.33,
  6: 0.0},
 '[2 2 1 2 0 0 0 1 1]': {4: -0.532, 5: 2.4775428479999997, 6: 0.0},
 '[2 0 0 0 0 0 0 1 0]': {1: -1.4326237130924642,
  2: 0.30739261340229346,
  3: -0.2367362875171406,
  4: 0.7894874830145616,
  5: -0.8608355727543477,
  6: 3.769493121989017,
  8: 0.23168506239752062},
 '[2 0 2 0 0 1 0 1 0]': {1: -0.998928,
  3: -0.7088000000000001,
  4: -0.9982938009026563,
  6: 0.12510457011199994,
  8: -0.8892000000000001},
 '[2 0 1 2 0 0 0 1 0]': {1: 0.0,
  4: 0.0,
 

# Jogando algumas partidas

In [7]:
politica_1 = jv.Maquina("X forte", taxa_exploracao=0.0, limite_exploracao=0.0, depuracao=False)
politica_1.carrega_politica(f"X{forte}{versao}")
politica_2 = jv.Maquina("O forte", taxa_exploracao=0.0)
politica_2.carrega_politica(f"O{forte}{versao}")
humano = jv.Humano("Roberto")

In [8]:
forte_x_humano = jv.jogoDaVelha(politica_1, humano)
resultado = forte_x_humano.partida(saida=True)

X forte jogou 4
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 5
-------------
|   |   |   | 
-------------
|   | X | O | 
-------------
|   |   |   | 
-------------
X forte jogou 7
-------------
|   |   |   | 
-------------
|   | X | O | 
-------------
|   | X |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 1
-------------
|   | O |   | 
-------------
|   | X | O | 
-------------
|   | X |   | 
-------------
X forte jogou 8
-------------
|   | O |   | 
-------------
|   | X | O | 
-------------
|   | X | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 2
-------------
|   | O | O | 
-------------
|   | X | O | 
-------------
|   | X | X | 
-------------
X forte jogou 6
-------------
|   | O | O | 
-------------
|   | X | O | 
-------------
| X | X | X | 
-------------
X forte venceu!


In [9]:
humano_x_forte = jv.jogoDaVelha(humano, politica_2)
resultado = humano_x_forte.partida()

Qual a sua jogada, Roberto? Roberto jogou 1
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
O forte jogou 4
-------------
|   | X |   | 
-------------
|   | O |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 3
-------------
|   | X |   | 
-------------
| X | O |   | 
-------------
|   |   |   | 
-------------
O forte jogou 2
-------------
|   | X | O | 
-------------
| X | O |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 6
-------------
|   | X | O | 
-------------
| X | O |   | 
-------------
| X |   |   | 
-------------
O forte jogou 0
-------------
| O | X | O | 
-------------
| X | O |   | 
-------------
| X |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
| O | X | O | 
-------------
| X | O |   | 
-------------
| X |   | X | 
-------------
O forte jogou 7
-------------
| O | X | O | 
-------------
| X | O | 

# Simulação de partidas
Entre uma política forte para **X** e fraca para **O**

In [10]:
Xforte = jv.Maquina("X forte", taxa_exploracao=0.0, limite_exploracao=0.0)
Xforte.carrega_politica(f"X{muito_forte}{versao}")
Ofraco = jv.Maquina("O fraco", taxa_exploracao=0.0, limite_exploracao=0.0)
Ofraco.carrega_politica(f"O{fraco}{versao}")

In [11]:
simulacao = jv.jogoDaVelha(Xforte, Ofraco)
total, tabuleiros = simulacao.simulacao(partidas=10000)

In [12]:
total

Counter({'X forte': 8759, 'Velha': 1241})

In [13]:
tabuleiros

Counter({'[1 1 1 2 2 1 1 2 2]': 2500,
         '[0 2 1 2 2 1 1 0 1]': 2461,
         '[2 1 1 2 2 1 1 2 1]': 1242,
         '[2 0 1 2 2 1 1 0 1]': 2556,
         '[1 2 1 2 2 1 1 1 2]': 1241})

# Jogando todas políticas contra todas

In [14]:
for forca_X in rodadas:
    for forca_O in rodadas:
        X = jv.Maquina(f"X-{forca_X}", taxa_exploracao=0.0, limite_exploracao=0.0)
        X.carrega_politica(f"X{forca_X}{versao}")
        O = jv.Maquina(f"O-{forca_O}", taxa_exploracao=0.0, limite_exploracao=0.0)
        O.carrega_politica(f"O{forca_O}{versao}")

        simulacao = jv.jogoDaVelha(X, O)
        total, tabuleiros = simulacao.simulacao(partidas=10000)
        print(f"{X.nome}, {O.nome}")
        print(total)
        print()

X-1000, O-1000
Counter({'Velha': 10000})

X-1000, O-10000
Counter({'Velha': 10000})

X-1000, O-100000
Counter({'O-100000': 6653, 'Velha': 3347})

X-1000, O-1000000
Counter({'O-1000000': 6716, 'Velha': 3284})

X-10000, O-1000
Counter({'X-10000': 7529, 'O-1000': 2471})

X-10000, O-10000
Counter({'Velha': 10000})

X-10000, O-100000
Counter({'Velha': 10000})

X-10000, O-1000000
Counter({'Velha': 10000})

X-100000, O-1000
Counter({'X-100000': 10000})

X-100000, O-10000
Counter({'Velha': 10000})

X-100000, O-100000
Counter({'Velha': 10000})

X-100000, O-1000000
Counter({'Velha': 10000})

X-1000000, O-1000
Counter({'X-1000000': 8680, 'Velha': 1320})

X-1000000, O-10000
Counter({'Velha': 10000})

X-1000000, O-100000
Counter({'Velha': 10000})

X-1000000, O-1000000
Counter({'Velha': 10000})



# Usando a "política errada"
Humano como **X** e política **X** como **O**

In [15]:
humano = jv.Humano("Roberto")
partida = jv.jogoDaVelha(humano, Xforte)
_ = partida.partida()

Qual a sua jogada, Roberto? Roberto jogou 0
-------------
| X |   |   | 
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
X forte jogou 1
-------------
| X | O |   | 
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 3
-------------
| X | O |   | 
-------------
| X |   |   | 
-------------
|   |   |   | 
-------------
X forte jogou 2
-------------
| X | O | O | 
-------------
| X |   |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 4
-------------
| X | O | O | 
-------------
| X | X |   | 
-------------
|   |   |   | 
-------------
X forte jogou 6
-------------
| X | O | O | 
-------------
| X | X |   | 
-------------
| O |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 5
-------------
| X | O | O | 
-------------
| X | X | X | 
-------------
| O |   |   | 
-------------
Roberto venceu!


# Jogando contra a política combinada

In [16]:
XO = jv.Maquina("XO", taxa_exploracao=0.0, limite_exploracao=0.013)
XO.carrega_politica(f"XO{muito_forte}{versao}")
humano = jv.Humano("Roberto")
partida = jv.jogoDaVelha(humano, XO)
_ = partida.partida()

Qual a sua jogada, Roberto? Roberto jogou 4
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
XO jogou 6
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
| O |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 2
-------------
|   |   | X | 
-------------
|   | X |   | 
-------------
| O |   |   | 
-------------
XO jogou 8
-------------
|   |   | X | 
-------------
|   | X |   | 
-------------
| O |   | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 7
-------------
|   |   | X | 
-------------
|   | X |   | 
-------------
| O | X | O | 
-------------
XO jogou 1
-------------
|   | O | X | 
-------------
|   | X |   | 
-------------
| O | X | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 0
-------------
| X | O | X | 
-------------
|   | X |   | 
-------------
| O | X | O | 
-------------
XO jogou 5
-------------
| X | O | X | 
-------------
|   | X | O | 
-------------
|

In [17]:
partida = jv.jogoDaVelha(XO, humano)
_ = partida.partida()

XO jogou 6
-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
| X |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 4
-------------
|   |   |   | 
-------------
|   | O |   | 
-------------
| X |   |   | 
-------------
XO jogou 2
-------------
|   |   | X | 
-------------
|   | O |   | 
-------------
| X |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 1
-------------
|   | O | X | 
-------------
|   | O |   | 
-------------
| X |   |   | 
-------------
XO jogou 7
-------------
|   | O | X | 
-------------
|   | O |   | 
-------------
| X | X |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
|   | O | X | 
-------------
|   | O |   | 
-------------
| X | X | O | 
-------------
XO jogou 0
-------------
| X | O | X | 
-------------
|   | O |   | 
-------------
| X | X | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 3
-------------
| X | O | X | 
-------------
| O | O |   | 
-------------
|