# Jogo da velha com Reinforcement Learning

In [1]:
import velha
from pathlib import Path

# Treinamento de políticas
Cria políticas para jogador que inicia (**X**) e que não inicia (**O**) com variações do número de rodadas de treinamento. Assumimos que quanto maior o número de rodadas de treinamento, melhor a política. Também é importante perceber que a política do jogador que inicia (**X**) é diferente da política do jogador que não inicia (**O**), além disso pode ser necessário que a política de **X** precise de mais rodadas de treinamento para ficar ótima que a política para **O**, ou vice-versa.

In [2]:
versao = "-v0.0"
sobrescreve = False

# Treinamento de dois jogadores por um número de rodadas
def path_arquivo(politica):
    return Path(velha.PASTA_POLITICAS) / f"{velha.PREFIXO_POLITICA}{politica}.{velha.EXTENSAO_POLITICA}"


fraco = 1000
medio = 10000
forte = 100000
muito_forte = 1000000

forcas = [fraco, medio, forte, muito_forte]

for rodadas_treinamento in forcas:
    rodadas = rodadas_treinamento
    print(f'Iniciando treinamento com {rodadas} rodadas...')
    verifica = rodadas / 10
    politicaX = f"X{rodadas}{versao}"
    politicaO = f"O{rodadas}{versao}"
    arquivo_pX = path_arquivo(politicaX)
    arquivo_pO = path_arquivo(politicaO)
    print(arquivo_pO, arquivo_pX)
    if sobrescreve or (not arquivo_pX.exists() or not arquivo_pO.exists()):
        primeiro = velha.Maquina(politicaX)
        segundo = velha.Maquina(politicaO)
        treino = velha.jogoDaVelha(primeiro, segundo)
        treino.treinamento(rodadas, verifica)
        print(f"Salvando políticas para {rodadas} rodadas")
        print(f'Salvando política: {primeiro.nome}')
        primeiro.salvaPolitica()
        print(f'Salvando política: {segundo.nome}')
        segundo.salvaPolitica()
    else:
        print(f'Políticas {politicaO} e {politicaX} já existem')

Iniciando treinamento com 1000 rodadas...
politicas\p_O1000-v0.0.pjv politicas\p_X1000-v0.0.pjv
Rodadas: 0
Rodadas: 100
Rodadas: 200
Rodadas: 300
Rodadas: 400
Rodadas: 500
Rodadas: 600
Rodadas: 700
Rodadas: 800
Rodadas: 900
Treinamento finalizado: 1000 rodadas
Salvando políticas para 1000 rodadas
Salvando política: X1000-v0.0
Salvando política: O1000-v0.0
Iniciando treinamento com 10000 rodadas...
politicas\p_O10000-v0.0.pjv politicas\p_X10000-v0.0.pjv
Rodadas: 0
Rodadas: 1000
Rodadas: 2000
Rodadas: 3000
Rodadas: 4000
Rodadas: 5000
Rodadas: 6000
Rodadas: 7000
Rodadas: 8000
Rodadas: 9000
Treinamento finalizado: 10000 rodadas
Salvando políticas para 10000 rodadas
Salvando política: X10000-v0.0
Salvando política: O10000-v0.0
Iniciando treinamento com 100000 rodadas...
politicas\p_O100000-v0.0.pjv politicas\p_X100000-v0.0.pjv
Rodadas: 0
Rodadas: 10000
Rodadas: 20000
Rodadas: 30000
Rodadas: 40000
Rodadas: 50000
Rodadas: 60000
Rodadas: 70000
Rodadas: 80000
Rodadas: 90000
Treinamento finaliza

# Cria uma política combinando políticas para X e O
Ou seja, cria uma política que pode jogar como X e como O, juntando o resultado do treinamento de uma política para **X** e uma política para **O**

In [3]:
politica_combinada = f"XO{muito_forte}{versao}"
if not path_arquivo(politica_combinada).exists():
    primeiro = velha.Maquina("velhaRLX", taxa_exploracao=0.0)
    primeiro.carregaPolitica(f"X{muito_forte}{versao}")
    segundo = velha.Maquina("velhaRLO", taxa_exploracao=0.0)
    segundo.carregaPolitica(f"O{muito_forte}{versao}")

    primeiro.combinaESalvaPolitica(segundo, politica_combinada)
    print(f"Salvando política {politica_combinada}!!!")
else:
    print(f"Arquivo de política {politica_combinada} já existe!")

Salvando política XO1000000-v0.0!!!


# Consulta à tabela Q de X

In [4]:
primeiro = velha.Maquina("velhaRL", taxa_exploracao=0.0)
primeiro.carregaPolitica(f"X{forte}{versao}")
primeiro.q['[0 0 0 0 0 0 0 0 0]'], primeiro.q['[0 2 0 0 1 0 0 0 0]'], primeiro.q['[0 0 0 0 0 0 0 1 2]']

({0: 2.987634501409394,
  1: 3.1079569968050706,
  2: 2.7514206807915143,
  3: 2.69353172821693,
  4: 3.13729395636451,
  5: 3.1202587102234998,
  6: 3.2695048382175402,
  7: 3.605526237782207,
  8: 3.1070598218771166},
 {0: 5.953043814647707,
  2: 5.5863479247605845,
  3: 5.61972693826126,
  5: 6.33560546337053,
  6: 5.508590581041039,
  7: 4.3982294325655475,
  8: 4.942840199316317},
 {0: 1.7963523916151427,
  1: 0.1562726009000508,
  2: 1.8950237854811272,
  3: 0.666718329299031,
  4: 3.429609432162171,
  5: 1.0052765725630832,
  6: 2.1203233131391874})

# Tabela Q completa para X

In [5]:
primeiro.q

{'[0 0 0 0 0 0 0 0 0]': {0: 2.987634501409394,
  1: 3.1079569968050706,
  2: 2.7514206807915143,
  3: 2.69353172821693,
  4: 3.13729395636451,
  5: 3.1202587102234998,
  6: 3.2695048382175402,
  7: 3.605526237782207,
  8: 3.1070598218771166},
 '[0 0 0 0 0 0 1 0 2]': {0: 5.650550738484505,
  1: 1.3790412390720477,
  2: 3.2390387524899995,
  3: 5.010055699607514,
  4: 2.4904101767039086,
  5: 2.182251993112351,
  7: 2.8469512885015757},
 '[2 1 0 0 0 0 1 0 2]': {2: -0.38,
  3: 0.0,
  4: 4.354772058490859,
  5: 0.0,
  7: 0.0},
 '[2 1 0 0 1 2 1 0 2]': {2: 3.39197810688,
  3: 0.18485872030285255,
  7: 3.799998091761072},
 '[0 1 0 0 2 0 0 0 0]': {0: 1.2480791558334317,
  2: 0.8025175469426815,
  3: 1.6187644765827032,
  5: 1.1863815772485486,
  6: 1.951626603827498,
  7: -1.7750819486516942,
  8: 1.9094926411435613},
 '[1 1 0 0 2 2 0 0 0]': {2: 3.797591463859566,
  3: 0.9405548032,
  6: 0.5368,
  7: -0.684,
  8: 0.0},
 '[0 1 2 0 0 0 0 0 0]': {0: 0.8990819328858268,
  3: 0.6534937326026944,
  

# Consulta à tabela Q de O

In [8]:
segundo = velha.Maquina("velhaRLO", taxa_exploracao=0.0)
segundo.carregaPolitica(f"O{forte}{versao}")
segundo.q['[0 0 0 0 1 0 0 0 0]'], segundo.q['[1 0 0 0 2 0 0 0 1]'], segundo.q['[0 1 0 0 0 0 0 1 2]'], segundo.q['[0 0 0 0 0 0 0 0 1]']

({0: 4.247925942889657,
  1: -0.6536473041912015,
  2: 2.7858986893862503,
  3: -1.645411127155358,
  5: -0.38822877074279083,
  6: 2.5548734903916945,
  7: -0.03753277224229273,
  8: 2.7670139655626227},
 {1: 3.9381586136367455,
  2: 1.5424596097140229,
  3: 3.289801425199445,
  5: 2.8637222909822175,
  6: 0.5680603688304714,
  7: 3.2904886469448997},
 {0: 0.12000000000000005,
  2: 0.0,
  3: -0.06799999999999995,
  4: 2.763634175825301,
  5: -0.2,
  6: -0.17712000000000006},
 {0: 2.718402805011796,
  1: -0.28294863261251485,
  2: 0.47709642654063533,
  3: -0.4950805110617976,
  4: 5.12442842416187,
  5: 0.26914955135626145,
  6: -0.23453906209825992,
  7: 0.4737065127497776})

# Jogando algumas partidas

In [9]:
politica_1 = velha.Maquina("X forte", taxa_exploracao=0.0, limite_exploracao=0.0, depuracao=False)
politica_1.carregaPolitica(f"X{forte}{versao}")
politica_2 = velha.Maquina("O forte", taxa_exploracao=0.0)
politica_2.carregaPolitica(f"O{forte}{versao}")
humano = velha.Humano("Roberto")

In [10]:
forte_x_humano = velha.jogoDaVelha(politica_1, humano)
resultado = forte_x_humano.partida(saida=True)

-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 4
-------------
|   |   |   | 
-------------
|   | O |   | 
-------------
|   | X |   | 
-------------
-------------
|   |   | X | 
-------------
|   | O |   | 
-------------
|   | X |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 5
-------------
|   |   | X | 
-------------
|   | O | O | 
-------------
|   | X |   | 
-------------
-------------
|   |   | X | 
-------------
| X | O | O | 
-------------
|   | X |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
|   |   | X | 
-------------
| X | O | O | 
-------------
|   | X | O | 
-------------
-------------
| X |   | X | 
-------------
| X | O | O | 
-------------
|   | X | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 1
-------------
| X | O | X | 
-------------
| X | O | O | 
-------------
|   | X | O | 
-------------
-------------
| 

In [11]:
humano_x_forte = velha.jogoDaVelha(humano, politica_2)
resultado = humano_x_forte.partida()

Qual a sua jogada, Roberto? Roberto jogou 4
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
-------------
| O |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
| O |   |   | 
-------------
|   | X |   | 
-------------
|   |   | X | 
-------------
-------------
| O |   |   | 
-------------
|   | X |   | 
-------------
| O |   | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 3
-------------
| O |   |   | 
-------------
| X | X |   | 
-------------
| O |   | X | 
-------------
-------------
| O |   |   | 
-------------
| X | X | O | 
-------------
| O |   | X | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 1
-------------
| O | X |   | 
-------------
| X | X | O | 
-------------
| O |   | X | 
-------------
-------------
| O | X |   | 
-------------
| X | X | O | 
-------------
| O | O | X | 
-------------
Qual a sua jogad

# Simulação de partidas
Entre uma política forte para **X** e fraca para **O**

In [12]:
Xforte = velha.Maquina("X forte", taxa_exploracao=0.0, limite_exploracao=0.0)
Xforte.carregaPolitica(f"X{muito_forte}{versao}")
Ofraco = velha.Maquina("O fraco", taxa_exploracao=0.0, limite_exploracao=0.0)
Ofraco.carregaPolitica(f"O{fraco}{versao}")

In [13]:
simulacao = velha.jogoDaVelha(Xforte, Ofraco)
total, tabuleiros = simulacao.simulacao(partidas=10000)

In [14]:
total

Counter({'X forte': 10000})

In [15]:
tabuleiros

Counter({'[2 0 2 0 0 0 1 1 1]': 1611,
         '[1 2 2 0 1 0 2 1 1]': 999,
         '[1 2 2 2 2 1 1 1 1]': 298,
         '[0 1 2 2 1 2 0 1 1]': 1735,
         '[2 1 2 0 1 0 2 1 1]': 427,
         '[0 0 2 0 2 0 1 1 1]': 1638,
         '[0 1 2 2 1 0 2 1 1]': 934,
         '[1 2 2 0 2 0 1 1 1]': 590,
         '[1 2 2 2 1 0 0 1 1]': 546,
         '[2 1 2 2 1 0 0 1 1]': 552,
         '[1 2 2 2 1 1 2 1 1]': 262,
         '[1 2 2 1 1 2 2 1 1]': 199,
         '[2 1 2 1 1 2 2 1 1]': 209})

# Joga todas políticas contra todas

In [16]:
for forcaX in forcas:
    for forcaO in forcas:
        X = velha.Maquina(f"X {forcaX}", taxa_exploracao=0.0, limite_exploracao=0.0)
        X.carregaPolitica(f"X{forcaX}{versao}")
        O = velha.Maquina(f"O {forcaO}", taxa_exploracao=0.0, limite_exploracao=0.0)
        O.carregaPolitica(f"O{forcaO}{versao}")

        simulacao = velha.jogoDaVelha(X, O)
        total, tabuleiros = simulacao.simulacao(partidas=10000)
        print(f"X: {forcaX}, O: {forcaO}")
        print(total)
        print()

X: 1000, O: 1000
Counter({'Velha': 10000})

X: 1000, O: 10000
Counter({'Velha': 10000})

X: 1000, O: 100000
Counter({'O 100000': 8649, 'Velha': 1351})

X: 1000, O: 1000000
Counter({'O 1000000': 9338, 'Velha': 662})

X: 10000, O: 1000
Counter({'X 10000': 9580, 'Velha': 420})

X: 10000, O: 10000
Counter({'Velha': 10000})

X: 10000, O: 100000
Counter({'Velha': 10000})

X: 10000, O: 1000000
Counter({'Velha': 10000})

X: 100000, O: 1000
Counter({'X 100000': 10000})

X: 100000, O: 10000
Counter({'X 100000': 10000})

X: 100000, O: 100000
Counter({'Velha': 10000})

X: 100000, O: 1000000
Counter({'Velha': 10000})

X: 1000000, O: 1000
Counter({'X 1000000': 10000})

X: 1000000, O: 10000
Counter({'X 1000000': 10000})

X: 1000000, O: 100000
Counter({'Velha': 10000})

X: 1000000, O: 1000000
Counter({'Velha': 10000})



# Usando a "política errada"
Humano como **X** e política **X** como **O**

In [17]:
humano = velha.Humano("Roberto")
partida = velha.jogoDaVelha(humano, Xforte)
_ = partida.partida()

Qual a sua jogada, Roberto? Roberto jogou 4
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
-------------
|   |   |   | 
-------------
| O | X |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 0
-------------
| X |   |   | 
-------------
| O | X |   | 
-------------
|   |   |   | 
-------------
-------------
| X |   | O | 
-------------
| O | X |   | 
-------------
|   |   |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
| X |   | O | 
-------------
| O | X |   | 
-------------
|   |   | X | 
-------------
Roberto venceu!


# Jogando contra a política combinada

In [18]:
XO = velha.Maquina("XO", taxa_exploracao=0.0, limite_exploracao=0.013)
XO.carregaPolitica(f"XO{muito_forte}{versao}")
humano = velha.Humano("Roberto")
partida = velha.jogoDaVelha(humano, XO)
_ = partida.partida()

Qual a sua jogada, Roberto? Roberto jogou 4
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   |   | 
-------------
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
|   |   | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 0
-------------
| X |   |   | 
-------------
|   | X |   | 
-------------
|   |   | O | 
-------------
-------------
| X |   | O | 
-------------
|   | X |   | 
-------------
|   |   | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 5
-------------
| X |   | O | 
-------------
|   | X | X | 
-------------
|   |   | O | 
-------------
-------------
| X |   | O | 
-------------
| O | X | X | 
-------------
|   |   | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 1
-------------
| X | X | O | 
-------------
| O | X | X | 
-------------
|   |   | O | 
-------------
-------------
| X | X | O | 
-------------
| O | X | X | 
-------------
|   | O | O | 
-------------
Qual a sua jogad

In [19]:
partida = velha.jogoDaVelha(XO, humano)
_ = partida.partida()

-------------
|   |   |   | 
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 0
-------------
| O |   |   | 
-------------
|   |   |   | 
-------------
|   | X |   | 
-------------
-------------
| O |   |   | 
-------------
|   |   |   | 
-------------
| X | X |   | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 8
-------------
| O |   |   | 
-------------
|   |   |   | 
-------------
| X | X | O | 
-------------
-------------
| O |   |   | 
-------------
|   | X |   | 
-------------
| X | X | O | 
-------------
Qual a sua jogada, Roberto? Roberto jogou 2
-------------
| O |   | O | 
-------------
|   | X |   | 
-------------
| X | X | O | 
-------------
-------------
| O | X | O | 
-------------
|   | X |   | 
-------------
| X | X | O | 
-------------
XO venceu!
