In [1]:
from gym import Env
from gym.spaces import Discrete, Tuple
import numpy as np
import random

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten
from tensorflow.keras.optimizers import Adam

from rl.agents import DQNAgent
from rl.policy import BoltzmannQPolicy
from rl.memory import SequentialMemory

from py4j.java_gateway import JavaGateway

In [2]:
# Conecta no servidor de treinamento
gateway = JavaGateway()
minitruco_java = gateway.entry_point 

In [3]:
# Env customizado do gym

class MinitrucoEnv(Env):
    def __init__(self):
        # Ações que podemos tomar: jogar a carta 0, a carta 1 ou a carta 2
        self.action_space = Discrete(3)
        
        # Estados possíveis
        # - posições: 1=inferior, 2=direita, 3=superior, 4=esquerda    
        # - equipes: 1=posições 1 e 3; 2=posições 2 e 4
        # - cartas: podem valer -1 (null), 0 (fechada) ou um valor de 1
        #           a 14, conforme o valor relativo delas (cartas normais de 1
        #           a 10, manilhas de 11 a 14)
        # - rodadas: 1 a 3
        # - resultado da rodada: a equipe que venceu (1 ou 2), 3 para empate ou -1 para rodada não conlcuída
        # - booleanos (ex.: podeFechada) são 0 ou 1
        # TBD posJogadorPedindoAumento (acho que não zera depois do aumento)
        # TBD tento mineiro (talvez só varie as recompensas, mas é preciso especificar)
        # TBD baralho limpo (provavelmente só vamos excluir o range 1-4)
        self.observation_space = Tuple((
            Discrete(4, start=1),    # posJogador
            Discrete(2),             # baralhoSujo
            Discrete(2),             # podeFechada
            Discrete(3, start=1),    # numRodadaAtual
            Discrete(3, start=1),    # resultadoRodada1
            Discrete(3, start=1),    # resultadoRodada2
            Discrete(12, start=1),   # valorMao
            Discrete(13, start=0),   # valorProximaAposta
            Discrete(4, start=1),    # posJogadorPedindoAumento
            Discrete(4, start=1),    # posJogadorQueAbriuRodada
            Discrete(24, start=0),   # pontosEquipe1
            Discrete(24, start=0),   # pontosEquipe2
            Discrete(16, start=-1),  # cartaJogadaRodada1Pos1
            Discrete(16, start=-1),  # cartaJogadaRodada1Pos2
            Discrete(16, start=-1),  # cartaJogadaRodada1Pos3
            Discrete(16, start=-1),  # cartaJogadaRodada1Pos4
            Discrete(16, start=-1),  # cartaJogadaRodada2Pos1
            Discrete(16, start=-1),  # cartaJogadaRodada2Pos2
            Discrete(16, start=-1),  # cartaJogadaRodada2Pos3
            Discrete(16, start=-1),  # cartaJogadaRodada2Pos4
            Discrete(16, start=-1),  # cartaJogadaRodada3Pos1
            Discrete(16, start=-1),  # cartaJogadaRodada3Pos2
            Discrete(16, start=-1),  # cartaJogadaRodada3Pos3
            Discrete(16, start=-1),  # cartaJogadaRodada3Pos4
            Discrete(16, start=-1),  # carta1Jogador
            Discrete(16, start=-1),  # carta2Jogador
            Discrete(16, start=-1)   # carta3Jogador
        ))
        
        self.episodio = None
        self.state = None
        
    def step(self, action):
        last_observation = self.state
        cartaJogada = last_observation[24 + action]
        if cartaJogada == -1:
            # Jogada inválida
            return last_observation, 0, False, {}
        
        self.episodio.executa(action)
        estado_str = self.episodio.estado()
        if estado_str == "EQUIPE 1 VENCEU":
            return None, 1.0, True, {}
        if estado_str == "EQUIPE 2 VENCEU":
            return None, -1.0, True, {}
                
        self.state = tuple(map(int, estado_str.split()))
        
        pontosEquipe1 = self.state[10]
        pontosEquipe2 = self.state[11]
        
        reward = 0.0
        done = False
        
        return self.state, reward, done, {}

    def render(self):
        pass
    
    def reset(self):
        if self.episodio is not None:
            self.episodio.finaliza()
        
        self.episodio = minitruco_java.novoEpisodio()
        self.state = tuple(map(int, self.episodio.estado().split()))
        
        return self.state
    

In [4]:
###### Testando a comunicação com o servidor de treino

In [5]:
gateway = JavaGateway()
minitruco_java = gateway.entry_point 

In [6]:
episodio = minitruco_java.novoEpisodio()
# print(episodio.estado().split())

In [7]:
episodio.executa(0)
# print(episodio.estado().split())

In [8]:
episodio.finaliza()

In [9]:
###### Rodando alguns episódios com estratégia "jogue uma carta aleatoriamente"

In [10]:
env = MinitrucoEnv()

In [11]:
import time

episodes = 10
for episode in range(1, episodes+1):
    state = env.reset()
    done = False
    score = 0 
    start = time.time()
    
    while not done:
        #env.render()
        action = env.action_space.sample()
        n_state, reward, done, info = env.step(action)
        score+=reward
    print('Episode:{} Score:{} Time:{}s'.format(episode, score, time.time() - start))

Episode:1 Score:1.0 Time:20.43039107322693s
Episode:2 Score:-1.0 Time:19.498448133468628s
Episode:3 Score:1.0 Time:24.19328999519348s
Episode:4 Score:-1.0 Time:23.83010768890381s
Episode:5 Score:-1.0 Time:22.74300980567932s
Episode:6 Score:-1.0 Time:23.60432004928589s
Episode:7 Score:-1.0 Time:22.262662887573242s
Episode:8 Score:-1.0 Time:21.933605194091797s
Episode:9 Score:1.0 Time:24.489030122756958s
Episode:10 Score:-1.0 Time:16.342250108718872s
