# Objetivo
Implementar um jogo onde devemos pegar uma caixa numa determinada posição e soltá-la em outra posição utilizando um algoritmo de Q-learning.

# Configuração inicial e propriedades
Iremos implementar um tabuleiro bidimensional (campo) com as seguintes especificações:
> tamanho do tabuleiro quadrado. Neste caso é 10 x 10;

> posição da caixa. Ou seja, onde devemos pegá-la;

> posição onde devemos soltar a caixa;

> posição que começaremos no campo;

> Se temos com a caixa. Inicialmente não.

# Regras
1. Iremos continuar o jogo até que ele não termine. Ou seja, além da recompensa/punição, devemos retornar também False para cada ação. Pois True indica que o jogo terminou, o que acontecerá apenas quando estivermos com a caixa e soltarmos ela na posição especificada;

2. Podemos soltar a caixa em posição inválida.

# Algoritmo
> Se andar para uma posição inválida, punir em -10;

> Se andar para uma posição válida, punir em -1 (não podemos recompensar isso pois isso incentivaria andar infinitamente pelo campo);

> Se tentar pegar a caixa e já estivermos com ela na mão, punir em -10. Senão (não temos a caixa), se a caixa não estiver em nossa posição e quisermos pegá-la, punir em -10. Caso contrário, recompensar em 20 (porque achou a caixa);

> Se tentar soltar a caixa e não estivermos com ela na mão, punir em -10. Senão (temos a caixa), se não for o lugar de soltar a caixa e quisermos soltá-la, punir em -10. Caso contrário, recompensar em 20 e terminar o jogo.

In [1]:
class Campo:
    def __init__(self, tamanho, posicao_pegar_caixa, posicao_soltar_caixa, posicao_inicial):
        ''' 
        Um estado é um inteiro que representa uma determinada matriz. A matriz é composta por 5 vetores: 
        a coordenada x da posição do jogador, vai de 0 a 9;
        a coordenada y da posição do jogador, vai de 0 a 9;
        a coordenada x da posição da caixa, vai de 0 a 9;
        a coordenada y da posição da caixa, vai de 0 a 9;
        se temos ou não a caixa, um boolenano.

        Logo, é uma matriz de dimensão 10 x 10 x 10 x 10 x 2.
        '''
        self.tamanho = tamanho # tamanho do campo bidimensional
        self.posicao_caixa = posicao_pegar_caixa # posição onde está a caixa. Está inicialmente onde devemos pegá-la
        self.posicao_soltar_caixa = posicao_soltar_caixa # posição onde devemos soltar a caixa
        self.posicao = posicao_inicial # posição onde estamos. Começamos na posição inicial
        self.caixa_no_carro = False # não começamos com a caixa

    def get_numero_estados(self):
        ''' 2*10^4 '''
        return self.tamanho**4*2

    def get_estado(self):
        ''' Retorna um inteiro que representa uma configuração do jogo '''
        estado  = self.posicao[0]       *self.tamanho**3*2 # representa a coordenada x da posição do jogador;
        estado += self.posicao[1]       *self.tamanho**2*2 # representa a coordenada y da posição do jogador;
        estado += self.posicao_caixa[0] *self.tamanho**1*2 # representa a coordenada x da posição da caixa;
        estado += self.posicao_caixa[1]                 *2 # representa a coordenada y da posição da caixa;
        if self.caixa_no_carro:
            estado += 1 # representa um estado em que temos a caixa

        # Dessa forma, temos um mapeamento da matriz a um único inteiro para cada estado.
        # Embora nem todos os inteiros de 0 a 2*10^4 sejam abrangidos, a cada matriz é mapeado um inteiro,
        # o que satisfaz nosso objetivo.

        return estado
    
    def agir(self, acao):
        (x,y) = self.posicao

        if acao == 0: # ir para o sul
            if y == 0:
                return - 10, False # não anda e pune
            else:
                self.posicao = (x,y-1) # desce 1 casa
                return -1, False
        elif acao == 1: # ir para o norte
            if y == self.tamanho - 1:
                return - 10, False # não anda e pune
            else:
                self.posicao = (x,y+1) # sobe 1 casa
                return -1, False
        elif acao == 2: # ir para o leste
            if x == self.tamanho - 1:
                return - 10, False # não anda e pune
            else:
                self.posicao = (x+1,y) # 1 casa para direita
                return -1, False
        elif acao == 3: # ir para o oeste
            if x == 0:
                return - 10, False # não anda e pune
            else:
                self.posicao = (x-1,y) # 1 casa para esquerda
                return -1, False
        elif acao == 4: # pegar a caixa
            if self.caixa_no_carro:
                return -10, False
            elif self.posicao_caixa != self.posicao: # na aula, ao invés de "self.posicao" é usado "(x,y)"
                return -10, False
            else:
                self.caixa_no_carro = True
                return 20, False
        elif acao == 5: # soltar a caixa
            if not self.caixa_no_carro:
                return -10, False
            elif self.posicao_soltar_caixa != self.posicao: # se soltarmos a caixa e não estivermos na posição correta de soltá-la
                self.posicao_caixa = self.posicao
                self.caixa_no_carro = False
                return -10, False
            else:
                return 20, True

In [2]:
# # Exemplo de implementação manual com todos os movimentos corretos
# campo = Campo(10, (0,0), (9,9), (9,0))

# campo.agir(3)
# campo.agir(3)
# campo.agir(3)
# campo.agir(3)
# campo.agir(3)
# campo.agir(3)
# campo.agir(3)
# campo.agir(3)
# campo.agir(3)

# campo.agir(4)

# campo.agir(2)
# campo.agir(2)
# campo.agir(2)
# campo.agir(2)
# campo.agir(2)
# campo.agir(2)
# campo.agir(2)
# campo.agir(2)
# campo.agir(2)

# campo.agir(1)
# campo.agir(1)
# campo.agir(1)
# campo.agir(1)
# campo.agir(1)
# campo.agir(1)
# campo.agir(1)
# campo.agir(1)
# campo.agir(1)

# campo.posicao

In [3]:
import random

def solucao_ingenua():
    tamanho = 10
    posicao_inicio_caixa = (0,0)
    posicao_soltar_caixa = (9,9)
    posicao_inicial = (9,0)

    campo = Campo(tamanho,posicao_inicio_caixa,posicao_soltar_caixa, posicao_inicial)
    terminado = False
    passos = 0

    while not terminado:
        acao = random.randint(0,5)
        recompensa, terminado = campo.agir(acao)
        passos += 1
    return passos

solucao_ingenua()

87203

In [4]:
import numpy as np
import random

tamanho = 10
posicao_caixa = (0,0)
posicao_soltar_caixa = (9,9)
posicao_inicio = (0,9)
campo = Campo(tamanho, posicao_caixa, posicao_soltar_caixa, posicao_inicio)

numero_estados = campo.get_numero_estados() # representa todas as configurações possíveis
numero_acoes = 6 # representa todas as ações possíveis
q_table = np.zeros((numero_estados, numero_acoes)) # shape = (20000, 6)

epsilon = 0.1 # probabilidade de executar uma ação aleatória
alpha = 0.1 # probababilidade de mudança de um registro da Q-table, ou seja, a taxa de aprendizagem
gamma = 0.6 # fator de desconto usado para

for _ in range(1000):
    campo = Campo(tamanho, posicao_caixa, posicao_soltar_caixa, posicao_inicio)
    feito = False

    while not feito:
        estado = campo.get_estado()
        if random.uniform(0,1) < epsilon:
            # representa uma ação aleatória dentre os 6 já implementados na classe Campo.
            acao = random.randint(0,5)
        else:
            # representa a melhor ação de um determinado estado até aquele momento
            acao = np.argmax(q_table[estado])

        recompensa, feito = campo.agir(acao)
        
        # A melhor recompensa do novo estado
        # Ou seja, a recompensa da ação que possui a maior recompensa dentre as 6 disponíveis
        novo_estado = np.max(q_table[campo.get_estado()]) 
        
        # Implementar a fórmula que atualiza a q_table
        q_table[estado,acao] = (1 - alpha)*q_table[estado,acao] + alpha*(recompensa + gamma*novo_estado - q_table[estado,acao])

In [5]:
def aprendizado_por_reforco(): # a q-table 'memoriza' as melhores ações para cada estado
    epsilon = 0.1; alpha = 0.1; gamma = 0.6; feito = False;passos = 0
    campo = Campo(tamanho, posicao_caixa, posicao_soltar_caixa, posicao_inicio)

    while not feito:
        estado = campo.get_estado()
        if random.uniform(0,1) < epsilon:
            acao = random.randint(0,5)
        else:
            acao = np.argmax(q_table[estado])

        recompensa, feito = campo.agir(acao)
        novo_estado = np.max(q_table[campo.get_estado()])
        q_table[estado,acao] = (1 - alpha)*q_table[estado,acao] + alpha*(recompensa + gamma*novo_estado - q_table[estado,acao])

        passos += 1
    return passos

aprendizado_por_reforco()

35