# **REINFORCEMENT LEARNING**

# **1. FONTES**

- [Reinforcement Learning: With Open AI, TensorFlow and Keras Using Python - Abhishek Nandy e Manisha Biswas](https://www.amazon.com/Reinforcement-Learning-TensorFlow-Keras-Python-ebook/dp/B077ZZR4MZ)
- [Reinforcement Learning Tutorial - edureka!](https://www.youtube.com/watch?v=LzaWrmKL1Z4)
- [GitHub](https://github.com/keras-rl/keras-rl/blob/master/rl/agents/dqn.py)

# **2. O QUE É REINFORCEMENT LEARNING**
Durante o processo de aprendizagem o algoritmo segue a ideia de tentativa e erro, em que ele aprende com seus erros. Por exemplo. Se nosso objeto de estudo for um carro que funciona com aprendizagem por reforço, esse carro vai bater em diversos lugares até que de tanto bater ele entende por onde tem que ir. Ou seja, o método é baseado em experiencia.



# **3. COMO O ALGORITMO ENTENDE QUE ESTÁ INDO PELO CAMINHO CERTO**
O processo de aprendizagem por reforço possui um agente e um ambiente. Sendo que o agente é o algoritmo que é quem está tentando aprender. E o ambiente seria o local que o agente precisa conhecer. 

Vejamos um exemplo: Suponha que temos uma criança aprendendo a andar, e foi estabelecido que essa criança teria que 10 metros. A criança seria o agente, e a casa dela seria o ambiente e os 10 metros seriam o objetivo. 

O método de aprendizado para essa criança andar 10 metros pode ser estabelcido por meio de recompensas, ou seja, quando a criança consegue cumprir o objetivo ela ganha algo, e quando não consegue ela recebe uma punição ou simplesmente não ganha nada, assim ela ganha estimulo a sempre cumprir o objetivo, afinal ela gosta da recompensa e não gosta da punição.

Porém logo se vê que pedir para uma criança que está aprendendo a andar que ande logo de cara 10 metros, não é uma boa ideia. Sendo assim é mais prudente segmentarmos o objetivo da criança para 1 metro, depois 2, depois 3 e assim por diante, até que ela consiga andar os 10 metros.

O processo de treinamento de um algoritmo com reforço é exatamente esse, o ambiente é reduzido para que o agente aprenda gradualmente e a cada acerto ele ganha um feedback positivo e a cada erro ele ganha um feedback negativo.

![](https://cdn-images-1.medium.com/max/1600/1*vz3AN1mBUR2cr_jEG8s7Mg.png)
Fonte: https://medium.freecodecamp.org/a-brief-introduction-to-reinforcement-learning-7799af5840db

# **4. O QUE PODEMOS FAZER COM ESSES ALGORITMOS**
Abaixo podemos ver um algoritmo de machine learning que por meio de treinamento por reforço consegue vencer o jogo de pacman facilmente. E diversos outros jogos também receberam boots treinados da mesma maneira. O projeto [DeepMind](https://deepmind.com/) por exemplo já conseguiu vencer os melhores jogadores do mundo em xadres, shogi e go utilizando o projeto [AlphaZero](https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/).

![](https://cdn-images-1.medium.com/max/1600/1*D7JNcbvhP5UOR6_Ul-WJaw.gif)
Fonte: http://ai.berkeley.edu/project_overview.html

# **5. PARTE TÉCNICA**

- Recompença: Uma função que retornará uma recompença pela ação anterior.
- Politica: A abordagem que o agente usará para tomar uma decisão com base na ação anterior.
- Valor: O retorno experando a longo prazo, com descontos baseados nas recompensas a curto prazo.
- Valor de ação: Cumpre a mesma função que `valor` porém leva em consideração a ação atual.

# **6. Q LEARNING**

Vou explicar o algoritmo `Q Learning` por meio de um grafo de exemplo, sendo ele o grafo abaixo, em que queremos ir do ponto 2 ao ponto 5, e que cada rota (setas pretas) possuem uma recompensa, logo o nosso trajeto deve passar pela rota com a maior recompensa.

![](https://github.com/LucasFDutra/Estudos-De-Machine-Learning/blob/master/018%20-%20Reinforcement%20Learning/Imagens/figura_1.jpg?raw=true)

O algoritmo segue os seguintes passos:
- 1 - Montar uma matriz `R` que represente o grafo. A matriz seguirá as regras abaixo.
  - 0: Sem recompensa
  - -1: Não possui rota
  - x: Valor da recompensa
- 2 - Inicializamos uma matriz `Q` com a mesma dimensão de `R` porém contendo apenas zeros.
- 3 - Escolhe-se randomicamente um vertice x para partir.
- 4 - Verificamos quais são os vertices y possíveis para ligar com x.
- 5 - Verifica os vertices para os quais podemos ir após y.
- 6 - Calculo de `Q(x, y)`. A equação para a atualização de `Q` é dada pela equação:
  - $Q(x[i], y[i]) = R(x[i], y[i]) + gama . Max[Q(x[i+1], combinações)]$
    - Como saimos de um ponto x para um ponto y, o valor de `x[i+1]` será igual a y.
    - $ 0 <= gamma < 1$
      - gamma = 0: significa que a recompensa está associada ao
somente estado atual.
     - gamma = 1: significa que a recompensa é de longo prazo.
     - Olhando para a equção vemos que o gamma pode ser dito como um fator de consideração do valor futuro.
- 7 - Ajuste Q
- 8 - Volte para 3.

**Explicando a montagem de R**

Cada vertice tem sua linha e coluna. A linha representa o vertice que está ligando e a coluna o vertice que está sendo ligado. Ou seja, o elemento `R(1,3)` é a recompensa que temos indo de 1 para 3. No exemplo a matriz `R` é montada da seguinte forma:

\begin{array}{ccc}
-1 & -1  & -1 & -1 & 0 & -1 \\ 
-1 & -1 & -1 & 0 & -1 & 100\\
-1 & -1 & -1 & 0 & -1 & -1 \\ 
-1 & 0 & 0 & -1 & 0 & -1 \\
0 & -1 & -1 & 0 & -1 & 100 \\
-1 & 0 & -1 & -1 & 0 & 100 \\
\end{array}

**Explicando a equação Q**

- 1º) Como saimos de um ponto x e iremos para um ponto y, o proximo valor de x será o y anterior.
- 2º) `Q(x[i+1], combinações)` são todos aqueles pontos em que na linha `x[i+1]` temos ligações válidas (valores >= 0). No caso do exemplo, se escolhermos partir de `R(1,5)`, vamos olhar para a linha 5 e veremos que os pontos que teremos valores >=0 são: `R(5,1), R(5,4) e R(5,5)`. Assim os valores que vamos utilizar para comparar quais são os maiores serão os valores nas posições `Q(5,1), Q(5,4) e Q(5,5)`


**Rodando o exemplo uma vez**

- 1 - A matriz R já foi mostrada anteriormente.
- 2 - Inicializamos a matriz Q com zeros.

\begin{array}{ccc}
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
\end{array}

- 3 - Vamos dizer que o sorteio disse para iniciarmos em x=1.
- 4 - Olhando a linha 1, vemos que podemos ir para 3 ou 5. Vamos dizer que o orteio entre 3 e 5 resultou em y=5. 
  - Ou seja vamos calcular `Q(1,5)`. E por consequência `x[i+1] = 5`
- 5 - Agora vamos para a linha 5 e vemos que posteriormente poderemos ir para 1, 4, e 5.
  - Vemos que temos as combinações `R(5,1), R(5,4) e R(5,5)`. Então para o calculo de Q iremos olhar para `Q(5,1), Q(5,4) e Q(5,5)`
- 6 -  Temos que `Q(5,1)=0, Q(5,4)=0 e Q(5,5)=0`.  E definindo $gamma = 0.8$. Temos a equação:
  - $Q(1, 5) = R(1, 5) + gama . Max[Q(5,1), Q(5,4) e Q(5,5)]$
  - $Q(1, 5) = 100 + 0,8 . Max[0, 0, 0] = 100$
- 7 - A nova matriz Q é igual à:

\begin{array}{ccc}
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 100 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
0 & 0 & 0 & 0 & 0 & 0 \\
\end{array}
 


## 6.1 IMPLEMENTAÇÃO

### Passo 1 - Definindo matriz R e parâmetro gamma

In [1]:
import numpy as np

R = np.matrix([[-1, -1, -1, -1, 0, -1],
               [-1, -1, -1, 0, -1, 100],
               [-1, -1, -1, 0, -1, -1],
               [-1, 0, 0, -1, 0, -1],
               [-1, 0, 0, -1, -1, 100],
               [-1, 0, -1, -1, 0, 100]])

gamma = 0.8

### Passo 2 - Iniciando matriz Q

In [2]:
Q = np.matrix(np.zeros([6,6]))

### Passo 3 - Definindo um vertice x inicial entre 0 e 5

Não é necessário fazermos isso agora, pois será feito durante o treinamento.

### Passo 4- Verificar vertices y que ligam com x

Como vamos iniciar de um vertice, precisamos saber à quem esse vertice está ligado, a função abaixo verifica isso. Para tal ela verifica valores maiores ou iguais a zero, pois quando não existe ligação temos -1.

In [3]:
def y_para_ligar_com_x(posicao_atual_em_x):
  ligacoes_validas = np.where(R[posicao_atual_em_x] >= 0)[1] #onde obedecer a condição ele colocará num array val
  y = int(np.random.choice(ligacoes_validas,1))
  return y

### Passos 5, 6 e 7 - Calculando valor de Q e o atualiza

In [4]:
def updateQ(x, y, gamma):
  max_index = np.where(Q[y,] == np.max(Q[y,]))[1] # verifica os maiores valores e retorna onde estão (indices)
  
  if max_index.shape[0] > 1: # quando tenho várias opções de maior valor
    max_index = int(np.random.choice(max_index, size=1)) #seleciona algum dos maiores
  else:
    max_index = int(max_index)
  
  max_valor = Q[y, max_index] # retorna qual é o maior valor
  
  Q[x, y] = R[x,y] + gamma*max_valor # atualiza Q

### Treinamento

Vamos colocar o conjunto de funções criadas anteriormente para trabalhar e efetuar um treinamento de 10 mil interações.

In [5]:
for i in range(10000):
  
  # 3 - Escolhe-se randomicamente um vertice x para partir.
  x_atual = np.random.randint(0, int(Q.shape[0])) #valor aleatório de 0 a 5

  # 4 - Verificamos quais são os vertices y possíveis para ligar com x.
  y_atual = y_para_ligar_com_x(x_atual)
  
  # 5/6/7 - Calculo de `Q(x, y)` e ajustando Q
  updateQ(x_atual, y_atual, gamma)

In [6]:
Q

matrix([[  0.,   0.,   0.,   0., 400.,   0.],
        [  0.,   0.,   0., 320.,   0., 500.],
        [  0.,   0.,   0., 320.,   0.,   0.],
        [  0., 400., 256.,   0., 400.,   0.],
        [  0., 400., 256.,   0.,   0., 500.],
        [  0., 400.,   0.,   0., 400., 500.]])

### Verificando melhor caminho

Vamos sair de 2 e ir para 5.

In [7]:
saida = 2
chegada = 5

passos = [saida]

vertice_atual = saida

while (vertice_atual != chegada):
  next_step_index = np.where(Q[vertice_atual,] == np.max(Q[vertice_atual,]))[1]
  
  if next_step_index.shape[0]>1:
    next_step_index = int(np.random.choice(next_step_index, size=1))
  else:
    next_step_index = int(next_step_index)
    
  passos.append(next_step_index)
  vertice_atual = next_step_index 
  
print("o melhor caminho é: {}".format(passos))

o melhor caminho é: [2, 3, 4, 5]


# **7. DEEP REINFORCEMENT LEARNING**

Diferentemente do método tradicional de reinforcement learning, em que temos uma matriz Q para tormarmos decisões, aqui teremos uma rede neural que tomará essas decisões por nós. 

Esse tipo de treinamento é viável quenado temos ambientes muito grandes, visto que montarmos um grafo de recompensas e uma matriz Q e analizá-la se torna praticamente impossível em casos como jogos.

## IMPLEMENTAÇÃO

Mais abaixo você verá um exemplo de implementação do algoritmo Deep Q-learning. Aplicado ao jogo `CartPole`, que objetiva manter o pendulo reverso imóvel.

![](https://camo.githubusercontent.com/86630851d533e6422d4c8cfe4ecccbec7fdf2e3f/687474703a2f2f61626973756c636f2e636f6d2f696d672f63617274706f6c652e676966)

Fonte: https://github.com/anthonytec2/ssp-rl-final

## Importantdo bibliotecas

In [8]:
import keras
import gym
import numpy as np
from rl.memory import SequentialMemory
from rl.policy import BoltzmannQPolicy
from rl.agents.dqn import DQNAgent

Using TensorFlow backend.


## Criando ambiente


In [9]:
env = gym.make('CartPole-v0')

## Criando uma rede neural sequêncial

- env.observation_space.shape: Retorna a dimensão do ambiente
- env.action_space.n: Retorna a quantidade de ações que podemos tomar

In [10]:
nb_actions = env.action_space.n

model = keras.models.Sequential()

model.add(keras.layers.Flatten(input_shape=(1,)+env.observation_space.shape))
model.add(keras.layers.Dense(18, activation='relu'))
model.add(keras.layers.Dense(16, activation='relu'))
model.add(keras.layers.Dense(16, activation='relu'))
model.add(keras.layers.Dense(nb_actions, activation='linear'))

model.summary()

Instructions for updating:
Colocations handled automatically by placer.
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten_1 (Flatten)          (None, 4)                 0         
_________________________________________________________________
dense_1 (Dense)              (None, 18)                90        
_________________________________________________________________
dense_2 (Dense)              (None, 16)                304       
_________________________________________________________________
dense_3 (Dense)              (None, 16)                272       
_________________________________________________________________
dense_4 (Dense)              (None, 2)                 34        
Total params: 700
Trainable params: 700
Non-trainable params: 0
_________________________________________________________________


In [11]:
memory = SequentialMemory(limit = 50000, window_length=1)
policy = BoltzmannQPolicy()
dqn = DQNAgent(model=model,
               nb_actions=nb_actions,
               memory=memory,
               nb_steps_warmup=10, 
               target_model_update=1e-2,
               policy=policy)

## Preparando a rede neural para o treinamento

In [12]:
dqn.compile(optimizer = keras.optimizers.Adam(lr=1e-3), 
            metrics=['mse'])

## Treinamento

In [13]:
dqn.fit(env, nb_steps=50000, visualize = True, verbose=0)



Instructions for updating:
Use tf.cast instead.


<keras.callbacks.History at 0x7f80d4725518>

Veja como o jogo se comporta durante o treinamento

![](https://github.com/LucasFDutra/Estudos-De-Machine-Learning/blob/master/018%20-%20Reinforcement%20Learning/Imagens/figura_2.gif?raw=true)

## Teste

In [14]:
dqn.test(env, nb_episodes=5, visualize=True)

Testing for 5 episodes ...
Episode 1: reward: 200.000, steps: 200
Episode 2: reward: 200.000, steps: 200
Episode 3: reward: 200.000, steps: 200
Episode 4: reward: 200.000, steps: 200
Episode 5: reward: 200.000, steps: 200


<keras.callbacks.History at 0x7f8128b8e4a8>

Veja como o jogo se comporta depois de treinado

![](https://github.com/LucasFDutra/Estudos-De-Machine-Learning/blob/master/018%20-%20Reinforcement%20Learning/Imagens/figura_3.gif?raw=true)

# **8. ENCONTRE O TESOURO**

O algoritmo abaixo utiliza Q-learning, e tem o objetivo de que o `o` deve chegar ao T. Sendo que sempre que ele conseguir uma recompensa será dada.

## Importando bibliotecas

In [15]:
import numpy as np
import time

## Definindo mundo

O nosso mundo terá um total de 10 posições até chegar no tesouro

Gamma = 0.8

In [16]:
n_states = 6 # -----T
actions = ['left', 'right']
gamma = 0.8
fresh_time = 0.3

## Construindo a matriz Q

In [17]:
Q = np.matrix(np.zeros([n_states, len(actions)]))

## Definindo a proxima ação

In [18]:
def choose_action(state, q_table):
  q_line = q_table[state]
  if (q_line == 0).all():
    action = np.random.choice(actions)
  else:
    action = actions[np.argmax(q_line)]
  return action

## Recebendo recompensa

In [19]:
def get_reward(state, action):
  if (action == 'right'):
    if (state == n_states-2): # está na posição 8 das 9, logo a proxima jogada terminará o jogo
      reward = 1
      new_state = 'T'
    else:
      reward = 0
      new_state = state+1 # andou um para a direita
  else:
    reward = 0
    if (state == 0):
      new_state = state
    else:
      new_state = state-1
  return new_state, reward     

## Atualizando ambiente

In [20]:
def update_env(state, steps, attempt):
  env = ['-']*(n_states-1)+['T'] # exibe '---------T'
  if (state == 'T'):
    print(f'\r       tentativa: {attempt+1}, número de passos: {steps}',end='')
    time.sleep(2)
  else:
    env[state] = 'o'
    env_j = ''.join(env)
    print(f'\r{env_j}',end='')
    time.sleep(fresh_time)

## Treinamento

In [21]:
for attempt in range(10):
  state = 0
  step = 0
  update_env(state, step, attempt)
  while (state != 'T'):
    action = choose_action(state, Q)
    new_state, reward = get_reward(state, action)
    if (new_state != 'T'):
      Q[state, actions.index(action)] = reward + (gamma * np.max(Q[new_state,]))
    else:
      Q[state, actions.index(action)] = reward
    state = new_state
    update_env(state, step, attempt)
    step+=1

       tentativa: 10, número de passos: 4

Veja como o jogo se comporta durante o treinamento

![](https://github.com/LucasFDutra/Estudos-De-Machine-Learning/blob/master/018%20-%20Reinforcement%20Learning/Imagens/figura_4.gif?raw=true)

# **9. ENCONTRE A SAÍDA**

Nesse algoritmo temos uma pequena representação de um labirinto. Sendo que a peça vermelha precisa encontar o circulo amarelo para sair do labrinto, sem bater nas peças pretas.

## DEFININDO O MUNDO

In [22]:
import numpy as np
import time
import sys
if sys.version_info.major == 2:
    import Tkinter as tk
else:
    import tkinter as tk


UNIT = 40   # pixels
MAZE_H = 6  # grid height
MAZE_W = 6  # grid width


class Maze(tk.Tk, object):
    def __init__(self):
        super(Maze, self).__init__()
        self.action_space = ['u', 'd', 'l', 'r']
        self.n_actions = len(self.action_space)
        self.title('maze')
        self.geometry('{0}x{1}'.format(MAZE_H * UNIT, MAZE_H * UNIT))
        self._build_maze()

    def _build_maze(self):
        self.canvas = tk.Canvas(self, bg='white',
                           height=MAZE_H * UNIT,
                           width=MAZE_W * UNIT)

        # create grids
        for c in range(0, MAZE_W * UNIT, UNIT):
            x0, y0, x1, y1 = c, 0, c, MAZE_H * UNIT
            self.canvas.create_line(x0, y0, x1, y1)
        for r in range(0, MAZE_H * UNIT, UNIT):
            x0, y0, x1, y1 = 0, r, MAZE_W * UNIT, r
            self.canvas.create_line(x0, y0, x1, y1)

        # create origin
        origin = np.array([20, 20])

        # hell
        hell1_center = origin + np.array([UNIT * 2, UNIT])
        self.hell1 = self.canvas.create_rectangle(
            hell1_center[0] - 15, hell1_center[1] - 15,
            hell1_center[0] + 15, hell1_center[1] + 15,
            fill='black')
        # hell
        hell2_center = origin + np.array([UNIT, UNIT * 2])
        self.hell2 = self.canvas.create_rectangle(
            hell2_center[0] - 15, hell2_center[1] - 15,
            hell2_center[0] + 15, hell2_center[1] + 15,
            fill='black')

        # create oval
        oval_center = origin + UNIT * 2
        self.oval = self.canvas.create_oval(
            oval_center[0] - 15, oval_center[1] - 15,
            oval_center[0] + 15, oval_center[1] + 15,
            fill='yellow')

        # create red rect
        self.rect = self.canvas.create_rectangle(
            origin[0] - 15, origin[1] - 15,
            origin[0] + 15, origin[1] + 15,
            fill='red')

        # pack all
        self.canvas.pack()

    def reset(self):
        self.update()
        time.sleep(0.5)
        self.canvas.delete(self.rect)
        origin = np.array([20, 20])
        self.rect = self.canvas.create_rectangle(
            origin[0] - 15, origin[1] - 15,
            origin[0] + 15, origin[1] + 15,
            fill='red')
        # return observation
        return self.canvas.coords(self.rect)

    def step(self, action):
        s = self.canvas.coords(self.rect)
        base_action = np.array([0, 0])
        if action == 0:   # up
            if s[1] > UNIT:
                base_action[1] -= UNIT
        elif action == 1:   # down
            if s[1] < (MAZE_H - 1) * UNIT:
                base_action[1] += UNIT
        elif action == 2:   # right
            if s[0] < (MAZE_W - 1) * UNIT:
                base_action[0] += UNIT
        elif action == 3:   # left
            if s[0] > UNIT:
                base_action[0] -= UNIT

        self.canvas.move(self.rect, base_action[0], base_action[1])  # move agent

        s_ = self.canvas.coords(self.rect)  # next state

        # reward function
        if s_ == self.canvas.coords(self.oval):
            reward = 1
            done = True
            s_ = 'terminal'
        elif s_ in [self.canvas.coords(self.hell1), self.canvas.coords(self.hell2)]:
            reward = -1
            done = True
            s_ = 'terminal'
        else:
            reward = 0
            done = False

        return s_, reward, done

    def render(self):
        time.sleep(0.1)
        self.update()


def update():
    for t in range(10):
        s = env.reset()
        while True:
            env.render()
            a = 1
            s, r, done = env.step(a)
            if done:
                break

if __name__ == '__main__':
    env = Maze()
    env.after(100, update)
    env.mainloop()

Exception in Tkinter callback
Traceback (most recent call last):
  File "/usr/lib/python3.6/tkinter/__init__.py", line 1705, in __call__
    return self.func(*args)
  File "/usr/lib/python3.6/tkinter/__init__.py", line 749, in callit
    func(*args)
  File "<ipython-input-22-c789f785cca7>", line 127, in update
    s, r, done = env.step(a)
  File "<ipython-input-22-c789f785cca7>", line 82, in step
    s = self.canvas.coords(self.rect)
  File "/usr/lib/python3.6/tkinter/__init__.py", line 2469, in coords
    self.tk.call((self._w, 'coords') + args))]
_tkinter.TclError: invalid command name ".!canvas"


Veja o nosso labirinto.

![](https://github.com/LucasFDutra/Estudos-De-Machine-Learning/blob/master/018%20-%20Reinforcement%20Learning/Imagens/figura_5.png?raw=true)

## MANIPULAÇÃO DA TABELA

In [23]:
import numpy as np
import pandas as pd


class QLearningTable:
    def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
        self.actions = actions  # a list
        self.lr = learning_rate
        self.gamma = reward_decay
        self.epsilon = e_greedy
        self.q_table = pd.DataFrame(columns=self.actions, dtype=np.float64)

    def choose_action(self, observation):
        self.check_state_exist(observation)
        # action selection
        if np.random.uniform() < self.epsilon:
            # choose best action
            state_action = self.q_table.loc[observation, :]
            # some actions may have the same value, randomly choose on in these actions
            action = np.random.choice(state_action[state_action == np.max(state_action)].index)
        else:
            # choose random action
            action = np.random.choice(self.actions)
        return action

    def learn(self, s, a, r, s_):
        self.check_state_exist(s_)
        q_predict = self.q_table.loc[s, a]
        if s_ != 'terminal':
            q_target = r + self.gamma * self.q_table.loc[s_, :].max()  # next state is not terminal
        else:
            q_target = r  # next state is terminal
        self.q_table.loc[s, a] += self.lr * (q_target - q_predict)  # update

    def check_state_exist(self, state):
        if state not in self.q_table.index:
            # append new state to q table
            self.q_table = self.q_table.append(
                pd.Series(
                    [0]*len(self.actions),
                    index=self.q_table.columns,
                    name=state,
                )
            )

## CÓDIGO PRINCIPAL

In [24]:
def update():
    for episode in range(100):
        # initial observation
        observation = env.reset()

        while True:
            # fresh env
            env.render()

            # RL choose action based on observation
            action = RL.choose_action(str(observation))

            # RL take action and get next observation and reward
            observation_, reward, done = env.step(action)

            # RL learn from this transition
            RL.learn(str(observation), action, reward, str(observation_))

            # swap observation
            observation = observation_

            # break while loop when end of this episode
            if done:
                break

    # end of game
    print('game over')
    env.destroy()

if __name__ == "__main__":
    env = Maze()
    RL = QLearningTable(actions=list(range(env.n_actions)))

    env.after(100, update)
    env.mainloop()

game over


Veja como o jogo se comporta durante o treinamento

![](https://github.com/LucasFDutra/Estudos-De-Machine-Learning/blob/master/018%20-%20Reinforcement%20Learning/Imagens/figura_6.gif?raw=true)