In [1]:
import gym
import random
import numpy as np
from collections import deque
from keras.models import Sequential
from keras.layers import Dense
from keras.optimizers import Adam

Using TensorFlow backend.


#### Implementação original:
https://ieeexplore-ieee-org.ezp2.lib.umn.edu/stamp/stamp.jsp?tp=&arnumber=6313077

#### Baseado no jupyter-notebook: 
https://github.com/gsurma/cartpole/blob/master/cartpole.py

In [2]:

ENV_NAME = "CartPole-v1"

GAMMA = 0.95
LEARNING_RATE = 0.001

MEMORY_SIZE = 1000000
BATCH_SIZE = 20

EXPLORATION_MAX = 1.0
EXPLORATION_MIN = 0.01
EXPLORATION_DECAY = 0.995


In [3]:

class DQNSolver:

    def __init__(self, observation_space, action_space):
        self.exploration_rate = EXPLORATION_MAX

        self.action_space = action_space
        self.memory = deque(maxlen=MEMORY_SIZE)

        self.model = Sequential()
        self.model.add(Dense(24, input_shape=(observation_space,), activation="relu"))
        self.model.add(Dense(24, activation="relu"))
        self.model.add(Dense(self.action_space, activation="linear"))
        self.model.compile(loss="mse", optimizer=Adam(lr=LEARNING_RATE))

    def remember(self, state, action, reward, next_state, done):
        self.memory.append((state, action, reward, next_state, done))

    def act(self, state):
        # Tomar Decisões Aleatorias em certos momentos
        if np.random.rand() < self.exploration_rate:
            print("Inovou.")
            return random.randrange(self.action_space)
        # Prever q_value dado o estado atual
        q_values = self.model.predict(state)
        # Retornar acao
        return np.argmax(q_values[0])

    def experience_replay(self):
        # Retreinar modelo com novas informacoes
        if len(self.memory) < BATCH_SIZE:
            return
        # Selecionar aleatoriamente momentos na memoria
        batch = random.sample(self.memory, BATCH_SIZE)
        # Para cada momento na memoria
        for state, action, reward, state_next, terminal in batch:
            q_update = reward
            if not terminal:
                # Caso o estado não tenha sido terminal
                # Atualiza q_values. Ver imagem: https://wikimedia.org/api/rest_v1/media/math/render/svg/678cb558a9d59c33ef4810c9618baf34a9577686
                # Novo q_value é Recompensa + Com a ação prevista para o próximo estado * Gamma
                # Se a recompensa for negativa, o q_value para esta ação no proximo estado é diminuido.
                # Se a recompensa for positiva, o q_value para esta ação no proximo estado é aumentado
                q_update = (reward + GAMMA * np.amax(self.model.predict(state_next)[0]))
            q_values = self.model.predict(state)
            q_values[0][action] = q_update
            self.model.fit(state, q_values, verbose=0) #Online learning - O modelo é retreinado a cada momento lembrado
        self.exploration_rate *= EXPLORATION_DECAY
        self.exploration_rate = max(EXPLORATION_MIN, self.exploration_rate)

###  Ideia da solução baseada em reforço

<img src="https://miro.medium.com/max/1400/1*mPGk9WTNNvp3i4-9JFgD3w.png" width=600 />

In [4]:
def cartpole():
    #Iniciar o ambiente de treino
    env = gym.make("CartPole-v1")
    #Salvar tamanho do espaço observado - Neste caso é 4 (Posicao do carro, Velocidade do Carro, Angulo com vertical, Velocidade do Topo)
    observation_space = env.observation_space.shape[0]
    # Salvar tamanho do espaco de acao. - Neste caso é 2 (esquerda ou direita)
    action_space = env.action_space.n
    # Inicializa nosso resolvedor
    dqn_solver = DQNSolver(observation_space, action_space)
    episode = 0
    while True:
        steps = 0
        episode += 1
        # Reinicia o ambiente a cada interacao
        state = env.reset()
        # Transforma o vetor state em matrix
        state = np.reshape(state, [1, observation_space])
        
        while True:
            # Desenha o ambiente
            env.render()
            # Preve melhor proxima acao dado estado corrente
            action = dqn_solver.act(state)
            # Realiza acao e atualiza status
            state_next, reward, terminal, info = env.step(action)
            # Se o ambiente não foi finalizado a recompensa é positiva, se não negativa.
            reward = reward if not terminal else -reward
            # Transforma o vetor state em matrix
            state_next = np.reshape(state_next, [1, observation_space])
            q_values = dqn_solver.model.predict(state)
            print("\tSTEP: {} - Valores Q: {}\n\tAcao: {} Recompensa: {} Finalizado:{}\n\tPROXIMO ESTADO- Pos: {:.2f} Car Vel:{:.2f} Angulo:{:.2f} Vel Top:{:.2f}".format(steps,q_values, action, reward, terminal, state_next[0][0],state_next[0][1],state_next[0][2],state_next[0][3]))
            # Faz com que a acao seja lembrada.
            dqn_solver.remember(state, action, reward, state_next, terminal)
            # Re-treina nosso modelo com a nova experiencia
            dqn_solver.experience_replay()
            state = state_next
            steps += 1
            if terminal:
                break
        print("Episode: {} - Passos no ultimo episodio: {}".format(episode, steps))


In [None]:
cartpole()

Instructions for updating:
If using Keras pass *_constraint arguments to layers.
Inovou.

	STEP: 0 - Valores Q: [[-0.00470437  0.00620141]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.05 Car Vel:0.21 Angulo:0.03 Vel Top:-0.26
Inovou.
	STEP: 1 - Valores Q: [[-0.00674515 -0.00517227]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.05 Car Vel:0.01 Angulo:0.02 Vel Top:0.04
Inovou.
	STEP: 2 - Valores Q: [[-0.00958599  0.00855104]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.05 Car Vel:-0.19 Angulo:0.03 Vel Top:0.34
Inovou.
	STEP: 3 - Valores Q: [[-0.10014965  0.04328658]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.05 Car Vel:0.01 Angulo:0.03 Vel Top:0.05
Inovou.
	STEP: 4 - Valores Q: [[-0.01867516  0.00740069]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.05 Car Vel:0.20 Angulo:0.03 Vel Top:-0.23
Inovou.
	STEP: 5 - Valores Q: [[-3.2549337e-03 -2.8296374e-05]]
	Acao: 1 Recompensa: 1.0 F

Inovou.
	STEP: 48 - Valores Q: [[36.099712 35.603443]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.17 Car Vel:0.55 Angulo:0.16 Vel Top:0.20
Inovou.
	STEP: 49 - Valores Q: [[35.308674 34.947937]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.18 Car Vel:0.74 Angulo:0.16 Vel Top:-0.04
Inovou.
	STEP: 50 - Valores Q: [[34.48787  34.334595]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.19 Car Vel:0.93 Angulo:0.16 Vel Top:-0.27
Inovou.
	STEP: 51 - Valores Q: [[34.255074 34.224556]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.21 Car Vel:0.74 Angulo:0.16 Vel Top:0.07
Inovou.
	STEP: 52 - Valores Q: [[33.541832 33.74117 ]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.23 Car Vel:0.54 Angulo:0.16 Vel Top:0.40
Inovou.
	STEP: 53 - Valores Q: [[33.74361 34.16567]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.24 Car Vel:0.73 Angulo:0.17 Vel Top:0.16
Inovou.
	STEP: 54 - Valores 

Episode: 3 - Passos no ultimo episodio: 11
Inovou.
	STEP: 0 - Valores Q: [[236.33794 213.2379 ]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.02 Car Vel:-0.24 Angulo:-0.00 Vel Top:0.32
Inovou.
	STEP: 1 - Valores Q: [[250.89066 224.35886]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.02 Car Vel:-0.04 Angulo:0.00 Vel Top:0.03
	STEP: 2 - Valores Q: [[238.12721 212.90594]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.02 Car Vel:-0.24 Angulo:0.00 Vel Top:0.32
Inovou.
	STEP: 3 - Valores Q: [[255.23778 226.96167]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.01 Car Vel:-0.04 Angulo:0.01 Vel Top:0.03
	STEP: 4 - Valores Q: [[241.10922 213.60226]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.01 Car Vel:-0.24 Angulo:0.01 Vel Top:0.33
	STEP: 5 - Valores Q: [[254.98534 221.55768]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.01 Car Vel:-0.43 Angulo:0.02 Vel Top:0.62
	STEP: 6

Inovou.
	STEP: 16 - Valores Q: [[299.74295 280.32263]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.17 Car Vel:-1.03 Angulo:0.20 Vel Top:1.68
	STEP: 17 - Valores Q: [[299.0269  278.49744]]
	Acao: 0 Recompensa: -1.0 Finalizado:True
	PROXIMO ESTADO- Pos: -0.19 Car Vel:-1.22 Angulo:0.23 Vel Top:2.03
Episode: 6 - Passos no ultimo episodio: 18
Inovou.
	STEP: 0 - Valores Q: [[207.2997  192.67288]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.05 Car Vel:-0.20 Angulo:-0.05 Vel Top:0.30
	STEP: 1 - Valores Q: [[209.88713 196.60904]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.04 Car Vel:-0.40 Angulo:-0.04 Vel Top:0.57
	STEP: 2 - Valores Q: [[208.20757 193.65266]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.04 Car Vel:-0.59 Angulo:-0.03 Vel Top:0.85
	STEP: 3 - Valores Q: [[206.58124 194.13866]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.02 Car Vel:-0.79 Angulo:-0.01 Vel Top:1.13
Inovou.
	

	STEP: 5 - Valores Q: [[63.736595 67.471245]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.01 Car Vel:1.16 Angulo:-0.13 Vel Top:-1.82
Inovou.
	STEP: 6 - Valores Q: [[56.602318 61.249676]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.04 Car Vel:1.35 Angulo:-0.16 Vel Top:-2.15
Inovou.
	STEP: 7 - Valores Q: [[51.788162 56.751377]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.06 Car Vel:1.16 Angulo:-0.21 Vel Top:-1.91
	STEP: 8 - Valores Q: [[47.338856 51.855724]]
	Acao: 1 Recompensa: -1.0 Finalizado:True
	PROXIMO ESTADO- Pos: 0.09 Car Vel:1.36 Angulo:-0.25 Vel Top:-2.26
Episode: 10 - Passos no ultimo episodio: 9
	STEP: 0 - Valores Q: [[80.55915  82.190315]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.04 Car Vel:0.18 Angulo:0.05 Vel Top:-0.32
	STEP: 1 - Valores Q: [[77.37045 79.63134]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.03 Car Vel:0.37 Angulo:0.04 Vel Top:-0.59
	STEP: 2 - Va

	STEP: 1 - Valores Q: [[30.51574  28.385567]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.02 Car Vel:-0.40 Angulo:0.01 Vel Top:0.62
Inovou.
	STEP: 2 - Valores Q: [[28.50492  26.977726]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.03 Car Vel:-0.59 Angulo:0.02 Vel Top:0.91
	STEP: 3 - Valores Q: [[24.664335 23.025091]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.04 Car Vel:-0.79 Angulo:0.04 Vel Top:1.21
	STEP: 4 - Valores Q: [[20.388609 19.073076]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.05 Car Vel:-0.98 Angulo:0.06 Vel Top:1.52
Inovou.
	STEP: 5 - Valores Q: [[17.047049 16.315765]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.07 Car Vel:-0.79 Angulo:0.09 Vel Top:1.25
	STEP: 6 - Valores Q: [[21.06535  20.549997]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.09 Car Vel:-0.99 Angulo:0.12 Vel Top:1.57
	STEP: 7 - Valores Q: [[17.179348 17.47134 ]]
	Acao: 1

Inovou.
	STEP: 6 - Valores Q: [[23.112843 23.572214]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.01 Car Vel:0.24 Angulo:-0.04 Vel Top:-0.33
Inovou.
	STEP: 7 - Valores Q: [[23.388968 21.999542]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.00 Car Vel:0.44 Angulo:-0.04 Vel Top:-0.64
	STEP: 8 - Valores Q: [[24.253876 21.283363]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.01 Car Vel:0.24 Angulo:-0.05 Vel Top:-0.36
	STEP: 9 - Valores Q: [[23.815409 22.430307]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.01 Car Vel:0.05 Angulo:-0.06 Vel Top:-0.08
	STEP: 10 - Valores Q: [[22.492094 22.576902]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.01 Car Vel:0.24 Angulo:-0.06 Vel Top:-0.40
	STEP: 11 - Valores Q: [[20.352129 19.625479]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.02 Car Vel:0.05 Angulo:-0.07 Vel Top:-0.12
Inovou.
	STEP: 12 - Valores Q: [[19.646027 19.5184

	STEP: 13 - Valores Q: [[27.157867 28.719599]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.03 Car Vel:0.03 Angulo:-0.03 Vel Top:-0.12
	STEP: 14 - Valores Q: [[27.094011 26.769655]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.03 Car Vel:-0.16 Angulo:-0.03 Vel Top:0.16
	STEP: 15 - Valores Q: [[24.55197  26.567055]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.02 Car Vel:0.03 Angulo:-0.03 Vel Top:-0.14
	STEP: 16 - Valores Q: [[23.126514 24.252335]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.02 Car Vel:0.23 Angulo:-0.03 Vel Top:-0.45
	STEP: 17 - Valores Q: [[22.451359 22.185846]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.03 Car Vel:0.03 Angulo:-0.04 Vel Top:-0.16
	STEP: 18 - Valores Q: [[22.312845 23.02211 ]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.03 Car Vel:0.23 Angulo:-0.05 Vel Top:-0.47
	STEP: 19 - Valores Q: [[22.687405 21.36083 ]]
	Acao: 0 Recompen

	STEP: 18 - Valores Q: [[29.499786 29.58552 ]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.08 Car Vel:0.22 Angulo:0.01 Vel Top:-0.12
	STEP: 19 - Valores Q: [[30.670685 29.233059]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.09 Car Vel:0.03 Angulo:0.00 Vel Top:0.18
	STEP: 20 - Valores Q: [[30.603016 30.084452]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.09 Car Vel:-0.17 Angulo:0.01 Vel Top:0.47
	STEP: 21 - Valores Q: [[30.64434 31.93148]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.08 Car Vel:0.03 Angulo:0.02 Vel Top:0.18
	STEP: 22 - Valores Q: [[31.160976 31.774376]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.08 Car Vel:0.22 Angulo:0.02 Vel Top:-0.11
	STEP: 23 - Valores Q: [[30.738316 30.668959]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: 0.09 Car Vel:0.03 Angulo:0.02 Vel Top:0.19
	STEP: 24 - Valores Q: [[30.780869 32.00532 ]]
	Acao: 1 Recompensa: 1.0 Fin

	STEP: 3 - Valores Q: [[22.446926 23.706808]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.02 Car Vel:0.01 Angulo:-0.02 Vel Top:0.01
	STEP: 4 - Valores Q: [[23.543499 23.333931]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.02 Car Vel:-0.18 Angulo:-0.02 Vel Top:0.29
	STEP: 5 - Valores Q: [[21.813639 23.892876]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.03 Car Vel:0.01 Angulo:-0.01 Vel Top:-0.00
	STEP: 6 - Valores Q: [[23.12963 24.13755]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.03 Car Vel:0.21 Angulo:-0.01 Vel Top:-0.30
	STEP: 7 - Valores Q: [[23.91916  24.078402]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.02 Car Vel:0.40 Angulo:-0.02 Vel Top:-0.60
	STEP: 8 - Valores Q: [[25.24837 24.02987]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.02 Car Vel:0.21 Angulo:-0.03 Vel Top:-0.31
	STEP: 9 - Valores Q: [[23.951017 23.606853]]
	Acao: 0 Recompensa: 1.

	STEP: 13 - Valores Q: [[22.204174 23.224596]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.03 Car Vel:-0.03 Angulo:0.07 Vel Top:0.19
	STEP: 14 - Valores Q: [[23.553904 24.046732]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.03 Car Vel:0.16 Angulo:0.08 Vel Top:-0.08
	STEP: 15 - Valores Q: [[23.590126 23.770662]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.03 Car Vel:0.36 Angulo:0.08 Vel Top:-0.35
	STEP: 16 - Valores Q: [[23.786936 23.060738]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.02 Car Vel:0.16 Angulo:0.07 Vel Top:-0.03
Inovou.
	STEP: 17 - Valores Q: [[23.22313  23.038067]]
	Acao: 1 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.02 Car Vel:0.35 Angulo:0.07 Vel Top:-0.30
	STEP: 18 - Valores Q: [[25.085922 24.035938]]
	Acao: 0 Recompensa: 1.0 Finalizado:False
	PROXIMO ESTADO- Pos: -0.01 Car Vel:0.16 Angulo:0.06 Vel Top:0.01
	STEP: 19 - Valores Q: [[25.216778 25.429697]]
	Acao: 1 R