In [2]:
import gym
import numpy as np

# MountainCar-v0

## Q learning

In [3]:
env = gym.make('MountainCar-v0')
#Observaciones:
# 0: posición
# 1: velocidad
print("valores máximos observacion: ",env.observation_space.high)
print("valores mínimos observacion: ",env.observation_space.low)
#discretizamos los posibles estados
num_estados = (env.observation_space.high - env.observation_space.low) * np.array([10, 100]) 
num_estados = np.round(num_estados, 0).astype(int) + 1
print("posibles estados",num_estados)
#acciones:
# 0: izquierda
# 1: nada
# 2: derecha
print("posibles acciones",env.action_space.n)
#Creamos la tabla Q de dimensiones estados * accioens
Q = np.zeros((num_estados[0],num_estados[1],env.action_space.n))

valores máximos observacion:  [0.6  0.07]
valores mínimos observacion:  [-1.2  -0.07]
posibles estados [19 15]
posibles acciones 3


In [4]:
num_episodios = 10000
exploracion_vs_explotacion = 0.8
alpha = 0.1
gamma = 0.8
for episodio in range(num_episodios):
    terminal = False
    #Obtenemos el estado inicial
    estado = env.reset()
    #discretizar estado
    estado = (estado - env.observation_space.low) * np.array([10, 100]) 
    estado = np.round(estado, 0).astype(int) + 1
    while not terminal:
        if episodio > 9900:
            env.render()
       
        #determinar la accion a realizar mediante compromiso exploración vs explotación epsilon-greedy
        if np.random.random() < exploracion_vs_explotacion:
            #explotación escogemos la mejor acción para un estado dado
            accion = np.argmax(Q[estado[0],estado[1]])
        else:
            #exploracion escogemos una acción aleatoria
            accion = np.random.randint(0,env.action_space.n)
        #tomamos la accion escogida y observamos
        estado2,recompensa,terminal,_ = env.step(accion)
        #Discretizamos el nuevo estado
        if estado2[0] ==0.5:
            print("llego al final")
            alpha = 0.001
            exploracion_vs_explotacion = 0.9
        estado2 = (estado2 - env.observation_space.low) * np.array([10, 100]) 
        estado2 = np.round(estado2, 0).astype(int) + 1
        #Actualizamos la tabla Q
        Q[estado[0],estado[1],accion] += alpha * (recompensa + gamma * np.max(Q[estado2[0],estado2[1]]) - Q[estado[0],estado[1],accion] ) 
        #actualizamos el estado
        estado = estado2.copy()
        
        

## Deep Q learning


In [24]:
import keras
import gym
import numpy as np
import matplotlib.pyplot as plt
from collections import deque
import random
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import Adam


In [25]:
env = gym.make('MountainCar-v0')

In [26]:
model = Sequential()
model.add(Dense(64, input_dim=2, activation='relu'))
model.add(Dense(24, activation='relu'))
model.add(Dense(int(env.action_space.n), activation='linear'))
model.compile(loss='mse',optimizer=Adam(lr=0.01))
model.summary()

Model: "sequential_6"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_16 (Dense)             (None, 64)                192       
_________________________________________________________________
dense_17 (Dense)             (None, 24)                1560      
_________________________________________________________________
dense_18 (Dense)             (None, 3)                 75        
Total params: 1,827
Trainable params: 1,827
Non-trainable params: 0
_________________________________________________________________


In [None]:
episodios = 100000
exploracion_vs_explotacion = 0.8
memoria = deque(maxlen = 2000)
tamañoBatch = 32
gamma = 0.9
for episodio in range(episodios):
    estado = env.reset()
    terminal = False
    score = 0
    while not terminal:
        #obtener una acción con el compromiso exploración explotacion
        if np.random.random() < exploracion_vs_explotacion:
            #explotación escogemos la mejor acción para un estado dado
            accion = np.argmax(model.predict(np.reshape(estado,[1,2])))
            #print(accion)
        else:
            #exploracion escogemos una acción aleatoria
            accion = np.random.randint(0,env.action_space.n)


        estado2,recompensa,terminal,_ = env.step(accion)
        score+=recompensa
        memoria.append((estado,accion,estado2,recompensa,terminal))
        estado = estado2
    #print(len(memoria))
    #entrenamos con lo jugado
    if tamañoBatch > len(memoria):
        minibatch = random.sample(memoria,len(memoria))
    else:
        minibatch = random.sample(memoria,tamañoBatch)
    for estado,accion,estado2,recompensa,terminal in minibatch:
        target = recompensa
        if not terminal:
            target = recompensa + gamma* np.max(model.predict(np.reshape(estado2,[1,2])))
        target_red = model.predict(np.reshape(estado,[1,2]))
        target_red[0][accion] = target
        model.fit(np.reshape(estado,[1,2]),target_red,epochs=1, verbose=0)

env.close()