In [2]:
# Ejercicio 1: Introducción a los principales algoritmos de RL
# Definición del entorno de juego

class Environment:
    def __init__(self):
      self.state = {}
      self.state['space'] = [0, 1, 2, 3]
      self.action_space = [0, 1] # Acciones posibles
      self.reward = {0: -1, 1: -1, 2: -1, 3: 10} # Recompensas por estado

# Instancia del entorno
env = Environment()

# Muestra de la información del entorno
print("Estados :", env.state['space'])
print("Acciones :", env.action_space)
print("Recompensas :", env.reward)

Estados : [0, 1, 2, 3]
Acciones : [0, 1]
Recompensas : {0: -1, 1: -1, 2: -1, 3: 10}


Q-Learning

In [3]:
from os import stat
# Ejercicio 2: Q-Learning
import numpy as np

# Inicialización de la tabla Q con valores arbitrarios
Q = np.zeros((len(env.state['space']), len(env.action_space)))

# Hiperparámetros del algoritmo
alpha = 0.1  # Tasa de aprendizaje
gamma = 0.9  # Factor de descuento

num_episodes = 1000  # Número de episodios de entrenamiento

# Entrenamiento del agente
for _ in range(num_episodes):
  state = np.random.choice(env.state['space'])  # Estado inicial aleatorio
  while state != 3:  # Hasta llegar al estado objetivo
    action = np.random.choice(env.action_space)  # Acción aleatoria
    next_state = state + action  # Siguiente estado
    reward = env.reward[next_state]  # Recompensa del siguiente estado
    Q[state, action] = Q[state, action] + alpha * (reward + gamma *
                                                   np.max(Q[next_state]) -
                                                   Q[state, action])
    state = next_state

# Muestreo de la función Q-valor aprendida
print("Tabla Q-valor aprendida:")
print(Q)

Tabla Q-valor aprendida:
[[ 4.58  6.2 ]
 [ 6.2   8.  ]
 [ 8.   10.  ]
 [ 0.    0.  ]]


Sarsa

In [4]:
# Ejercicio 3
# Reinicializar la tabla Q
Q = np.zeros((len(env.state['space']), len(env.action_space)))

# Entrenamiento del agente con Sarsa
for _ in range(num_episodes):
  state = np.random.choice(env.state['space'])  # Estado inicial aleatorio
  action = np.random.choice(env.action_space)  # Acción inicial aleatoria
  while state != 3: # Hasta llegar al objetivo
    next_state = state + action  # Siguiente estado
    reward = env.reward[next_state]  # Recompensa del siguiente estado
    next_action = np.random.choice(env.action_space)  # Acción siguiente aleatoria
    Q[state, action] = Q[state, action] + alpha * (reward + gamma *
                                                   Q[next_state, next_action] -
                                                   Q[state, action])
    state = next_state
    action = next_action

# Muestreo de la función Q-valor aprendida
print("Tabla Q-valor aprendida con Sarsa:")
print(Q)

Tabla Q-valor aprendida con Sarsa:
[[ 1.18158616  3.47885741]
 [ 3.16186349  5.50391387]
 [ 5.69965381 10.        ]
 [ 0.          0.        ]]


Política del gradiente de Montecarlo

In [5]:
# Ejercicio 4
# Inicialización de la política con probabilidades uniformes

policy = np.ones((len(env.state['space']), len(env.action_space))) / len(env.action_space)
len(env.action_space)

# Función de recompensa promedio
def average_reward(Q):
  return np.mean([Q[state, np.argmax(policy[state])] for state in env.state['space']])

# Entrenamiento de la política usando gradiente de Montecarlo
for _ in range(num_episodes):
  state = np.random.choice(env.state['space']) # Estado inicial aleatorio
  while state != 3: # Hasta llegar al objetivo
    action = np.random.choice(env.action_space, p=policy[state]) # Acción según la política
    next_state = state + action # Siguiente estado
    reward = env.reward[next_state] # Recompensa del siguiente estado
    gradient = np.zeros_like(policy[state])
    gradient[action] = 1
    alpha = 0.01
    policy[state] += alpha * gradient * (reward - average_reward(Q))

    #Normalizar probabilidades para llegar a 1 y N° positivos
    policy[state] = np.maximum(policy[state], 0)
    policy[state] /= np.sum(policy[state])

    state = next_state

# Muestreo de la política aprendida
print("Política aprendida:")
print(policy)

Política aprendida:
[[0.  1. ]
 [0.  1. ]
 [0.  1. ]
 [0.5 0.5]]
