Ejercicio de Aprendizaje por Refuerzo en Python

In [1]:
import numpy as np
import random

In [3]:
# Ejercicio 1: Introducción a los principales algoritmos de RL
# Define el entorno del juego

class Environment:
    def __init__(self):
        self.state_space = np.array([0, 1, 2, 3]) #Estados posibles
        self.action_space = np.array([0, 1]) #Acciones posibles
        self.rewards = {0: -1, 1: -1, 2: -1, 3: 10} #Recompensas por estado

#Crea una instancia del entorno
env = Environment()

#Nuestra información del entorno
print("Estados posibles:", env.state_space)
print("Acciones posibles:", env.action_space)
print("Recompensas por estado:", env.rewards)

Estados posibles: [0 1 2 3]
Acciones posibles: [0 1]
Recompensas por estado: {0: -1, 1: -1, 2: -1, 3: 10}


In [4]:
#Ejercicio: Q-Learning
import numpy as np

# Inicializa la tabla Q con valores arbitrarios
Q = np.zeros((len(env.state_space), len(env.action_space)))

#Define los parámetros del algortimo
alpha = 0.1 #Tasa de aprendizaje
gamma = 0.9 #Factor de descuento

# Entrena el agente utilizando Q-Learning
for _ in range(1000):
    state = np.random.choice(env.state_space)  # Estado inicial aleatorio
    while state != 3:  # Hasta llegar al estado objetivo
        action = np.random.choice(env.action_space)  # Selecciona una acción aleatoria
        next_state = state + action
        reward = env.rewards[next_state]
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])
        state = next_state

#Imprime la tabla Q final
print("Función Q-valor aprendida:")
print(Q)

Función Q-valor aprendida:
[[ 4.58  6.2 ]
 [ 6.2   8.  ]
 [ 8.   10.  ]
 [ 0.    0.  ]]


In [5]:
#Ejercicio 3: Sarsa
#Reinicializa la tabla Q con valore arbitrarios
Q = np.zeros((len(env.state_space), len(env.action_space)))

#Entrena el agente utilizando Sarsa
for _ in range(1000):
    state = np.random.choice(env.state_space) #Estado inicial
    action = np.random.choice(env.action_space) #Selecciona una acción aleatoria
    while state != 3: #Hasta llegar al estado objetivo
        next_state = state + action
        next_action = np.random.choice(env.action_space) #Selecciona una acción aleatoria
        reward = env.rewards[next_state] #Recompensa por el estado siguiente
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * Q[next_state, next_action] - Q[state, action])
        state = next_state #Actualiza el estado
        action = next_action #Actualiza la acción

#Muestre la función Q-valor que aprendió con Sarsa
print("Función Q-valor aprendida con Sarsa:")
print(Q)

Función Q-valor aprendida con Sarsa:
[[ 1.42128041  3.58103933]
 [ 3.68866315  6.3370109 ]
 [ 7.1567114  10.        ]
 [ 0.          0.        ]]


In [7]:
# Ejercicio 4: Política de Gradiente de Montecarlo
# Inicializa la política con probabilidades uniformes

# Supongamos que env.state_space y env.action_space ya están definidos.
# Reemplaza los valores ficticios con los valores reales de tu entorno.

# Inicializa la política con probabilidades uniformes
policy = np.ones((len(env.state_space), len(env.action_space))) / len(env.action_space)

# Define la función de recompensa promedio
def average_reward(Q):
    return np.mean([Q[state, np.argmax(policy[state])] for state in env.state_space])

# Entrena la política utilizando Gradiente de Montecarlo
for _ in range(1000):
    state = np.random.choice(env.state_space)  # Estado inicial aleatorio
    while state != 3:  # Hasta el estado objetivo
        action = np.random.choice(env.action_space, p=policy[state])  # Selecciona una acción basada en la política
        next_state = state + action  # Estado siguiente (ajustar según el entorno real)
        reward = env.rewards[next_state]  # Recompensa por el estado siguiente

        # Calcula el gradiente
        gradient = np.zeros_like(policy[state])
        gradient[action] = 1

        # Tasa de aprendizaje
        alpha = 0.01

        # Actualiza la política
        policy[state] += alpha * gradient * (reward - average_reward(Q))

        # Normaliza la política para que las probabilidades sumen 1
        policy[state] = np.exp(policy[state])  # Utiliza la función exponencial para asegurar valores positivos
        policy[state] /= np.sum(policy[state])  # Normaliza para que sumen 1

        state = next_state  # Actualiza el estado

# Muestra la política aprendida
print("Política aprendida por Gradiente de Montecarlo:")
print(policy)

Política aprendida por Gradiente de Montecarlo:
[[0.5203344  0.4796656 ]
 [0.50396567 0.49603433]
 [0.47036484 0.52963516]
 [0.5        0.5       ]]
