In [1]:
#Ejercicio de Aprendizaje por Refuerzo en Python

#Ejercicio 1: Introducción a los principales algoritmos de RL
#Define el entorno del juego

import numpy as np

class Environment:
    def __init__(self):
        self.state_space = np.array([0, 1, 2, 3]) #Estados posibles
        self.action_space = np.array([0, 1]) #Acciones posibles
        self.rewards = {0: -1, 1: -1, 2: -1, 3: 10} #Recompensas por estado

#Crea una instancia del entorno
env = Environment()

#Nuestra información del entorno
print("Estados posibles:", env.state_space)
print("Acciones posibles:", env.action_space)
print("Recompensas por estado:", env.rewards)

Estados posibles: [0 1 2 3]
Acciones posibles: [0 1]
Recompensas por estado: {0: -1, 1: -1, 2: -1, 3: 10}


In [2]:
#Eejercicio: Q-Learning
import numpy as np

# Inicializa la tabla Q con valores arbitrarios
Q = np.zeros((len(env.state_space), len(env.action_space)))

#Define los parámetros del algortimo
alpha = 0.1 #Tasa de aprendizaje
gamma = 0.9 #Factor de descuento

#Define los hiperparámetros del algoritmo
alpha = 0.1 #Tasa de aprendizaje
gamma = 0.9 #Factor de descuento

# Entrena el agente utilizando Q-Learning
for _ in range(10000):
    state = np.random.choice(env.state_space)  # Estado inicial
    while state != 3:  # Mientras no lleguemos al estado objetivo
        action = np.random.choice(env.action_space)  # Selecciona una acción aleatoria
        next_state = state + action  # Estado siguiente

        # Verifica que el next_state esté en los límites válidos
        if next_state < 0 or next_state >= len(env.state_space):
            break  # Salir del bucle si el estado siguiente es inválido

        # Verifica si next_state tiene una recompensa definida
        if next_state in env.rewards:
            reward = env.rewards[next_state]  # Recompensa por el estado siguiente
        else:
            reward = 0  # Asigna una recompensa por defecto si no está definido

        Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])
        state = next_state  # Actualiza el estado

#Imprime la tabla Q final
print("Función Q-valor aprendida:")
print(Q)

Función Q-valor aprendida:
[[ 4.58  6.2 ]
 [ 6.2   8.  ]
 [ 8.   10.  ]
 [ 0.    0.  ]]


In [3]:
# Sarsa

#Ejercicio 3:Sarsa
#Reinicializa la tabla Q con valore arbitrarios
Q = np.zeros((len(env.state_space), len(env.action_space)))

#Entrena el agente utilizando Sarsa
for _ in range(10000):
    state = np.random.choice(env.state_space) #Estado inicial
    action = np.random.choice(env.action_space) #Selecciona una acción aleatoria
    while state != 3: #Mientras no lleguemos al estado objetivo
        next_state = state + action #Estado siguiente
        next_action = np.random.choice(env.action_space) #Selecciona una acción aleatoria
        reward = env.rewards[next_state] #Recompensa por el estado siguiente
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * Q[next_state, next_action] - Q[state, action])
        state = next_state #Actualiza el estado
        action = next_action #Actualiza la acción

#Imprime la tabla Q final que aprendió con Sara
print("Función Q-valor aprendida con Sarsa:")
print(Q)

Función Q-valor aprendida con Sarsa:
[[ 1.2777783   3.45250935]
 [ 3.90311825  6.71750536]
 [ 6.31491751 10.        ]
 [ 0.          0.        ]]


In [None]:
#Política con gradiente Monecarlo
#Ejercicio 4: Política de Gradiente de Montecarlo
# Incializa la política don probabilidades uniformes

# Inicializa la política con probabilidades uniformes
policy = np.ones((len(env.state_space), len(env.action_space))) / len(env.action_space)

# Inicializa la tabla Q
Q = np.zeros((len(env.state_space), len(env.action_space)))

# Define la función de recompensa promedio
def average_reward(Q):
    return np.mean([Q[state, np.argmax(policy[state])] for state in env.state_space])

# Entrena la política utilizando Gradiente de Montecarlo
for _ in range(10000):
    state = np.random.choice(env.state_space)  # Estado inicial
    while state != 3:  # Mientras no lleguemos al estado objetivo
        action = np.random.choice(env.action_space, p=policy[state])  # Selecciona una acción basada en la política
        next_state = state + action  # Estado siguiente

        # Verifica que el next_state esté dentro de los límites válidos
        if next_state < 0 or next_state >= len(env.state_space):
            break  # Salir del bucle si el estado siguiente es inválido

        reward = env.rewards[next_state]  # Recompensa por el estado siguiente

        # Calcula el gradiente
        gradient = np.zeros_like(policy[state]) #Calcula el gradiente
        gradient[action] = 1

        alpha = 0.01  # Tasa de aprendizaje
        policy[state] += alpha * gradient * (reward - average_reward(Q))

        # Corrige cualquier valor negativo en la política
        policy[state] = np.maximum(policy[state], 0)

        # Normaliza la política para que las probabilidades sumen 1
        policy[state] = policy[state] / np.sum(policy[state])

        state = next_state  # Actualiza el estado

#Muestra la política aprendida
print("Política aprendida por Gradiente de Montecarlo:")
print(policy)

In [None]:
import numpy as np

# Inicializa la política con valores uniformes (ya no son probabilidades)
policy = np.ones((len(env.state_space), len(env.action_space))) * 2  # Inicializa con valores mayores a 1

# Inicializa la tabla Q
Q = np.zeros((len(env.state_space), len(env.action_space)))

# Define la función de recompensa promedio
def average_reward(Q):
    return np.mean([Q[state, np.argmax(policy[state])] for state in env.state_space])

# Tasa de aprendizaje
alpha = 0.001  # Reduce la tasa de aprendizaje para actualizaciones suaves

# Entrena la política utilizando Gradiente de Montecarlo
for _ in range(10000):
    state = np.random.choice(env.state_space)  # Estado inicial
    while state != 3:  # Mientras no lleguemos al estado objetivo
        action = np.random.choice(env.action_space)  # Selecciona una acción basada en la política
        next_state = state + action  # Estado siguiente

        # Verifica que el next_state esté dentro de los límites válidos
        if next_state < 0 or next_state >= len(env.state_space):
            break  # Salir del bucle si el estado siguiente es inválido

        reward = env.rewards[next_state]  # Recompensa por el estado siguiente

        # Calcula el gradiente
        gradient = np.zeros_like(policy[state])
        gradient[action] = 1

        # Actualiza la política sin normalizarla
        policy[state] += alpha * gradient * (reward - average_reward(Q))

        state = next_state  # Actualiza el estado

# Muestra la política aprendida
print("Política aprendida por Gradiente de Montecarlo:")
print(policy)