# Actividad


---

Por: Ángela Córdoba


---



In [1]:
import numpy as np
import random

Genera un entorno de juego simple donde un agente debe aprender a navegar y recolectar objetos. Define estados, acciones y recompensas para el agente.

In [7]:
# Ejercicio 1: Introducción a los principales algoritmos de RL
# Define el entorno del juego

class Environment:
    def __init__(self):
        self.state_space = np.array([0, 1, 2, 3]) # Estados posibles
        self.action_space = np.array([0, 1]) # Acciones posibles
        self.rewards = {0: -1, 1: -1, 2: -1, 3: 10} # Recompensas por estado

# Crea una instancia del entorno
env = Environment()

# Muestra información del entorno
print("Estados posibles:", env.state_space)
print("Acciones posibles:", env.action_space)
print("Recompensas por estado:", env.rewards)

Estados posibles: [0 1 2 3]
Acciones posibles: [0 1]
Recompensas por estado: {0: -1, 1: -1, 2: -1, 3: 10}


Implementa el algoritmo Q-Learning para que
un agente aprenda a navegar y recolectar
objetos en el entorno definido. Muestra cómo se actualiza la función Q-valor.

In [6]:
# Ejercicio 2: Q-Learning
# Inicializa la tabla Q con valores arbitrarios
Q = np.zeros((len(env.state_space), len(env.action_space)))

# Define los parámetros del algortimo
alpha = 0.1 #T asa de aprendizaje
gamma = 0.9 # Factor de descuento

# Entrena el agente utilizando Q-Learning
for _ in range(1000):
    state = np.random.choice(env.state_space)  # Estado inicial aleatorio
    while state != 3:  # Hasta llegar al estado objetivo
        action = np.random.choice(env.action_space)  # Selecciona una acción aleatoria
        next_state = state + action
        reward = env.rewards[next_state]
        Q[state, action] = Q[state, action] + alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])
        state = next_state

# Muestra la función q-valor aprendida
print("Función Q-valor aprendida:")
print(Q)

Función Q-valor aprendida:
[[ 4.58  6.2 ]
 [ 6.2   8.  ]
 [ 8.   10.  ]
 [ 0.    0.  ]]


Implementa el algoritmo Sarsa para
compararlo con Q-Learning en el mismo
entorno. Muestra cómo se actualiza la
función Q-valor y compara los resultados.

In [8]:
# Ejercicio 3: Sarsa
# Reinicializa la tabla Q con valores arbitrarios
Q = np.zeros((len(env.state_space), len(env.action_space)))

# Entrena el agente utilizando Sarsa
for _ in range(1000):
    state = np.random.choice(env.state_space) # Estado inicial
    action = np.random.choice(env.action_space) # Selecciona una acción aleatoria
    while state != 3: #Hasta llegar al estado objetivo
        next_state = state + action
        next_action = np.random.choice(env.action_space) # Selecciona una acción aleatoria
        reward = env.rewards[next_state]
        Q[state, action] = Q[state, action] + alpha * (reward + gamma *
                                                       Q[next_state, next_action]
                                                       - Q[state, action])
        state = next_state
        action = next_action

# Muestra la función Q-valor aprendida con Sarsa
print("Función Q-valor aprendida con Sarsa:")
print(Q)

Función Q-valor aprendida con Sarsa:
[[ 1.68870163  3.96783609]
 [ 4.17200751  6.28116411]
 [ 6.51747207 10.        ]
 [ 0.          0.        ]]


Implementa la técnica de optimización basada en
gradientes para aprender una política en el mismo entorno. Muestra cómo se actualizan los parámetros de la política utilizando el gradiente ascendente.

In [13]:
# Ejercicio 4: Política de Gradiente de Montecarlo
# Inicializa la política con probabilidades uniformes
policy = np.ones((len(env.state_space), len(env.action_space))) / len(env.action_space)

# Define la función de recompensa promedio
def average_reward(Q):
    return np.mean([Q[state, np.argmax(policy[state])] for state in env.state_space])

# Entrena la política utilizando Gradiente de Montecarlo
for _ in range(1000):
    state = np.random.choice(env.state_space)  # Estado inicial aleatorio
    while state != 3:  # Hasta el estado objetivo
        action = np.random.choice(env.action_space, p=policy[state])  # Selecciona una acción basada en la política
        next_state = state + action  # Estado siguiente (ajustar según el entorno real)
        reward = env.rewards[next_state]  # Recompensa por el estado siguiente
        gradient = np.zeros_like(policy[state])
        gradient[action] = 1
        alpha = 0.01
        policy[state] += alpha * gradient * (reward - average_reward(Q))
        policy[state] = np.exp(policy[state])  # Utiliza la función exponencial para asegurar valores positivos
        policy[state] /= np.sum(policy[state])
        state = next_state  # Actualiza el estado

# Muestra la política aprendida
print("Política aprendida con Gradiente de Montecarlo:")
print(policy)

Política aprendida con Gradiente de Montecarlo:
[[0.51891942 0.48108058]
 [0.50865296 0.49134704]
 [0.4724252  0.5275748 ]
 [0.5        0.5       ]]
