<table style="width:100%; border-collapse: collapse;">
  <tr>
    <td style="width:20%; vertical-align:middle;">
      <img src="LogoUVG.png" width="400"/>
    </td>
    <td style="text-align:left; vertical-align:middle;">
      <h2 style="margin-bottom: 0;">Universidad del Valle de Guatemala - UVG</h2>
      <h3 style="margin-top: 0;">Facultad de Ingenier√≠a - Computaci√≥n</h3>
      <p style="font-size: 16px; margin-bottom: 0; margin-top: -20px">
        <strong>Curso:</strong> CC3104 - Aprendizaje por Refuerzo 
        <strong>Secci√≥n:</strong> 10
      </p>
      <p style="font-size: 16px; margin: 0;"><strong>Laboratorio 7:</strong> Policy Gradients Methods</p>
      <br>
      <p style="font-size: 15px; margin: 0;"><strong>Autores:</strong></p>
      <ul style="margin-top: 5px; padding-left: 20px; font-size: 15px;">
        <li>Diego Alexander Hern√°ndez Silvestre - <strong>21270</strong></li>
        <li>Linda In√©s Jim√©nez Vides - <strong>21169</strong></li>
        <li>Mario Antonio Guerra Morales - <strong>21008</strong></li>
      </ul>
    </td>
  </tr>
</table>

## üìù Task 1

**Explique la diferencia entre los m√©todos de aprendizaje de refuerzo basados en valores y en pol√≠ticas. ¬øPor qu√© los m√©todos de gradiente de pol√≠ticas son especialmente √∫tiles para entornos con espacios de acci√≥n continua?**

En lo que se refiere a los m√©todos value-based, ellos aprenden una funci√≥n de valor y conforme van eligiendo acciones que maximizan dicho valor, tambi√©n van derivando su pol√≠tica. Mientras que los policy-based aprenden directamente de los par√°metros de una pol√≠tica, optimizando as√≠ el retorno esperado con la gradiente de la pol√≠tica. Es debido a esto que los m√©todos de gradiente en pol√≠ticas son √∫tiles en espacios de acci√≥n continua, porque la acci√≥n se muestrea de una distribuci√≥n diferenciable y el entrenamiento ajusta sus par√°metros por la gradiente, evitando maximizar expl√≠citamente sobre un espacio continuo.

## üìù Task 2

**Implemente una versi√≥n simple del algoritmo REINFORCE. Use un entorno simple, como CartPole-v1 de OpenAI Gym, para entrenar a un agente. La funci√≥n de valor estimado debe utilizar un aproximador de funci√≥n lineal.**

Pasos a considerar:

* Inicialice la pol√≠tica (por ejemplo, una red neuronal o una pol√≠tica softmax).

* Simule episodios y obtenga recompensas.

* Calcule el rendimiento descontado para cada par de estado-acci√≥n.

* Actualice los par√°metros de la pol√≠tica utilizando actualizaciones de gradiente de pol√≠tica.

* Agregue una l√≠nea base (funci√≥n de valor estimado) para reducir la varianza.

In [None]:
import random
from dataclasses import dataclass

import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim

try:
    import gymnasium as gym
    GYMN = True
except Exception:
    import gym
    GYMN = False

DEVICE = torch.device("cuda" if torch.cuda.is_available() else "cpu")
SEED = 42
random.seed(SEED); np.random.seed(SEED); torch.manual_seed(SEED)

@dataclass
class Config:
    env_id: str = "CartPole-v1"
    gamma: float = 0.99
    policy_lr: float = 3e-3
    value_lr: float = 5e-3
    hidden_sizes: tuple = (128,)
    max_episodes: int = 500
    max_steps_per_episode: int = 500
    reward_goal: float = 475.0
    rolling_window: int = 20
    log_every: int = 10

cfg = Config()
cfg

Config(env_id='CartPole-v1', gamma=0.99, policy_lr=0.003, value_lr=0.005, hidden_sizes=(128,), max_episodes=500, max_steps_per_episode=500, reward_goal=475.0, rolling_window=20, log_every=10)

### Inicializaci√≥n de la pol√≠tica

In [3]:
class PolicyNet(nn.Module):
    # MLP -> acciones. 
    # Pol√≠tica categ√≥rica con softmax impl√≠cito.
    def __init__(self, obs_dim, act_dim, hidden=(128,)):
        super().__init__()
        layers, d = [], obs_dim
        for h in hidden:
            layers += [nn.Linear(d, h), nn.ReLU()]
            d = h
        layers += [nn.Linear(d, act_dim)]
        self.net = nn.Sequential(*layers)

    def forward(self, x):
        return self.net(x)

class ValueLinear(nn.Module):
    # Baseline lineal V(s) = w^T s + b
    def __init__(self, obs_dim):
        super().__init__()
        self.v = nn.Linear(obs_dim, 1, bias=True)

    def forward(self, x):
        return self.v(x).squeeze(-1)

def initialize_models_and_optimizers(obs_dim, act_dim, cfg: Config):
    policy = PolicyNet(obs_dim, act_dim, cfg.hidden).to(DEVICE)
    baseline = ValueLinear(obs_dim).to(DEVICE)
    opt_pi = optim.Adam(policy.parameters(), lr=cfg.policy_lr)
    opt_v  = optim.Adam(baseline.parameters(), lr=cfg.value_lr)
    return policy, baseline, opt_pi, opt_v

### M√©todo para simulaci√≥n de episodios y obtenci√≥n de recompensas

In [None]:
@torch.no_grad()
def simulate_episode(env, policy, max_steps, device=DEVICE):
    if GYMN:
        obs, _ = env.reset()
    else:
        obs = env.reset()

    states, actions, logps, rewards = [], [], [], []

    for _ in range(max_steps):
        s_t = torch.tensor(obs, dtype=torch.float32, device=device).unsqueeze(0)
        logits = policy(s_t)
        dist = torch.distributions.Categorical(logits=logits)
        a_t = dist.sample()
        logp_t = dist.log_prob(a_t)

        step = env.step(a_t.item())
        if GYMN:
            obs_next, r, term, trunc, _ = step
            done = term or trunc
        else:
            obs_next, r, done, _ = step

        states.append(s_t.squeeze(0).cpu().numpy())
        actions.append(a_t.item())
        logps.append(logp_t.item())
        rewards.append(float(r))

        obs = obs_next
        if done:
            break

    return states, actions, logps, rewards

### C√°lculo del rendimiento descontado para cada estado-acci√≥n

In [None]:
# C√≥digo aqu√≠

### Actualizaci√≥n de los par√°metros de la pol√≠tica utilizando actualizaciones de gradiente de pol√≠tica

In [None]:
# C√≥digo aqu√≠

### Agregaci√≥n de l√≠nea base/funci√≥n de valor estimado para reducci√≥n de la varianza

In [None]:
# C√≥digo aqu√≠

### Entrenamiento

In [None]:
# C√≥digo aqu√≠