# CartPole Reinforcement Learning Experiment

Dit notebook combineert documentatie, experimenten en visualisaties voor een Q-learning agent die getraind wordt in de CartPole-omgeving. Hieronder leg je de opzet, de trainingsprocedure en de interpretatie van de resultaten vast.

## Importeren en Initialiseren

We importeren de benodigde modules en initialiseren de omgeving en de agent. De omgeving wordt hierbij ingepakt via een wrapper in `environment.py` en de agent is geïmplementeerd in `agent.py`.

In [None]:
import gymnasium as gym
import matplotlib.pyplot as plt

from agent import QLearningAgent
from environment import CartPoleEnvironment
from utils import plot_rewards

# Initialiseer de omgeving via de wrapper (environment.py)
env_wrapper = CartPoleEnvironment('CartPole-v1')
env = env_wrapper.env

# Initialiseer de Q-learning agent
agent = QLearningAgent(env)

# Print een korte beschrijving van de gebruikte hyperparameters
print(f"Initial epsilon: {agent.epsilon}")
print(f"Learning rate (alpha): {agent.alpha}")
print(f"Discount factor (gamma): {agent.gamma}")

## Trainingsloop

In onderstaande cellen wordt de trainingsloop uitgevoerd. De agent wordt getraind over een vastgesteld aantal episodes, en per episode wordt de totale reward vastgelegd.

In [None]:
num_episodes = 300
reward_list = []

for episode in range(num_episodes):
    state, _ = env_wrapper.reset()
    state_disc = agent.discretize(state)
    total_reward = 0
    done = False
    
    while not done:
        action = agent.choose_action(state_disc)
        next_state, reward, done, truncated, info = env_wrapper.step(action)
        next_state_disc = agent.discretize(next_state)
        agent.update(state_disc, action, reward, next_state_disc, done)
        state_disc = next_state_disc
        total_reward += reward
        
        if done:
            break
    
    agent.decay_epsilon()
    reward_list.append(total_reward)
    print(f"Episode {episode+1}/{num_episodes}: Reward {total_reward}")

env_wrapper.close()

# Plot en sla de reward-curve op
plot_rewards(reward_list, title="Training Rewards over Episodes", filename="train_rewards.png")

# Toon de gegenereerde grafiek
img = plt.imread("train_rewards.png")
plt.figure(figsize=(10, 6))
plt.imshow(img)
plt.axis('off')
plt.show()

## Resultaten en Analyse

Bovenstaande grafiek toont de totale rewards per episode. Deze grafiek geeft een indicatie van hoe snel de agent leert de pole in balans te houden, en laat tevens de variabiliteit tussen episodes zien.

### Mogelijke Observaties
- Een stijgende trend in de reward-curve duidt op leerprogressie.
- Grote schommelingen kunnen wijzen op een te hoge epsilon-waarde (te veel exploratie) of andere onstabiele hyperparameters.

Door te experimenteren met hyperparameters zoals `alpha`, `gamma` en `epsilon_decay` kan de prestatie van de agent verder worden geoptimaliseerd.

## Conclusie

Dit notebook dient als een interactief document voor zowel de documentatie als de visualisatie van de trainingsresultaten. Verdere analyses en experimenten kunnen worden uitgevoerd door extra metrieken toe te voegen en de huidige configuratie aan te passen.