# Oppgave!

Her skal dere selv trene opp en agent til å utføre en oppgave.
Oppgaven er å lage en agent som kan balansere en pinne på en liten tralle. Dette problemet er kjent som **CartPole**.

Du kan lese mer om problemet på følgende link. Legg særlig merke til hva slags outputs du får fra denne (states), og hva slags inputs du kan gi til den (actions).

[CartPole v0 på github](https://github.com/openai/gym/wiki/CartPole-v0)

![Cartpole](https://gym.openai.com/videos/2019-10-21--mqt8Qj1mwo/CartPole-v1/poster.jpg)


### Utvidelse av oppgaven

Du kommer sikkert til å oppleve at agent ikke holder trallen på midten av skjermen. Den bruker gjerne litt tid på det, men sklir til slutt ut til siden.

Med en enkel liten endring kan du trene agenten til å holde trallen på midten av skjermen. Kan du finne ut hvordan?

Hint: Tenk på hvilken reward du gir agenten i "fit"-funksjonen.

In [None]:
%matplotlib inline
import gym
import math
import random
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from itertools import count
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torchvision.transforms as T
from collections import deque
import copy

### Opprett en simulator

In [None]:
env = gym.make('CartPole-v0')
env._max_episode_steps = 500

In [None]:
class Agent():
    def __init__(
        self,
        num_features,
        num_actions,
        hidden_layers=[64],
        bias=True,
        learning_rate=0.001,
        experience_capacity=1000
    ):
        torch.manual_seed(1234)
        self.num_features = num_features
        self.num_actions = num_actions
        
        self.q_net = self.create_model(hidden_layers, bias)
        self.target_net = copy.deepcopy(self.q_net)
        self.target_net.eval()
        
        self.loss_func = torch.nn.MSELoss()
        self.optimizer = torch.optim.AdamW(
            self.q_net.parameters(),
            lr=learning_rate,
            weight_decay=0
        )
        
        self.experiences = deque(maxlen=experience_capacity)
        
        self.sync_counter = 0
        
    def create_model(self, hidden_layers, bias=True):
        layer_dims = [self.num_features] + [
            layer for layer in hidden_layers if layer > 0
        ] + [self.num_actions]
        layers = []
        for index in range(len(layer_dims) - 1):
            layers.append(nn.Linear(layer_dims[index], layer_dims[index + 1], bias=bias))
            layers.append(nn.Identity() if index == len(layer_dims) - 2 else nn.Tanh())
        return nn.Sequential(*layers)
        
    def get_action(self, state, epsilon=0):
        with torch.no_grad():
            Qp = self.q_net(state)
        Q, A = torch.max(Qp, axis=0)
        A = A if torch.rand(1, ).item() > epsilon else torch.randint(0, self.num_actions, (1,))
        return A
        
    def add_experience(self, experience):
        self.experiences.append(experience)
        
    def get_experience(self, batch_size):
        if len(self.experiences) < batch_size:
            batch_size = len(self.experiences)
        sample = random.sample(self.experiences, batch_size)
        states = torch.stack([exp[0] for exp in sample]).float()
        actions = torch.tensor([exp[1] for exp in sample]).float()
        rewards = torch.tensor([exp[2] for exp in sample]).float()
        next_states = torch.tensor([exp[3] for exp in sample]).float()
        return states, actions, rewards, next_states

    def get_q_next(self, state):
        with torch.no_grad():
            qp = self.target_net(state)
        q, _ = torch.max(qp, axis=1)
        return q
    
    # Trening!
    def fit(self, batch_size, gamma=0.95):
        states, actions, rewards, next_states = self.get_experience(batch_size)
        
        if self.sync_counter == 1:
            self.target_net.load_state_dict(self.q_net.state_dict())
            self.target_net.eval()
            self.sync_counter = 0
        
        # Predicted return
        q_pred = self.q_net(states)
        pred_return, _ = torch.max(q_pred, axis=1)

        # Target return
        q_next = self.get_q_next(next_states)
        target_return = rewards + gamma * q_next

        loss = self.loss_func(pred_return, target_return)
        self.optimizer.zero_grad()
        loss.backward(retain_graph=True)
        nn.utils.clip_grad_value_(self.q_net.parameters(), clip_value=0.75)
        self.optimizer.step()

        self.sync_counter += 1

### Trene en agent

Husk at:

- Learning rate styrer hvor fort agenten skal lære fra nye opplevelser, men dermed også hvor fort den glemmer gamle.
- Hidden layers er en array der du kan bestemme hvor mange nevroner du vil ha i hver layer mellom input og output.
- Epsilon er exploration rate. I starten av treningen er det lulrt at agenten utforsker miljøet mye, men denne bør minke etterhvert som agenten blir flinkere. Bruk epsilon decay til dette.

Med disse parameterne vil ikke nødvendigvis agenten klare å lære seg oppgaven. Lek litt med dem! Du kan gjerne loope gjennom noen parametre for å finne frem til noe som fungerer.

Fungerende kode kan finnes i "løsning"-notebooken, men ikke se på denne før du har prøvd litt selv.

In [None]:
batch_size = 256
gamma = 0.999
epsilon = 1
epsilon_decay = 1 / 5000

agent = Agent(
    num_features = env.observation_space.shape[0],
    num_actions = env.action_space.n,
    hidden_layers = [16, 16],
    bias = True,
    learning_rate = 0.001,
    experience_capacity = 10000
)

episode_durations = []

for episode in range(7501):
    state, done = env.reset(), False

    for timestep in count():
        state = torch.tensor(state)

        action = agent.get_action(state, epsilon)
        next_state, reward, done, _ = env.step(action.item())
        agent.add_experience([state, action.item(), reward, next_state])

        state = next_state

        if done:
            #for _ in range(2 + round(timestep / 50)):
            agent.fit(batch_size, gamma)
            episode_durations.append(timestep)
            break


    if epsilon > 0.05 :
        epsilon -= epsilon_decay

    avg = np.mean(episode_durations[-100:])

    if episode % 500 == 0:
        print(f'Episode {episode}: {avg}')

    if avg > 197.5:
        break

print(f'Finished at episode {episode}: {avg}')

### Se på utviklingen til en agent mens den trener

Dette er litt gøy!

Her får du en visualisering av at agenten forsøker å balansere en pinne. For hver 500 iterasjon med trening vil det spilles av én episode på skjermen din.

Denne koden bruker lengre tid på å kjøre enn koden ovenfor, så finn gjerne frem til noen parametre som fungerer før du tester de parametrene her

In [None]:
batch_size = 256
gamma = 0.999
epsilon = 1
epsilon_decay = 1 / 5000

agent = Agent(
    num_features = env.observation_space.shape[0],
    num_actions = env.action_space.n,
    hidden_layers = [16, 16],
    bias = False,
    learning_rate = 0.001,
    experience_capacity = 10000
)

episode_durations = []

for episode in range(10001):
    state, done = env.reset(), False

    for timestep in count():
        state = torch.tensor(state)

        action = agent.get_action(state, epsilon)
        next_state, reward, done, _ = env.step(action.item())
        agent.add_experience([state, action.item(), reward, next_state])

        state = next_state

        if done:
            #for _ in range(2 + round(timestep / 50)):
            agent.fit(batch_size, gamma)
            episode_durations.append(timestep)
            break


    if epsilon > 0.05 :
        epsilon -= epsilon_decay

    avg = np.mean(episode_durations[-100:])

    if episode % 500 == 0:
        print(f'Episode {episode}: {avg}')
        state, done = env.reset(), False
        while not done:
            state = torch.tensor(state)

            action = agent.get_action(state)
            next_state, reward, done, _ = env.step(action.item())

            state = next_state

            env.render("human")

### Balansering til evig tid

Her sørger vi for at hver episode kan spille av mye lengre, og agenten får prøve å balansere så lenge den klarer.

In [None]:
env._max_episode_steps = 5000

while True:
    state, done = env.reset(), False
    while not done:
        state = torch.tensor(state)
        
        action = agent.get_action(state)
        next_state, reward, done, _ = env.step(action.item())
        
        state = next_state
        
        env.render("human")