In [1]:
import argparse
import os
import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from prae.plots import plot_rn, plot_actions, plot_vertices
%matplotlib notebook

In [2]:
def visualize(agg_states, rewards, actions, colors=None):
    """
    """
    fig, ax = plot_rn()
    actioned_states = [agg_states]
    for a, v_a in enumerate(actions):
        new_states = agg_states + v_a
        actioned_states.append(new_states)

    all_vertices = np.concatenate(actioned_states, axis=0)

    pca = PCA(n_components=3)

    all_vertices = pca.fit_transform(all_vertices)

    n_v = agg_states.shape[0]
    vertices = all_vertices[:n_v]

    ax = plot_actions(ax, vertices, all_vertices, n_v, actions)
    
    if colors is None:
        colors = rewards


    ax, fig = plot_vertices(vertices, fig=fig, ax=ax, colors=colors)
    return ax, fig


In [3]:
from prae.runner import Runner
from prae.helpers import set_seeds, make_env
from argparse import Namespace

args = Namespace()

args.log_dir = "cartpole"
args.data_folder = "cartpole"

args.n_episodes = 1000
args.model_train_epochs = 100
args.n_neg_samples = 5
args.batch_size = 1024
args.batch_size_sample = 1024
args.lr = 0.001
args.hinge = 1.0
args.env = "cartpole"
args.z_dim = 50
args.trans_tau = 0.1
args.prune_off = True

args.n_sweeps = 500
args.gamma = 0.9
args.objects = 1
args.test_goals = False
args.test_set = False
args.seed = 0
args.cpu = False

set_seeds(int(args.seed))                                                   
env = make_env(args) 

In [4]:
runner = Runner(env, args)                                                  
runner.loop() 

Sampling train trajectories 0 to 1000
Sampling valid trajectories 0 to 200
Number of samples=22444
Number of samples=4293
Train epoch 0
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 4.121268879283559 1.3680150508880615 s
valid loss 2.817059564590454██████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 1
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 2.0448137630115855 1.1599462032318115 s
valid loss 1.4591747283935548█████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 2
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 1.1443204988132825 1

valid loss 0.3808064043521881█████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 24
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.38300309804352844 0.9848747253417969 s
valid loss 0.38805207014083865████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 25
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.41859108074144885 1.0478405952453613 s
valid loss 0.37074545621871946████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 26
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.3969897

valid loss 0.2919819712638855█████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 48
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.3189351978627118 1.0398457050323486 s
valid loss 0.3025395333766937█████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 49
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.30855112319642847 1.0457849502563477 s
valid loss 0.3009412884712219█████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 50
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.30664481

valid loss 0.29130335450172423████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 72
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.30469795248725196 1.1352791786193848 s
valid loss 0.2994005858898163█████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 73
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.2987953647971153 1.14888596534729 s
valid loss 0.27836827039718626████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 74
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.2974810126

valid loss 0.2860089957714081█████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 96
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.2811053808439862 1.0654456615447998 s
valid loss 0.2735374689102173█████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 97
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.2907792248509147 1.1245191097259521 s
valid loss 0.2894921779632568█████████████████████████████████████████████████████████████--------------------| 80.0% complete
Train epoch 98
Training 17729 params
progress |███████████████████████████████████████████████████████████████████████████████████████████████-----| 95.5% complete
 train loss 0.286396731

In [5]:
from prae.evaluator import plan
from prae.helpers import load_abstract_mdp, get_model, load_network

epoch = 99

network = get_model(env.action_space.n, args)
network = load_network(network, f"runs/{args.log_dir}/{args.seed}", epoch)

In [6]:
log_path = f"runs/{args.log_dir}/{args.seed}/{epoch}"
mdp = load_abstract_mdp(os.path.join("runs", args.log_dir, str(args.seed)), epoch, network, args.trans_tau, args.gamma)
s_str = "a_states.npy"
r_str = "a_rewards.npy"
a_str = "a_actions.npy"

  torch_latents = torch.tensor(latent_states).float().to(device)
  torch_latents = torch.tensor(latent_states).float().to(device)


In [7]:
from prae.evaluator import dump_epoch_mdp
env.reset()
goal_state = env.get_goal_state()
plans = plan(network, mdp, goal_state, env.action_space.n, args)
values = plans[0].detach().cpu()
qvalues = plans[1].detach().cpu()

dump_epoch_mdp(log_path, mdp, values, qvalues)

states = np.load(os.path.join(log_path, s_str),
                 allow_pickle=True)
rewards = np.load(os.path.join(log_path, r_str),
                 allow_pickle=True)[:, 0]
actions = np.load(os.path.join(log_path, a_str),
                  allow_pickle=True)

In [8]:
visualize(states, rewards, actions, colors=values)

<IPython.core.display.Javascript object>

(<matplotlib.axes._subplots.Axes3DSubplot at 0x7f13943a8850>,
 <Figure size 640x480 with 2 Axes>)

In [9]:
from prae.evaluator import Evaluator
args.start_epochs = 0
args.model_train_epochs = 100
args.eval_eps = 100
args.eta = 1e-20
evaluator = Evaluator(env, args)                                            
returns, lens = evaluator.loop()

  torch_latents = torch.tensor(latent_states).float().to(device)
  torch_latents = torch.tensor(latent_states).float().to(device)


Epoch 0, return: 9.992726337292416, length: 117.47
Epoch 1, return: 9.994014519384862, length: 109.5
Epoch 2, return: 9.923539309189296, length: 59.38
Epoch 3, return: 9.99437700763553, length: 131.04
Epoch 4, return: 9.99589521529496, length: 133.22
Epoch 5, return: 9.988967649685415, length: 173.11
Epoch 6, return: 9.994948155205318, length: 180.8
Epoch 7, return: 9.999999977793355, length: 198.53
Epoch 8, return: 9.997382820483162, length: 185.85
Epoch 9, return: 9.999999959350157, length: 197.1
Epoch 10, return: 9.999999987843761, length: 199.35
Epoch 11, return: 9.99999898738197, length: 187.98
Epoch 12, return: 9.999999681489712, length: 197.19
Epoch 13, return: 9.999998881894939, length: 192.03
Epoch 14, return: 9.999997033949974, length: 181.07
Epoch 15, return: 9.999994057703496, length: 175.72
Epoch 16, return: 9.999994824024666, length: 172.61
Epoch 17, return: 9.99999828089134, length: 177.62
Epoch 18, return: 9.99999360344612, length: 177.35
Epoch 19, return: 9.99999519675

In [10]:
fig, ax = plt.subplots(1)
ax.plot(lens, label="train")
ax.set_title("Performance on train goals")
ax.set_ylabel("Average episode length")
ax.set_xlabel("Number of training epochs")

<IPython.core.display.Javascript object>

Text(0.5, 0, 'Number of training epochs')