In [1]:
import argparse
import os
import numpy as np
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from prae.plots import plot_rn, plot_actions, plot_vertices
%matplotlib notebook

In [2]:
def visualize(agg_states, rewards, actions, colors=None):
    """
    """
    fig, ax = plot_rn()
    actioned_states = [agg_states]
    for a, v_a in enumerate(actions):
        new_states = agg_states + v_a
        actioned_states.append(new_states)

    all_vertices = np.concatenate(actioned_states, axis=0)

    pca = PCA(n_components=3)

    all_vertices = pca.fit_transform(all_vertices)

    n_v = agg_states.shape[0]
    vertices = all_vertices[:n_v]

    ax = plot_actions(ax, vertices, all_vertices, n_v, actions)
    
    if colors is None:
        colors = rewards


    ax, fig = plot_vertices(vertices, fig=fig, ax=ax, colors=colors)
    return ax, fig


In [3]:
from prae.runner import Runner
from prae.helpers import set_seeds, make_env
from argparse import Namespace

args = Namespace()

args.log_dir = "room_single"
args.data_folder = "room_single"

args.n_episodes = 1000
args.model_train_epochs = 100
args.n_neg_samples = 5
args.batch_size = 1024
args.batch_size_sample = 1024
args.lr = 0.001
args.hinge = 1.0
args.env = "room"
args.z_dim = 50
args.trans_tau = 0.01
args.prune_off = False

args.n_sweeps = 500
args.gamma = 0.9
args.objects = 1
args.test_goals = False
args.test_set = False
args.seed = 0
args.cpu = False

set_seeds(int(args.seed))                                                   
env = make_env(args) 

In [4]:
runner = Runner(env, args)                                                  
runner.loop() 

Sampling train trajectories 0 to 1000
Sampling valid trajectories 0 to 200
Number of samples=87530
Number of samples=17754
Train epoch 0
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 2.5535743042480115 19.896456241607666 s
valid loss 1.140270021226671████████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 1
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.9666249003521231 19.02804732322693 s
valid loss 0.7746921446588304███████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 2
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.64388083060

progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.3191176767266074 19.627139806747437 s
valid loss 0.31295422050688004██████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 24
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.31901807667211046 19.417299509048462 s
valid loss 0.30796509153313106██████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 25
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.31078893362089643 19.650895833969116 s
valid loss 0.30825066069761914██████████████████████████████████████████████████████████████████████████------| 94.4% complete
Tr

valid loss 0.2982237744662497███████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 47
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.3103923880776694 19.396069526672363 s
valid loss 0.3027936104271147███████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 48
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.30888365694256714 19.63158106803894 s
valid loss 0.302614892522494████████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 49
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.309

progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.30450903295084486 19.450363636016846 s
valid loss 0.2999376853307088███████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 71
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.3036468216153078 19.51253652572632 s
valid loss 0.2931605991390016███████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 72
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.30250716590604115 19.58734130859375 s
valid loss 0.29905038740899825██████████████████████████████████████████████████████████████████████████------| 94.4% complete
Trai

valid loss 0.29542770816220176██████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 94
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.29623547594907673 19.632099628448486 s
valid loss 0.29933233393563163██████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 95
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.2988105839075044 19.663426160812378 s
valid loss 0.2948190023501714███████████████████████████████████████████████████████████████████████████------| 94.4% complete
Train epoch 96
Training 2002905 params
progress |██████████████████████████████████████████████████████████████████████████████████████████████████--| 98.8% complete
 train loss 0.30

In [6]:
from prae.evaluator import plan
from prae.helpers import load_abstract_mdp, get_model, load_network

epoch = 99

network = get_model(env.action_space.n, args)
network = load_network(network, f"runs/{args.log_dir}/{args.seed}", epoch)

In [7]:
log_path = f"runs/{args.log_dir}/{args.seed}/{epoch}"
mdp = load_abstract_mdp(os.path.join("runs", args.log_dir, str(args.seed)), epoch, network, args.trans_tau, args.gamma)
s_str = "a_states.npy"
r_str = "a_rewards.npy"
a_str = "a_actions.npy"

  torch_latents = torch.tensor(latent_states).float().to(device)
  torch_latents = torch.tensor(latent_states).float().to(device)


In [8]:
from prae.evaluator import dump_epoch_mdp
env.reset()
goal_state = env.get_goal_state()
plans = plan(network, mdp, goal_state, env.action_space.n, args)
values = plans[0].detach().cpu()
qvalues = plans[1].detach().cpu()

dump_epoch_mdp(log_path, mdp, values, qvalues)


states = np.load(os.path.join(log_path, s_str),
                 allow_pickle=True)
rewards = np.load(os.path.join(log_path, r_str),
                 allow_pickle=True)[:, 0]
actions = np.load(os.path.join(log_path, a_str),
                  allow_pickle=True)

In [9]:
visualize(states, rewards, actions, colors=values)

<IPython.core.display.Javascript object>

(<matplotlib.axes._subplots.Axes3DSubplot at 0x7f169f4e0850>,
 <Figure size 640x480 with 2 Axes>)

In [12]:
from prae.evaluator import Evaluator
args.start_epochs = 0
args.model_train_epochs = 100
args.eval_eps = 100
args.eta = 1e-20
evaluator = Evaluator(env, args)                                            
returns, lens = evaluator.loop()

Epoch 0, return: -0.8072056709404164, length: 97.22
Epoch 1, return: -0.7555088686842671, length: 67.26
Epoch 2, return: 0.7542506608190073, length: 8.94
Epoch 3, return: 0.7074611673418282, length: 9.1
Epoch 4, return: 0.7232463786608041, length: 9.16
Epoch 5, return: 0.7127879241830734, length: 9.08
Epoch 6, return: 0.7622411172719928, length: 8.68
Epoch 7, return: 0.7787346121219411, length: 8.7
Epoch 8, return: 0.7296204159623122, length: 8.92
Epoch 9, return: 0.732975913462226, length: 8.86
Epoch 10, return: 0.745364834880693, length: 8.88
Epoch 11, return: 0.7711268065513422, length: 8.77
Epoch 12, return: 0.7589136367161423, length: 8.74
Epoch 13, return: 0.7284938663172515, length: 9.1
Epoch 14, return: 0.7568423637385822, length: 8.84
Epoch 15, return: 0.7565604373728444, length: 8.87
Epoch 16, return: 0.7390133482614271, length: 8.96
Epoch 17, return: 0.7475695271166294, length: 8.9
Epoch 18, return: 0.7518576896938476, length: 8.79
Epoch 19, return: 0.7249563640347685, lengt

In [13]:
fig, ax = plt.subplots(1)
ax.plot(lens, label="train")
ax.set_title("Performance on train goals")
ax.set_ylabel("Average episode length")
ax.set_xlabel("Number of training epochs")

<IPython.core.display.Javascript object>

Text(0.5, 0, 'Number of training epochs')

In [14]:
args.test_goals = True
env = make_env(args)

In [15]:
evaluator = Evaluator(env, args)                                            
returns_test, lens_test = evaluator.loop()

Epoch 0, return: -0.7663712305979581, length: 92.65
Epoch 1, return: -0.7021801076921076, length: 64.02
Epoch 2, return: 0.8621077147202396, length: 7.63
Epoch 3, return: 0.9075493833348398, length: 7.37
Epoch 4, return: 0.8713331105151998, length: 7.45
Epoch 5, return: 0.838976432961, length: 7.7
Epoch 6, return: 0.8705846077146403, length: 7.52
Epoch 7, return: 0.9341529823564404, length: 7.15
Epoch 8, return: 0.8752780579030326, length: 7.57
Epoch 9, return: 0.8846819338203362, length: 7.46
Epoch 10, return: 0.8402972690389484, length: 7.82
Epoch 11, return: 0.8337135329643486, length: 7.79
Epoch 12, return: 0.9090450926546204, length: 7.38
Epoch 13, return: 0.917625843366814, length: 7.34
Epoch 14, return: 0.8517908627138999, length: 7.77
Epoch 15, return: 0.9173199533371175, length: 7.35
Epoch 16, return: 0.8605562735222541, length: 7.62
Epoch 17, return: 0.8761830834972001, length: 7.54
Epoch 18, return: 0.9186282316510822, length: 7.33
Epoch 19, return: 0.8452058556870798, lengt

In [16]:
fig, ax = plt.subplots(1)
ax.plot(lens_test, label="test")
ax.set_title("Performance on test goals")
ax.set_ylabel("Average episode length")
ax.set_xlabel("Number of training epochs")

<IPython.core.display.Javascript object>

Text(0.5, 0, 'Number of training epochs')