In [1]:
import argparse
import os
import keras.backend as K
import keras.layers as KL
import numpy as np
from keras.callbacks import TensorBoard
from keras.datasets import mnist
from keras import utils
from keras import Input, Model
from tqdm import tqdm

def prepare_data():
    """
    prepare mnist data
    """
    (X_train, y_train), (X_test, y_test) = mnist.load_data()

    X_train = X_train.reshape((X_train.shape[0], X_train.shape[1], X_train.shape[2], 1))
    X_train = X_train.astype(np.float32) / 255.
    X_test = X_test.reshape((X_test.shape[0], X_test.shape[1], X_test.shape[2], 1))
    X_test = X_test.astype(np.float32) / 255.

    y_train, y_test = utils.to_categorical(y_train, 10), utils.to_categorical(y_test, 10)

    return (X_train, y_train), (X_test, y_test)


class LeNet:
    """
    Before calling mc-dropout, use 'set_mc_dropout_rate' 
    """
    def __init__(self, input_shape, num_classes):
        self.mc_dropout_rate = K.variable(value=0)  # dropout before the last fully connected layer
        self.input_shape = input_shape
        self.num_classes = num_classes
        self.model = self._build_model()
        
    def _build_model(self):
        inp = Input(shape=self.input_shape)
        x = KL.Conv2D(filters=20, kernel_size=5, strides=1)(inp)
        x = KL.MaxPool2D(pool_size=2, strides=2)(x)
        x = KL.Conv2D(filters=50, kernel_size=5, strides=1)(x)
        x = KL.MaxPool2D(pool_size=2, strides=2)(x)
        x = KL.Flatten()(x)
        x = KL.Dense(500, activation='relu')(x)
        x = KL.Lambda(lambda x: K.dropout(x, level=self.mc_dropout_rate))(x)  # dropout before the last fully connected layer
        x = KL.Dense(self.num_classes, activation='softmax')(x)

        return Model(inputs=inp, outputs=x, name='lenet-mc-dropout')
    
    def set_mc_dropout_rate(self, new_rate):
        K.set_value(self.mc_dropout_rate, new_rate)
        
    def train(self, X_train, y_train, X_test, y_test,
              batch_size=32,
              epochs=2,
              optimizer='adam', 
              loss='categorical_crossentropy',
              metrics=['acc'],
              verbose=0):
        
        print(f"Training with mc_dropout_rate = {K.eval(self.mc_dropout_rate)}.\n")
        model = lenet.model
        model.compile(optimizer=optimizer, loss=loss, metrics=metrics)

        # train the network
        model.fit(
            x=X_train,
            y=y_train,
            batch_size=batch_size,
            epochs=epochs,
            validation_data=(X_test, y_test),
            verbose=verbose,
        )
        
(X_train, y_train), (X_test, y_test) = prepare_data()

Using TensorFlow backend.
  from google.protobuf.pyext import _message
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _pywrap_tensorflow.RegisterType("Mapping", _collections.Mapping)
  class _DictWrapper(Mapping, collections.MutableMapping):
  class _ObjectIdentitySet(collections.MutableSet):
  _config = json.load(open(_config_path))
  from collections import Iterable


In [2]:
# prepare the model
lenet = LeNet(
    input_shape=X_train.shape[1:],
    num_classes=10,
)

# train
lenet.set_mc_dropout_rate(0.5)
lenet.train(X_train, y_train, X_test, y_test, epochs=20, verbose=2)

  tensor_proto.float_val.extend([np.asscalar(x) for x in proto_values])


Instructions for updating:
Colocations handled automatically by placer.
Training with mc_dropout_rate = 0.5.

Instructions for updating:
Use tf.cast instead.
Train on 60000 samples, validate on 10000 samples
Epoch 1/20
 - 21s - loss: 0.1600 - acc: 0.9510 - val_loss: 0.0667 - val_acc: 0.9794
Epoch 2/20
 - 20s - loss: 0.0724 - acc: 0.9773 - val_loss: 0.0610 - val_acc: 0.9833
Epoch 3/20
 - 20s - loss: 0.0552 - acc: 0.9830 - val_loss: 0.0521 - val_acc: 0.9832
Epoch 4/20
 - 20s - loss: 0.0484 - acc: 0.9855 - val_loss: 0.0652 - val_acc: 0.9821
Epoch 5/20
 - 20s - loss: 0.0402 - acc: 0.9876 - val_loss: 0.0500 - val_acc: 0.9863
Epoch 6/20
 - 20s - loss: 0.0393 - acc: 0.9882 - val_loss: 0.1023 - val_acc: 0.9749
Epoch 7/20
 - 20s - loss: 0.0376 - acc: 0.9892 - val_loss: 0.0712 - val_acc: 0.9814
Epoch 8/20
 - 20s - loss: 0.0348 - acc: 0.9897 - val_loss: 0.0714 - val_acc: 0.9826
Epoch 9/20
 - 20s - loss: 0.0333 - acc: 0.9905 - val_loss: 0.0702 - val_acc: 0.9844
Epoch 10/20
 - 21s - loss: 0.0326 - 

In [3]:
from gym_eli.envs import EliEnv
import gym

from stable_baselines.common.policies import MlpPolicy
from stable_baselines.common.vec_env import DummyVecEnv
from stable_baselines import PPO2

  from collections import Container
  tc.Union(string_types, tc.Tuple(string_types, collections.Hashable))),


In [4]:
mask = 1000
X_train = X_train[:mask]
y_train = y_train[:mask]

# The algorithms require a vectorized environment to run
env = DummyVecEnv([lambda: EliEnv(net=lenet,
                                  confidence_rate=0.5, 
                                  X_train=X_train, 
                                  y_train=y_train,
                                  )])


in init


In [5]:
model = PPO2(MlpPolicy, env, verbose=1)
model.learn(total_timesteps=500)


# obs = env.reset()
# for i in range(2000):

Instructions for updating:
Use keras.layers.flatten instead.


  tensor_proto.int_val.extend([np.asscalar(x) for x in proto_values])


Instructions for updating:
Deprecated in favor of operator or tf.math.divide.
in reset
in step
in take action
action=835


100%|█████████████████████████████████████████████████| 835/835 [01:13<00:00, 11.40it/s]


in reset
in step
in take action
action=838


100%|█████████████████████████████████████████████████| 838/838 [01:13<00:00, 11.37it/s]


in reset
in step
in take action
action=138


100%|█████████████████████████████████████████████████| 138/138 [00:12<00:00, 11.48it/s]


in reset
in step
in take action
action=996


100%|█████████████████████████████████████████████████| 996/996 [01:26<00:00, 11.46it/s]


in reset
in step
in take action
action=859


100%|█████████████████████████████████████████████████| 859/859 [01:15<00:00, 11.41it/s]


in reset
in step
in take action
action=465


100%|█████████████████████████████████████████████████| 465/465 [00:40<00:00, 11.46it/s]


in reset
in step
in take action
action=304


100%|█████████████████████████████████████████████████| 304/304 [00:26<00:00, 11.47it/s]


in reset
in step
in take action
action=736


100%|█████████████████████████████████████████████████| 736/736 [01:04<00:00, 11.46it/s]


in reset
in step
in take action
action=857


100%|█████████████████████████████████████████████████| 857/857 [01:14<00:00, 11.45it/s]


in reset
in step
in take action
action=763


100%|█████████████████████████████████████████████████| 763/763 [01:06<00:00, 11.47it/s]


in reset
in step
in take action
action=125


100%|█████████████████████████████████████████████████| 125/125 [00:10<00:00, 11.46it/s]


in reset
in step
in take action
action=468


100%|█████████████████████████████████████████████████| 468/468 [00:41<00:00, 11.29it/s]


in reset
in step
in take action
action=209


100%|█████████████████████████████████████████████████| 209/209 [00:18<00:00, 11.11it/s]


in reset
in step
in take action
action=92


100%|███████████████████████████████████████████████████| 92/92 [00:08<00:00, 11.19it/s]


in reset
in step
in take action
action=647


100%|█████████████████████████████████████████████████| 647/647 [00:58<00:00, 11.03it/s]


in reset
in step
in take action
action=964


100%|█████████████████████████████████████████████████| 964/964 [01:26<00:00, 11.10it/s]


in reset
in step
in take action
action=675


100%|█████████████████████████████████████████████████| 675/675 [01:01<00:00, 11.01it/s]


in reset
in step
in take action
action=258


100%|█████████████████████████████████████████████████| 258/258 [00:22<00:00, 11.43it/s]


in reset
in step
in take action
action=587


100%|█████████████████████████████████████████████████| 587/587 [00:51<00:00, 11.41it/s]


in reset
in step
in take action
action=915


100%|█████████████████████████████████████████████████| 915/915 [01:20<00:00, 11.43it/s]


in reset
in step
in take action
action=964


100%|█████████████████████████████████████████████████| 964/964 [01:24<00:00, 11.44it/s]


in reset
in step
in take action
action=238


100%|█████████████████████████████████████████████████| 238/238 [00:20<00:00, 11.43it/s]


in reset
in step
in take action
action=461


100%|█████████████████████████████████████████████████| 461/461 [00:40<00:00, 11.47it/s]


in reset
in step
in take action
action=968


100%|█████████████████████████████████████████████████| 968/968 [01:24<00:00, 11.45it/s]


in reset
in step
in take action
action=270


100%|█████████████████████████████████████████████████| 270/270 [00:23<00:00, 11.48it/s]


in reset
in step
in take action
action=455


100%|█████████████████████████████████████████████████| 455/455 [00:39<00:00, 11.45it/s]


in reset
in step
in take action
action=205


100%|█████████████████████████████████████████████████| 205/205 [00:17<00:00, 11.49it/s]


in reset
in step
in take action
action=297


100%|█████████████████████████████████████████████████| 297/297 [00:25<00:00, 11.45it/s]


in reset
in step
in take action
action=957


100%|█████████████████████████████████████████████████| 957/957 [01:23<00:00, 11.46it/s]


in reset
in step
in take action
action=683


100%|█████████████████████████████████████████████████| 683/683 [00:59<00:00, 11.43it/s]


in reset
in step
in take action
action=995


100%|█████████████████████████████████████████████████| 995/995 [01:28<00:00, 11.23it/s]


in reset
in step
in take action
action=16


100%|███████████████████████████████████████████████████| 16/16 [00:01<00:00, 11.40it/s]


in reset
in step
in take action
action=647


100%|█████████████████████████████████████████████████| 647/647 [00:56<00:00, 11.39it/s]


in reset
in step
in take action
action=601


100%|█████████████████████████████████████████████████| 601/601 [00:52<00:00, 11.39it/s]


in reset
in step
in take action
action=896


100%|█████████████████████████████████████████████████| 896/896 [01:19<00:00, 11.28it/s]


in reset
in step
in take action
action=614


100%|█████████████████████████████████████████████████| 614/614 [00:55<00:00, 10.96it/s]


in reset
in step
in take action
action=19


100%|███████████████████████████████████████████████████| 19/19 [00:01<00:00, 11.17it/s]


in reset
in step
in take action
action=722


100%|█████████████████████████████████████████████████| 722/722 [01:05<00:00, 10.99it/s]


in reset
in step
in take action
action=802


100%|█████████████████████████████████████████████████| 802/802 [01:12<00:00, 11.06it/s]


in reset
in step
in take action
action=658


100%|█████████████████████████████████████████████████| 658/658 [00:59<00:00, 11.03it/s]


in reset
in step
in take action
action=167


100%|█████████████████████████████████████████████████| 167/167 [00:15<00:00, 11.08it/s]


in reset
in step
in take action
action=102


100%|█████████████████████████████████████████████████| 102/102 [00:09<00:00, 10.94it/s]


in reset
in step
in take action
action=895


100%|█████████████████████████████████████████████████| 895/895 [01:21<00:00, 11.03it/s]


in reset
in step
in take action
action=978


100%|█████████████████████████████████████████████████| 978/978 [01:27<00:00, 11.16it/s]


in reset
in step
in take action
action=947


100%|█████████████████████████████████████████████████| 947/947 [01:25<00:00, 11.05it/s]


in reset
in step
in take action
action=759


100%|█████████████████████████████████████████████████| 759/759 [01:07<00:00, 11.17it/s]


in reset
in step
in take action
action=636


100%|█████████████████████████████████████████████████| 636/636 [00:58<00:00, 10.83it/s]


in reset
in step
in take action
action=568


100%|█████████████████████████████████████████████████| 568/568 [00:52<00:00, 10.90it/s]


in reset
in step
in take action
action=989


100%|█████████████████████████████████████████████████| 989/989 [01:28<00:00, 11.15it/s]


in reset
in step
in take action
action=161


100%|█████████████████████████████████████████████████| 161/161 [00:14<00:00, 11.22it/s]


in reset
in step
in take action
action=619


100%|█████████████████████████████████████████████████| 619/619 [00:54<00:00, 11.29it/s]


in reset
in step
in take action
action=358


100%|█████████████████████████████████████████████████| 358/358 [00:31<00:00, 11.28it/s]


in reset
in step
in take action
action=144


100%|█████████████████████████████████████████████████| 144/144 [00:12<00:00, 11.30it/s]


in reset
in step
in take action
action=836


100%|█████████████████████████████████████████████████| 836/836 [01:14<00:00, 11.23it/s]


in reset
in step
in take action
action=413


100%|█████████████████████████████████████████████████| 413/413 [00:38<00:00, 10.79it/s]


in reset
in step
in take action
action=299


100%|█████████████████████████████████████████████████| 299/299 [00:26<00:00, 11.23it/s]


in reset
in step
in take action
action=341


100%|█████████████████████████████████████████████████| 341/341 [00:31<00:00, 10.98it/s]


in reset
in step
in take action
action=694


100%|█████████████████████████████████████████████████| 694/694 [01:03<00:00, 11.01it/s]


in reset
in step
in take action
action=40


100%|███████████████████████████████████████████████████| 40/40 [00:04<00:00,  9.97it/s]


in reset
in step
in take action
action=862


100%|█████████████████████████████████████████████████| 862/862 [01:16<00:00, 11.25it/s]


in reset
in step
in take action
action=936


100%|█████████████████████████████████████████████████| 936/936 [01:22<00:00, 11.29it/s]


in reset
in step
in take action
action=496


100%|█████████████████████████████████████████████████| 496/496 [00:44<00:00, 11.13it/s]


in reset
in step
in take action
action=665


100%|█████████████████████████████████████████████████| 665/665 [00:59<00:00, 11.13it/s]


in reset
in step
in take action
action=902


100%|█████████████████████████████████████████████████| 902/902 [01:20<00:00, 11.20it/s]


in reset
in step
in take action
action=774


100%|█████████████████████████████████████████████████| 774/774 [01:09<00:00, 11.21it/s]


in reset
in step
in take action
action=930


100%|█████████████████████████████████████████████████| 930/930 [01:22<00:00, 11.25it/s]


in reset
in step
in take action
action=621


100%|█████████████████████████████████████████████████| 621/621 [00:54<00:00, 11.32it/s]


in reset
in step
in take action
action=727


100%|█████████████████████████████████████████████████| 727/727 [01:04<00:00, 11.30it/s]


in reset
in step
in take action
action=862


100%|█████████████████████████████████████████████████| 862/862 [01:16<00:00, 11.30it/s]


in reset
in step
in take action
action=61


100%|███████████████████████████████████████████████████| 61/61 [00:05<00:00, 11.13it/s]


in reset
in step
in take action
action=741


100%|█████████████████████████████████████████████████| 741/741 [01:06<00:00, 11.16it/s]


in reset
in step
in take action
action=779


100%|█████████████████████████████████████████████████| 779/779 [01:09<00:00, 11.25it/s]


in reset
in step
in take action
action=412


100%|█████████████████████████████████████████████████| 412/412 [00:36<00:00, 11.25it/s]


in reset
in step
in take action
action=112


100%|█████████████████████████████████████████████████| 112/112 [00:09<00:00, 11.29it/s]


in reset
in step
in take action
action=195


100%|█████████████████████████████████████████████████| 195/195 [00:17<00:00, 11.26it/s]


in reset
in step
in take action
action=256


100%|█████████████████████████████████████████████████| 256/256 [00:22<00:00, 11.30it/s]


in reset
in step
in take action
action=293


100%|█████████████████████████████████████████████████| 293/293 [00:26<00:00, 10.86it/s]


in reset
in step
in take action
action=459


100%|█████████████████████████████████████████████████| 459/459 [00:42<00:00, 10.71it/s]


in reset
in step
in take action
action=736


100%|█████████████████████████████████████████████████| 736/736 [01:06<00:00, 11.12it/s]


in reset
in step
in take action
action=239


100%|█████████████████████████████████████████████████| 239/239 [00:21<00:00, 11.33it/s]


in reset
in step
in take action
action=343


100%|█████████████████████████████████████████████████| 343/343 [00:30<00:00, 11.19it/s]


in reset
in step
in take action
action=247


100%|█████████████████████████████████████████████████| 247/247 [00:21<00:00, 11.36it/s]


in reset
in step
in take action
action=163


100%|█████████████████████████████████████████████████| 163/163 [00:14<00:00, 11.37it/s]


in reset
in step
in take action
action=175


100%|█████████████████████████████████████████████████| 175/175 [00:15<00:00, 11.35it/s]


in reset
in step
in take action
action=424


100%|█████████████████████████████████████████████████| 424/424 [00:37<00:00, 11.35it/s]


in reset
in step
in take action
action=572


100%|█████████████████████████████████████████████████| 572/572 [00:50<00:00, 11.38it/s]


in reset
in step
in take action
action=322


100%|█████████████████████████████████████████████████| 322/322 [00:28<00:00, 11.36it/s]


in reset
in step
in take action
action=751


100%|█████████████████████████████████████████████████| 751/751 [01:06<00:00, 11.37it/s]


in reset
in step
in take action
action=946


100%|█████████████████████████████████████████████████| 946/946 [01:23<00:00, 11.35it/s]


in reset
in step
in take action
action=306


100%|█████████████████████████████████████████████████| 306/306 [00:26<00:00, 11.38it/s]


in reset
in step
in take action
action=225


100%|█████████████████████████████████████████████████| 225/225 [00:19<00:00, 11.37it/s]


in reset
in step
in take action
action=438


100%|█████████████████████████████████████████████████| 438/438 [00:38<00:00, 11.37it/s]


in reset
in step
in take action
action=219


100%|█████████████████████████████████████████████████| 219/219 [00:19<00:00, 11.38it/s]


in reset
in step
in take action
action=445


100%|█████████████████████████████████████████████████| 445/445 [00:39<00:00, 11.37it/s]


in reset
in step
in take action
action=601


100%|█████████████████████████████████████████████████| 601/601 [00:52<00:00, 11.39it/s]


in reset
in step
in take action
action=143


100%|█████████████████████████████████████████████████| 143/143 [00:12<00:00, 11.40it/s]


in reset
in step
in take action
action=725


100%|█████████████████████████████████████████████████| 725/725 [01:03<00:00, 11.35it/s]


in reset
in step
in take action
action=671


100%|█████████████████████████████████████████████████| 671/671 [00:58<00:00, 11.38it/s]


in reset
in step
in take action
action=228


100%|█████████████████████████████████████████████████| 228/228 [00:20<00:00, 11.39it/s]


in reset
in step
in take action
action=680


100%|█████████████████████████████████████████████████| 680/680 [00:59<00:00, 11.40it/s]


in reset
in step
in take action
action=544


100%|█████████████████████████████████████████████████| 544/544 [00:47<00:00, 11.39it/s]


in reset
in step
in take action
action=371


100%|█████████████████████████████████████████████████| 371/371 [00:32<00:00, 11.39it/s]


in reset
in step
in take action
action=999


100%|█████████████████████████████████████████████████| 999/999 [01:29<00:00, 11.11it/s]


in reset
in step
in take action
action=697


100%|█████████████████████████████████████████████████| 697/697 [01:04<00:00, 10.80it/s]


in reset
in step
in take action
action=787


100%|█████████████████████████████████████████████████| 787/787 [01:12<00:00, 10.86it/s]


in reset
in step
in take action
action=154


100%|█████████████████████████████████████████████████| 154/154 [00:14<00:00, 10.67it/s]


in reset
in step
in take action
action=165


100%|█████████████████████████████████████████████████| 165/165 [00:14<00:00, 11.06it/s]


in reset
in step
in take action
action=620


100%|█████████████████████████████████████████████████| 620/620 [00:56<00:00, 11.06it/s]


in reset
in step
in take action
action=155


100%|█████████████████████████████████████████████████| 155/155 [00:14<00:00, 10.97it/s]


in reset
in step
in take action
action=388


100%|█████████████████████████████████████████████████| 388/388 [00:35<00:00, 10.80it/s]


in reset
in step
in take action
action=462


100%|█████████████████████████████████████████████████| 462/462 [00:42<00:00, 10.86it/s]


in reset
in step
in take action
action=954


100%|█████████████████████████████████████████████████| 954/954 [01:25<00:00, 11.15it/s]


in reset
in step
in take action
action=187


100%|█████████████████████████████████████████████████| 187/187 [00:16<00:00, 11.05it/s]


in reset
in step
in take action
action=530


100%|█████████████████████████████████████████████████| 530/530 [00:47<00:00, 11.05it/s]


in reset
in step
in take action
action=229


100%|█████████████████████████████████████████████████| 229/229 [00:20<00:00, 10.99it/s]


in reset
in step
in take action
action=995


100%|█████████████████████████████████████████████████| 995/995 [01:29<00:00, 11.12it/s]


in reset
in step
in take action
action=707


100%|█████████████████████████████████████████████████| 707/707 [01:02<00:00, 11.38it/s]


in reset
in step
in take action
action=230


100%|█████████████████████████████████████████████████| 230/230 [00:20<00:00, 11.40it/s]


in reset
in step
in take action
action=310


100%|█████████████████████████████████████████████████| 310/310 [00:27<00:00, 11.41it/s]


in reset
in step
in take action
action=942


100%|█████████████████████████████████████████████████| 942/942 [01:22<00:00, 11.35it/s]


in reset
in step
in take action
action=381


100%|█████████████████████████████████████████████████| 381/381 [00:33<00:00, 11.39it/s]


in reset
in step
in take action
action=270


100%|█████████████████████████████████████████████████| 270/270 [00:23<00:00, 11.39it/s]


in reset
in step
in take action
action=835


100%|█████████████████████████████████████████████████| 835/835 [01:13<00:00, 11.40it/s]


in reset
in step
in take action
action=485


100%|█████████████████████████████████████████████████| 485/485 [00:42<00:00, 11.39it/s]


in reset
in step
in take action
action=900


100%|█████████████████████████████████████████████████| 900/900 [01:18<00:00, 11.41it/s]


in reset
in step
in take action
action=124


100%|█████████████████████████████████████████████████| 124/124 [00:10<00:00, 11.41it/s]


in reset
in step
in take action
action=693


100%|█████████████████████████████████████████████████| 693/693 [01:00<00:00, 11.41it/s]


in reset
in step
in take action
action=182


100%|█████████████████████████████████████████████████| 182/182 [00:15<00:00, 11.41it/s]


in reset
-------------------------------------
| approxkl           | 0.0004829586 |
| clipfrac           | 0.0          |
| explained_variance | nan          |
| fps                | 0            |
| n_updates          | 1            |
| policy_entropy     | 6.906694     |
| policy_loss        | -0.012235176 |
| serial_timesteps   | 128          |
| time_elapsed       | 0            |
| total_timesteps    | 128          |
| value_loss         | 500187.0     |
-------------------------------------
in step
in take action
action=520


100%|█████████████████████████████████████████████████| 520/520 [00:45<00:00, 11.40it/s]


in reset
in step
in take action
action=780


100%|█████████████████████████████████████████████████| 780/780 [01:08<00:00, 11.39it/s]


in reset
in step
in take action
action=872


100%|█████████████████████████████████████████████████| 872/872 [01:16<00:00, 11.41it/s]


in reset
in step
in take action
action=511


100%|█████████████████████████████████████████████████| 511/511 [00:44<00:00, 11.43it/s]


in reset
in step
in take action
action=821


100%|█████████████████████████████████████████████████| 821/821 [01:12<00:00, 11.40it/s]


in reset
in step
in take action
action=780


100%|█████████████████████████████████████████████████| 780/780 [01:08<00:00, 11.42it/s]


in reset
in step
in take action
action=626


100%|█████████████████████████████████████████████████| 626/626 [00:54<00:00, 11.40it/s]


in reset
in step
in take action
action=197


100%|█████████████████████████████████████████████████| 197/197 [00:17<00:00, 11.17it/s]


in reset
in step
in take action
action=716


100%|█████████████████████████████████████████████████| 716/716 [01:03<00:00, 11.28it/s]


in reset
in step
in take action
action=386


100%|█████████████████████████████████████████████████| 386/386 [00:34<00:00, 11.31it/s]


in reset
in step
in take action
action=370


100%|█████████████████████████████████████████████████| 370/370 [00:32<00:00, 11.32it/s]


in reset
in step
in take action
action=834


100%|█████████████████████████████████████████████████| 834/834 [01:14<00:00, 11.23it/s]


in reset
in step
in take action
action=675


100%|█████████████████████████████████████████████████| 675/675 [01:01<00:00, 11.04it/s]


in reset
in step
in take action
action=354


100%|█████████████████████████████████████████████████| 354/354 [00:31<00:00, 11.41it/s]


in reset
in step
in take action
action=952


100%|█████████████████████████████████████████████████| 952/952 [01:23<00:00, 11.44it/s]


in reset
in step
in take action
action=820


100%|█████████████████████████████████████████████████| 820/820 [01:11<00:00, 11.43it/s]


in reset
in step
in take action
action=291


100%|█████████████████████████████████████████████████| 291/291 [00:25<00:00, 11.42it/s]


in reset
in step
in take action
action=532


100%|█████████████████████████████████████████████████| 532/532 [00:46<00:00, 11.34it/s]


in reset
in step
in take action
action=777


100%|█████████████████████████████████████████████████| 777/777 [01:08<00:00, 11.33it/s]


in reset
in step
in take action
action=746


100%|█████████████████████████████████████████████████| 746/746 [01:05<00:00, 11.44it/s]


in reset
in step
in take action
action=633


100%|█████████████████████████████████████████████████| 633/633 [00:55<00:00, 11.44it/s]


in reset
in step
in take action
action=202


100%|█████████████████████████████████████████████████| 202/202 [00:17<00:00, 11.45it/s]


in reset
in step
in take action
action=845


100%|█████████████████████████████████████████████████| 845/845 [01:14<00:00, 11.33it/s]


in reset
in step
in take action
action=562


100%|█████████████████████████████████████████████████| 562/562 [00:49<00:00, 11.36it/s]


in reset
in step
in take action
action=447


100%|█████████████████████████████████████████████████| 447/447 [00:39<00:00, 11.37it/s]


in reset
in step
in take action
action=300


100%|█████████████████████████████████████████████████| 300/300 [00:26<00:00, 11.36it/s]


in reset
in step
in take action
action=602


100%|█████████████████████████████████████████████████| 602/602 [00:53<00:00, 11.32it/s]


in reset
in step
in take action
action=341


100%|█████████████████████████████████████████████████| 341/341 [00:30<00:00, 11.35it/s]


in reset
in step
in take action
action=59


100%|███████████████████████████████████████████████████| 59/59 [00:05<00:00, 11.38it/s]


in reset
in step
in take action
action=704


100%|█████████████████████████████████████████████████| 704/704 [01:02<00:00, 11.31it/s]


in reset
in step
in take action
action=261


100%|█████████████████████████████████████████████████| 261/261 [00:22<00:00, 11.37it/s]


in reset
in step
in take action
action=58


100%|███████████████████████████████████████████████████| 58/58 [00:05<00:00, 11.41it/s]


in reset
in step
in take action
action=212


100%|█████████████████████████████████████████████████| 212/212 [00:18<00:00, 11.38it/s]


in reset
in step
in take action
action=673


100%|█████████████████████████████████████████████████| 673/673 [00:59<00:00, 11.39it/s]


in reset
in step
in take action
action=783


100%|█████████████████████████████████████████████████| 783/783 [01:08<00:00, 11.39it/s]


in reset
in step
in take action
action=241


100%|█████████████████████████████████████████████████| 241/241 [00:21<00:00, 11.40it/s]


in reset
in step
in take action
action=231


100%|█████████████████████████████████████████████████| 231/231 [00:20<00:00, 11.42it/s]


in reset
in step
in take action
action=12


100%|███████████████████████████████████████████████████| 12/12 [00:01<00:00, 11.40it/s]


in reset
in step
in take action
action=948


100%|█████████████████████████████████████████████████| 948/948 [01:23<00:00, 11.40it/s]


in reset
in step
in take action
action=852


100%|█████████████████████████████████████████████████| 852/852 [01:14<00:00, 11.39it/s]


in reset
in step
in take action
action=504


100%|█████████████████████████████████████████████████| 504/504 [00:44<00:00, 11.41it/s]


in reset
in step
in take action
action=644


100%|█████████████████████████████████████████████████| 644/644 [00:56<00:00, 11.41it/s]


in reset
in step
in take action
action=137


100%|█████████████████████████████████████████████████| 137/137 [00:11<00:00, 11.44it/s]


in reset
in step
in take action
action=561


100%|█████████████████████████████████████████████████| 561/561 [00:49<00:00, 11.43it/s]


in reset
in step
in take action
action=683


100%|█████████████████████████████████████████████████| 683/683 [00:59<00:00, 11.42it/s]


in reset
in step
in take action
action=511


100%|█████████████████████████████████████████████████| 511/511 [00:45<00:00, 11.23it/s]


in reset
in step
in take action
action=859


100%|█████████████████████████████████████████████████| 859/859 [01:15<00:00, 11.41it/s]


in reset
in step
in take action
action=374


100%|█████████████████████████████████████████████████| 374/374 [00:32<00:00, 11.43it/s]


in reset
in step
in take action
action=737


100%|█████████████████████████████████████████████████| 737/737 [01:04<00:00, 11.41it/s]


in reset
in step
in take action
action=280


100%|█████████████████████████████████████████████████| 280/280 [00:24<00:00, 11.36it/s]


in reset
in step
in take action
action=355


100%|█████████████████████████████████████████████████| 355/355 [00:31<00:00, 11.43it/s]


in reset
in step
in take action
action=242


100%|█████████████████████████████████████████████████| 242/242 [00:21<00:00, 11.43it/s]


in reset
in step
in take action
action=356


100%|█████████████████████████████████████████████████| 356/356 [00:31<00:00, 11.38it/s]


in reset
in step
in take action
action=306


100%|█████████████████████████████████████████████████| 306/306 [00:26<00:00, 11.42it/s]


in reset
in step
in take action
action=469


100%|█████████████████████████████████████████████████| 469/469 [00:41<00:00, 11.41it/s]


in reset
in step
in take action
action=472


100%|█████████████████████████████████████████████████| 472/472 [00:41<00:00, 11.39it/s]


in reset
in step
in take action
action=334


100%|█████████████████████████████████████████████████| 334/334 [00:29<00:00, 11.40it/s]


in reset
in step
in take action
action=387


100%|█████████████████████████████████████████████████| 387/387 [00:33<00:00, 11.41it/s]


in reset
in step
in take action
action=927


100%|█████████████████████████████████████████████████| 927/927 [01:21<00:00, 11.42it/s]


in reset
in step
in take action
action=276


100%|█████████████████████████████████████████████████| 276/276 [00:24<00:00, 11.42it/s]


in reset
in step
in take action
action=719


100%|█████████████████████████████████████████████████| 719/719 [01:02<00:00, 11.41it/s]


in reset
in step
in take action
action=262


100%|█████████████████████████████████████████████████| 262/262 [00:23<00:00, 11.39it/s]


in reset
in step
in take action
action=977


100%|█████████████████████████████████████████████████| 977/977 [01:25<00:00, 11.41it/s]


in reset
in step
in take action
action=1000


100%|███████████████████████████████████████████████| 1000/1000 [01:27<00:00, 11.41it/s]


in reset
in step
in take action
action=556


100%|█████████████████████████████████████████████████| 556/556 [00:48<00:00, 11.42it/s]


in reset
in step
in take action
action=769


100%|█████████████████████████████████████████████████| 769/769 [01:07<00:00, 11.41it/s]


in reset
in step
in take action
action=739


100%|█████████████████████████████████████████████████| 739/739 [01:04<00:00, 11.41it/s]


in reset
in step
in take action
action=485


100%|█████████████████████████████████████████████████| 485/485 [00:42<00:00, 11.41it/s]


in reset
in step
in take action
action=806


100%|█████████████████████████████████████████████████| 806/806 [01:10<00:00, 11.40it/s]


in reset
in step
in take action
action=376


100%|█████████████████████████████████████████████████| 376/376 [00:32<00:00, 11.42it/s]


in reset
in step
in take action
action=212


100%|█████████████████████████████████████████████████| 212/212 [00:18<00:00, 11.42it/s]


in reset
in step
in take action
action=711


100%|█████████████████████████████████████████████████| 711/711 [01:02<00:00, 11.41it/s]


in reset
in step
in take action
action=541


100%|█████████████████████████████████████████████████| 541/541 [00:47<00:00, 11.39it/s]


in reset
in step
in take action
action=550


100%|█████████████████████████████████████████████████| 550/550 [00:48<00:00, 11.40it/s]


in reset
in step
in take action
action=381


100%|█████████████████████████████████████████████████| 381/381 [00:33<00:00, 11.42it/s]


in reset
in step
in take action
action=591


100%|█████████████████████████████████████████████████| 591/591 [00:51<00:00, 11.42it/s]


in reset
in step
in take action
action=977


100%|█████████████████████████████████████████████████| 977/977 [01:25<00:00, 11.41it/s]


in reset
in step
in take action
action=159


100%|█████████████████████████████████████████████████| 159/159 [00:13<00:00, 11.39it/s]


in reset
in step
in take action
action=490


100%|█████████████████████████████████████████████████| 490/490 [00:42<00:00, 11.42it/s]


in reset
in step
in take action
action=454


100%|█████████████████████████████████████████████████| 454/454 [00:39<00:00, 11.40it/s]


in reset
in step
in take action
action=164


100%|█████████████████████████████████████████████████| 164/164 [00:14<00:00, 11.40it/s]


in reset
in step
in take action
action=182


100%|█████████████████████████████████████████████████| 182/182 [00:15<00:00, 11.39it/s]


in reset
in step
in take action
action=139


100%|█████████████████████████████████████████████████| 139/139 [00:12<00:00, 11.38it/s]


in reset
in step
in take action
action=964


100%|█████████████████████████████████████████████████| 964/964 [01:24<00:00, 11.41it/s]


in reset
in step
in take action
action=395


100%|█████████████████████████████████████████████████| 395/395 [00:34<00:00, 11.41it/s]


in reset
in step
in take action
action=95


100%|███████████████████████████████████████████████████| 95/95 [00:08<00:00, 11.43it/s]


in reset
in step
in take action
action=821


100%|█████████████████████████████████████████████████| 821/821 [01:11<00:00, 11.41it/s]


in reset
in step
in take action
action=757


100%|█████████████████████████████████████████████████| 757/757 [01:06<00:00, 11.41it/s]


in reset
in step
in take action
action=89


100%|███████████████████████████████████████████████████| 89/89 [00:07<00:00, 11.42it/s]


in reset
in step
in take action
action=794


100%|█████████████████████████████████████████████████| 794/794 [01:09<00:00, 11.40it/s]


in reset
in step
in take action
action=504


100%|█████████████████████████████████████████████████| 504/504 [00:44<00:00, 11.39it/s]


in reset
in step
in take action
action=508


100%|█████████████████████████████████████████████████| 508/508 [00:44<00:00, 11.40it/s]


in reset
in step
in take action
action=925


100%|█████████████████████████████████████████████████| 925/925 [01:21<00:00, 11.41it/s]


in reset
in step
in take action
action=359


100%|█████████████████████████████████████████████████| 359/359 [00:31<00:00, 11.40it/s]


in reset
in step
in take action
action=209


100%|█████████████████████████████████████████████████| 209/209 [00:18<00:00, 11.38it/s]


in reset
in step
in take action
action=629


100%|█████████████████████████████████████████████████| 629/629 [00:55<00:00, 11.40it/s]


in reset
in step
in take action
action=796


100%|█████████████████████████████████████████████████| 796/796 [01:09<00:00, 11.40it/s]


in reset
in step
in take action
action=884


100%|█████████████████████████████████████████████████| 884/884 [01:17<00:00, 11.41it/s]


in reset
in step
in take action
action=609


100%|█████████████████████████████████████████████████| 609/609 [00:53<00:00, 11.41it/s]


in reset
in step
in take action
action=153


100%|█████████████████████████████████████████████████| 153/153 [00:13<00:00, 11.43it/s]


in reset
in step
in take action
action=993


100%|█████████████████████████████████████████████████| 993/993 [01:27<00:00, 11.41it/s]


in reset
in step
in take action
action=430


100%|█████████████████████████████████████████████████| 430/430 [00:37<00:00, 11.42it/s]


in reset
in step
in take action
action=281


100%|█████████████████████████████████████████████████| 281/281 [00:24<00:00, 11.40it/s]


in reset
in step
in take action
action=836


100%|█████████████████████████████████████████████████| 836/836 [01:13<00:00, 11.37it/s]


in reset
in step
in take action
action=847


100%|█████████████████████████████████████████████████| 847/847 [01:14<00:00, 11.42it/s]


in reset
in step
in take action
action=763


100%|█████████████████████████████████████████████████| 763/763 [01:06<00:00, 11.40it/s]


in reset
in step
in take action
action=900


100%|█████████████████████████████████████████████████| 900/900 [01:19<00:00, 11.31it/s]


in reset
in step
in take action
action=797


100%|█████████████████████████████████████████████████| 797/797 [01:10<00:00, 11.27it/s]


in reset
in step
in take action
action=583


100%|█████████████████████████████████████████████████| 583/583 [00:51<00:00, 11.40it/s]


in reset
in step
in take action
action=81


100%|███████████████████████████████████████████████████| 81/81 [00:07<00:00, 11.40it/s]


in reset
in step
in take action
action=298


100%|█████████████████████████████████████████████████| 298/298 [00:26<00:00, 11.38it/s]


in reset
in step
in take action
action=551


100%|█████████████████████████████████████████████████| 551/551 [00:48<00:00, 11.40it/s]


in reset
in step
in take action
action=252


100%|█████████████████████████████████████████████████| 252/252 [00:22<00:00, 11.42it/s]


in reset
in step
in take action
action=755


100%|█████████████████████████████████████████████████| 755/755 [01:06<00:00, 11.28it/s]


in reset
in step
in take action
action=557


100%|█████████████████████████████████████████████████| 557/557 [00:48<00:00, 11.40it/s]


in reset
in step
in take action
action=574


100%|█████████████████████████████████████████████████| 574/574 [00:50<00:00, 11.39it/s]


in reset
in step
in take action
action=295


100%|█████████████████████████████████████████████████| 295/295 [00:25<00:00, 11.41it/s]


in reset
in step
in take action
action=51


100%|███████████████████████████████████████████████████| 51/51 [00:04<00:00, 11.39it/s]


in reset
in step
in take action
action=138


100%|█████████████████████████████████████████████████| 138/138 [00:12<00:00, 11.41it/s]


in reset
in step
in take action
action=840


100%|█████████████████████████████████████████████████| 840/840 [01:13<00:00, 11.40it/s]


in reset
in step
in take action
action=516


100%|█████████████████████████████████████████████████| 516/516 [00:45<00:00, 11.39it/s]


in reset
in step
in take action
action=280


100%|█████████████████████████████████████████████████| 280/280 [00:24<00:00, 11.39it/s]


in reset
in step
in take action
action=724


100%|█████████████████████████████████████████████████| 724/724 [01:03<00:00, 11.38it/s]


in reset
in step
in take action
action=927


100%|█████████████████████████████████████████████████| 927/927 [01:21<00:00, 11.41it/s]


in reset
in step
in take action
action=484


100%|█████████████████████████████████████████████████| 484/484 [00:42<00:00, 11.41it/s]


in reset
in step
in take action
action=776


100%|█████████████████████████████████████████████████| 776/776 [01:07<00:00, 11.42it/s]


in reset
in step
in take action
action=617


100%|█████████████████████████████████████████████████| 617/617 [00:54<00:00, 11.38it/s]


in reset
in step
in take action
action=559


100%|█████████████████████████████████████████████████| 559/559 [00:48<00:00, 11.42it/s]


in reset
--------------------------------------
| approxkl           | 0.00065356446 |
| clipfrac           | 0.0           |
| explained_variance | nan           |
| fps                | 0             |
| n_updates          | 2             |
| policy_entropy     | 6.906135      |
| policy_loss        | -0.022212667  |
| serial_timesteps   | 256           |
| time_elapsed       | 6.07e+03      |
| total_timesteps    | 256           |
| value_loss         | 495670.66     |
--------------------------------------
in step
in take action
action=942


100%|█████████████████████████████████████████████████| 942/942 [01:22<00:00, 11.42it/s]


in reset
in step
in take action
action=235


100%|█████████████████████████████████████████████████| 235/235 [00:20<00:00, 11.44it/s]


in reset
in step
in take action
action=908


100%|█████████████████████████████████████████████████| 908/908 [01:19<00:00, 11.41it/s]


in reset
in step
in take action
action=247


100%|█████████████████████████████████████████████████| 247/247 [00:21<00:00, 11.41it/s]


in reset
in step
in take action
action=875


100%|█████████████████████████████████████████████████| 875/875 [01:16<00:00, 11.42it/s]


in reset
in step
in take action
action=408


100%|█████████████████████████████████████████████████| 408/408 [00:35<00:00, 11.43it/s]


in reset
in step
in take action
action=556


100%|█████████████████████████████████████████████████| 556/556 [00:48<00:00, 11.42it/s]


in reset
in step
in take action
action=577


100%|█████████████████████████████████████████████████| 577/577 [00:50<00:00, 11.41it/s]


in reset
in step
in take action
action=336


100%|█████████████████████████████████████████████████| 336/336 [00:29<00:00, 11.42it/s]


in reset
in step
in take action
action=309


100%|█████████████████████████████████████████████████| 309/309 [00:27<00:00, 11.43it/s]


in reset
in step
in take action
action=274


100%|█████████████████████████████████████████████████| 274/274 [00:24<00:00, 11.36it/s]


in reset
in step
in take action
action=916


100%|█████████████████████████████████████████████████| 916/916 [01:20<00:00, 11.42it/s]


in reset
in step
in take action
action=241


100%|█████████████████████████████████████████████████| 241/241 [00:21<00:00, 11.43it/s]


in reset
in step
in take action
action=888


100%|█████████████████████████████████████████████████| 888/888 [01:17<00:00, 11.42it/s]


in reset
in step
in take action
action=63


100%|███████████████████████████████████████████████████| 63/63 [00:05<00:00, 11.43it/s]


in reset
in step
in take action
action=694


100%|█████████████████████████████████████████████████| 694/694 [01:00<00:00, 11.43it/s]


in reset
in step
in take action
action=973


100%|█████████████████████████████████████████████████| 973/973 [01:25<00:00, 11.41it/s]


in reset
in step
in take action
action=132


100%|█████████████████████████████████████████████████| 132/132 [00:11<00:00, 11.38it/s]


in reset
in step
in take action
action=115


100%|█████████████████████████████████████████████████| 115/115 [00:10<00:00, 11.42it/s]


in reset
in step
in take action
action=637


100%|█████████████████████████████████████████████████| 637/637 [00:55<00:00, 11.42it/s]


in reset
in step
in take action
action=192


100%|█████████████████████████████████████████████████| 192/192 [00:16<00:00, 11.44it/s]


in reset
in step
in take action
action=332


100%|█████████████████████████████████████████████████| 332/332 [00:29<00:00, 11.40it/s]


in reset
in step
in take action
action=588


100%|█████████████████████████████████████████████████| 588/588 [00:51<00:00, 11.41it/s]


in reset
in step
in take action
action=799


100%|█████████████████████████████████████████████████| 799/799 [01:09<00:00, 11.42it/s]


in reset
in step
in take action
action=9


100%|█████████████████████████████████████████████████████| 9/9 [00:00<00:00, 11.42it/s]


in reset
in step
in take action
action=399


100%|█████████████████████████████████████████████████| 399/399 [00:34<00:00, 11.43it/s]


in reset
in step
in take action
action=659


100%|█████████████████████████████████████████████████| 659/659 [00:57<00:00, 11.42it/s]


in reset
in step
in take action
action=214


100%|█████████████████████████████████████████████████| 214/214 [00:18<00:00, 11.41it/s]


in reset
in step
in take action
action=981


100%|█████████████████████████████████████████████████| 981/981 [01:25<00:00, 11.41it/s]


in reset
in step
in take action
action=319


100%|█████████████████████████████████████████████████| 319/319 [00:27<00:00, 11.43it/s]


in reset
in step
in take action
action=203


100%|█████████████████████████████████████████████████| 203/203 [00:17<00:00, 11.40it/s]


in reset
in step
in take action
action=523


100%|█████████████████████████████████████████████████| 523/523 [00:45<00:00, 11.42it/s]


in reset
in step
in take action
action=112


100%|█████████████████████████████████████████████████| 112/112 [00:09<00:00, 11.40it/s]


in reset
in step
in take action
action=854


100%|█████████████████████████████████████████████████| 854/854 [01:14<00:00, 11.42it/s]


in reset
in step
in take action
action=763


100%|█████████████████████████████████████████████████| 763/763 [01:06<00:00, 11.42it/s]


in reset
in step
in take action
action=979


100%|█████████████████████████████████████████████████| 979/979 [01:25<00:00, 11.41it/s]


in reset
in step
in take action
action=97


100%|███████████████████████████████████████████████████| 97/97 [00:08<00:00, 11.42it/s]


in reset
in step
in take action
action=547


100%|█████████████████████████████████████████████████| 547/547 [00:47<00:00, 11.42it/s]


in reset
in step
in take action
action=841


100%|█████████████████████████████████████████████████| 841/841 [01:14<00:00, 11.34it/s]


in reset
in step
in take action
action=550


100%|█████████████████████████████████████████████████| 550/550 [00:48<00:00, 11.38it/s]


in reset
in step
in take action
action=483


100%|█████████████████████████████████████████████████| 483/483 [00:42<00:00, 11.38it/s]


in reset
in step
in take action
action=127


100%|█████████████████████████████████████████████████| 127/127 [00:11<00:00, 11.38it/s]


in reset
in step
in take action
action=512


100%|█████████████████████████████████████████████████| 512/512 [00:44<00:00, 11.41it/s]


in reset
in step
in take action
action=476


100%|█████████████████████████████████████████████████| 476/476 [00:41<00:00, 11.40it/s]


in reset
in step
in take action
action=435


100%|█████████████████████████████████████████████████| 435/435 [00:38<00:00, 11.40it/s]


in reset
in step
in take action
action=822


100%|█████████████████████████████████████████████████| 822/822 [01:12<00:00, 11.40it/s]


in reset
in step
in take action
action=338


100%|█████████████████████████████████████████████████| 338/338 [00:29<00:00, 11.40it/s]


in reset
in step
in take action
action=663


100%|█████████████████████████████████████████████████| 663/663 [00:58<00:00, 11.41it/s]


in reset
in step
in take action
action=56


100%|███████████████████████████████████████████████████| 56/56 [00:04<00:00, 11.35it/s]


in reset
in step
in take action
action=66


100%|███████████████████████████████████████████████████| 66/66 [00:05<00:00, 11.40it/s]


in reset
in step
in take action
action=906


100%|█████████████████████████████████████████████████| 906/906 [01:19<00:00, 11.42it/s]


in reset
in step
in take action
action=591


100%|█████████████████████████████████████████████████| 591/591 [00:52<00:00, 11.16it/s]


in reset
in step
in take action
action=404


100%|█████████████████████████████████████████████████| 404/404 [00:35<00:00, 11.40it/s]


in reset
in step
in take action
action=443


100%|█████████████████████████████████████████████████| 443/443 [00:39<00:00, 11.33it/s]


in reset
in step
in take action
action=303


100%|█████████████████████████████████████████████████| 303/303 [00:26<00:00, 11.38it/s]


in reset
in step
in take action
action=979


100%|█████████████████████████████████████████████████| 979/979 [01:26<00:00, 11.33it/s]


in reset
in step
in take action
action=352


100%|█████████████████████████████████████████████████| 352/352 [00:30<00:00, 11.39it/s]


in reset
in step
in take action
action=379


100%|█████████████████████████████████████████████████| 379/379 [00:33<00:00, 11.31it/s]


in reset
in step
in take action
action=288


100%|█████████████████████████████████████████████████| 288/288 [00:25<00:00, 11.35it/s]


in reset
in step
in take action
action=171


100%|█████████████████████████████████████████████████| 171/171 [00:15<00:00, 11.31it/s]


in reset
in step
in take action
action=92


100%|███████████████████████████████████████████████████| 92/92 [00:08<00:00, 11.34it/s]


in reset
in step
in take action
action=61


100%|███████████████████████████████████████████████████| 61/61 [00:05<00:00, 11.38it/s]


in reset
in step
in take action
action=128


100%|█████████████████████████████████████████████████| 128/128 [00:11<00:00, 11.39it/s]


in reset
in step
in take action
action=973


100%|█████████████████████████████████████████████████| 973/973 [01:26<00:00, 11.22it/s]


in reset
in step
in take action
action=106


100%|█████████████████████████████████████████████████| 106/106 [00:09<00:00, 11.39it/s]


in reset
in step
in take action
action=922


100%|█████████████████████████████████████████████████| 922/922 [01:20<00:00, 11.39it/s]


in reset
in step
in take action
action=845


100%|█████████████████████████████████████████████████| 845/845 [01:14<00:00, 11.39it/s]


in reset
in step
in take action
action=831


100%|█████████████████████████████████████████████████| 831/831 [01:12<00:00, 11.41it/s]


in reset
in step
in take action
action=57


100%|███████████████████████████████████████████████████| 57/57 [00:04<00:00, 11.41it/s]


in reset
in step
in take action
action=171


100%|█████████████████████████████████████████████████| 171/171 [00:15<00:00, 11.37it/s]


in reset
in step
in take action
action=29


100%|███████████████████████████████████████████████████| 29/29 [00:02<00:00, 11.36it/s]


in reset
in step
in take action
action=716


100%|█████████████████████████████████████████████████| 716/716 [01:02<00:00, 11.41it/s]


in reset
in step
in take action
action=471


100%|█████████████████████████████████████████████████| 471/471 [00:41<00:00, 11.41it/s]


in reset
in step
in take action
action=393


100%|█████████████████████████████████████████████████| 393/393 [00:34<00:00, 11.40it/s]


in reset
in step
in take action
action=67


100%|███████████████████████████████████████████████████| 67/67 [00:05<00:00, 11.43it/s]


in reset
in step
in take action
action=755


100%|█████████████████████████████████████████████████| 755/755 [01:06<00:00, 11.40it/s]


in reset
in step
in take action
action=538


100%|█████████████████████████████████████████████████| 538/538 [00:47<00:00, 11.38it/s]


in reset
in step
in take action
action=892


100%|█████████████████████████████████████████████████| 892/892 [01:18<00:00, 11.42it/s]


in reset
in step
in take action
action=104


100%|█████████████████████████████████████████████████| 104/104 [00:09<00:00, 11.44it/s]


in reset
in step
in take action
action=769


100%|█████████████████████████████████████████████████| 769/769 [01:07<00:00, 11.41it/s]


in reset
in step
in take action
action=145


100%|█████████████████████████████████████████████████| 145/145 [00:12<00:00, 11.42it/s]


in reset
in step
in take action
action=595


100%|█████████████████████████████████████████████████| 595/595 [00:52<00:00, 11.41it/s]


in reset
in step
in take action
action=775


100%|█████████████████████████████████████████████████| 775/775 [01:07<00:00, 11.42it/s]


in reset
in step
in take action
action=734


100%|█████████████████████████████████████████████████| 734/734 [01:04<00:00, 11.41it/s]


in reset
in step
in take action
action=690


100%|█████████████████████████████████████████████████| 690/690 [01:00<00:00, 11.42it/s]


in reset
in step
in take action
action=274


100%|█████████████████████████████████████████████████| 274/274 [00:24<00:00, 11.41it/s]


in reset
in step
in take action
action=696


100%|█████████████████████████████████████████████████| 696/696 [01:00<00:00, 11.41it/s]


in reset
in step
in take action
action=516


100%|█████████████████████████████████████████████████| 516/516 [00:45<00:00, 11.41it/s]


in reset
in step
in take action
action=414


100%|█████████████████████████████████████████████████| 414/414 [00:36<00:00, 11.41it/s]


in reset
in step
in take action
action=301


100%|█████████████████████████████████████████████████| 301/301 [00:26<00:00, 11.42it/s]


in reset
in step
in take action
action=493


100%|█████████████████████████████████████████████████| 493/493 [00:43<00:00, 11.41it/s]


in reset
in step
in take action
action=337


100%|█████████████████████████████████████████████████| 337/337 [00:29<00:00, 11.41it/s]


in reset
in step
in take action
action=429


100%|█████████████████████████████████████████████████| 429/429 [00:37<00:00, 11.42it/s]


in reset
in step
in take action
action=677


100%|█████████████████████████████████████████████████| 677/677 [00:59<00:00, 11.42it/s]


in reset
in step
in take action
action=376


100%|█████████████████████████████████████████████████| 376/376 [00:32<00:00, 11.42it/s]


in reset
in step
in take action
action=820


100%|█████████████████████████████████████████████████| 820/820 [01:11<00:00, 11.41it/s]


in reset
in step
in take action
action=186


100%|█████████████████████████████████████████████████| 186/186 [00:16<00:00, 11.44it/s]


in reset
in step
in take action
action=949


100%|█████████████████████████████████████████████████| 949/949 [01:23<00:00, 11.41it/s]


in reset
in step
in take action
action=544


100%|█████████████████████████████████████████████████| 544/544 [00:47<00:00, 11.42it/s]


in reset
in step
in take action
action=382


100%|█████████████████████████████████████████████████| 382/382 [00:33<00:00, 11.38it/s]


in reset
in step
in take action
action=445


100%|█████████████████████████████████████████████████| 445/445 [00:38<00:00, 11.42it/s]


in reset
in step
in take action
action=299


100%|█████████████████████████████████████████████████| 299/299 [00:26<00:00, 11.41it/s]


in reset
in step
in take action
action=543


100%|█████████████████████████████████████████████████| 543/543 [00:47<00:00, 11.42it/s]


in reset
in step
in take action
action=876


100%|█████████████████████████████████████████████████| 876/876 [01:16<00:00, 11.40it/s]


in reset
in step
in take action
action=419


100%|█████████████████████████████████████████████████| 419/419 [00:36<00:00, 11.41it/s]


in reset
in step
in take action
action=133


100%|█████████████████████████████████████████████████| 133/133 [00:11<00:00, 11.39it/s]


in reset
in step
in take action
action=943


100%|█████████████████████████████████████████████████| 943/943 [01:22<00:00, 11.41it/s]


in reset
in step
in take action
action=469


100%|█████████████████████████████████████████████████| 469/469 [00:41<00:00, 11.41it/s]


in reset
in step
in take action
action=163


100%|█████████████████████████████████████████████████| 163/163 [00:14<00:00, 11.39it/s]


in reset
in step
in take action
action=2


100%|█████████████████████████████████████████████████████| 2/2 [00:00<00:00, 11.33it/s]


in reset
in step
in take action
action=418


100%|█████████████████████████████████████████████████| 418/418 [00:36<00:00, 11.43it/s]


in reset
in step
in take action
action=311


100%|█████████████████████████████████████████████████| 311/311 [00:27<00:00, 11.41it/s]


in reset
in step
in take action
action=492


100%|█████████████████████████████████████████████████| 492/492 [00:43<00:00, 11.41it/s]


in reset
in step
in take action
action=680


100%|█████████████████████████████████████████████████| 680/680 [00:59<00:00, 11.41it/s]


in reset
in step
in take action
action=91


100%|███████████████████████████████████████████████████| 91/91 [00:07<00:00, 11.43it/s]


in reset
in step
in take action
action=630


100%|█████████████████████████████████████████████████| 630/630 [00:55<00:00, 11.41it/s]


in reset
in step
in take action
action=43


100%|███████████████████████████████████████████████████| 43/43 [00:03<00:00, 11.45it/s]


in reset
in step
in take action
action=72


100%|███████████████████████████████████████████████████| 72/72 [00:06<00:00, 11.39it/s]


in reset
in step
in take action
action=171


100%|█████████████████████████████████████████████████| 171/171 [00:14<00:00, 11.44it/s]


in reset
in step
in take action
action=747


100%|█████████████████████████████████████████████████| 747/747 [01:05<00:00, 11.42it/s]


in reset
in step
in take action
action=978


100%|█████████████████████████████████████████████████| 978/978 [01:25<00:00, 11.41it/s]


in reset
in step
in take action
action=937


100%|█████████████████████████████████████████████████| 937/937 [01:22<00:00, 11.41it/s]


in reset
in step
in take action
action=387


100%|█████████████████████████████████████████████████| 387/387 [00:33<00:00, 11.41it/s]


in reset
in step
in take action
action=630


100%|█████████████████████████████████████████████████| 630/630 [00:55<00:00, 11.41it/s]


in reset
in step
in take action
action=205


100%|█████████████████████████████████████████████████| 205/205 [00:17<00:00, 11.39it/s]


in reset
in step
in take action
action=477


100%|█████████████████████████████████████████████████| 477/477 [00:41<00:00, 11.42it/s]


in reset
in step
in take action
action=563


100%|█████████████████████████████████████████████████| 563/563 [00:49<00:00, 11.42it/s]


in reset
in step
in take action
action=54


100%|███████████████████████████████████████████████████| 54/54 [00:04<00:00, 11.42it/s]


in reset
-------------------------------------
| approxkl           | 0.0005241954 |
| clipfrac           | 0.0          |
| explained_variance | 3.27e-05     |
| fps                | 0            |
| n_updates          | 3            |
| policy_entropy     | 6.9049654    |
| policy_loss        | -0.0260822   |
| serial_timesteps   | 384          |
| time_elapsed       | 1.21e+04     |
| total_timesteps    | 384          |
| value_loss         | 494733.9     |
-------------------------------------


<stable_baselines.ppo2.ppo2.PPO2 at 0x147e2117ec8>