In [None]:

#First we import some libraries
#Json for loading and saving the model (optional)
import json
#matplotlib for rendering
import matplotlib.pyplot as plt
#numpy for handeling matrix operations
import numpy as np
#time, to, well... keep track of time
import time
#Python image libarary for rendering
from PIL import Image
#iPython display for making sure we can render the frames
from IPython import display
#seaborn for rendering
import seaborn
import keras
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation
from keras.optimizers import SGD


#Setup matplotlib so that it runs nicely in iPython
%matplotlib inline
#setting up seaborn
seaborn.set()

class Catch(object):
    """
    Class catch is the actual game.
    In the game, fruits, represented by white tiles, fall from the top.
    The goal is to catch the fruits with a basked (represented by white tiles, this is deep learning, not game design).
    """
    def __init__(self, grid_size=10):
        self.grid_size = grid_size
        self.reset()

    def _update_state(self, action):
        """
        Input: action and states
        Ouput: new states and reward
        """
        state = self.state
        if action == 0:  # left
            action = -1
        elif action == 1:  # stay
            action = 0
        else:
            action = 1  # right
        f0, f1, basket = state[0]
        new_basket = min(max(1, basket + action), self.grid_size-1)
        f0 += 1
        out = np.asarray([f0, f1, new_basket])
        out = out[np.newaxis]

        assert len(out.shape) == 2
        self.state = out

    def _draw_state(self):
        im_size = (self.grid_size,)*2
        state = self.state[0]
        canvas = np.zeros(im_size)
        canvas[state[0], state[1]] = 1  # draw fruit
        canvas[-1, state[2]-1:state[2] + 2] = 1  # draw basket
        return canvas
        
    def _get_reward(self):
        fruit_row, fruit_col, basket = self.state[0]
        if fruit_row == self.grid_size-1:
            if abs(fruit_col - basket) <= 1:
                return 1
            else:
                return -1
        else:
            return 0

    def _is_over(self):
        if self.state[0, 0] == self.grid_size-1:
            return True
        else:
            return False

    def observe(self):
        canvas = self._draw_state()
        return canvas.reshape((1, -1))

    def act(self, action):
        self._update_state(action)
        reward = self._get_reward()
        game_over = self._is_over()
        return self.observe(), reward, game_over

    def reset(self):
        n = np.random.randint(0, self.grid_size-1, size=1)
        m = np.random.randint(1, self.grid_size-2, size=1)
        self.state = np.asarray([0, n, m])[np.newaxis]

        
"""
Here we define some variables used for the game and rendering later
"""
#last frame time keeps track of which frame we are at
last_frame_time = 0
#translate the actions to human readable words
translate_action = ["Left","Stay","Right","Create Ball","End Test"]
#size of the game field
grid_size = 10

def display_screen(action,points,input_t):
    #Function used to render the game screen
    #Get the last rendered frame
    global last_frame_time
    print("Action %s, Points: %d" % (translate_action[action],points))
    #Only display the game screen if the game is not over
    if("End" not in translate_action[action]):
        #Render the game with matplotlib
        plt.imshow(input_t.reshape((grid_size,)*2),
               interpolation='none', cmap='gray')
        #Clear whatever we rendered before
        display.clear_output(wait=True)
        #And display the rendering
        display.display(plt.gcf())
    #Update the last frame time
    last_frame_time = set_max_fps(last_frame_time)
    
    
def set_max_fps(last_frame_time,FPS = 16):
    current_milli_time = lambda: int(round(time.time() * 1000))
    sleep_time = 1./FPS - (current_milli_time() - last_frame_time)
    if sleep_time > 0:
        time.sleep(sleep_time)
    return current_milli_time()

In [17]:
import sys
import gym
import pylab
import numpy as np
from keras.layers import Dense
from keras.models import Sequential
from keras.optimizers import Adam

EPISODES = 1000000


# This is Policy Gradient agent for the Cartpole
# In this example, we use REINFORCE algorithm which uses monte-carlo update rule
class REINFORCEAgent:
    def __init__(self, state_size, action_size):
        # if you want to see Cartpole learning, then change to True
        self.render = True
        self.load_model = False
        # get size of state and action
        self.state_size = state_size
        self.action_size = action_size

        # These are hyper parameters for the Policy Gradient
        self.discount_factor = 0.9
        self.learning_rate = 1e-3
#         self.decay = 0.999
#         self.learning_rate = 0.00035
        self.hidden1, self.hidden2 = 100, 20

        # create model for policy network
        self.model = self.build_model()

        # lists for the states, actions and rewards
        self.states, self.actions, self.rewards = [], [], []

        
    # approximate policy using Neural Network
    # state is input and probability of each action is output of network
    def build_model(self):
        model = Sequential()
        model.add(Dense(self.hidden1, input_dim=self.state_size, activation='relu', kernel_initializer='glorot_uniform'))
        model.add(Dense(self.hidden2, activation='relu', kernel_initializer='glorot_uniform'))
        model.add(Dense(self.action_size, activation='softmax', kernel_initializer='glorot_uniform'))
        model.summary()
        # Using categorical crossentropy as a loss is a trick to easily
        # implement the policy gradient. Categorical cross entropy is defined
        # H(p, q) = sum(p_i * log(q_i)). For the action taken, a, you set 
        # p_a = advantage. q_a is the output of the policy network, which is
        # the probability of taking the action a, i.e. policy(s, a). 
        # All other p_i are zero, thus we have H(p, q) = A * log(policy(s, a))
        model.compile(loss="categorical_crossentropy", optimizer=Adam(lr=self.learning_rate))
        return model

    # using the output of policy network, pick action stochastically
    def get_action(self, state):
        policy = self.model.predict(state, batch_size=8).flatten()
#         print(policy)
        return np.random.choice(self.action_size, 1, p=policy)[0]

    # In Policy Gradient, Q function is not available.
    # Instead agent uses sample returns for evaluating policy
    def discount_rewards(self, rewards):
        discounted_rewards = np.zeros_like(rewards)
        running_add = 0
        for t in reversed(range(0, len(rewards))):
            running_add = running_add * self.discount_factor + rewards[t]
            discounted_rewards[t] = running_add
        return discounted_rewards

    # save <s, a ,r> of each step
    def append_sample(self, state, action, reward):
        self.states.append(state)
        self.rewards.append(reward)
        self.actions.append(action)
    
    def clear_episode(self):
        self.states.clear()
        self.rewards.clear()
        self.actions.clear()

    # update policy network every episode
    def train_model(self):
        episode_length = len(self.states)
        discounted_rewards = self.discount_rewards(self.rewards)
        discounted_rewards -= np.mean(discounted_rewards)
        discounted_rewards /= np.std(discounted_rewards)
        update_inputs = np.zeros((episode_length, self.state_size))
        advantages = np.zeros((episode_length, self.action_size))

        for i in range(episode_length):
            update_inputs[i] = self.states[i]
#             print(self.actions[i])
            advantages[i][self.actions[i]] = discounted_rewards[i]-1.434

        self.model.fit(update_inputs, advantages, epochs=1, verbose=0)
        self.clear_episode()
#         self.states, self.actions, self.rewards = [], [], []

if __name__ == "__main__":
    state_size = 100
    action_size = 3
    
    #setup environment
    plt.ion()
    # Define environment, game
    env = Catch(grid_size)
    maxs = 0;
    # make REINFORCE agent
    agent = REINFORCEAgent(state_size, action_size)

    scores, episodes, average_reward = [], [], []
    score = 0
    for e in range(EPISODES):
        done = False
        env.reset()
        state = env.observe()
        state = np.reshape(state, [1, state_size])
        while not done:
#             if agent.render:
#                 display_screen(action,score,state)
            
            # get action for the current state and go one step in environment
            action = agent.get_action(state)
#             print(action)   
#             next_state, reward, done, info = env.step(action)
            next_state, reward, done = env.act(action)
            next_state = np.reshape(next_state, [1, state_size])
            reward = float(reward)

            # save the sample <s, a, r> to the memory
            agent.append_sample(state, action, reward)
        
            score += reward
            state = next_state
            if done:
                # every episode, agent learns from sample returns
                agent.train_model()
                average_reward.append(score)
                score = 0
                if len(average_reward)>300: average_reward.pop(0)
                ar = np.mean(average_reward)
                if maxs<ar and e > 300:
                    maxs = ar
                    agent.model.save("./catch_reinforce.h5")
                    print("saved model maxs:", maxs, "caught fruits (300): ",(300*maxs+300)/2)

                print("episode:", e,"reward:",reward,"average reward:",ar)





_________________________________________________________________
Layer (type)                 Output Shape              Param #   
dense_31 (Dense)             (None, 100)               10100     
_________________________________________________________________
dense_32 (Dense)             (None, 20)                2020      
_________________________________________________________________
dense_33 (Dense)             (None, 3)                 63        
Total params: 12,183
Trainable params: 12,183
Non-trainable params: 0
_________________________________________________________________
episode: 0 reward: -1.0 average reward: -1.0
episode: 1 reward: 1.0 average reward: 0.0
episode: 2 reward: -1.0 average reward: -0.3333333333333333
episode: 3 reward: 1.0 average reward: 0.0
episode: 4 reward: -1.0 average reward: -0.2
episode: 5 reward: -1.0 average reward: -0.3333333333333333
episode: 6 reward: -1.0 average reward: -0.42857142857142855
episode: 7 reward: 1.0 average reward: -0.25


episode: 129 reward: -1.0 average reward: -0.35384615384615387
episode: 130 reward: -1.0 average reward: -0.35877862595419846
episode: 131 reward: 1.0 average reward: -0.3484848484848485
episode: 132 reward: 1.0 average reward: -0.3383458646616541
episode: 133 reward: 1.0 average reward: -0.3283582089552239
episode: 134 reward: -1.0 average reward: -0.3333333333333333
episode: 135 reward: 1.0 average reward: -0.3235294117647059
episode: 136 reward: -1.0 average reward: -0.3284671532846715
episode: 137 reward: 1.0 average reward: -0.3188405797101449
episode: 138 reward: -1.0 average reward: -0.3237410071942446
episode: 139 reward: 1.0 average reward: -0.3142857142857143
episode: 140 reward: -1.0 average reward: -0.3191489361702128
episode: 141 reward: 1.0 average reward: -0.30985915492957744
episode: 142 reward: -1.0 average reward: -0.3146853146853147
episode: 143 reward: -1.0 average reward: -0.3194444444444444
episode: 144 reward: 1.0 average reward: -0.3103448275862069
episode: 145 

episode: 271 reward: -1.0 average reward: -0.375
episode: 272 reward: 1.0 average reward: -0.36996336996337
episode: 273 reward: -1.0 average reward: -0.3722627737226277
episode: 274 reward: 1.0 average reward: -0.36727272727272725
episode: 275 reward: 1.0 average reward: -0.36231884057971014
episode: 276 reward: 1.0 average reward: -0.3574007220216607
episode: 277 reward: -1.0 average reward: -0.3597122302158273
episode: 278 reward: -1.0 average reward: -0.36200716845878134
episode: 279 reward: -1.0 average reward: -0.36428571428571427
episode: 280 reward: -1.0 average reward: -0.3665480427046263
episode: 281 reward: 1.0 average reward: -0.3617021276595745
episode: 282 reward: -1.0 average reward: -0.36395759717314485
episode: 283 reward: -1.0 average reward: -0.36619718309859156
episode: 284 reward: -1.0 average reward: -0.3684210526315789
episode: 285 reward: 1.0 average reward: -0.36363636363636365
episode: 286 reward: -1.0 average reward: -0.36585365853658536
episode: 287 reward: 

episode: 410 reward: 1.0 average reward: -0.2866666666666667
episode: 411 reward: 1.0 average reward: -0.2866666666666667
episode: 412 reward: 1.0 average reward: -0.28
episode: 413 reward: -1.0 average reward: -0.28
episode: 414 reward: 1.0 average reward: -0.2733333333333333
episode: 415 reward: 1.0 average reward: -0.26666666666666666
episode: 416 reward: 1.0 average reward: -0.26
episode: 417 reward: -1.0 average reward: -0.26
episode: 418 reward: -1.0 average reward: -0.26666666666666666
episode: 419 reward: 1.0 average reward: -0.26666666666666666
episode: 420 reward: 1.0 average reward: -0.26666666666666666
episode: 421 reward: -1.0 average reward: -0.2733333333333333
episode: 422 reward: 1.0 average reward: -0.2733333333333333
episode: 423 reward: 1.0 average reward: -0.26666666666666666
episode: 424 reward: -1.0 average reward: -0.2733333333333333
episode: 425 reward: -1.0 average reward: -0.28
episode: 426 reward: -1.0 average reward: -0.28
episode: 427 reward: -1.0 average r

episode: 554 reward: -1.0 average reward: -0.2733333333333333
episode: 555 reward: -1.0 average reward: -0.2733333333333333
episode: 556 reward: -1.0 average reward: -0.28
episode: 557 reward: 1.0 average reward: -0.2733333333333333
episode: 558 reward: -1.0 average reward: -0.2733333333333333
episode: 559 reward: -1.0 average reward: -0.28
episode: 560 reward: -1.0 average reward: -0.28
episode: 561 reward: -1.0 average reward: -0.28
episode: 562 reward: 1.0 average reward: -0.2733333333333333
episode: 563 reward: 1.0 average reward: -0.26666666666666666
episode: 564 reward: -1.0 average reward: -0.26666666666666666
episode: 565 reward: -1.0 average reward: -0.26666666666666666
episode: 566 reward: 1.0 average reward: -0.26
episode: 567 reward: 1.0 average reward: -0.26
episode: 568 reward: 1.0 average reward: -0.25333333333333335
episode: 569 reward: -1.0 average reward: -0.25333333333333335
episode: 570 reward: 1.0 average reward: -0.24666666666666667
episode: 571 reward: -1.0 avera

episode: 701 reward: -1.0 average reward: -0.26666666666666666
episode: 702 reward: -1.0 average reward: -0.26666666666666666
episode: 703 reward: -1.0 average reward: -0.26666666666666666
episode: 704 reward: -1.0 average reward: -0.2733333333333333
episode: 705 reward: -1.0 average reward: -0.2733333333333333
episode: 706 reward: -1.0 average reward: -0.28
episode: 707 reward: -1.0 average reward: -0.2866666666666667
episode: 708 reward: -1.0 average reward: -0.29333333333333333
episode: 709 reward: -1.0 average reward: -0.3
episode: 710 reward: -1.0 average reward: -0.30666666666666664
episode: 711 reward: 1.0 average reward: -0.30666666666666664
episode: 712 reward: -1.0 average reward: -0.31333333333333335
episode: 713 reward: -1.0 average reward: -0.31333333333333335
episode: 714 reward: -1.0 average reward: -0.32
episode: 715 reward: -1.0 average reward: -0.32666666666666666
episode: 716 reward: -1.0 average reward: -0.3333333333333333
episode: 717 reward: 1.0 average reward: -0

episode: 842 reward: 1.0 average reward: -0.3466666666666667
episode: 843 reward: -1.0 average reward: -0.35333333333333333
episode: 844 reward: 1.0 average reward: -0.35333333333333333
episode: 845 reward: -1.0 average reward: -0.36
episode: 846 reward: 1.0 average reward: -0.35333333333333333
episode: 847 reward: 1.0 average reward: -0.35333333333333333
episode: 848 reward: -1.0 average reward: -0.36
episode: 849 reward: 1.0 average reward: -0.35333333333333333
episode: 850 reward: -1.0 average reward: -0.36
episode: 851 reward: 1.0 average reward: -0.35333333333333333
episode: 852 reward: 1.0 average reward: -0.3466666666666667
episode: 853 reward: -1.0 average reward: -0.3466666666666667
episode: 854 reward: 1.0 average reward: -0.34
episode: 855 reward: -1.0 average reward: -0.34
episode: 856 reward: -1.0 average reward: -0.34
episode: 857 reward: -1.0 average reward: -0.3466666666666667
episode: 858 reward: -1.0 average reward: -0.3466666666666667
episode: 859 reward: 1.0 average

episode: 989 reward: -1.0 average reward: -0.28
episode: 990 reward: -1.0 average reward: -0.28
episode: 991 reward: -1.0 average reward: -0.28
episode: 992 reward: 1.0 average reward: -0.2733333333333333
episode: 993 reward: -1.0 average reward: -0.28
episode: 994 reward: -1.0 average reward: -0.2866666666666667
episode: 995 reward: -1.0 average reward: -0.2866666666666667
episode: 996 reward: -1.0 average reward: -0.2866666666666667
episode: 997 reward: -1.0 average reward: -0.2866666666666667
episode: 998 reward: -1.0 average reward: -0.29333333333333333
episode: 999 reward: -1.0 average reward: -0.3
episode: 1000 reward: -1.0 average reward: -0.30666666666666664
episode: 1001 reward: -1.0 average reward: -0.30666666666666664
episode: 1002 reward: 1.0 average reward: -0.3
episode: 1003 reward: -1.0 average reward: -0.3
episode: 1004 reward: 1.0 average reward: -0.29333333333333333
episode: 1005 reward: 1.0 average reward: -0.2866666666666667
episode: 1006 reward: -1.0 average reward

episode: 1136 reward: -1.0 average reward: -0.22666666666666666
episode: 1137 reward: -1.0 average reward: -0.22666666666666666
episode: 1138 reward: -1.0 average reward: -0.22666666666666666
episode: 1139 reward: -1.0 average reward: -0.22666666666666666
episode: 1140 reward: -1.0 average reward: -0.23333333333333334
episode: 1141 reward: -1.0 average reward: -0.23333333333333334
episode: 1142 reward: -1.0 average reward: -0.24
episode: 1143 reward: 1.0 average reward: -0.23333333333333334
episode: 1144 reward: 1.0 average reward: -0.23333333333333334
episode: 1145 reward: -1.0 average reward: -0.23333333333333334
episode: 1146 reward: -1.0 average reward: -0.24
episode: 1147 reward: -1.0 average reward: -0.24666666666666667
episode: 1148 reward: -1.0 average reward: -0.24666666666666667
episode: 1149 reward: -1.0 average reward: -0.25333333333333335
episode: 1150 reward: -1.0 average reward: -0.25333333333333335
episode: 1151 reward: -1.0 average reward: -0.26
episode: 1152 reward: -

episode: 1286 reward: 1.0 average reward: -0.29333333333333333
episode: 1287 reward: -1.0 average reward: -0.29333333333333333
episode: 1288 reward: 1.0 average reward: -0.2866666666666667
episode: 1289 reward: 1.0 average reward: -0.28
episode: 1290 reward: -1.0 average reward: -0.28
episode: 1291 reward: -1.0 average reward: -0.28
episode: 1292 reward: -1.0 average reward: -0.2866666666666667
episode: 1293 reward: -1.0 average reward: -0.2866666666666667
episode: 1294 reward: -1.0 average reward: -0.2866666666666667
episode: 1295 reward: -1.0 average reward: -0.2866666666666667
episode: 1296 reward: 1.0 average reward: -0.28
episode: 1297 reward: -1.0 average reward: -0.28
episode: 1298 reward: -1.0 average reward: -0.28
episode: 1299 reward: -1.0 average reward: -0.28
episode: 1300 reward: -1.0 average reward: -0.28
episode: 1301 reward: 1.0 average reward: -0.2733333333333333
episode: 1302 reward: -1.0 average reward: -0.28
episode: 1303 reward: -1.0 average reward: -0.28
episode: 

episode: 1430 reward: -1.0 average reward: -0.31333333333333335
episode: 1431 reward: 1.0 average reward: -0.30666666666666664
episode: 1432 reward: 1.0 average reward: -0.3
episode: 1433 reward: -1.0 average reward: -0.30666666666666664
episode: 1434 reward: -1.0 average reward: -0.30666666666666664
episode: 1435 reward: -1.0 average reward: -0.30666666666666664
episode: 1436 reward: -1.0 average reward: -0.30666666666666664
episode: 1437 reward: -1.0 average reward: -0.30666666666666664
episode: 1438 reward: -1.0 average reward: -0.30666666666666664
episode: 1439 reward: -1.0 average reward: -0.30666666666666664
episode: 1440 reward: -1.0 average reward: -0.30666666666666664
episode: 1441 reward: -1.0 average reward: -0.30666666666666664
episode: 1442 reward: -1.0 average reward: -0.30666666666666664
episode: 1443 reward: -1.0 average reward: -0.31333333333333335
episode: 1444 reward: 1.0 average reward: -0.31333333333333335
episode: 1445 reward: -1.0 average reward: -0.3133333333333

episode: 1577 reward: 1.0 average reward: -0.36666666666666664
episode: 1578 reward: -1.0 average reward: -0.37333333333333335
episode: 1579 reward: -1.0 average reward: -0.37333333333333335
episode: 1580 reward: -1.0 average reward: -0.38
episode: 1581 reward: -1.0 average reward: -0.38666666666666666
episode: 1582 reward: -1.0 average reward: -0.3933333333333333
episode: 1583 reward: -1.0 average reward: -0.3933333333333333
episode: 1584 reward: 1.0 average reward: -0.3933333333333333
episode: 1585 reward: -1.0 average reward: -0.3933333333333333
episode: 1586 reward: -1.0 average reward: -0.4
episode: 1587 reward: -1.0 average reward: -0.4
episode: 1588 reward: -1.0 average reward: -0.4066666666666667
episode: 1589 reward: -1.0 average reward: -0.41333333333333333
episode: 1590 reward: -1.0 average reward: -0.41333333333333333
episode: 1591 reward: -1.0 average reward: -0.41333333333333333
episode: 1592 reward: -1.0 average reward: -0.41333333333333333
episode: 1593 reward: 1.0 aver

episode: 1727 reward: -1.0 average reward: -0.3
episode: 1728 reward: 1.0 average reward: -0.29333333333333333
episode: 1729 reward: -1.0 average reward: -0.3
episode: 1730 reward: 1.0 average reward: -0.29333333333333333
episode: 1731 reward: -1.0 average reward: -0.3
episode: 1732 reward: 1.0 average reward: -0.3
episode: 1733 reward: -1.0 average reward: -0.3
episode: 1734 reward: 1.0 average reward: -0.29333333333333333
episode: 1735 reward: -1.0 average reward: -0.29333333333333333
episode: 1736 reward: 1.0 average reward: -0.2866666666666667
episode: 1737 reward: -1.0 average reward: -0.2866666666666667
episode: 1738 reward: -1.0 average reward: -0.2866666666666667
episode: 1739 reward: -1.0 average reward: -0.2866666666666667
episode: 1740 reward: -1.0 average reward: -0.2866666666666667
episode: 1741 reward: -1.0 average reward: -0.2866666666666667
episode: 1742 reward: 1.0 average reward: -0.28
episode: 1743 reward: -1.0 average reward: -0.28
episode: 1744 reward: -1.0 average

episode: 1878 reward: 1.0 average reward: -0.2
episode: 1879 reward: -1.0 average reward: -0.2
episode: 1880 reward: -1.0 average reward: -0.2
episode: 1881 reward: 1.0 average reward: -0.19333333333333333
episode: 1882 reward: -1.0 average reward: -0.19333333333333333
episode: 1883 reward: -1.0 average reward: -0.19333333333333333
episode: 1884 reward: 1.0 average reward: -0.19333333333333333
episode: 1885 reward: -1.0 average reward: -0.19333333333333333
episode: 1886 reward: -1.0 average reward: -0.19333333333333333
episode: 1887 reward: 1.0 average reward: -0.18666666666666668
episode: 1888 reward: -1.0 average reward: -0.18666666666666668
episode: 1889 reward: -1.0 average reward: -0.18666666666666668
episode: 1890 reward: 1.0 average reward: -0.18
episode: 1891 reward: -1.0 average reward: -0.18
episode: 1892 reward: -1.0 average reward: -0.18
episode: 1893 reward: 1.0 average reward: -0.18
episode: 1894 reward: -1.0 average reward: -0.18666666666666668
episode: 1895 reward: -1.0

episode: 2028 reward: -1.0 average reward: -0.24
episode: 2029 reward: -1.0 average reward: -0.24
episode: 2030 reward: -1.0 average reward: -0.24666666666666667
episode: 2031 reward: -1.0 average reward: -0.24666666666666667
episode: 2032 reward: -1.0 average reward: -0.25333333333333335
episode: 2033 reward: -1.0 average reward: -0.25333333333333335
episode: 2034 reward: -1.0 average reward: -0.26
episode: 2035 reward: -1.0 average reward: -0.26
episode: 2036 reward: -1.0 average reward: -0.26666666666666666
episode: 2037 reward: -1.0 average reward: -0.26666666666666666
episode: 2038 reward: -1.0 average reward: -0.26666666666666666
episode: 2039 reward: -1.0 average reward: -0.26666666666666666
episode: 2040 reward: 1.0 average reward: -0.26
episode: 2041 reward: 1.0 average reward: -0.25333333333333335
episode: 2042 reward: -1.0 average reward: -0.26
episode: 2043 reward: -1.0 average reward: -0.26
episode: 2044 reward: -1.0 average reward: -0.26
episode: 2045 reward: 1.0 average 

episode: 2171 reward: -1.0 average reward: -0.25333333333333335
episode: 2172 reward: -1.0 average reward: -0.26
episode: 2173 reward: 1.0 average reward: -0.26
episode: 2174 reward: -1.0 average reward: -0.26666666666666666
episode: 2175 reward: 1.0 average reward: -0.26666666666666666
episode: 2176 reward: 1.0 average reward: -0.26666666666666666
episode: 2177 reward: 1.0 average reward: -0.26666666666666666
episode: 2178 reward: 1.0 average reward: -0.26666666666666666
episode: 2179 reward: 1.0 average reward: -0.26
episode: 2180 reward: -1.0 average reward: -0.26
episode: 2181 reward: -1.0 average reward: -0.26666666666666666
episode: 2182 reward: -1.0 average reward: -0.26666666666666666
episode: 2183 reward: 1.0 average reward: -0.26
episode: 2184 reward: -1.0 average reward: -0.26666666666666666
episode: 2185 reward: -1.0 average reward: -0.26666666666666666
episode: 2186 reward: -1.0 average reward: -0.26666666666666666
episode: 2187 reward: 1.0 average reward: -0.2666666666666

episode: 2324 reward: 1.0 average reward: -0.24666666666666667
episode: 2325 reward: -1.0 average reward: -0.24666666666666667
episode: 2326 reward: 1.0 average reward: -0.24
episode: 2327 reward: 1.0 average reward: -0.23333333333333334
episode: 2328 reward: -1.0 average reward: -0.23333333333333334
episode: 2329 reward: 1.0 average reward: -0.22666666666666666
episode: 2330 reward: -1.0 average reward: -0.22666666666666666
episode: 2331 reward: 1.0 average reward: -0.22
episode: 2332 reward: 1.0 average reward: -0.21333333333333335
episode: 2333 reward: -1.0 average reward: -0.21333333333333335
episode: 2334 reward: 1.0 average reward: -0.20666666666666667
episode: 2335 reward: -1.0 average reward: -0.20666666666666667
episode: 2336 reward: -1.0 average reward: -0.20666666666666667
episode: 2337 reward: -1.0 average reward: -0.20666666666666667
episode: 2338 reward: 1.0 average reward: -0.2
episode: 2339 reward: -1.0 average reward: -0.2
episode: 2340 reward: 1.0 average reward: -0.2

episode: 2476 reward: 1.0 average reward: -0.10666666666666667
episode: 2477 reward: 1.0 average reward: -0.10666666666666667
episode: 2478 reward: -1.0 average reward: -0.11333333333333333
episode: 2479 reward: -1.0 average reward: -0.12
episode: 2480 reward: -1.0 average reward: -0.12
episode: 2481 reward: -1.0 average reward: -0.12
episode: 2482 reward: 1.0 average reward: -0.11333333333333333
episode: 2483 reward: -1.0 average reward: -0.12
episode: 2484 reward: -1.0 average reward: -0.12
episode: 2485 reward: 1.0 average reward: -0.11333333333333333
episode: 2486 reward: -1.0 average reward: -0.11333333333333333
episode: 2487 reward: 1.0 average reward: -0.11333333333333333
episode: 2488 reward: 1.0 average reward: -0.10666666666666667
episode: 2489 reward: 1.0 average reward: -0.1
episode: 2490 reward: 1.0 average reward: -0.1
episode: 2491 reward: -1.0 average reward: -0.10666666666666667
episode: 2492 reward: -1.0 average reward: -0.11333333333333333
episode: 2493 reward: -1.0 

episode: 2621 reward: 1.0 average reward: -0.013333333333333334
episode: 2622 reward: 1.0 average reward: -0.006666666666666667
episode: 2623 reward: 1.0 average reward: 0.0
episode: 2624 reward: 1.0 average reward: 0.0
saved model maxs: 0.006666666666666667 caught fruits (100):  151.0
episode: 2625 reward: 1.0 average reward: 0.006666666666666667
episode: 2626 reward: -1.0 average reward: 0.0
episode: 2627 reward: 1.0 average reward: 0.0
episode: 2628 reward: -1.0 average reward: 0.0
episode: 2629 reward: -1.0 average reward: -0.006666666666666667
episode: 2630 reward: 1.0 average reward: 0.0
episode: 2631 reward: 1.0 average reward: 0.0
episode: 2632 reward: -1.0 average reward: -0.006666666666666667
episode: 2633 reward: 1.0 average reward: 0.0
episode: 2634 reward: -1.0 average reward: -0.006666666666666667
episode: 2635 reward: -1.0 average reward: -0.006666666666666667
episode: 2636 reward: -1.0 average reward: -0.006666666666666667
episode: 2637 reward: -1.0 average reward: -0.0

episode: 2759 reward: 1.0 average reward: -0.013333333333333334
episode: 2760 reward: 1.0 average reward: -0.006666666666666667
episode: 2761 reward: -1.0 average reward: -0.013333333333333334
episode: 2762 reward: 1.0 average reward: -0.013333333333333334
episode: 2763 reward: 1.0 average reward: -0.006666666666666667
episode: 2764 reward: 1.0 average reward: 0.0
episode: 2765 reward: 1.0 average reward: 0.0
episode: 2766 reward: -1.0 average reward: -0.006666666666666667
episode: 2767 reward: 1.0 average reward: -0.006666666666666667
episode: 2768 reward: -1.0 average reward: -0.006666666666666667
episode: 2769 reward: 1.0 average reward: 0.0
episode: 2770 reward: -1.0 average reward: -0.006666666666666667
episode: 2771 reward: -1.0 average reward: -0.013333333333333334
episode: 2772 reward: 1.0 average reward: -0.013333333333333334
episode: 2773 reward: -1.0 average reward: -0.02
episode: 2774 reward: 1.0 average reward: -0.013333333333333334
episode: 2775 reward: -1.0 average rewar

episode: 2901 reward: 1.0 average reward: 0.006666666666666667
episode: 2902 reward: 1.0 average reward: 0.006666666666666667
episode: 2903 reward: -1.0 average reward: 0.006666666666666667
episode: 2904 reward: 1.0 average reward: 0.013333333333333334
episode: 2905 reward: -1.0 average reward: 0.006666666666666667
episode: 2906 reward: -1.0 average reward: 0.0
episode: 2907 reward: 1.0 average reward: 0.006666666666666667
episode: 2908 reward: 1.0 average reward: 0.013333333333333334
episode: 2909 reward: 1.0 average reward: 0.02
episode: 2910 reward: 1.0 average reward: 0.02666666666666667
episode: 2911 reward: 1.0 average reward: 0.02666666666666667
episode: 2912 reward: 1.0 average reward: 0.02666666666666667
episode: 2913 reward: 1.0 average reward: 0.03333333333333333
episode: 2914 reward: -1.0 average reward: 0.03333333333333333
episode: 2915 reward: 1.0 average reward: 0.03333333333333333
episode: 2916 reward: -1.0 average reward: 0.03333333333333333
episode: 2917 reward: 1.0 a

episode: 3026 reward: 1.0 average reward: 0.17333333333333334
saved model maxs: 0.18 caught fruits (100):  177.0
episode: 3027 reward: 1.0 average reward: 0.18
episode: 3028 reward: -1.0 average reward: 0.17333333333333334
episode: 3029 reward: 1.0 average reward: 0.17333333333333334
episode: 3030 reward: -1.0 average reward: 0.16666666666666666
episode: 3031 reward: -1.0 average reward: 0.16
episode: 3032 reward: 1.0 average reward: 0.16666666666666666
episode: 3033 reward: 1.0 average reward: 0.16666666666666666
episode: 3034 reward: -1.0 average reward: 0.16666666666666666
episode: 3035 reward: -1.0 average reward: 0.16666666666666666
episode: 3036 reward: -1.0 average reward: 0.16666666666666666
episode: 3037 reward: 1.0 average reward: 0.17333333333333334
episode: 3038 reward: 1.0 average reward: 0.18
saved model maxs: 0.18666666666666668 caught fruits (100):  178.0
episode: 3039 reward: 1.0 average reward: 0.18666666666666668
episode: 3040 reward: -1.0 average reward: 0.186666666

saved model maxs: 0.3 caught fruits (100):  195.0
episode: 3160 reward: 1.0 average reward: 0.3
episode: 3161 reward: 1.0 average reward: 0.3
episode: 3162 reward: 1.0 average reward: 0.3
episode: 3163 reward: 1.0 average reward: 0.3
episode: 3164 reward: 1.0 average reward: 0.3
episode: 3165 reward: -1.0 average reward: 0.29333333333333333
episode: 3166 reward: 1.0 average reward: 0.3
saved model maxs: 0.30666666666666664 caught fruits (100):  196.0
episode: 3167 reward: 1.0 average reward: 0.30666666666666664
episode: 3168 reward: -1.0 average reward: 0.3
episode: 3169 reward: 1.0 average reward: 0.30666666666666664
episode: 3170 reward: 1.0 average reward: 0.30666666666666664
episode: 3171 reward: -1.0 average reward: 0.30666666666666664
episode: 3172 reward: -1.0 average reward: 0.30666666666666664
episode: 3173 reward: 1.0 average reward: 0.30666666666666664
episode: 3174 reward: -1.0 average reward: 0.30666666666666664
episode: 3175 reward: -1.0 average reward: 0.3066666666666666

episode: 3304 reward: 1.0 average reward: 0.3466666666666667
episode: 3305 reward: 1.0 average reward: 0.35333333333333333
episode: 3306 reward: -1.0 average reward: 0.35333333333333333
episode: 3307 reward: -1.0 average reward: 0.3466666666666667
episode: 3308 reward: 1.0 average reward: 0.35333333333333333
episode: 3309 reward: 1.0 average reward: 0.35333333333333333
episode: 3310 reward: -1.0 average reward: 0.3466666666666667
episode: 3311 reward: 1.0 average reward: 0.35333333333333333
episode: 3312 reward: 1.0 average reward: 0.35333333333333333
episode: 3313 reward: 1.0 average reward: 0.35333333333333333
episode: 3314 reward: 1.0 average reward: 0.35333333333333333
episode: 3315 reward: 1.0 average reward: 0.35333333333333333
episode: 3316 reward: 1.0 average reward: 0.36
episode: 3317 reward: -1.0 average reward: 0.35333333333333333
episode: 3318 reward: 1.0 average reward: 0.35333333333333333
episode: 3319 reward: 1.0 average reward: 0.35333333333333333
episode: 3320 reward: 

episode: 3429 reward: -1.0 average reward: 0.4533333333333333
episode: 3430 reward: -1.0 average reward: 0.44666666666666666
episode: 3431 reward: 1.0 average reward: 0.4533333333333333
episode: 3432 reward: -1.0 average reward: 0.4533333333333333
episode: 3433 reward: 1.0 average reward: 0.4533333333333333
episode: 3434 reward: 1.0 average reward: 0.4533333333333333
episode: 3435 reward: 1.0 average reward: 0.46
episode: 3436 reward: 1.0 average reward: 0.4666666666666667
episode: 3437 reward: 1.0 average reward: 0.4666666666666667
episode: 3438 reward: -1.0 average reward: 0.46
episode: 3439 reward: 1.0 average reward: 0.46
episode: 3440 reward: -1.0 average reward: 0.4533333333333333
episode: 3441 reward: -1.0 average reward: 0.44666666666666666
episode: 3442 reward: -1.0 average reward: 0.44
episode: 3443 reward: 1.0 average reward: 0.44666666666666666
episode: 3444 reward: 1.0 average reward: 0.4533333333333333
episode: 3445 reward: 1.0 average reward: 0.4533333333333333
episode: 

episode: 3572 reward: -1.0 average reward: 0.02666666666666667
episode: 3573 reward: 1.0 average reward: 0.02666666666666667
episode: 3574 reward: -1.0 average reward: 0.02
episode: 3575 reward: -1.0 average reward: 0.013333333333333334
episode: 3576 reward: -1.0 average reward: 0.013333333333333334
episode: 3577 reward: 1.0 average reward: 0.013333333333333334
episode: 3578 reward: 1.0 average reward: 0.013333333333333334
episode: 3579 reward: -1.0 average reward: 0.013333333333333334
episode: 3580 reward: -1.0 average reward: 0.006666666666666667
episode: 3581 reward: -1.0 average reward: 0.0
episode: 3582 reward: -1.0 average reward: -0.006666666666666667
episode: 3583 reward: -1.0 average reward: -0.013333333333333334
episode: 3584 reward: -1.0 average reward: -0.02
episode: 3585 reward: -1.0 average reward: -0.02666666666666667
episode: 3586 reward: -1.0 average reward: -0.03333333333333333
episode: 3587 reward: -1.0 average reward: -0.04
episode: 3588 reward: -1.0 average reward:

episode: 3715 reward: -1.0 average reward: -0.5
episode: 3716 reward: -1.0 average reward: -0.5
episode: 3717 reward: -1.0 average reward: -0.5
episode: 3718 reward: -1.0 average reward: -0.5066666666666667
episode: 3719 reward: 1.0 average reward: -0.5066666666666667
episode: 3720 reward: 1.0 average reward: -0.5066666666666667
episode: 3721 reward: -1.0 average reward: -0.5133333333333333
episode: 3722 reward: 1.0 average reward: -0.5133333333333333
episode: 3723 reward: -1.0 average reward: -0.52
episode: 3724 reward: -1.0 average reward: -0.5266666666666666
episode: 3725 reward: 1.0 average reward: -0.5266666666666666
episode: 3726 reward: -1.0 average reward: -0.5333333333333333
episode: 3727 reward: 1.0 average reward: -0.5266666666666666
episode: 3728 reward: -1.0 average reward: -0.5333333333333333
episode: 3729 reward: -1.0 average reward: -0.5333333333333333
episode: 3730 reward: -1.0 average reward: -0.5333333333333333
episode: 3731 reward: -1.0 average reward: -0.54
episode

episode: 3864 reward: 1.0 average reward: -0.4533333333333333
episode: 3865 reward: -1.0 average reward: -0.46
episode: 3866 reward: 1.0 average reward: -0.4533333333333333
episode: 3867 reward: 1.0 average reward: -0.44666666666666666
episode: 3868 reward: 1.0 average reward: -0.44
episode: 3869 reward: 1.0 average reward: -0.43333333333333335
episode: 3870 reward: 1.0 average reward: -0.4266666666666667
episode: 3871 reward: -1.0 average reward: -0.4266666666666667
episode: 3872 reward: -1.0 average reward: -0.4266666666666667
episode: 3873 reward: -1.0 average reward: -0.43333333333333335
episode: 3874 reward: 1.0 average reward: -0.4266666666666667
episode: 3875 reward: -1.0 average reward: -0.4266666666666667
episode: 3876 reward: 1.0 average reward: -0.42
episode: 3877 reward: -1.0 average reward: -0.4266666666666667
episode: 3878 reward: -1.0 average reward: -0.43333333333333335
episode: 3879 reward: -1.0 average reward: -0.43333333333333335
episode: 3880 reward: -1.0 average re

episode: 4005 reward: 1.0 average reward: -0.07333333333333333
episode: 4006 reward: 1.0 average reward: -0.06666666666666667
episode: 4007 reward: 1.0 average reward: -0.06
episode: 4008 reward: 1.0 average reward: -0.05333333333333334
episode: 4009 reward: -1.0 average reward: -0.05333333333333334
episode: 4010 reward: -1.0 average reward: -0.05333333333333334
episode: 4011 reward: 1.0 average reward: -0.05333333333333334
episode: 4012 reward: -1.0 average reward: -0.05333333333333334
episode: 4013 reward: 1.0 average reward: -0.04666666666666667
episode: 4014 reward: -1.0 average reward: -0.04666666666666667
episode: 4015 reward: -1.0 average reward: -0.04666666666666667
episode: 4016 reward: -1.0 average reward: -0.04666666666666667
episode: 4017 reward: -1.0 average reward: -0.04666666666666667
episode: 4018 reward: 1.0 average reward: -0.04
episode: 4019 reward: 1.0 average reward: -0.04
episode: 4020 reward: 1.0 average reward: -0.04
episode: 4021 reward: -1.0 average reward: -0

episode: 4157 reward: 1.0 average reward: 0.14
episode: 4158 reward: 1.0 average reward: 0.14
episode: 4159 reward: 1.0 average reward: 0.14
episode: 4160 reward: -1.0 average reward: 0.13333333333333333
episode: 4161 reward: -1.0 average reward: 0.13333333333333333
episode: 4162 reward: 1.0 average reward: 0.14
episode: 4163 reward: -1.0 average reward: 0.13333333333333333
episode: 4164 reward: 1.0 average reward: 0.13333333333333333
episode: 4165 reward: 1.0 average reward: 0.14
episode: 4166 reward: 1.0 average reward: 0.14
episode: 4167 reward: 1.0 average reward: 0.14
episode: 4168 reward: 1.0 average reward: 0.14
episode: 4169 reward: 1.0 average reward: 0.14
episode: 4170 reward: 1.0 average reward: 0.14
episode: 4171 reward: 1.0 average reward: 0.14666666666666667
episode: 4172 reward: -1.0 average reward: 0.14666666666666667
episode: 4173 reward: -1.0 average reward: 0.14666666666666667
episode: 4174 reward: -1.0 average reward: 0.14
episode: 4175 reward: 1.0 average reward: 0

episode: 4308 reward: -1.0 average reward: 0.16666666666666666
episode: 4309 reward: 1.0 average reward: 0.17333333333333334
episode: 4310 reward: -1.0 average reward: 0.17333333333333334
episode: 4311 reward: -1.0 average reward: 0.16666666666666666
episode: 4312 reward: 1.0 average reward: 0.17333333333333334
episode: 4313 reward: -1.0 average reward: 0.16666666666666666
episode: 4314 reward: -1.0 average reward: 0.16666666666666666
episode: 4315 reward: -1.0 average reward: 0.16666666666666666
episode: 4316 reward: -1.0 average reward: 0.16666666666666666
episode: 4317 reward: 1.0 average reward: 0.17333333333333334
episode: 4318 reward: -1.0 average reward: 0.16666666666666666
episode: 4319 reward: 1.0 average reward: 0.16666666666666666
episode: 4320 reward: 1.0 average reward: 0.16666666666666666
episode: 4321 reward: 1.0 average reward: 0.17333333333333334
episode: 4322 reward: 1.0 average reward: 0.17333333333333334
episode: 4323 reward: -1.0 average reward: 0.17333333333333334

episode: 4462 reward: 1.0 average reward: 0.16666666666666666
episode: 4463 reward: 1.0 average reward: 0.17333333333333334
episode: 4464 reward: -1.0 average reward: 0.16666666666666666
episode: 4465 reward: 1.0 average reward: 0.16666666666666666
episode: 4466 reward: 1.0 average reward: 0.16666666666666666
episode: 4467 reward: -1.0 average reward: 0.16
episode: 4468 reward: 1.0 average reward: 0.16
episode: 4469 reward: -1.0 average reward: 0.15333333333333332
episode: 4470 reward: 1.0 average reward: 0.15333333333333332
episode: 4471 reward: -1.0 average reward: 0.14666666666666667
episode: 4472 reward: 1.0 average reward: 0.15333333333333332
episode: 4473 reward: -1.0 average reward: 0.15333333333333332
episode: 4474 reward: 1.0 average reward: 0.16
episode: 4475 reward: -1.0 average reward: 0.15333333333333332
episode: 4476 reward: -1.0 average reward: 0.14666666666666667
episode: 4477 reward: -1.0 average reward: 0.14666666666666667
episode: 4478 reward: 1.0 average reward: 0.1

episode: 4611 reward: 1.0 average reward: 0.13333333333333333
episode: 4612 reward: 1.0 average reward: 0.13333333333333333
episode: 4613 reward: -1.0 average reward: 0.13333333333333333
episode: 4614 reward: 1.0 average reward: 0.14
episode: 4615 reward: 1.0 average reward: 0.14666666666666667
episode: 4616 reward: -1.0 average reward: 0.14666666666666667
episode: 4617 reward: -1.0 average reward: 0.14
episode: 4618 reward: 1.0 average reward: 0.14666666666666667
episode: 4619 reward: 1.0 average reward: 0.14666666666666667
episode: 4620 reward: -1.0 average reward: 0.14
episode: 4621 reward: 1.0 average reward: 0.14
episode: 4622 reward: 1.0 average reward: 0.14
episode: 4623 reward: 1.0 average reward: 0.14666666666666667
episode: 4624 reward: 1.0 average reward: 0.14666666666666667
episode: 4625 reward: 1.0 average reward: 0.14666666666666667
episode: 4626 reward: 1.0 average reward: 0.14666666666666667
episode: 4627 reward: -1.0 average reward: 0.14666666666666667
episode: 4628 re

episode: 4763 reward: 1.0 average reward: 0.17333333333333334
episode: 4764 reward: -1.0 average reward: 0.17333333333333334
episode: 4765 reward: 1.0 average reward: 0.17333333333333334
episode: 4766 reward: 1.0 average reward: 0.17333333333333334
episode: 4767 reward: 1.0 average reward: 0.18
episode: 4768 reward: 1.0 average reward: 0.18
episode: 4769 reward: 1.0 average reward: 0.18666666666666668
episode: 4770 reward: -1.0 average reward: 0.18
episode: 4771 reward: 1.0 average reward: 0.18666666666666668
episode: 4772 reward: 1.0 average reward: 0.18666666666666668
episode: 4773 reward: 1.0 average reward: 0.19333333333333333
episode: 4774 reward: 1.0 average reward: 0.19333333333333333
episode: 4775 reward: -1.0 average reward: 0.19333333333333333
episode: 4776 reward: 1.0 average reward: 0.2
episode: 4777 reward: 1.0 average reward: 0.20666666666666667
episode: 4778 reward: 1.0 average reward: 0.20666666666666667
episode: 4779 reward: 1.0 average reward: 0.21333333333333335
epis

episode: 4909 reward: 1.0 average reward: 0.34
episode: 4910 reward: 1.0 average reward: 0.34
episode: 4911 reward: 1.0 average reward: 0.34
episode: 4912 reward: -1.0 average reward: 0.3333333333333333
episode: 4913 reward: 1.0 average reward: 0.34
episode: 4914 reward: 1.0 average reward: 0.34
episode: 4915 reward: -1.0 average reward: 0.3333333333333333
episode: 4916 reward: -1.0 average reward: 0.3333333333333333
episode: 4917 reward: 1.0 average reward: 0.34
episode: 4918 reward: -1.0 average reward: 0.3333333333333333
episode: 4919 reward: 1.0 average reward: 0.3333333333333333
episode: 4920 reward: 1.0 average reward: 0.34
episode: 4921 reward: 1.0 average reward: 0.34
episode: 4922 reward: 1.0 average reward: 0.34
episode: 4923 reward: -1.0 average reward: 0.3333333333333333
episode: 4924 reward: 1.0 average reward: 0.3333333333333333
episode: 4925 reward: -1.0 average reward: 0.32666666666666666
episode: 4926 reward: 1.0 average reward: 0.32666666666666666
episode: 4927 reward

episode: 5064 reward: 1.0 average reward: 0.44
episode: 5065 reward: 1.0 average reward: 0.44
episode: 5066 reward: -1.0 average reward: 0.43333333333333335
episode: 5067 reward: -1.0 average reward: 0.4266666666666667
episode: 5068 reward: 1.0 average reward: 0.4266666666666667
episode: 5069 reward: -1.0 average reward: 0.42
episode: 5070 reward: -1.0 average reward: 0.42
episode: 5071 reward: 1.0 average reward: 0.42
episode: 5072 reward: -1.0 average reward: 0.41333333333333333
episode: 5073 reward: -1.0 average reward: 0.4066666666666667
episode: 5074 reward: -1.0 average reward: 0.4
episode: 5075 reward: 1.0 average reward: 0.4066666666666667
episode: 5076 reward: 1.0 average reward: 0.4066666666666667
episode: 5077 reward: 1.0 average reward: 0.4066666666666667
episode: 5078 reward: -1.0 average reward: 0.4
episode: 5079 reward: -1.0 average reward: 0.3933333333333333
episode: 5080 reward: 1.0 average reward: 0.3933333333333333
episode: 5081 reward: 1.0 average reward: 0.39333333

episode: 5214 reward: 1.0 average reward: 0.3333333333333333
episode: 5215 reward: 1.0 average reward: 0.34
episode: 5216 reward: 1.0 average reward: 0.3466666666666667
episode: 5217 reward: -1.0 average reward: 0.34
episode: 5218 reward: 1.0 average reward: 0.3466666666666667
episode: 5219 reward: -1.0 average reward: 0.34
episode: 5220 reward: 1.0 average reward: 0.34
episode: 5221 reward: 1.0 average reward: 0.34
episode: 5222 reward: -1.0 average reward: 0.3333333333333333
episode: 5223 reward: 1.0 average reward: 0.34
episode: 5224 reward: 1.0 average reward: 0.34
episode: 5225 reward: 1.0 average reward: 0.3466666666666667
episode: 5226 reward: 1.0 average reward: 0.3466666666666667
episode: 5227 reward: 1.0 average reward: 0.35333333333333333
episode: 5228 reward: 1.0 average reward: 0.35333333333333333
episode: 5229 reward: 1.0 average reward: 0.36
episode: 5230 reward: 1.0 average reward: 0.36
episode: 5231 reward: 1.0 average reward: 0.36
episode: 5232 reward: 1.0 average rew

episode: 5368 reward: 1.0 average reward: 0.48
episode: 5369 reward: 1.0 average reward: 0.4866666666666667
episode: 5370 reward: 1.0 average reward: 0.49333333333333335
episode: 5371 reward: -1.0 average reward: 0.4866666666666667
episode: 5372 reward: 1.0 average reward: 0.49333333333333335
episode: 5373 reward: -1.0 average reward: 0.49333333333333335
episode: 5374 reward: 1.0 average reward: 0.5
episode: 5375 reward: -1.0 average reward: 0.49333333333333335
episode: 5376 reward: -1.0 average reward: 0.4866666666666667
episode: 5377 reward: 1.0 average reward: 0.4866666666666667
episode: 5378 reward: 1.0 average reward: 0.49333333333333335
episode: 5379 reward: 1.0 average reward: 0.5
episode: 5380 reward: -1.0 average reward: 0.49333333333333335
episode: 5381 reward: 1.0 average reward: 0.49333333333333335
episode: 5382 reward: 1.0 average reward: 0.49333333333333335
episode: 5383 reward: -1.0 average reward: 0.49333333333333335
episode: 5384 reward: 1.0 average reward: 0.493333333

episode: 5506 reward: -1.0 average reward: 0.5733333333333334
episode: 5507 reward: 1.0 average reward: 0.58
episode: 5508 reward: 1.0 average reward: 0.58
episode: 5509 reward: 1.0 average reward: 0.58
episode: 5510 reward: -1.0 average reward: 0.5733333333333334
episode: 5511 reward: -1.0 average reward: 0.5666666666666667
episode: 5512 reward: -1.0 average reward: 0.56
episode: 5513 reward: 1.0 average reward: 0.56
episode: 5514 reward: 1.0 average reward: 0.56
episode: 5515 reward: -1.0 average reward: 0.5533333333333333
episode: 5516 reward: 1.0 average reward: 0.5533333333333333
episode: 5517 reward: 1.0 average reward: 0.56
episode: 5518 reward: 1.0 average reward: 0.56
episode: 5519 reward: 1.0 average reward: 0.5666666666666667
episode: 5520 reward: 1.0 average reward: 0.5666666666666667
episode: 5521 reward: -1.0 average reward: 0.56
episode: 5522 reward: -1.0 average reward: 0.56
episode: 5523 reward: 1.0 average reward: 0.56
episode: 5524 reward: 1.0 average reward: 0.56
ep

episode: 5659 reward: 1.0 average reward: 0.4066666666666667
episode: 5660 reward: 1.0 average reward: 0.41333333333333333
episode: 5661 reward: 1.0 average reward: 0.41333333333333333
episode: 5662 reward: 1.0 average reward: 0.41333333333333333
episode: 5663 reward: 1.0 average reward: 0.42
episode: 5664 reward: 1.0 average reward: 0.4266666666666667
episode: 5665 reward: 1.0 average reward: 0.43333333333333335
episode: 5666 reward: -1.0 average reward: 0.4266666666666667
episode: 5667 reward: 1.0 average reward: 0.4266666666666667
episode: 5668 reward: 1.0 average reward: 0.4266666666666667
episode: 5669 reward: 1.0 average reward: 0.4266666666666667
episode: 5670 reward: 1.0 average reward: 0.4266666666666667
episode: 5671 reward: 1.0 average reward: 0.43333333333333335
episode: 5672 reward: 1.0 average reward: 0.43333333333333335
episode: 5673 reward: -1.0 average reward: 0.43333333333333335
episode: 5674 reward: 1.0 average reward: 0.43333333333333335
episode: 5675 reward: 1.0 av

episode: 5810 reward: 1.0 average reward: 0.4533333333333333
episode: 5811 reward: 1.0 average reward: 0.46
episode: 5812 reward: 1.0 average reward: 0.4666666666666667
episode: 5813 reward: 1.0 average reward: 0.4666666666666667
episode: 5814 reward: 1.0 average reward: 0.4666666666666667
episode: 5815 reward: 1.0 average reward: 0.47333333333333333
episode: 5816 reward: -1.0 average reward: 0.4666666666666667
episode: 5817 reward: 1.0 average reward: 0.4666666666666667
episode: 5818 reward: 1.0 average reward: 0.4666666666666667
episode: 5819 reward: 1.0 average reward: 0.4666666666666667
episode: 5820 reward: 1.0 average reward: 0.4666666666666667
episode: 5821 reward: -1.0 average reward: 0.4666666666666667
episode: 5822 reward: 1.0 average reward: 0.47333333333333333
episode: 5823 reward: 1.0 average reward: 0.47333333333333333
episode: 5824 reward: 1.0 average reward: 0.47333333333333333
episode: 5825 reward: -1.0 average reward: 0.4666666666666667
episode: 5826 reward: 1.0 avera

episode: 5959 reward: 1.0 average reward: 0.4066666666666667
episode: 5960 reward: -1.0 average reward: 0.4
episode: 5961 reward: 1.0 average reward: 0.4
episode: 5962 reward: -1.0 average reward: 0.3933333333333333
episode: 5963 reward: 1.0 average reward: 0.3933333333333333
episode: 5964 reward: 1.0 average reward: 0.3933333333333333
episode: 5965 reward: 1.0 average reward: 0.3933333333333333
episode: 5966 reward: -1.0 average reward: 0.3933333333333333
episode: 5967 reward: 1.0 average reward: 0.3933333333333333
episode: 5968 reward: 1.0 average reward: 0.3933333333333333
episode: 5969 reward: 1.0 average reward: 0.3933333333333333
episode: 5970 reward: 1.0 average reward: 0.3933333333333333
episode: 5971 reward: 1.0 average reward: 0.3933333333333333
episode: 5972 reward: -1.0 average reward: 0.38666666666666666
episode: 5973 reward: 1.0 average reward: 0.3933333333333333
episode: 5974 reward: 1.0 average reward: 0.3933333333333333
episode: 5975 reward: 1.0 average reward: 0.39333

episode: 6103 reward: -1.0 average reward: 0.22
episode: 6104 reward: -1.0 average reward: 0.21333333333333335
episode: 6105 reward: -1.0 average reward: 0.20666666666666667
episode: 6106 reward: -1.0 average reward: 0.2
episode: 6107 reward: -1.0 average reward: 0.19333333333333333
episode: 6108 reward: -1.0 average reward: 0.19333333333333333
episode: 6109 reward: 1.0 average reward: 0.19333333333333333
episode: 6110 reward: 1.0 average reward: 0.19333333333333333
episode: 6111 reward: 1.0 average reward: 0.19333333333333333
episode: 6112 reward: 1.0 average reward: 0.19333333333333333
episode: 6113 reward: -1.0 average reward: 0.18666666666666668
episode: 6114 reward: 1.0 average reward: 0.18666666666666668
episode: 6115 reward: 1.0 average reward: 0.18666666666666668
episode: 6116 reward: -1.0 average reward: 0.18666666666666668
episode: 6117 reward: 1.0 average reward: 0.18666666666666668
episode: 6118 reward: 1.0 average reward: 0.18666666666666668
episode: 6119 reward: -1.0 aver

episode: 6254 reward: 1.0 average reward: 0.16666666666666666
episode: 6255 reward: 1.0 average reward: 0.17333333333333334
episode: 6256 reward: 1.0 average reward: 0.17333333333333334
episode: 6257 reward: 1.0 average reward: 0.18
episode: 6258 reward: -1.0 average reward: 0.18
episode: 6259 reward: -1.0 average reward: 0.17333333333333334
episode: 6260 reward: -1.0 average reward: 0.17333333333333334
episode: 6261 reward: -1.0 average reward: 0.16666666666666666
episode: 6262 reward: 1.0 average reward: 0.17333333333333334
episode: 6263 reward: 1.0 average reward: 0.17333333333333334
episode: 6264 reward: 1.0 average reward: 0.17333333333333334
episode: 6265 reward: 1.0 average reward: 0.17333333333333334
episode: 6266 reward: -1.0 average reward: 0.17333333333333334
episode: 6267 reward: -1.0 average reward: 0.16666666666666666
episode: 6268 reward: 1.0 average reward: 0.16666666666666666
episode: 6269 reward: -1.0 average reward: 0.16
episode: 6270 reward: -1.0 average reward: 0.1

episode: 6407 reward: 1.0 average reward: 0.25333333333333335
episode: 6408 reward: -1.0 average reward: 0.25333333333333335
episode: 6409 reward: 1.0 average reward: 0.25333333333333335
episode: 6410 reward: 1.0 average reward: 0.25333333333333335
episode: 6411 reward: 1.0 average reward: 0.25333333333333335
episode: 6412 reward: 1.0 average reward: 0.25333333333333335
episode: 6413 reward: 1.0 average reward: 0.26
episode: 6414 reward: 1.0 average reward: 0.26
episode: 6415 reward: 1.0 average reward: 0.26
episode: 6416 reward: 1.0 average reward: 0.26666666666666666
episode: 6417 reward: 1.0 average reward: 0.26666666666666666
episode: 6418 reward: -1.0 average reward: 0.26
episode: 6419 reward: 1.0 average reward: 0.26666666666666666
episode: 6420 reward: 1.0 average reward: 0.2733333333333333
episode: 6421 reward: 1.0 average reward: 0.2733333333333333
episode: 6422 reward: 1.0 average reward: 0.2733333333333333
episode: 6423 reward: -1.0 average reward: 0.26666666666666666
episod

episode: 6560 reward: -1.0 average reward: 0.35333333333333333
episode: 6561 reward: -1.0 average reward: 0.35333333333333333
episode: 6562 reward: 1.0 average reward: 0.35333333333333333
episode: 6563 reward: -1.0 average reward: 0.3466666666666667
episode: 6564 reward: 1.0 average reward: 0.3466666666666667
episode: 6565 reward: 1.0 average reward: 0.3466666666666667
episode: 6566 reward: 1.0 average reward: 0.35333333333333333
episode: 6567 reward: 1.0 average reward: 0.36
episode: 6568 reward: -1.0 average reward: 0.35333333333333333
episode: 6569 reward: -1.0 average reward: 0.35333333333333333
episode: 6570 reward: -1.0 average reward: 0.35333333333333333
episode: 6571 reward: 1.0 average reward: 0.35333333333333333
episode: 6572 reward: 1.0 average reward: 0.36
episode: 6573 reward: 1.0 average reward: 0.36666666666666664
episode: 6574 reward: 1.0 average reward: 0.36666666666666664
episode: 6575 reward: 1.0 average reward: 0.36666666666666664
episode: 6576 reward: 1.0 average r

episode: 6703 reward: -1.0 average reward: 0.36
episode: 6704 reward: 1.0 average reward: 0.36666666666666664
episode: 6705 reward: 1.0 average reward: 0.36666666666666664
episode: 6706 reward: -1.0 average reward: 0.36666666666666664
episode: 6707 reward: 1.0 average reward: 0.36666666666666664
episode: 6708 reward: -1.0 average reward: 0.36666666666666664
episode: 6709 reward: -1.0 average reward: 0.36
episode: 6710 reward: 1.0 average reward: 0.36
episode: 6711 reward: 1.0 average reward: 0.36
episode: 6712 reward: -1.0 average reward: 0.35333333333333333
episode: 6713 reward: 1.0 average reward: 0.35333333333333333
episode: 6714 reward: -1.0 average reward: 0.3466666666666667
episode: 6715 reward: 1.0 average reward: 0.3466666666666667
episode: 6716 reward: 1.0 average reward: 0.3466666666666667
episode: 6717 reward: -1.0 average reward: 0.34
episode: 6718 reward: -1.0 average reward: 0.34
episode: 6719 reward: 1.0 average reward: 0.34
episode: 6720 reward: 1.0 average reward: 0.34

episode: 6854 reward: 1.0 average reward: 0.28
episode: 6855 reward: 1.0 average reward: 0.28
episode: 6856 reward: 1.0 average reward: 0.28
episode: 6857 reward: -1.0 average reward: 0.28
episode: 6858 reward: 1.0 average reward: 0.2866666666666667
episode: 6859 reward: -1.0 average reward: 0.28
episode: 6860 reward: 1.0 average reward: 0.2866666666666667
episode: 6861 reward: 1.0 average reward: 0.29333333333333333
episode: 6862 reward: 1.0 average reward: 0.29333333333333333
episode: 6863 reward: 1.0 average reward: 0.3
episode: 6864 reward: -1.0 average reward: 0.29333333333333333
episode: 6865 reward: 1.0 average reward: 0.29333333333333333
episode: 6866 reward: 1.0 average reward: 0.29333333333333333
episode: 6867 reward: 1.0 average reward: 0.29333333333333333
episode: 6868 reward: -1.0 average reward: 0.29333333333333333
episode: 6869 reward: 1.0 average reward: 0.3
episode: 6870 reward: -1.0 average reward: 0.3
episode: 6871 reward: 1.0 average reward: 0.3
episode: 6872 reward

episode: 6998 reward: 1.0 average reward: 0.2
episode: 6999 reward: 1.0 average reward: 0.20666666666666667
episode: 7000 reward: 1.0 average reward: 0.20666666666666667
episode: 7001 reward: -1.0 average reward: 0.2
episode: 7002 reward: -1.0 average reward: 0.19333333333333333
episode: 7003 reward: -1.0 average reward: 0.19333333333333333
episode: 7004 reward: -1.0 average reward: 0.18666666666666668
episode: 7005 reward: -1.0 average reward: 0.18
episode: 7006 reward: 1.0 average reward: 0.18666666666666668
episode: 7007 reward: 1.0 average reward: 0.18666666666666668
episode: 7008 reward: -1.0 average reward: 0.18666666666666668
episode: 7009 reward: 1.0 average reward: 0.19333333333333333
episode: 7010 reward: 1.0 average reward: 0.19333333333333333
episode: 7011 reward: 1.0 average reward: 0.19333333333333333
episode: 7012 reward: 1.0 average reward: 0.2
episode: 7013 reward: 1.0 average reward: 0.2
episode: 7014 reward: 1.0 average reward: 0.20666666666666667
episode: 7015 rewar

episode: 7155 reward: 1.0 average reward: 0.05333333333333334
episode: 7156 reward: -1.0 average reward: 0.04666666666666667
episode: 7157 reward: 1.0 average reward: 0.05333333333333334
episode: 7158 reward: 1.0 average reward: 0.05333333333333334
episode: 7159 reward: 1.0 average reward: 0.06
episode: 7160 reward: -1.0 average reward: 0.05333333333333334
episode: 7161 reward: -1.0 average reward: 0.04666666666666667
episode: 7162 reward: 1.0 average reward: 0.04666666666666667
episode: 7163 reward: -1.0 average reward: 0.04
episode: 7164 reward: 1.0 average reward: 0.04666666666666667
episode: 7165 reward: -1.0 average reward: 0.04
episode: 7166 reward: 1.0 average reward: 0.04
episode: 7167 reward: -1.0 average reward: 0.03333333333333333
episode: 7168 reward: 1.0 average reward: 0.04
episode: 7169 reward: -1.0 average reward: 0.03333333333333333
episode: 7170 reward: -1.0 average reward: 0.03333333333333333
episode: 7171 reward: 1.0 average reward: 0.03333333333333333
episode: 7172

episode: 7302 reward: 1.0 average reward: 0.04666666666666667
episode: 7303 reward: -1.0 average reward: 0.04666666666666667
episode: 7304 reward: -1.0 average reward: 0.04666666666666667
episode: 7305 reward: 1.0 average reward: 0.05333333333333334
episode: 7306 reward: -1.0 average reward: 0.04666666666666667
episode: 7307 reward: -1.0 average reward: 0.04
episode: 7308 reward: -1.0 average reward: 0.04
episode: 7309 reward: 1.0 average reward: 0.04
episode: 7310 reward: -1.0 average reward: 0.03333333333333333
episode: 7311 reward: -1.0 average reward: 0.02666666666666667
episode: 7312 reward: 1.0 average reward: 0.02666666666666667
episode: 7313 reward: 1.0 average reward: 0.02666666666666667
episode: 7314 reward: 1.0 average reward: 0.02666666666666667
episode: 7315 reward: -1.0 average reward: 0.02666666666666667
episode: 7316 reward: 1.0 average reward: 0.03333333333333333
episode: 7317 reward: -1.0 average reward: 0.02666666666666667
episode: 7318 reward: -1.0 average reward: 0

episode: 7444 reward: -1.0 average reward: 0.0
episode: 7445 reward: 1.0 average reward: 0.006666666666666667
episode: 7446 reward: -1.0 average reward: 0.006666666666666667
episode: 7447 reward: -1.0 average reward: 0.006666666666666667
episode: 7448 reward: -1.0 average reward: 0.0
episode: 7449 reward: 1.0 average reward: 0.006666666666666667
episode: 7450 reward: 1.0 average reward: 0.013333333333333334
episode: 7451 reward: -1.0 average reward: 0.006666666666666667
episode: 7452 reward: 1.0 average reward: 0.013333333333333334
episode: 7453 reward: 1.0 average reward: 0.02
episode: 7454 reward: 1.0 average reward: 0.02
episode: 7455 reward: 1.0 average reward: 0.02
episode: 7456 reward: -1.0 average reward: 0.02
episode: 7457 reward: 1.0 average reward: 0.02
episode: 7458 reward: 1.0 average reward: 0.02
episode: 7459 reward: -1.0 average reward: 0.013333333333333334
episode: 7460 reward: -1.0 average reward: 0.013333333333333334
episode: 7461 reward: -1.0 average reward: 0.013333

episode: 7598 reward: -1.0 average reward: -0.16
episode: 7599 reward: 1.0 average reward: -0.15333333333333332
episode: 7600 reward: 1.0 average reward: -0.15333333333333332
episode: 7601 reward: 1.0 average reward: -0.14666666666666667
episode: 7602 reward: -1.0 average reward: -0.15333333333333332
episode: 7603 reward: -1.0 average reward: -0.15333333333333332
episode: 7604 reward: -1.0 average reward: -0.15333333333333332
episode: 7605 reward: 1.0 average reward: -0.15333333333333332
episode: 7606 reward: 1.0 average reward: -0.14666666666666667
episode: 7607 reward: -1.0 average reward: -0.14666666666666667
episode: 7608 reward: 1.0 average reward: -0.14
episode: 7609 reward: -1.0 average reward: -0.14666666666666667
episode: 7610 reward: -1.0 average reward: -0.14666666666666667
episode: 7611 reward: 1.0 average reward: -0.14
episode: 7612 reward: -1.0 average reward: -0.14666666666666667
episode: 7613 reward: -1.0 average reward: -0.15333333333333332
episode: 7614 reward: 1.0 av

episode: 7743 reward: -1.0 average reward: -0.19333333333333333
episode: 7744 reward: -1.0 average reward: -0.19333333333333333
episode: 7745 reward: -1.0 average reward: -0.2
episode: 7746 reward: 1.0 average reward: -0.19333333333333333
episode: 7747 reward: -1.0 average reward: -0.19333333333333333
episode: 7748 reward: 1.0 average reward: -0.18666666666666668
episode: 7749 reward: 1.0 average reward: -0.18666666666666668
episode: 7750 reward: 1.0 average reward: -0.18666666666666668
episode: 7751 reward: -1.0 average reward: -0.18666666666666668
episode: 7752 reward: -1.0 average reward: -0.19333333333333333
episode: 7753 reward: -1.0 average reward: -0.2
episode: 7754 reward: -1.0 average reward: -0.20666666666666667
episode: 7755 reward: -1.0 average reward: -0.21333333333333335
episode: 7756 reward: -1.0 average reward: -0.21333333333333335
episode: 7757 reward: 1.0 average reward: -0.21333333333333335
episode: 7758 reward: -1.0 average reward: -0.22
episode: 7759 reward: -1.0 a

episode: 7884 reward: -1.0 average reward: -0.2866666666666667
episode: 7885 reward: 1.0 average reward: -0.28
episode: 7886 reward: -1.0 average reward: -0.2866666666666667
episode: 7887 reward: -1.0 average reward: -0.2866666666666667
episode: 7888 reward: -1.0 average reward: -0.2866666666666667
episode: 7889 reward: -1.0 average reward: -0.2866666666666667
episode: 7890 reward: 1.0 average reward: -0.28
episode: 7891 reward: 1.0 average reward: -0.2733333333333333
episode: 7892 reward: 1.0 average reward: -0.26666666666666666
episode: 7893 reward: 1.0 average reward: -0.26666666666666666
episode: 7894 reward: 1.0 average reward: -0.26666666666666666
episode: 7895 reward: -1.0 average reward: -0.26666666666666666
episode: 7896 reward: 1.0 average reward: -0.26
episode: 7897 reward: 1.0 average reward: -0.25333333333333335
episode: 7898 reward: -1.0 average reward: -0.25333333333333335
episode: 7899 reward: -1.0 average reward: -0.26
episode: 7900 reward: -1.0 average reward: -0.2666

episode: 8035 reward: -1.0 average reward: -0.3466666666666667
episode: 8036 reward: 1.0 average reward: -0.3466666666666667
episode: 8037 reward: 1.0 average reward: -0.34
episode: 8038 reward: -1.0 average reward: -0.34
episode: 8039 reward: -1.0 average reward: -0.34
episode: 8040 reward: 1.0 average reward: -0.3333333333333333
episode: 8041 reward: -1.0 average reward: -0.34
episode: 8042 reward: -1.0 average reward: -0.34
episode: 8043 reward: -1.0 average reward: -0.34
episode: 8044 reward: -1.0 average reward: -0.34
episode: 8045 reward: -1.0 average reward: -0.34
episode: 8046 reward: -1.0 average reward: -0.3466666666666667
episode: 8047 reward: 1.0 average reward: -0.34
episode: 8048 reward: -1.0 average reward: -0.3466666666666667
episode: 8049 reward: 1.0 average reward: -0.3466666666666667
episode: 8050 reward: -1.0 average reward: -0.35333333333333333
episode: 8051 reward: -1.0 average reward: -0.35333333333333333
episode: 8052 reward: -1.0 average reward: -0.353333333333

episode: 8183 reward: -1.0 average reward: -0.30666666666666664
episode: 8184 reward: 1.0 average reward: -0.3
episode: 8185 reward: -1.0 average reward: -0.30666666666666664
episode: 8186 reward: -1.0 average reward: -0.30666666666666664
episode: 8187 reward: -1.0 average reward: -0.30666666666666664
episode: 8188 reward: -1.0 average reward: -0.30666666666666664
episode: 8189 reward: 1.0 average reward: -0.3
episode: 8190 reward: -1.0 average reward: -0.30666666666666664
episode: 8191 reward: 1.0 average reward: -0.30666666666666664
episode: 8192 reward: 1.0 average reward: -0.30666666666666664
episode: 8193 reward: -1.0 average reward: -0.31333333333333335
episode: 8194 reward: -1.0 average reward: -0.32
episode: 8195 reward: 1.0 average reward: -0.31333333333333335
episode: 8196 reward: -1.0 average reward: -0.32
episode: 8197 reward: -1.0 average reward: -0.32666666666666666
episode: 8198 reward: -1.0 average reward: -0.32666666666666666
episode: 8199 reward: 1.0 average reward: -

episode: 8333 reward: -1.0 average reward: -0.2
episode: 8334 reward: -1.0 average reward: -0.2
episode: 8335 reward: 1.0 average reward: -0.19333333333333333
episode: 8336 reward: 1.0 average reward: -0.19333333333333333
episode: 8337 reward: -1.0 average reward: -0.2
episode: 8338 reward: 1.0 average reward: -0.19333333333333333
episode: 8339 reward: 1.0 average reward: -0.18666666666666668
episode: 8340 reward: -1.0 average reward: -0.19333333333333333
episode: 8341 reward: 1.0 average reward: -0.18666666666666668
episode: 8342 reward: 1.0 average reward: -0.18
episode: 8343 reward: 1.0 average reward: -0.17333333333333334
episode: 8344 reward: -1.0 average reward: -0.17333333333333334
episode: 8345 reward: 1.0 average reward: -0.16666666666666666
episode: 8346 reward: 1.0 average reward: -0.16
episode: 8347 reward: -1.0 average reward: -0.16666666666666666
episode: 8348 reward: -1.0 average reward: -0.16666666666666666
episode: 8349 reward: -1.0 average reward: -0.17333333333333334

episode: 8487 reward: -1.0 average reward: 0.02
episode: 8488 reward: 1.0 average reward: 0.02666666666666667
episode: 8489 reward: 1.0 average reward: 0.02666666666666667
episode: 8490 reward: 1.0 average reward: 0.03333333333333333
episode: 8491 reward: 1.0 average reward: 0.03333333333333333
episode: 8492 reward: -1.0 average reward: 0.02666666666666667
episode: 8493 reward: -1.0 average reward: 0.02666666666666667
episode: 8494 reward: 1.0 average reward: 0.03333333333333333
episode: 8495 reward: -1.0 average reward: 0.02666666666666667
episode: 8496 reward: 1.0 average reward: 0.03333333333333333
episode: 8497 reward: 1.0 average reward: 0.04
episode: 8498 reward: 1.0 average reward: 0.04666666666666667
episode: 8499 reward: -1.0 average reward: 0.04
episode: 8500 reward: -1.0 average reward: 0.04
episode: 8501 reward: 1.0 average reward: 0.04
episode: 8502 reward: 1.0 average reward: 0.04666666666666667
episode: 8503 reward: 1.0 average reward: 0.05333333333333334
episode: 8504 r

episode: 8639 reward: 1.0 average reward: 0.16
episode: 8640 reward: -1.0 average reward: 0.16
episode: 8641 reward: -1.0 average reward: 0.15333333333333332
episode: 8642 reward: -1.0 average reward: 0.14666666666666667
episode: 8643 reward: -1.0 average reward: 0.14
episode: 8644 reward: -1.0 average reward: 0.14
episode: 8645 reward: 1.0 average reward: 0.14
episode: 8646 reward: 1.0 average reward: 0.14
episode: 8647 reward: 1.0 average reward: 0.14666666666666667
episode: 8648 reward: -1.0 average reward: 0.14666666666666667
episode: 8649 reward: -1.0 average reward: 0.14666666666666667
episode: 8650 reward: 1.0 average reward: 0.14666666666666667
episode: 8651 reward: -1.0 average reward: 0.14
episode: 8652 reward: 1.0 average reward: 0.14666666666666667
episode: 8653 reward: -1.0 average reward: 0.14666666666666667
episode: 8654 reward: -1.0 average reward: 0.14666666666666667
episode: 8655 reward: 1.0 average reward: 0.14666666666666667
episode: 8656 reward: -1.0 average reward

episode: 8793 reward: 1.0 average reward: 0.12666666666666668
episode: 8794 reward: 1.0 average reward: 0.12666666666666668
episode: 8795 reward: -1.0 average reward: 0.12666666666666668
episode: 8796 reward: -1.0 average reward: 0.12
episode: 8797 reward: 1.0 average reward: 0.12
episode: 8798 reward: 1.0 average reward: 0.12
episode: 8799 reward: 1.0 average reward: 0.12666666666666668
episode: 8800 reward: 1.0 average reward: 0.13333333333333333
episode: 8801 reward: -1.0 average reward: 0.12666666666666668
episode: 8802 reward: -1.0 average reward: 0.12
episode: 8803 reward: 1.0 average reward: 0.12
episode: 8804 reward: -1.0 average reward: 0.12
episode: 8805 reward: 1.0 average reward: 0.12
episode: 8806 reward: 1.0 average reward: 0.12
episode: 8807 reward: -1.0 average reward: 0.11333333333333333
episode: 8808 reward: 1.0 average reward: 0.11333333333333333
episode: 8809 reward: -1.0 average reward: 0.10666666666666667
episode: 8810 reward: 1.0 average reward: 0.106666666666666

episode: 8937 reward: -1.0 average reward: 0.12666666666666668
episode: 8938 reward: 1.0 average reward: 0.13333333333333333
episode: 8939 reward: -1.0 average reward: 0.12666666666666668
episode: 8940 reward: 1.0 average reward: 0.13333333333333333
episode: 8941 reward: 1.0 average reward: 0.14
episode: 8942 reward: 1.0 average reward: 0.14666666666666667
episode: 8943 reward: 1.0 average reward: 0.15333333333333332
episode: 8944 reward: -1.0 average reward: 0.15333333333333332
episode: 8945 reward: 1.0 average reward: 0.15333333333333332
episode: 8946 reward: -1.0 average reward: 0.14666666666666667
episode: 8947 reward: 1.0 average reward: 0.14666666666666667
episode: 8948 reward: 1.0 average reward: 0.15333333333333332
episode: 8949 reward: 1.0 average reward: 0.16
episode: 8950 reward: 1.0 average reward: 0.16
episode: 8951 reward: -1.0 average reward: 0.16
episode: 8952 reward: 1.0 average reward: 0.16
episode: 8953 reward: -1.0 average reward: 0.16
episode: 8954 reward: 1.0 aver

episode: 9078 reward: -1.0 average reward: 0.14666666666666667
episode: 9079 reward: -1.0 average reward: 0.14
episode: 9080 reward: 1.0 average reward: 0.14
episode: 9081 reward: -1.0 average reward: 0.13333333333333333
episode: 9082 reward: -1.0 average reward: 0.13333333333333333
episode: 9083 reward: 1.0 average reward: 0.13333333333333333
episode: 9084 reward: -1.0 average reward: 0.13333333333333333
episode: 9085 reward: 1.0 average reward: 0.13333333333333333
episode: 9086 reward: -1.0 average reward: 0.13333333333333333
episode: 9087 reward: 1.0 average reward: 0.13333333333333333
episode: 9088 reward: 1.0 average reward: 0.14
episode: 9089 reward: 1.0 average reward: 0.14
episode: 9090 reward: 1.0 average reward: 0.14
episode: 9091 reward: 1.0 average reward: 0.14666666666666667
episode: 9092 reward: 1.0 average reward: 0.14666666666666667
episode: 9093 reward: 1.0 average reward: 0.14666666666666667
episode: 9094 reward: 1.0 average reward: 0.14666666666666667
episode: 9095 r

episode: 9223 reward: 1.0 average reward: 0.04
episode: 9224 reward: 1.0 average reward: 0.04
episode: 9225 reward: 1.0 average reward: 0.04666666666666667
episode: 9226 reward: 1.0 average reward: 0.04666666666666667
episode: 9227 reward: 1.0 average reward: 0.05333333333333334
episode: 9228 reward: 1.0 average reward: 0.05333333333333334
episode: 9229 reward: -1.0 average reward: 0.05333333333333334
episode: 9230 reward: -1.0 average reward: 0.05333333333333334
episode: 9231 reward: 1.0 average reward: 0.06
episode: 9232 reward: 1.0 average reward: 0.06666666666666667
episode: 9233 reward: 1.0 average reward: 0.06666666666666667
episode: 9234 reward: -1.0 average reward: 0.06666666666666667
episode: 9235 reward: 1.0 average reward: 0.06666666666666667
episode: 9236 reward: 1.0 average reward: 0.06666666666666667
episode: 9237 reward: -1.0 average reward: 0.06666666666666667
episode: 9238 reward: -1.0 average reward: 0.06
episode: 9239 reward: 1.0 average reward: 0.06666666666666667
e

episode: 9367 reward: 1.0 average reward: 0.08
episode: 9368 reward: 1.0 average reward: 0.08666666666666667
episode: 9369 reward: 1.0 average reward: 0.08666666666666667
episode: 9370 reward: 1.0 average reward: 0.08666666666666667
episode: 9371 reward: 1.0 average reward: 0.08666666666666667
episode: 9372 reward: -1.0 average reward: 0.08
episode: 9373 reward: -1.0 average reward: 0.08
episode: 9374 reward: 1.0 average reward: 0.08666666666666667
episode: 9375 reward: 1.0 average reward: 0.09333333333333334
episode: 9376 reward: 1.0 average reward: 0.1
episode: 9377 reward: 1.0 average reward: 0.10666666666666667
episode: 9378 reward: 1.0 average reward: 0.11333333333333333
episode: 9379 reward: -1.0 average reward: 0.11333333333333333
episode: 9380 reward: -1.0 average reward: 0.10666666666666667
episode: 9381 reward: -1.0 average reward: 0.10666666666666667
episode: 9382 reward: 1.0 average reward: 0.11333333333333333
episode: 9383 reward: -1.0 average reward: 0.10666666666666667
e

episode: 9514 reward: -1.0 average reward: 0.2866666666666667
episode: 9515 reward: 1.0 average reward: 0.29333333333333333
episode: 9516 reward: -1.0 average reward: 0.29333333333333333
episode: 9517 reward: 1.0 average reward: 0.29333333333333333
episode: 9518 reward: 1.0 average reward: 0.29333333333333333
episode: 9519 reward: -1.0 average reward: 0.29333333333333333
episode: 9520 reward: 1.0 average reward: 0.3
episode: 9521 reward: 1.0 average reward: 0.3
episode: 9522 reward: 1.0 average reward: 0.3
episode: 9523 reward: 1.0 average reward: 0.3
episode: 9524 reward: -1.0 average reward: 0.29333333333333333
episode: 9525 reward: 1.0 average reward: 0.29333333333333333
episode: 9526 reward: 1.0 average reward: 0.29333333333333333
episode: 9527 reward: 1.0 average reward: 0.29333333333333333
episode: 9528 reward: -1.0 average reward: 0.2866666666666667
episode: 9529 reward: -1.0 average reward: 0.2866666666666667
episode: 9530 reward: -1.0 average reward: 0.2866666666666667
episode

episode: 9658 reward: -1.0 average reward: 0.47333333333333333
episode: 9659 reward: 1.0 average reward: 0.47333333333333333
episode: 9660 reward: 1.0 average reward: 0.47333333333333333
episode: 9661 reward: 1.0 average reward: 0.47333333333333333
episode: 9662 reward: 1.0 average reward: 0.48
episode: 9663 reward: -1.0 average reward: 0.47333333333333333
episode: 9664 reward: -1.0 average reward: 0.4666666666666667
episode: 9665 reward: 1.0 average reward: 0.47333333333333333
episode: 9666 reward: 1.0 average reward: 0.47333333333333333
episode: 9667 reward: 1.0 average reward: 0.47333333333333333
episode: 9668 reward: -1.0 average reward: 0.4666666666666667
episode: 9669 reward: -1.0 average reward: 0.46
episode: 9670 reward: 1.0 average reward: 0.46
episode: 9671 reward: 1.0 average reward: 0.46
episode: 9672 reward: 1.0 average reward: 0.4666666666666667
episode: 9673 reward: 1.0 average reward: 0.47333333333333333
episode: 9674 reward: 1.0 average reward: 0.47333333333333333
epis

episode: 9809 reward: -1.0 average reward: 0.49333333333333335
episode: 9810 reward: 1.0 average reward: 0.49333333333333335
episode: 9811 reward: 1.0 average reward: 0.49333333333333335
episode: 9812 reward: -1.0 average reward: 0.49333333333333335
episode: 9813 reward: 1.0 average reward: 0.49333333333333335
episode: 9814 reward: 1.0 average reward: 0.5
episode: 9815 reward: 1.0 average reward: 0.5
episode: 9816 reward: -1.0 average reward: 0.5
episode: 9817 reward: 1.0 average reward: 0.5
episode: 9818 reward: 1.0 average reward: 0.5
episode: 9819 reward: 1.0 average reward: 0.5066666666666667
episode: 9820 reward: 1.0 average reward: 0.5066666666666667
episode: 9821 reward: 1.0 average reward: 0.5066666666666667
episode: 9822 reward: 1.0 average reward: 0.5066666666666667
episode: 9823 reward: 1.0 average reward: 0.5066666666666667
episode: 9824 reward: 1.0 average reward: 0.5133333333333333
episode: 9825 reward: -1.0 average reward: 0.5066666666666667
episode: 9826 reward: 1.0 ave

episode: 9958 reward: 1.0 average reward: 0.5
episode: 9959 reward: -1.0 average reward: 0.49333333333333335
episode: 9960 reward: -1.0 average reward: 0.4866666666666667
episode: 9961 reward: -1.0 average reward: 0.48
episode: 9962 reward: 1.0 average reward: 0.48
episode: 9963 reward: 1.0 average reward: 0.4866666666666667
episode: 9964 reward: -1.0 average reward: 0.4866666666666667
episode: 9965 reward: -1.0 average reward: 0.48
episode: 9966 reward: 1.0 average reward: 0.48
episode: 9967 reward: 1.0 average reward: 0.48
episode: 9968 reward: 1.0 average reward: 0.4866666666666667
episode: 9969 reward: 1.0 average reward: 0.49333333333333335
episode: 9970 reward: -1.0 average reward: 0.4866666666666667
episode: 9971 reward: 1.0 average reward: 0.4866666666666667
episode: 9972 reward: 1.0 average reward: 0.4866666666666667
episode: 9973 reward: -1.0 average reward: 0.48
episode: 9974 reward: 1.0 average reward: 0.48
episode: 9975 reward: 1.0 average reward: 0.4866666666666667
episod

episode: 10104 reward: -1.0 average reward: 0.46
episode: 10105 reward: -1.0 average reward: 0.4533333333333333
episode: 10106 reward: 1.0 average reward: 0.4533333333333333
episode: 10107 reward: 1.0 average reward: 0.46
episode: 10108 reward: 1.0 average reward: 0.4666666666666667
episode: 10109 reward: 1.0 average reward: 0.47333333333333333
episode: 10110 reward: -1.0 average reward: 0.4666666666666667
episode: 10111 reward: -1.0 average reward: 0.46
episode: 10112 reward: -1.0 average reward: 0.46
episode: 10113 reward: -1.0 average reward: 0.4533333333333333
episode: 10114 reward: -1.0 average reward: 0.44666666666666666
episode: 10115 reward: 1.0 average reward: 0.44666666666666666
episode: 10116 reward: 1.0 average reward: 0.4533333333333333
episode: 10117 reward: 1.0 average reward: 0.4533333333333333
episode: 10118 reward: 1.0 average reward: 0.4533333333333333
episode: 10119 reward: 1.0 average reward: 0.4533333333333333
episode: 10120 reward: 1.0 average reward: 0.453333333

episode: 10257 reward: 1.0 average reward: 0.32666666666666666
episode: 10258 reward: -1.0 average reward: 0.32
episode: 10259 reward: -1.0 average reward: 0.32
episode: 10260 reward: 1.0 average reward: 0.32666666666666666
episode: 10261 reward: 1.0 average reward: 0.3333333333333333
episode: 10262 reward: 1.0 average reward: 0.3333333333333333
episode: 10263 reward: -1.0 average reward: 0.32666666666666666
episode: 10264 reward: 1.0 average reward: 0.3333333333333333
episode: 10265 reward: 1.0 average reward: 0.34
episode: 10266 reward: -1.0 average reward: 0.3333333333333333
episode: 10267 reward: -1.0 average reward: 0.32666666666666666
episode: 10268 reward: 1.0 average reward: 0.32666666666666666
episode: 10269 reward: 1.0 average reward: 0.32666666666666666
episode: 10270 reward: 1.0 average reward: 0.3333333333333333
episode: 10271 reward: -1.0 average reward: 0.32666666666666666
episode: 10272 reward: 1.0 average reward: 0.32666666666666666
episode: 10273 reward: -1.0 average 

episode: 10405 reward: 1.0 average reward: 0.32666666666666666
episode: 10406 reward: 1.0 average reward: 0.32666666666666666
episode: 10407 reward: -1.0 average reward: 0.32
episode: 10408 reward: -1.0 average reward: 0.31333333333333335
episode: 10409 reward: 1.0 average reward: 0.31333333333333335
episode: 10410 reward: -1.0 average reward: 0.31333333333333335
episode: 10411 reward: 1.0 average reward: 0.32
episode: 10412 reward: 1.0 average reward: 0.32666666666666666
episode: 10413 reward: 1.0 average reward: 0.3333333333333333
episode: 10414 reward: -1.0 average reward: 0.3333333333333333
episode: 10415 reward: 1.0 average reward: 0.3333333333333333
episode: 10416 reward: -1.0 average reward: 0.32666666666666666
episode: 10417 reward: -1.0 average reward: 0.32
episode: 10418 reward: -1.0 average reward: 0.31333333333333335
episode: 10419 reward: -1.0 average reward: 0.30666666666666664
episode: 10420 reward: 1.0 average reward: 0.30666666666666664
episode: 10421 reward: 1.0 avera

episode: 10548 reward: 1.0 average reward: 0.44
episode: 10549 reward: 1.0 average reward: 0.44
episode: 10550 reward: 1.0 average reward: 0.44
episode: 10551 reward: 1.0 average reward: 0.44666666666666666
episode: 10552 reward: 1.0 average reward: 0.44666666666666666
episode: 10553 reward: 1.0 average reward: 0.44666666666666666
episode: 10554 reward: 1.0 average reward: 0.44666666666666666
episode: 10555 reward: -1.0 average reward: 0.44666666666666666
episode: 10556 reward: -1.0 average reward: 0.44
episode: 10557 reward: 1.0 average reward: 0.44
episode: 10558 reward: -1.0 average reward: 0.44
episode: 10559 reward: 1.0 average reward: 0.44666666666666666
episode: 10560 reward: -1.0 average reward: 0.44
episode: 10561 reward: -1.0 average reward: 0.43333333333333335
episode: 10562 reward: 1.0 average reward: 0.43333333333333335
episode: 10563 reward: 1.0 average reward: 0.44
episode: 10564 reward: 1.0 average reward: 0.44
episode: 10565 reward: 1.0 average reward: 0.44
episode: 10

episode: 10694 reward: -1.0 average reward: 0.5066666666666667
episode: 10695 reward: 1.0 average reward: 0.5066666666666667
episode: 10696 reward: -1.0 average reward: 0.5066666666666667
episode: 10697 reward: 1.0 average reward: 0.5066666666666667
episode: 10698 reward: -1.0 average reward: 0.5
episode: 10699 reward: 1.0 average reward: 0.5
episode: 10700 reward: 1.0 average reward: 0.5
episode: 10701 reward: 1.0 average reward: 0.5
episode: 10702 reward: 1.0 average reward: 0.5
episode: 10703 reward: 1.0 average reward: 0.5
episode: 10704 reward: 1.0 average reward: 0.5066666666666667
episode: 10705 reward: 1.0 average reward: 0.5066666666666667
episode: 10706 reward: 1.0 average reward: 0.5066666666666667
episode: 10707 reward: 1.0 average reward: 0.5133333333333333
episode: 10708 reward: 1.0 average reward: 0.52
episode: 10709 reward: 1.0 average reward: 0.52
episode: 10710 reward: 1.0 average reward: 0.5266666666666666
episode: 10711 reward: 1.0 average reward: 0.5266666666666666

episode: 10848 reward: 1.0 average reward: 0.5933333333333334
episode: 10849 reward: 1.0 average reward: 0.5933333333333334
episode: 10850 reward: 1.0 average reward: 0.5933333333333334
episode: 10851 reward: 1.0 average reward: 0.5933333333333334
episode: 10852 reward: 1.0 average reward: 0.5933333333333334
episode: 10853 reward: 1.0 average reward: 0.5933333333333334
episode: 10854 reward: 1.0 average reward: 0.5933333333333334
saved model maxs: 0.6 caught fruits (100):  240.0
episode: 10855 reward: 1.0 average reward: 0.6
saved model maxs: 0.6066666666666667 caught fruits (100):  241.0
episode: 10856 reward: 1.0 average reward: 0.6066666666666667
episode: 10857 reward: 1.0 average reward: 0.6066666666666667
saved model maxs: 0.6133333333333333 caught fruits (100):  242.0
episode: 10858 reward: 1.0 average reward: 0.6133333333333333
episode: 10859 reward: 1.0 average reward: 0.6133333333333333
saved model maxs: 0.62 caught fruits (100):  243.0
episode: 10860 reward: 1.0 average rewar

episode: 10988 reward: 1.0 average reward: 0.64
episode: 10989 reward: 1.0 average reward: 0.64
episode: 10990 reward: 1.0 average reward: 0.64
episode: 10991 reward: 1.0 average reward: 0.64
episode: 10992 reward: -1.0 average reward: 0.6333333333333333
episode: 10993 reward: 1.0 average reward: 0.64
episode: 10994 reward: 1.0 average reward: 0.6466666666666666
episode: 10995 reward: -1.0 average reward: 0.64
episode: 10996 reward: 1.0 average reward: 0.6466666666666666
episode: 10997 reward: 1.0 average reward: 0.6466666666666666
episode: 10998 reward: 1.0 average reward: 0.6533333333333333
episode: 10999 reward: 1.0 average reward: 0.6533333333333333
episode: 11000 reward: 1.0 average reward: 0.6533333333333333
episode: 11001 reward: 1.0 average reward: 0.6533333333333333
episode: 11002 reward: 1.0 average reward: 0.6533333333333333
episode: 11003 reward: 1.0 average reward: 0.6533333333333333
episode: 11004 reward: 1.0 average reward: 0.6533333333333333
episode: 11005 reward: -1.0 

episode: 11140 reward: -1.0 average reward: 0.6333333333333333
episode: 11141 reward: -1.0 average reward: 0.6266666666666667
episode: 11142 reward: 1.0 average reward: 0.6266666666666667
episode: 11143 reward: 1.0 average reward: 0.6266666666666667
episode: 11144 reward: -1.0 average reward: 0.62
episode: 11145 reward: 1.0 average reward: 0.62
episode: 11146 reward: 1.0 average reward: 0.62
episode: 11147 reward: 1.0 average reward: 0.62
episode: 11148 reward: 1.0 average reward: 0.62
episode: 11149 reward: 1.0 average reward: 0.62
episode: 11150 reward: -1.0 average reward: 0.6133333333333333
episode: 11151 reward: -1.0 average reward: 0.6066666666666667
episode: 11152 reward: 1.0 average reward: 0.6066666666666667
episode: 11153 reward: 1.0 average reward: 0.6066666666666667
episode: 11154 reward: 1.0 average reward: 0.6066666666666667
episode: 11155 reward: 1.0 average reward: 0.6066666666666667
episode: 11156 reward: -1.0 average reward: 0.6
episode: 11157 reward: 1.0 average rewa

episode: 11294 reward: -1.0 average reward: 0.58
episode: 11295 reward: -1.0 average reward: 0.58
episode: 11296 reward: 1.0 average reward: 0.58
episode: 11297 reward: 1.0 average reward: 0.58
episode: 11298 reward: 1.0 average reward: 0.58
episode: 11299 reward: 1.0 average reward: 0.58
episode: 11300 reward: -1.0 average reward: 0.5733333333333334
episode: 11301 reward: -1.0 average reward: 0.5666666666666667
episode: 11302 reward: 1.0 average reward: 0.5666666666666667
episode: 11303 reward: -1.0 average reward: 0.56
episode: 11304 reward: 1.0 average reward: 0.56
episode: 11305 reward: -1.0 average reward: 0.56
episode: 11306 reward: 1.0 average reward: 0.56
episode: 11307 reward: 1.0 average reward: 0.5666666666666667
episode: 11308 reward: 1.0 average reward: 0.5666666666666667
episode: 11309 reward: 1.0 average reward: 0.5666666666666667
episode: 11310 reward: 1.0 average reward: 0.5666666666666667
episode: 11311 reward: -1.0 average reward: 0.56
episode: 11312 reward: -1.0 ave

episode: 11444 reward: 1.0 average reward: 0.5466666666666666
episode: 11445 reward: 1.0 average reward: 0.5466666666666666
episode: 11446 reward: 1.0 average reward: 0.5466666666666666
episode: 11447 reward: 1.0 average reward: 0.5466666666666666
episode: 11448 reward: 1.0 average reward: 0.5466666666666666
episode: 11449 reward: 1.0 average reward: 0.5466666666666666
episode: 11450 reward: -1.0 average reward: 0.5466666666666666
episode: 11451 reward: -1.0 average reward: 0.5466666666666666
episode: 11452 reward: 1.0 average reward: 0.5466666666666666
episode: 11453 reward: 1.0 average reward: 0.5466666666666666
episode: 11454 reward: 1.0 average reward: 0.5466666666666666
episode: 11455 reward: 1.0 average reward: 0.5466666666666666
episode: 11456 reward: 1.0 average reward: 0.5533333333333333
episode: 11457 reward: 1.0 average reward: 0.5533333333333333
episode: 11458 reward: 1.0 average reward: 0.56
episode: 11459 reward: 1.0 average reward: 0.56
episode: 11460 reward: -1.0 averag

episode: 11590 reward: 1.0 average reward: 0.5333333333333333
episode: 11591 reward: 1.0 average reward: 0.5333333333333333
episode: 11592 reward: -1.0 average reward: 0.5266666666666666
episode: 11593 reward: 1.0 average reward: 0.5266666666666666
episode: 11594 reward: 1.0 average reward: 0.5333333333333333
episode: 11595 reward: 1.0 average reward: 0.54
episode: 11596 reward: 1.0 average reward: 0.54
episode: 11597 reward: 1.0 average reward: 0.54
episode: 11598 reward: 1.0 average reward: 0.54
episode: 11599 reward: 1.0 average reward: 0.54
episode: 11600 reward: 1.0 average reward: 0.5466666666666666
episode: 11601 reward: -1.0 average reward: 0.5466666666666666
episode: 11602 reward: 1.0 average reward: 0.5466666666666666
episode: 11603 reward: 1.0 average reward: 0.5533333333333333
episode: 11604 reward: -1.0 average reward: 0.5466666666666666
episode: 11605 reward: -1.0 average reward: 0.5466666666666666
episode: 11606 reward: 1.0 average reward: 0.5466666666666666
episode: 116

episode: 11734 reward: 1.0 average reward: 0.5333333333333333
episode: 11735 reward: 1.0 average reward: 0.5333333333333333
episode: 11736 reward: -1.0 average reward: 0.5266666666666666
episode: 11737 reward: 1.0 average reward: 0.5266666666666666
episode: 11738 reward: -1.0 average reward: 0.5266666666666666
episode: 11739 reward: 1.0 average reward: 0.5333333333333333
episode: 11740 reward: 1.0 average reward: 0.5333333333333333
episode: 11741 reward: -1.0 average reward: 0.5266666666666666
episode: 11742 reward: 1.0 average reward: 0.5266666666666666
episode: 11743 reward: 1.0 average reward: 0.5266666666666666
episode: 11744 reward: 1.0 average reward: 0.5266666666666666
episode: 11745 reward: 1.0 average reward: 0.5266666666666666
episode: 11746 reward: 1.0 average reward: 0.5266666666666666
episode: 11747 reward: 1.0 average reward: 0.5266666666666666
episode: 11748 reward: 1.0 average reward: 0.5266666666666666
episode: 11749 reward: 1.0 average reward: 0.5266666666666666
episo

episode: 11879 reward: -1.0 average reward: 0.5533333333333333
episode: 11880 reward: 1.0 average reward: 0.5533333333333333
episode: 11881 reward: -1.0 average reward: 0.5466666666666666
episode: 11882 reward: 1.0 average reward: 0.5466666666666666
episode: 11883 reward: -1.0 average reward: 0.54
episode: 11884 reward: 1.0 average reward: 0.5466666666666666
episode: 11885 reward: 1.0 average reward: 0.5533333333333333
episode: 11886 reward: 1.0 average reward: 0.56
episode: 11887 reward: 1.0 average reward: 0.5666666666666667
episode: 11888 reward: 1.0 average reward: 0.5666666666666667
episode: 11889 reward: 1.0 average reward: 0.5733333333333334
episode: 11890 reward: 1.0 average reward: 0.5733333333333334
episode: 11891 reward: 1.0 average reward: 0.5733333333333334
episode: 11892 reward: 1.0 average reward: 0.58
episode: 11893 reward: 1.0 average reward: 0.58
episode: 11894 reward: -1.0 average reward: 0.5733333333333334
episode: 11895 reward: 1.0 average reward: 0.573333333333333

episode: 12035 reward: 1.0 average reward: 0.62
episode: 12036 reward: -1.0 average reward: 0.62
episode: 12037 reward: 1.0 average reward: 0.62
episode: 12038 reward: 1.0 average reward: 0.6266666666666667
episode: 12039 reward: 1.0 average reward: 0.6266666666666667
episode: 12040 reward: 1.0 average reward: 0.6266666666666667
episode: 12041 reward: 1.0 average reward: 0.6333333333333333
episode: 12042 reward: 1.0 average reward: 0.6333333333333333
episode: 12043 reward: -1.0 average reward: 0.6266666666666667
episode: 12044 reward: 1.0 average reward: 0.6266666666666667
episode: 12045 reward: 1.0 average reward: 0.6266666666666667
episode: 12046 reward: 1.0 average reward: 0.6266666666666667
episode: 12047 reward: 1.0 average reward: 0.6266666666666667
episode: 12048 reward: -1.0 average reward: 0.62
episode: 12049 reward: 1.0 average reward: 0.62
episode: 12050 reward: 1.0 average reward: 0.62
episode: 12051 reward: 1.0 average reward: 0.62
episode: 12052 reward: -1.0 average rewar

episode: 12187 reward: 1.0 average reward: 0.6066666666666667
episode: 12188 reward: 1.0 average reward: 0.6066666666666667
episode: 12189 reward: 1.0 average reward: 0.6066666666666667
episode: 12190 reward: 1.0 average reward: 0.6066666666666667
episode: 12191 reward: 1.0 average reward: 0.6066666666666667
episode: 12192 reward: -1.0 average reward: 0.6
episode: 12193 reward: 1.0 average reward: 0.6
episode: 12194 reward: 1.0 average reward: 0.6066666666666667
episode: 12195 reward: 1.0 average reward: 0.6066666666666667
episode: 12196 reward: 1.0 average reward: 0.6066666666666667
episode: 12197 reward: 1.0 average reward: 0.6066666666666667
episode: 12198 reward: 1.0 average reward: 0.6066666666666667
episode: 12199 reward: -1.0 average reward: 0.6
episode: 12200 reward: 1.0 average reward: 0.6
episode: 12201 reward: 1.0 average reward: 0.6
episode: 12202 reward: 1.0 average reward: 0.6066666666666667
episode: 12203 reward: 1.0 average reward: 0.6066666666666667
episode: 12204 rewa

episode: 12335 reward: -1.0 average reward: 0.5666666666666667
episode: 12336 reward: 1.0 average reward: 0.5733333333333334
episode: 12337 reward: -1.0 average reward: 0.5666666666666667
episode: 12338 reward: 1.0 average reward: 0.5666666666666667
episode: 12339 reward: 1.0 average reward: 0.5666666666666667
episode: 12340 reward: 1.0 average reward: 0.5666666666666667
episode: 12341 reward: 1.0 average reward: 0.5666666666666667
episode: 12342 reward: 1.0 average reward: 0.5666666666666667
episode: 12343 reward: 1.0 average reward: 0.5733333333333334
episode: 12344 reward: 1.0 average reward: 0.5733333333333334
episode: 12345 reward: 1.0 average reward: 0.5733333333333334
episode: 12346 reward: 1.0 average reward: 0.5733333333333334
episode: 12347 reward: 1.0 average reward: 0.5733333333333334
episode: 12348 reward: 1.0 average reward: 0.58
episode: 12349 reward: 1.0 average reward: 0.58
episode: 12350 reward: 1.0 average reward: 0.58
episode: 12351 reward: -1.0 average reward: 0.57

episode: 12487 reward: 1.0 average reward: 0.5133333333333333
episode: 12488 reward: 1.0 average reward: 0.5133333333333333
episode: 12489 reward: 1.0 average reward: 0.5133333333333333
episode: 12490 reward: 1.0 average reward: 0.5133333333333333
episode: 12491 reward: 1.0 average reward: 0.5133333333333333
episode: 12492 reward: 1.0 average reward: 0.52
episode: 12493 reward: 1.0 average reward: 0.52
episode: 12494 reward: 1.0 average reward: 0.52
episode: 12495 reward: -1.0 average reward: 0.5133333333333333
episode: 12496 reward: -1.0 average reward: 0.5066666666666667
episode: 12497 reward: -1.0 average reward: 0.5
episode: 12498 reward: -1.0 average reward: 0.49333333333333335
episode: 12499 reward: 1.0 average reward: 0.5
episode: 12500 reward: -1.0 average reward: 0.49333333333333335
episode: 12501 reward: -1.0 average reward: 0.4866666666666667
episode: 12502 reward: 1.0 average reward: 0.4866666666666667
episode: 12503 reward: 1.0 average reward: 0.4866666666666667
episode: 1

episode: 12637 reward: 1.0 average reward: 0.48
episode: 12638 reward: 1.0 average reward: 0.48
episode: 12639 reward: -1.0 average reward: 0.47333333333333333
episode: 12640 reward: 1.0 average reward: 0.47333333333333333
episode: 12641 reward: 1.0 average reward: 0.47333333333333333
episode: 12642 reward: -1.0 average reward: 0.4666666666666667
episode: 12643 reward: 1.0 average reward: 0.4666666666666667
episode: 12644 reward: -1.0 average reward: 0.46
episode: 12645 reward: 1.0 average reward: 0.46
episode: 12646 reward: 1.0 average reward: 0.46
episode: 12647 reward: 1.0 average reward: 0.46
episode: 12648 reward: 1.0 average reward: 0.46
episode: 12649 reward: 1.0 average reward: 0.46
episode: 12650 reward: 1.0 average reward: 0.46
episode: 12651 reward: -1.0 average reward: 0.46
episode: 12652 reward: 1.0 average reward: 0.46
episode: 12653 reward: 1.0 average reward: 0.46
episode: 12654 reward: 1.0 average reward: 0.46
episode: 12655 reward: 1.0 average reward: 0.46
episode: 12

episode: 12785 reward: 1.0 average reward: 0.36
episode: 12786 reward: 1.0 average reward: 0.36
episode: 12787 reward: 1.0 average reward: 0.36
episode: 12788 reward: 1.0 average reward: 0.36
episode: 12789 reward: 1.0 average reward: 0.36
episode: 12790 reward: 1.0 average reward: 0.36
episode: 12791 reward: 1.0 average reward: 0.36
episode: 12792 reward: 1.0 average reward: 0.36
episode: 12793 reward: 1.0 average reward: 0.36
episode: 12794 reward: -1.0 average reward: 0.35333333333333333
episode: 12795 reward: -1.0 average reward: 0.35333333333333333
episode: 12796 reward: 1.0 average reward: 0.36
episode: 12797 reward: 1.0 average reward: 0.36666666666666664
episode: 12798 reward: -1.0 average reward: 0.36666666666666664
episode: 12799 reward: -1.0 average reward: 0.36
episode: 12800 reward: 1.0 average reward: 0.36666666666666664
episode: 12801 reward: 1.0 average reward: 0.37333333333333335
episode: 12802 reward: 1.0 average reward: 0.37333333333333335
episode: 12803 reward: 1.0 

episode: 12928 reward: -1.0 average reward: 0.14
episode: 12929 reward: 1.0 average reward: 0.14
episode: 12930 reward: -1.0 average reward: 0.13333333333333333
episode: 12931 reward: 1.0 average reward: 0.14
episode: 12932 reward: 1.0 average reward: 0.14
episode: 12933 reward: 1.0 average reward: 0.14666666666666667
episode: 12934 reward: 1.0 average reward: 0.14666666666666667
episode: 12935 reward: 1.0 average reward: 0.14666666666666667
episode: 12936 reward: 1.0 average reward: 0.14666666666666667
episode: 12937 reward: 1.0 average reward: 0.14666666666666667
episode: 12938 reward: 1.0 average reward: 0.14666666666666667
episode: 12939 reward: -1.0 average reward: 0.14666666666666667
episode: 12940 reward: -1.0 average reward: 0.14
episode: 12941 reward: -1.0 average reward: 0.13333333333333333
episode: 12942 reward: 1.0 average reward: 0.14
episode: 12943 reward: 1.0 average reward: 0.14
episode: 12944 reward: 1.0 average reward: 0.14666666666666667
episode: 12945 reward: 1.0 av

episode: 13074 reward: 1.0 average reward: 0.12
episode: 13075 reward: 1.0 average reward: 0.12
episode: 13076 reward: 1.0 average reward: 0.12
episode: 13077 reward: 1.0 average reward: 0.12
episode: 13078 reward: 1.0 average reward: 0.12
episode: 13079 reward: 1.0 average reward: 0.12
episode: 13080 reward: -1.0 average reward: 0.11333333333333333
episode: 13081 reward: -1.0 average reward: 0.10666666666666667
episode: 13082 reward: -1.0 average reward: 0.10666666666666667
episode: 13083 reward: 1.0 average reward: 0.10666666666666667
episode: 13084 reward: 1.0 average reward: 0.11333333333333333
episode: 13085 reward: -1.0 average reward: 0.10666666666666667
episode: 13086 reward: -1.0 average reward: 0.1
episode: 13087 reward: -1.0 average reward: 0.09333333333333334
episode: 13088 reward: 1.0 average reward: 0.09333333333333334
episode: 13089 reward: 1.0 average reward: 0.09333333333333334
episode: 13090 reward: -1.0 average reward: 0.08666666666666667
episode: 13091 reward: 1.0 a

episode: 13218 reward: -1.0 average reward: -0.013333333333333334
episode: 13219 reward: -1.0 average reward: -0.02
episode: 13220 reward: -1.0 average reward: -0.02
episode: 13221 reward: -1.0 average reward: -0.02
episode: 13222 reward: -1.0 average reward: -0.02
episode: 13223 reward: -1.0 average reward: -0.02
episode: 13224 reward: 1.0 average reward: -0.02
episode: 13225 reward: -1.0 average reward: -0.02666666666666667
episode: 13226 reward: 1.0 average reward: -0.02
episode: 13227 reward: -1.0 average reward: -0.02
episode: 13228 reward: 1.0 average reward: -0.013333333333333334
episode: 13229 reward: -1.0 average reward: -0.02
episode: 13230 reward: -1.0 average reward: -0.02
episode: 13231 reward: -1.0 average reward: -0.02666666666666667
episode: 13232 reward: 1.0 average reward: -0.02666666666666667
episode: 13233 reward: 1.0 average reward: -0.02666666666666667
episode: 13234 reward: -1.0 average reward: -0.03333333333333333
episode: 13235 reward: 1.0 average reward: -0.03

episode: 13362 reward: -1.0 average reward: -0.04666666666666667
episode: 13363 reward: -1.0 average reward: -0.05333333333333334
episode: 13364 reward: -1.0 average reward: -0.06
episode: 13365 reward: -1.0 average reward: -0.06
episode: 13366 reward: -1.0 average reward: -0.06666666666666667
episode: 13367 reward: -1.0 average reward: -0.06666666666666667
episode: 13368 reward: 1.0 average reward: -0.06
episode: 13369 reward: -1.0 average reward: -0.06
episode: 13370 reward: 1.0 average reward: -0.05333333333333334
episode: 13371 reward: -1.0 average reward: -0.06
episode: 13372 reward: 1.0 average reward: -0.06
episode: 13373 reward: -1.0 average reward: -0.06
episode: 13374 reward: 1.0 average reward: -0.06
episode: 13375 reward: 1.0 average reward: -0.06
episode: 13376 reward: 1.0 average reward: -0.06
episode: 13377 reward: 1.0 average reward: -0.06
episode: 13378 reward: 1.0 average reward: -0.06
episode: 13379 reward: -1.0 average reward: -0.06666666666666667
episode: 13380 rew

episode: 13503 reward: 1.0 average reward: 0.04
episode: 13504 reward: -1.0 average reward: 0.03333333333333333
episode: 13505 reward: -1.0 average reward: 0.03333333333333333
episode: 13506 reward: 1.0 average reward: 0.03333333333333333
episode: 13507 reward: 1.0 average reward: 0.04
episode: 13508 reward: 1.0 average reward: 0.04
episode: 13509 reward: 1.0 average reward: 0.04666666666666667
episode: 13510 reward: 1.0 average reward: 0.05333333333333334
episode: 13511 reward: -1.0 average reward: 0.04666666666666667
episode: 13512 reward: 1.0 average reward: 0.05333333333333334
episode: 13513 reward: -1.0 average reward: 0.05333333333333334
episode: 13514 reward: 1.0 average reward: 0.05333333333333334
episode: 13515 reward: 1.0 average reward: 0.06
episode: 13516 reward: 1.0 average reward: 0.06666666666666667
episode: 13517 reward: 1.0 average reward: 0.06666666666666667
episode: 13518 reward: 1.0 average reward: 0.07333333333333333
episode: 13519 reward: 1.0 average reward: 0.08


episode: 13653 reward: 1.0 average reward: 0.2
episode: 13654 reward: 1.0 average reward: 0.2
episode: 13655 reward: -1.0 average reward: 0.19333333333333333
episode: 13656 reward: -1.0 average reward: 0.19333333333333333
episode: 13657 reward: 1.0 average reward: 0.2
episode: 13658 reward: 1.0 average reward: 0.2
episode: 13659 reward: -1.0 average reward: 0.19333333333333333
episode: 13660 reward: 1.0 average reward: 0.19333333333333333
episode: 13661 reward: -1.0 average reward: 0.18666666666666668
episode: 13662 reward: -1.0 average reward: 0.18666666666666668
episode: 13663 reward: 1.0 average reward: 0.19333333333333333
episode: 13664 reward: 1.0 average reward: 0.2
episode: 13665 reward: -1.0 average reward: 0.2
episode: 13666 reward: 1.0 average reward: 0.20666666666666667
episode: 13667 reward: 1.0 average reward: 0.21333333333333335
episode: 13668 reward: -1.0 average reward: 0.20666666666666667
episode: 13669 reward: 1.0 average reward: 0.21333333333333335
episode: 13670 rew

episode: 13792 reward: 1.0 average reward: 0.32
episode: 13793 reward: -1.0 average reward: 0.32
episode: 13794 reward: 1.0 average reward: 0.32
episode: 13795 reward: -1.0 average reward: 0.31333333333333335
episode: 13796 reward: 1.0 average reward: 0.32
episode: 13797 reward: -1.0 average reward: 0.31333333333333335
episode: 13798 reward: 1.0 average reward: 0.31333333333333335
episode: 13799 reward: -1.0 average reward: 0.30666666666666664
episode: 13800 reward: 1.0 average reward: 0.30666666666666664
episode: 13801 reward: 1.0 average reward: 0.31333333333333335
episode: 13802 reward: -1.0 average reward: 0.31333333333333335
episode: 13803 reward: -1.0 average reward: 0.30666666666666664
episode: 13804 reward: -1.0 average reward: 0.30666666666666664
episode: 13805 reward: -1.0 average reward: 0.30666666666666664
episode: 13806 reward: 1.0 average reward: 0.30666666666666664
episode: 13807 reward: 1.0 average reward: 0.30666666666666664
episode: 13808 reward: 1.0 average reward: 0

episode: 13936 reward: 1.0 average reward: 0.20666666666666667
episode: 13937 reward: -1.0 average reward: 0.2
episode: 13938 reward: 1.0 average reward: 0.2
episode: 13939 reward: -1.0 average reward: 0.2
episode: 13940 reward: 1.0 average reward: 0.2
episode: 13941 reward: -1.0 average reward: 0.2
episode: 13942 reward: -1.0 average reward: 0.2
episode: 13943 reward: -1.0 average reward: 0.19333333333333333
episode: 13944 reward: -1.0 average reward: 0.19333333333333333
episode: 13945 reward: -1.0 average reward: 0.18666666666666668
episode: 13946 reward: -1.0 average reward: 0.18666666666666668
episode: 13947 reward: 1.0 average reward: 0.18666666666666668
episode: 13948 reward: -1.0 average reward: 0.18
episode: 13949 reward: -1.0 average reward: 0.17333333333333334
episode: 13950 reward: 1.0 average reward: 0.17333333333333334
episode: 13951 reward: -1.0 average reward: 0.16666666666666666
episode: 13952 reward: 1.0 average reward: 0.17333333333333334
episode: 13953 reward: 1.0 av

episode: 14082 reward: -1.0 average reward: 0.18666666666666668
episode: 14083 reward: 1.0 average reward: 0.18666666666666668
episode: 14084 reward: 1.0 average reward: 0.19333333333333333
episode: 14085 reward: 1.0 average reward: 0.19333333333333333
episode: 14086 reward: 1.0 average reward: 0.19333333333333333
episode: 14087 reward: -1.0 average reward: 0.18666666666666668
episode: 14088 reward: -1.0 average reward: 0.18
episode: 14089 reward: 1.0 average reward: 0.18666666666666668
episode: 14090 reward: 1.0 average reward: 0.18666666666666668
episode: 14091 reward: -1.0 average reward: 0.18
episode: 14092 reward: 1.0 average reward: 0.18
episode: 14093 reward: -1.0 average reward: 0.18
episode: 14094 reward: 1.0 average reward: 0.18
episode: 14095 reward: 1.0 average reward: 0.18666666666666668
episode: 14096 reward: -1.0 average reward: 0.18
episode: 14097 reward: 1.0 average reward: 0.18666666666666668
episode: 14098 reward: 1.0 average reward: 0.18666666666666668
episode: 1409

episode: 14223 reward: 1.0 average reward: 0.28
episode: 14224 reward: 1.0 average reward: 0.28
episode: 14225 reward: 1.0 average reward: 0.28
episode: 14226 reward: -1.0 average reward: 0.28
episode: 14227 reward: 1.0 average reward: 0.2866666666666667
episode: 14228 reward: -1.0 average reward: 0.2866666666666667
episode: 14229 reward: 1.0 average reward: 0.2866666666666667
episode: 14230 reward: 1.0 average reward: 0.2866666666666667
episode: 14231 reward: -1.0 average reward: 0.2866666666666667
episode: 14232 reward: -1.0 average reward: 0.2866666666666667
episode: 14233 reward: 1.0 average reward: 0.29333333333333333
episode: 14234 reward: 1.0 average reward: 0.29333333333333333
episode: 14235 reward: -1.0 average reward: 0.2866666666666667
episode: 14236 reward: 1.0 average reward: 0.2866666666666667
episode: 14237 reward: 1.0 average reward: 0.29333333333333333
episode: 14238 reward: -1.0 average reward: 0.2866666666666667
episode: 14239 reward: 1.0 average reward: 0.2933333333

episode: 14372 reward: -1.0 average reward: 0.36
episode: 14373 reward: 1.0 average reward: 0.36666666666666664
episode: 14374 reward: 1.0 average reward: 0.36666666666666664
episode: 14375 reward: 1.0 average reward: 0.36666666666666664
episode: 14376 reward: -1.0 average reward: 0.36
episode: 14377 reward: -1.0 average reward: 0.36
episode: 14378 reward: 1.0 average reward: 0.36666666666666664
episode: 14379 reward: -1.0 average reward: 0.36
episode: 14380 reward: -1.0 average reward: 0.35333333333333333
episode: 14381 reward: 1.0 average reward: 0.36
episode: 14382 reward: 1.0 average reward: 0.36666666666666664
episode: 14383 reward: 1.0 average reward: 0.36666666666666664
episode: 14384 reward: 1.0 average reward: 0.36666666666666664
episode: 14385 reward: 1.0 average reward: 0.36666666666666664
episode: 14386 reward: -1.0 average reward: 0.36
episode: 14387 reward: 1.0 average reward: 0.36666666666666664
episode: 14388 reward: -1.0 average reward: 0.36666666666666664
episode: 143

episode: 14521 reward: 1.0 average reward: 0.3933333333333333
episode: 14522 reward: -1.0 average reward: 0.3933333333333333
episode: 14523 reward: 1.0 average reward: 0.3933333333333333
episode: 14524 reward: -1.0 average reward: 0.38666666666666666
episode: 14525 reward: 1.0 average reward: 0.38666666666666666
episode: 14526 reward: 1.0 average reward: 0.3933333333333333
episode: 14527 reward: 1.0 average reward: 0.3933333333333333
episode: 14528 reward: 1.0 average reward: 0.4
episode: 14529 reward: -1.0 average reward: 0.3933333333333333
episode: 14530 reward: 1.0 average reward: 0.3933333333333333
episode: 14531 reward: 1.0 average reward: 0.4
episode: 14532 reward: 1.0 average reward: 0.4066666666666667
episode: 14533 reward: 1.0 average reward: 0.4066666666666667
episode: 14534 reward: 1.0 average reward: 0.4066666666666667
episode: 14535 reward: -1.0 average reward: 0.4066666666666667
episode: 14536 reward: 1.0 average reward: 0.4066666666666667
episode: 14537 reward: 1.0 avera

episode: 14672 reward: -1.0 average reward: 0.43333333333333335
episode: 14673 reward: 1.0 average reward: 0.43333333333333335
episode: 14674 reward: -1.0 average reward: 0.4266666666666667
episode: 14675 reward: -1.0 average reward: 0.42
episode: 14676 reward: 1.0 average reward: 0.4266666666666667
episode: 14677 reward: -1.0 average reward: 0.4266666666666667
episode: 14678 reward: 1.0 average reward: 0.4266666666666667
episode: 14679 reward: -1.0 average reward: 0.4266666666666667
episode: 14680 reward: -1.0 average reward: 0.4266666666666667
episode: 14681 reward: 1.0 average reward: 0.4266666666666667
episode: 14682 reward: -1.0 average reward: 0.42
episode: 14683 reward: -1.0 average reward: 0.41333333333333333
episode: 14684 reward: 1.0 average reward: 0.41333333333333333
episode: 14685 reward: -1.0 average reward: 0.4066666666666667
episode: 14686 reward: 1.0 average reward: 0.41333333333333333
episode: 14687 reward: -1.0 average reward: 0.4066666666666667
episode: 14688 reward

episode: 14821 reward: 1.0 average reward: 0.32
episode: 14822 reward: -1.0 average reward: 0.32
episode: 14823 reward: 1.0 average reward: 0.32
episode: 14824 reward: 1.0 average reward: 0.32666666666666666
episode: 14825 reward: 1.0 average reward: 0.32666666666666666
episode: 14826 reward: 1.0 average reward: 0.32666666666666666
episode: 14827 reward: -1.0 average reward: 0.32
episode: 14828 reward: -1.0 average reward: 0.31333333333333335
episode: 14829 reward: -1.0 average reward: 0.31333333333333335
episode: 14830 reward: 1.0 average reward: 0.31333333333333335
episode: 14831 reward: 1.0 average reward: 0.31333333333333335
episode: 14832 reward: 1.0 average reward: 0.31333333333333335
episode: 14833 reward: 1.0 average reward: 0.31333333333333335
episode: 14834 reward: 1.0 average reward: 0.31333333333333335
episode: 14835 reward: -1.0 average reward: 0.31333333333333335
episode: 14836 reward: 1.0 average reward: 0.31333333333333335
episode: 14837 reward: 1.0 average reward: 0.31

episode: 14969 reward: 1.0 average reward: 0.24
episode: 14970 reward: 1.0 average reward: 0.24
episode: 14971 reward: -1.0 average reward: 0.24
episode: 14972 reward: 1.0 average reward: 0.24666666666666667
episode: 14973 reward: 1.0 average reward: 0.24666666666666667
episode: 14974 reward: -1.0 average reward: 0.24666666666666667
episode: 14975 reward: -1.0 average reward: 0.24666666666666667
episode: 14976 reward: -1.0 average reward: 0.24
episode: 14977 reward: 1.0 average reward: 0.24666666666666667
episode: 14978 reward: 1.0 average reward: 0.24666666666666667
episode: 14979 reward: 1.0 average reward: 0.25333333333333335
episode: 14980 reward: -1.0 average reward: 0.25333333333333335
episode: 14981 reward: 1.0 average reward: 0.25333333333333335
episode: 14982 reward: 1.0 average reward: 0.26
episode: 14983 reward: 1.0 average reward: 0.26666666666666666
episode: 14984 reward: 1.0 average reward: 0.26666666666666666
episode: 14985 reward: 1.0 average reward: 0.2733333333333333


KeyboardInterrupt: 

In [18]:
print(maxs)


0.6666666666666666


In [22]:
from keras.models import load_model
state_size = 100
action_size = 3
env = Catch(grid_size)
# make REINFORCE agent
agent = load_model('catch_reinforce.h5')
score = 0
for e in range(500):
    done = False
    env.reset()
    state = env.observe()
    state = np.reshape(state, [1, state_size])
    print(str(e)+" "+str(score))
    while not done:
        policy = agent.predict(state)
        action = np.argmax(policy)
        next_state, reward, done = env.act(action)
        next_state = np.reshape(next_state, [1, state_size])
        score = score + reward
#         display_screen(action,score,next_state)
        state = next_state
        

0 0
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 7
10 8
11 9
12 10
13 11
14 12
15 13
16 14
17 15
18 16
19 17
20 16
21 15
22 16
23 17
24 18
25 19
26 20
27 21
28 22
29 23
30 22
31 23
32 24
33 25
34 26
35 27
36 28
37 29
38 30
39 31
40 32
41 33
42 34
43 33
44 34
45 35
46 36
47 37
48 38
49 39
50 40
51 41
52 42
53 43
54 44
55 45
56 46
57 47
58 48
59 49
60 50
61 51
62 52
63 51
64 52
65 53
66 52
67 53
68 52
69 53
70 54
71 55
72 56
73 57
74 58
75 57
76 58
77 57
78 58
79 59
80 60
81 61
82 62
83 63
84 64
85 65
86 66
87 67
88 68
89 69
90 70
91 71
92 72
93 71
94 72
95 73
96 74
97 75
98 74
99 73
100 74
101 75
102 76
103 77
104 78
105 79
106 78
107 79
108 80
109 79
110 78
111 79
112 80
113 81
114 82
115 83
116 84
117 85
118 84
119 85
120 86
121 87
122 88
123 89
124 90
125 91
126 92
127 93
128 94
129 95
130 96
131 97
132 98
133 99
134 100
135 101
136 102
137 101
138 102
139 101
140 102
141 101
142 102
143 103
144 104
145 105
146 106
147 107
148 108
149 109
150 108
151 107
152 108
153 109
154 110
155 111
156 112
