In [1]:
from game_env_copy import GameEnv
import torch
import torch.nn as nn
import tqdm
import numpy as np

### Control Environment

In [2]:
env = GameEnv((20,20), (3,3), (18,18))

In [3]:
def layer_init(layer, bias_const=0.0):
    """Initialize the weights and biases of a layer.

    Args:
        layer (nn.Module): The layer to initialize.
        std (float): Standard deviation for orthogonal initialization.
        bias_const (float): Constant value for bias initialization.

    Returns:
        nn.Module: The initialized layer.
    """
    torch.nn.init.xavier_uniform_(layer.weight)  # Orthogonal initialization
    torch.nn.init.constant_(layer.bias, bias_const)  # Constant bias
    return layer

In [4]:
class Agent(nn.Module):
    def __init__(self, actor_input_size, critic_input_size, actor_output_size, critic_output_size):
        super(Agent, self).__init__()
        hidden_size1, hidden_size2, hidden_size3 = 64, 128, 64
        self.actor = nn.Sequential(
            layer_init(nn.Linear(actor_input_size, hidden_size1)),
            nn.LeakyReLU(),
            layer_init(nn.Linear(hidden_size1, hidden_size2)),
            nn.LeakyReLU(),
            layer_init(nn.Linear(hidden_size2, hidden_size3)),
            nn.LeakyReLU(),
            layer_init(nn.Linear(hidden_size3, actor_output_size))
        )
        self.critic = nn.Sequential(
            layer_init(nn.Linear(critic_input_size, hidden_size1)),
            nn.LeakyReLU(),
            layer_init(nn.Linear(hidden_size1, hidden_size2)),
            nn.LeakyReLU(),
            layer_init(nn.Linear(hidden_size2, hidden_size3)),
            nn.LeakyReLU(),
            layer_init(nn.Linear(hidden_size3, critic_output_size))
        )

    def get_value(self, state):
        return self.critic(state)

    def get_action_probs(self, state):
        return torch.distributions.categorical.Categorical(logits = self.actor(state))

    def get_action(self, probs):
        return probs.sample()

    def get_action_logprob(self, probs, action):
        return probs.log_prob(action)

    def get_entropy(self, probs):
        return probs.entropy()

    def get_action_logprob_entropy(self, state):
        probs = self.get_action_probs(state)
        action = self.get_action(probs)
        logprob = self.get_action_logprob(probs, action)
        entropy = self.get_entropy(probs)
        return action, logprob, entropy

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

agent_final = Agent(404, 404, 4, 1).to(device)
agent_adv = Agent(404, 404, 4, 1).to(device)
agent_trunc = Agent(404, 404, 4, 1).to(device)
agent_less = Agent(404, 404, 4, 1).to(device)
agent_op = Agent(404, 404, 4, 1).to(device)

agent_final.load_state_dict(torch.load('less_steps_model/model_final.pth', map_location=device))
agent_adv.load_state_dict(torch.load('less_steps_model/model_adversary.pth', map_location=device))
agent_trunc.load_state_dict(torch.load('less_steps_model/model_trunc.pth', map_location=device))
agent_less.load_state_dict(torch.load('less_steps_model/model_less.pth', map_location=device))
agent_op.load_state_dict(torch.load('model_op.pth', map_location=device))

<All keys matched successfully>

In [5]:
agents = [agent_final, agent_adv, agent_trunc, agent_less, agent_op]

In [6]:
def test(agent, env=GameEnv((20,20), (3,3), (18,18)), num_eps=10):
    rewards = []
    goal_reached = np.zeros(num_eps)

    for episode in tqdm.tqdm(range(num_eps), leave=None):
        total_reward = 0

        state, _ = env.reset()
        for i in range(5000):
            state_tensor = torch.tensor(state,dtype=torch.float32).to(device)

            with torch.no_grad():
                action, _, _ = agent.get_action_logprob_entropy(state_tensor)

            next_state, reward, done, _, infos = env.step(action.cpu().item())
            total_reward += reward

            state = torch.tensor(next_state, dtype=torch.float32, device=device)
            
    #         print(state[-4:])
            
            if done:
                goal_reached[episode] = 1
                break

        rewards.append(total_reward)

    env.close()

    print(f"\nMean Rewards: {np.mean(rewards)}{', never reach goal' if not goal_reached.any() else ''}\n")
    return np.mean(rewards), goal_reached

In [7]:
def test_agents(agents, *args):
    rewards = []
    goal_reached = []
    for agent in agents:
        reward, goal_reach = test(agent, *args)
        rewards.append(reward)
        goal_reached.append(goal_reach)
    return rewards, goal_reached

In [None]:
results3 = [test_agents(agents, GameEnv((20,20), (np.random.randint(1, 7),np.random.randint(1,7)), (18, 18)), 1) for i in range(10) ]
results4 = [test_agents(agents, GameEnv((20,20), (np.random.randint(1, 21),np.random.randint(1,21)), (np.random.randint(1, 21),np.random.randint(1,21))), 1) for i in range(10) ]
results2= [test_agents(agents, GameEnv((20,20), (3,3), (np.random.randint(12, 21),np.random.randint(12,21))), 1) for i in range(10)]
results1= test_agents(agents, GameEnv((20,20), (3,3), (18, 18)), 10)

In [8]:
results1 = test_agents(agents, GameEnv((20,20), (3,3), (18, 18)), 10) # training env
results2 = test_agents(agents, GameEnv((20, 20), (18, 18), (3, 3)), 10) # swapped start goal
results3 = [test_agents(agents, GameEnv((20,20), (np.random.randint(1, 7),np.random.randint(1,7)), (np.random.randint(12, 21),np.random.randint(12,21))), 1) for i in range(10) ] # up right
results4 = [test_agents(agents, GameEnv((20,20), (np.random.randint(12, 21),np.random.randint(12,21)), (np.random.randint(1, 7),np.random.randint(1,7))), 1) for i in range(10) ] # down left
results5 = [test_agents(agents, GameEnv((20,20), (np.random.randint(1, 7),np.random.randint(12,21)), (np.random.randint(12, 21),np.random.randint(1,7))), 1) for i in range(10) ] # down right
results6 = [test_agents(agents, GameEnv((20,20), (np.random.randint(12, 21),np.random.randint(1,7)), (np.random.randint(1, 7),np.random.randint(12,21))), 1) for i in range(10) ] # up left
results7 = [test_agents(agents, GameEnv((20,20), (np.random.randint(1, 21),np.random.randint(1,21)), (np.random.randint(1, 21),np.random.randint(1,21))), 1) for i in range(10) ] # random

  state_tensor = torch.tensor(state,dtype=torch.float32).to(device)
100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:36<00:00,  9.64s/it]



Mean Rewards: -44399.3, never reach goal



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:40<00:00, 10.05s/it]



Mean Rewards: -116974.4, never reach goal



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:37<00:00,  9.76s/it]



Mean Rewards: -85074.0, never reach goal



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:36<00:00,  9.62s/it]



Mean Rewards: -95157.1, never reach goal



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:00<00:00, 13.31it/s]



Mean Rewards: 1563.6



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:42<00:00, 10.26s/it]



Mean Rewards: -26840.1, never reach goal



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  8.70it/s]



Mean Rewards: 1482.3



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:43<00:00, 10.31s/it]



Mean Rewards: -24300.3, never reach goal



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [01:47<00:00, 10.76s/it]



Mean Rewards: -95034.4, never reach goal



100%|██████████████████████████████████████████████████████████████████████████████████| 10/10 [00:01<00:00,  9.91it/s]



Mean Rewards: 1488.1



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.04s/it]



Mean Rewards: -29499.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.73s/it]



Mean Rewards: -96822.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.58s/it]



Mean Rewards: -65041.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.33s/it]



Mean Rewards: -65117.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.28s/it]



Mean Rewards: -39304.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.18s/it]



Mean Rewards: 17.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.12s/it]



Mean Rewards: -113296.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.26s/it]



Mean Rewards: -45153.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.73s/it]



Mean Rewards: -70424.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.39s/it]



Mean Rewards: -33170.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.33s/it]



Mean Rewards: -43410.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.44s/it]



Mean Rewards: -89086.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.40s/it]



Mean Rewards: -94954.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.10s/it]



Mean Rewards: -104801.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:07<00:00,  7.82s/it]



Mean Rewards: -7657.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.44s/it]



Mean Rewards: -61634.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.74s/it]



Mean Rewards: -120378.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.97s/it]



Mean Rewards: -100101.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.47s/it]



Mean Rewards: -100287.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.96it/s]



Mean Rewards: 1388.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.93s/it]



Mean Rewards: -44874.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.20s/it]



Mean Rewards: -109396.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.47s/it]



Mean Rewards: -95005.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.89s/it]



Mean Rewards: -105059.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:07<00:00,  7.40s/it]



Mean Rewards: -8036.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.67s/it]



Mean Rewards: -55926.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.12s/it]



Mean Rewards: -85472.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.40s/it]



Mean Rewards: -92930.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.72s/it]



Mean Rewards: -109874.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.35s/it]



Mean Rewards: -17118.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.53s/it]



Mean Rewards: -23841.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.40s/it]



Mean Rewards: -89316.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.76s/it]



Mean Rewards: -75029.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.05s/it]



Mean Rewards: -75123.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.87s/it]



Mean Rewards: -27644.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.94s/it]



Mean Rewards: -58437.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.17s/it]



Mean Rewards: -120222.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.58s/it]



Mean Rewards: -90057.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.90s/it]



Mean Rewards: -110153.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.72s/it]



Mean Rewards: -15435.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:12<00:00, 12.11s/it]



Mean Rewards: -33990.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.09s/it]



Mean Rewards: -88930.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.08s/it]



Mean Rewards: -94979.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.23s/it]



Mean Rewards: -94921.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.51it/s]



Mean Rewards: 1693.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.87s/it]



Mean Rewards: -26638.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.95s/it]



Mean Rewards: -99330.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.55s/it]



Mean Rewards: -45041.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.74s/it]



Mean Rewards: -70184.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.10s/it]



Mean Rewards: -33548.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.36s/it]



Mean Rewards: -26707.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.43s/it]



Mean Rewards: -690.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.08s/it]



Mean Rewards: -22001.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.76s/it]



Mean Rewards: -85076.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.52it/s]



Mean Rewards: 1094.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.38it/s]



Mean Rewards: 748.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.53s/it]



Mean Rewards: -25572.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.30s/it]



Mean Rewards: 439.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.06s/it]



Mean Rewards: -69974.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.74s/it]



Mean Rewards: -31806.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.57s/it]



Mean Rewards: -42602.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  9.91it/s]



Mean Rewards: 1642.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.60s/it]



Mean Rewards: -40578.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.91s/it]



Mean Rewards: -109983.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.54s/it]



Mean Rewards: -17660.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.82s/it]



Mean Rewards: -21968.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  9.24it/s]



Mean Rewards: 1498.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.98s/it]



Mean Rewards: -17175.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.42s/it]



Mean Rewards: -90046.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.93it/s]



Mean Rewards: 1461.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.33s/it]



Mean Rewards: -27514.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  9.70it/s]



Mean Rewards: 1402.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.61s/it]



Mean Rewards: -24852.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.47s/it]



Mean Rewards: -100071.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.94it/s]



Mean Rewards: 1043.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.39s/it]



Mean Rewards: -55274.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  9.23it/s]



Mean Rewards: 1719.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.02s/it]



Mean Rewards: -46126.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.87s/it]



Mean Rewards: -119892.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.43s/it]



Mean Rewards: -28893.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.64s/it]



Mean Rewards: -19437.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  6.70it/s]



Mean Rewards: 1419.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.85s/it]



Mean Rewards: -19686.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.53s/it]



Mean Rewards: -100113.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  6.63it/s]



Mean Rewards: 1235.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.15it/s]



Mean Rewards: 1260.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.95it/s]



Mean Rewards: 1800.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.21s/it]



Mean Rewards: -30016.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.67s/it]



Mean Rewards: -90009.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 23.48it/s]



Mean Rewards: 1801.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.40it/s]



Mean Rewards: 917.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  6.80it/s]



Mean Rewards: 1501.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:03<00:00,  3.23s/it]



Mean Rewards: -3062.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.35s/it]



Mean Rewards: -90099.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 12.03it/s]



Mean Rewards: 1443.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  6.14it/s]



Mean Rewards: 1409.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.91it/s]



Mean Rewards: 1619.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.22s/it]



Mean Rewards: -16718.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.50s/it]



Mean Rewards: -85025.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.81it/s]



Mean Rewards: 1590.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.87s/it]



Mean Rewards: -35155.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.83s/it]



Mean Rewards: -67217.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.02s/it]



Mean Rewards: -23718.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.99s/it]



Mean Rewards: -44817.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.56s/it]



Mean Rewards: -61828.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.53s/it]



Mean Rewards: -402.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.05s/it]



Mean Rewards: -83106.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.01s/it]



Mean Rewards: -16199.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.49s/it]



Mean Rewards: -15746.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.78s/it]



Mean Rewards: -97930.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.93s/it]



Mean Rewards: -18838.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.88s/it]



Mean Rewards: -71328.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.91s/it]



Mean Rewards: -18894.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.64s/it]



Mean Rewards: -40257.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.02s/it]



Mean Rewards: -68312.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 14.27it/s]



Mean Rewards: 1501.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.04s/it]



Mean Rewards: -66753.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.52it/s]



Mean Rewards: 1107.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.47s/it]



Mean Rewards: -20293.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.33s/it]



Mean Rewards: -91576.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  9.07it/s]



Mean Rewards: 1422.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.51s/it]



Mean Rewards: -91220.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  7.62it/s]



Mean Rewards: 1145.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  6.89it/s]



Mean Rewards: 1441.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.89s/it]



Mean Rewards: -103190.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 16.95it/s]



Mean Rewards: 1609.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.21s/it]



Mean Rewards: -74772.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.39s/it]



Mean Rewards: -13763.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.02s/it]



Mean Rewards: -20350.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.21s/it]



Mean Rewards: -91666.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.04s/it]



Mean Rewards: -21766.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.28s/it]



Mean Rewards: -55393.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.56s/it]



Mean Rewards: -15258.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.40s/it]



Mean Rewards: -39225.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.08s/it]



Mean Rewards: -67938.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:12<00:00, 12.12s/it]



Mean Rewards: -14637.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.61s/it]



Mean Rewards: -72838.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.05s/it]



Mean Rewards: -16178.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.66s/it]



Mean Rewards: -30696.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.63s/it]



Mean Rewards: -80198.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 19.95it/s]



Mean Rewards: 1752.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.63s/it]



Mean Rewards: -55376.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  7.74it/s]



Mean Rewards: 1468.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 16.51it/s]



Mean Rewards: 1755.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.38s/it]



Mean Rewards: -67646.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.32s/it]



Mean Rewards: -22753.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:12<00:00, 12.06s/it]



Mean Rewards: -70000.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.24s/it]



Mean Rewards: -18809.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.26s/it]



Mean Rewards: -40065.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.09s/it]



Mean Rewards: -68272.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.92s/it]



Mean Rewards: -122466.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.83s/it]



Mean Rewards: -70394.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.64s/it]



Mean Rewards: -122272.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.69s/it]



Mean Rewards: -154879.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.93s/it]



Mean Rewards: -67636.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.84s/it]



Mean Rewards: -111952.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.15s/it]



Mean Rewards: -73148.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.10s/it]



Mean Rewards: -111710.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:12<00:00, 12.24s/it]



Mean Rewards: -149956.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.61s/it]



Mean Rewards: -61764.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.50s/it]



Mean Rewards: -110317.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.93s/it]



Mean Rewards: -77233.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.04s/it]



Mean Rewards: -111024.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.64s/it]



Mean Rewards: -154985.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.77s/it]



Mean Rewards: -67630.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.99s/it]



Mean Rewards: -152543.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.11s/it]



Mean Rewards: -66504.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.16s/it]



Mean Rewards: -133725.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.84s/it]



Mean Rewards: -164999.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.27s/it]



Mean Rewards: -79716.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.38s/it]



Mean Rewards: -117004.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.73s/it]



Mean Rewards: -65758.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.16s/it]



Mean Rewards: -109664.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.93s/it]



Mean Rewards: -139990.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.47s/it]



Mean Rewards: -49904.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.24s/it]



Mean Rewards: -153227.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.25s/it]



Mean Rewards: -67594.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.28s/it]



Mean Rewards: -140493.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.87s/it]



Mean Rewards: -164958.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.89s/it]



Mean Rewards: -79492.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.94s/it]



Mean Rewards: -142454.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.88s/it]



Mean Rewards: -62133.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:12<00:00, 12.18s/it]



Mean Rewards: -125219.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.50s/it]



Mean Rewards: -159950.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.43s/it]



Mean Rewards: -73658.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.09s/it]



Mean Rewards: -127168.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:11<00:00, 11.54s/it]



Mean Rewards: -58920.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.42s/it]



Mean Rewards: -116697.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.60s/it]



Mean Rewards: -139898.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.89s/it]



Mean Rewards: -50336.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.29s/it]



Mean Rewards: -148518.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.35s/it]



Mean Rewards: -85900.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.16s/it]



Mean Rewards: -149414.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.64s/it]



Mean Rewards: -184977.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.13s/it]



Mean Rewards: -102912.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.00s/it]



Mean Rewards: -111561.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.72s/it]



Mean Rewards: -72950.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.90s/it]



Mean Rewards: -111943.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00, 10.00s/it]



Mean Rewards: -149938.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.41s/it]



Mean Rewards: -61694.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.64s/it]



Mean Rewards: -193.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.83s/it]



Mean Rewards: -52846.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  1.09it/s]



Mean Rewards: 621.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.82s/it]



Mean Rewards: -30020.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.79s/it]



Mean Rewards: -79872.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.79s/it]



Mean Rewards: -31443.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  2.14it/s]



Mean Rewards: 1265.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.51s/it]



Mean Rewards: -32780.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.02s/it]



Mean Rewards: -94986.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.67it/s]



Mean Rewards: 1791.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.72s/it]



Mean Rewards: -22680.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.04s/it]



Mean Rewards: -113504.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.59s/it]



Mean Rewards: -22455.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.01s/it]



Mean Rewards: -80130.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.47s/it]



Mean Rewards: -21293.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.67s/it]



Mean Rewards: -29302.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.87s/it]



Mean Rewards: -69099.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.57s/it]



Mean Rewards: -23790.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.62s/it]



Mean Rewards: -49898.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.96s/it]



Mean Rewards: -56320.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.99s/it]



Mean Rewards: -89508.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.72s/it]



Mean Rewards: -46866.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.73s/it]



Mean Rewards: -70652.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.98s/it]



Mean Rewards: -104854.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:04<00:00,  4.11s/it]



Mean Rewards: -3591.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.86s/it]



Mean Rewards: -95827.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.89s/it]



Mean Rewards: -68228.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.73s/it]



Mean Rewards: -93402.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.09s/it]



Mean Rewards: -124664.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.93s/it]



Mean Rewards: -32926.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 18.84it/s]



Mean Rewards: 1915.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.97s/it]



Mean Rewards: -72712.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.26s/it]



Mean Rewards: -19785.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 21.48it/s]



Mean Rewards: 1934.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.98s/it]



Mean Rewards: -62122.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.12s/it]



Mean Rewards: -127459.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.68s/it]



Mean Rewards: -62788.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.16s/it]



Mean Rewards: -120305.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.73s/it]



Mean Rewards: -144906.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.14s/it]



Mean Rewards: -55724.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:02<00:00,  2.36s/it]



Mean Rewards: -7492.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.24s/it]



Mean Rewards: -130524.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.94s/it]



Mean Rewards: -60091.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.74s/it]



Mean Rewards: -95245.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 19.98it/s]



Mean Rewards: 1675.0



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.83s/it]



Mean Rewards: -23413.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.02s/it]



Mean Rewards: -95926.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:09<00:00,  9.80s/it]



Mean Rewards: -31457.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:10<00:00, 10.01s/it]



Mean Rewards: -84801.0, never reach goal



100%|████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:07<00:00,  7.68s/it]


Mean Rewards: -10390.0






In [9]:
def get_reward_goal(result):
    reward = []
    goal = []
    for res in result:
        reward.append(res[0])
        goal.append(res[1])
    return np.mean(np.array(reward), axis=0), np.hstack(np.array(goal))

In [10]:
tuple(map(np.array, results1))

(array([ -44399.3, -116974.4,  -85074. ,  -95157.1,    1563.6]),
 array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]]))

In [11]:
tuple(map(np.array, results2))

(array([-26840.1,   1482.3, -24300.3, -95034.4,   1488.1]),
 array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]]))

In [12]:
get_reward_goal(results3)

(array([ -37823.2, -101224.8,  -79829. ,  -90594.3,  -17883.1]),
 array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 1., 1., 1., 0., 0., 0., 1., 0.]]))

In [13]:
get_reward_goal(results4)

(array([-18916.8,  -1366.2, -21977.5, -94028.8,  -6869.2]),
 array([[0., 1., 0., 0., 0., 0., 0., 1., 1., 1.],
        [1., 0., 1., 1., 1., 1., 1., 1., 1., 1.],
        [0., 1., 0., 0., 0., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 0., 1., 1., 1., 0., 1., 1., 1., 1.]]))

In [14]:
get_reward_goal(results5)

(array([-10726.7, -70800.3, -11909.9, -24825.3, -79855.6]),
 array([[0., 1., 0., 1., 1., 1., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 1., 1., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 1., 0., 0., 0., 1., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]))

In [15]:
get_reward_goal(results6)

(array([-129721. ,  -70053.4, -123216.1, -156453. ,  -69474.2]),
 array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]]))

In [16]:
get_reward_goal(results7)

(array([-42540.2, -71122.8, -47409.6, -80757. , -31877.2]),
 array([[1., 0., 0., 0., 0., 0., 1., 0., 1., 0.],
        [0., 1., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0., 0., 1., 0., 0., 0.],
        [0., 1., 0., 0., 1., 0., 0., 0., 1., 1.]]))

In [23]:
agent_new = Agent(404, 404, 4, 1).to(device)
agent_new_less = Agent(404, 404, 4, 1).to(device)

agent_new.load_state_dict(torch.load('new_model/model_final.pth', map_location=device))
agent_new.load_state_dict(torch.load('new_model/model_final_less_step.pth', map_location=device))

<All keys matched successfully>

In [24]:
agents = [agent_new,  agent_new_less]

In [18]:
new_result1 = test(agent_new, env = GameEnv((20,20), (3,3), (18, 18)))
new_result2 = test(agent_new, env = GameEnv((20,20), (3,3), (np.random.randint(12, 21),np.random.randint(12,21))))
new_result3 = test(agent_new, env = GameEnv((20,20), (np.random.randint(1, 7),np.random.randint(1,7)), (18, 18)))
new_result4 = test(agent_new, GameEnv((20,20), (np.random.randint(1, 21),np.random.randint(1,21)), (np.random.randint(1, 21),np.random.randint(1,21))))

  state_tensor = torch.tensor(state,dtype=torch.float32).to(device)
100%|██████████| 10/10 [01:56<00:00, 11.65s/it]



Mean Rewards: -96888.4, never reach goal



100%|██████████| 10/10 [01:58<00:00, 11.86s/it]



Mean Rewards: -55771.8, never reach goal



100%|██████████| 10/10 [01:55<00:00, 11.52s/it]



Mean Rewards: -98431.5, never reach goal



100%|██████████| 10/10 [02:04<00:00, 12.47s/it]


Mean Rewards: -98838.8, never reach goal






In [25]:
new_results3 = [test_agents(agents, GameEnv((20,20), (np.random.randint(1, 7),np.random.randint(1,7)), (18, 18)), 1) for i in range(10) ]
new_results4 = [test_agents(agents, GameEnv((20,20), (np.random.randint(1, 21),np.random.randint(1,21)), (np.random.randint(1, 21),np.random.randint(1,21))), 1) for i in range(10) ]
new_results2= [test_agents(agents, GameEnv((20,20), (3,3), (np.random.randint(12, 21),np.random.randint(12,21))), 1) for i in range(10)]
new_results1= test_agents(agents, GameEnv((20,20), (3,3), (18, 18)), 10)

  state_tensor = torch.tensor(state,dtype=torch.float32).to(device)
100%|██████████| 1/1 [00:13<00:00, 13.13s/it]



Mean Rewards: -19376.0, never reach goal



100%|██████████| 1/1 [00:01<00:00,  1.02s/it]



Mean Rewards: -3154.0



100%|██████████| 1/1 [00:13<00:00, 13.39s/it]



Mean Rewards: -21069.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  1.78it/s]



Mean Rewards: -648.0



100%|██████████| 1/1 [00:13<00:00, 13.56s/it]



Mean Rewards: -20570.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  1.19it/s]



Mean Rewards: -409.0



100%|██████████| 1/1 [00:12<00:00, 12.90s/it]



Mean Rewards: -19394.0, never reach goal



100%|██████████| 1/1 [00:01<00:00,  1.97s/it]



Mean Rewards: -10026.0



100%|██████████| 1/1 [00:12<00:00, 12.49s/it]



Mean Rewards: -22832.0, never reach goal



100%|██████████| 1/1 [00:01<00:00,  1.52s/it]



Mean Rewards: -7522.0



100%|██████████| 1/1 [00:12<00:00, 12.52s/it]



Mean Rewards: -23291.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  1.46it/s]



Mean Rewards: -1019.0



100%|██████████| 1/1 [00:12<00:00, 12.37s/it]



Mean Rewards: -19555.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  4.44it/s]



Mean Rewards: 684.0



100%|██████████| 1/1 [00:13<00:00, 13.51s/it]



Mean Rewards: -21140.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  2.08it/s]



Mean Rewards: 302.0



100%|██████████| 1/1 [00:12<00:00, 12.52s/it]



Mean Rewards: -20046.0, never reach goal



100%|██████████| 1/1 [00:01<00:00,  1.42s/it]



Mean Rewards: -2827.0



100%|██████████| 1/1 [00:12<00:00, 12.42s/it]



Mean Rewards: -19616.0, never reach goal



100%|██████████| 1/1 [00:01<00:00,  1.21s/it]



Mean Rewards: -4253.0



100%|██████████| 1/1 [00:00<00:00,  8.53it/s]



Mean Rewards: 1744.0



100%|██████████| 1/1 [00:12<00:00, 12.59s/it]



Mean Rewards: -139671.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  5.53it/s]



Mean Rewards: 1748.0



100%|██████████| 1/1 [00:12<00:00, 12.34s/it]



Mean Rewards: -69153.0, never reach goal



100%|██████████| 1/1 [00:13<00:00, 13.34s/it]



Mean Rewards: -53317.0, never reach goal



100%|██████████| 1/1 [00:13<00:00, 13.33s/it]



Mean Rewards: -79378.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  7.96it/s]



Mean Rewards: 1741.0



100%|██████████| 1/1 [00:12<00:00, 12.36s/it]



Mean Rewards: -102027.0, never reach goal



100%|██████████| 1/1 [00:13<00:00, 13.69s/it]



Mean Rewards: -51444.0, never reach goal



100%|██████████| 1/1 [00:12<00:00, 12.67s/it]



Mean Rewards: -144620.0, never reach goal



100%|██████████| 1/1 [00:13<00:00, 13.39s/it]



Mean Rewards: -51470.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  4.89it/s]



Mean Rewards: 1240.0



100%|██████████| 1/1 [00:00<00:00,  1.80it/s]



Mean Rewards: 1176.0



100%|██████████| 1/1 [00:12<00:00, 12.42s/it]



Mean Rewards: -135871.0, never reach goal



100%|██████████| 1/1 [00:13<00:00, 13.43s/it]



Mean Rewards: -18561.0, never reach goal



100%|██████████| 1/1 [00:13<00:00, 13.44s/it]



Mean Rewards: -152555.0, never reach goal



100%|██████████| 1/1 [00:13<00:00, 13.52s/it]



Mean Rewards: -58429.0, never reach goal



100%|██████████| 1/1 [00:12<00:00, 12.66s/it]



Mean Rewards: -111403.0, never reach goal



100%|██████████| 1/1 [00:12<00:00, 12.82s/it]



Mean Rewards: -28114.0, never reach goal



100%|██████████| 1/1 [00:13<00:00, 13.25s/it]



Mean Rewards: -174823.0, never reach goal



100%|██████████| 1/1 [00:12<00:00, 12.81s/it]



Mean Rewards: -58216.0, never reach goal



100%|██████████| 1/1 [00:12<00:00, 12.69s/it]



Mean Rewards: -57098.0, never reach goal



100%|██████████| 1/1 [00:14<00:00, 14.65s/it]



Mean Rewards: -31467.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  1.69it/s]



Mean Rewards: -243.0



100%|██████████| 1/1 [00:13<00:00, 13.31s/it]



Mean Rewards: -53723.0, never reach goal



100%|██████████| 1/1 [00:14<00:00, 14.08s/it]



Mean Rewards: -64914.0, never reach goal



100%|██████████| 1/1 [00:13<00:00, 13.25s/it]



Mean Rewards: -17986.0, never reach goal



100%|██████████| 1/1 [00:02<00:00,  2.06s/it]



Mean Rewards: -10317.0



100%|██████████| 1/1 [00:02<00:00,  2.51s/it]



Mean Rewards: -1635.0



100%|██████████| 1/1 [00:12<00:00, 12.84s/it]



Mean Rewards: -55333.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  4.65it/s]



Mean Rewards: 1157.0



100%|██████████| 1/1 [00:08<00:00,  8.91s/it]



Mean Rewards: -28134.0



100%|██████████| 1/1 [00:12<00:00, 12.87s/it]



Mean Rewards: -29948.0, never reach goal



100%|██████████| 1/1 [00:01<00:00,  1.84s/it]



Mean Rewards: -3848.0



100%|██████████| 1/1 [00:12<00:00, 12.83s/it]



Mean Rewards: -26636.0, never reach goal



100%|██████████| 1/1 [00:00<00:00,  1.25it/s]



Mean Rewards: -1293.0



100%|██████████| 1/1 [00:01<00:00,  1.43s/it]



Mean Rewards: -3689.0



100%|██████████| 1/1 [00:00<00:00,  1.28it/s]



Mean Rewards: -1626.0



100%|██████████| 1/1 [00:13<00:00, 13.09s/it]



Mean Rewards: -23192.0, never reach goal



100%|██████████| 1/1 [00:01<00:00,  1.12s/it]



Mean Rewards: -587.0



100%|██████████| 10/10 [01:59<00:00, 11.91s/it]



Mean Rewards: -26161.2, never reach goal



100%|██████████| 10/10 [00:05<00:00,  1.98it/s]


Mean Rewards: -1458.5






In [27]:
new_results1

([-26161.2, -1458.5],
 [array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]),
  array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])])

In [30]:
get_reward_goal(new_results2)

(array([-24533.5, -22339.3]),
 array([[0., 0., 0., 0., 1., 1., 0., 0., 1., 0.],
        [0., 1., 0., 1., 0., 1., 1., 1., 1., 1.]]))

In [31]:
get_reward_goal(new_results3)

(array([-20688.9,  -2887.2]),
 array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
        [1., 1., 1., 1., 1., 1., 1., 1., 1., 1.]]))

In [None]:
get_reward_goal(new_results4)

(array([ -25492.6, -110826.1]),
 array([[1., 1., 0., 1., 0., 0., 1., 0., 0., 0.],
        [0., 0., 0., 0., 0., 1., 0., 0., 0., 0.]]))