In [5]:
"""
Multi-Agent Dynamic Grid World Environment
Created by: Ardianto Wibowo
"""

import numpy as np
import sys
import random

# Add the path to the 'env' folder to sys.path
sys.path.append('env')

from ma_gridworld import Env

def add_noise(data, agent, noise_type="color", env=None, is_noise_enabled=True):
    """
    تضيف نويز للبيانات بناءً على النوع ونسبة النويز.
    """
    noise_level = agent.noise_level  # مستوى نويز خاص بكل وكيل

    # تحقق إذا كانت البيانات None
    if data is None:
        return data

    # نويز الموقع
    if noise_type == "location" and is_noise_enabled and random.random() < noise_level:
        # تحقق إذا كانت البيانات قائمة تحتوي على إحداثيات
        if isinstance(data, list) and len(data) == 2 and all(isinstance(x, int) for x in data):
            grid_width = getattr(env, 'gwidth', 15)  # استخدام قيمة افتراضية إذا لم تكن الخاصية موجودة
            grid_height = getattr(env, 'gheight', 15)
            noise_x = random.choice([1, -1])
            noise_y = random.choice([1, -1])
            new_x = max(0, min(data[0] + noise_x, grid_width - 1))
            new_y = max(0, min(data[1] + noise_y, grid_height - 1))
            return [new_x, new_y]
        else:
            # إذا لم تكن البيانات صالحة لنويز الموقع، قم بإعادتها كما هي
            return data

    if noise_type == "color" and is_noise_enabled and random.random() < noise_level:
        if "target" in data:
            return "empty"
        else:
            return data
    # إذا لم يتم تطبيق نويز، قم بإعادة البيانات كما هي


    return data


class SearchAgent:
    def __init__(self, num_actions, agent_id, num_agents):
        self.num_actions = num_actions
        self.agent_id = agent_id  # تعيين agent_id
        self.memory = []  # خاصية لتخزين البيانات التي يتم التحقق منها
        self.targets_seen = []  # قائمة فارغة لتخزين الأهداف كقواميس
        self.noise_level = round(random.uniform(0, 1), 2)  # مستوى نويز خاص بكل وكيل
        print(f"Agent {self.agent_id}: Initialized with noise level {self.noise_level:.2f}")
        # مستوى الثقة الابتدائي
        self.trust_level = round(random.uniform(0.3, 1.0), 2)
        
        self.true_interaction = {}
        self.false_interaction = {}
        

        # تعيين نفس قيمة الثقة الابتدائية لجميع الوكلاء الآخرين
        self.trust_values = {other_id: self.trust_level for other_id in range(num_agents) if other_id != self.agent_id}

        self.actual_comm_observation = None
        self.reported_comm_observation = None

        print(f"Agent {self.agent_id}: Initialized with trust level {self.trust_level:.2f}")

    def update_trust(self, other_agent_id, interaction_success, use_indirect=False):
        if other_agent_id not in self.true_interaction:
            self.true_interaction[other_agent_id] = 0
            self.false_interaction[other_agent_id] = 0

        if interaction_success:
            self.true_interaction[other_agent_id] = self.true_interaction[other_agent_id] + 1
        else:
            self.false_interaction[other_agent_id] = self.false_interaction[other_agent_id] + 1

        
        if other_agent_id in self.trust_values:
            # الثقة السابقة
            previous_trust = self.trust_values[other_agent_id]

            # نتيجة التفاعل
            interaction_result = 1.0 if interaction_success else 0.0

            # عامل النسيان
            alpha = 0.3  # يمكن ضبطها

            if not use_indirect:
                # الثقة المباشرة فقط
                t_new = (self.true_interaction[other_agent_id] + 1) / (
                            self.true_interaction[other_agent_id] + self.false_interaction[other_agent_id] + 2)
                updated_trust = t_new + alpha * (t_new - previous_trust)
            else:
                # حساب الثقة غير المباشرة
                indirect_trust = 0.0
                total_weight = 0.0

                for intermediary_agent, intermediary_trust in self.trust_values.items():
                    if intermediary_agent != other_agent_id and intermediary_agent in agents[
                        other_agent_id].trust_values:
                        indirect_trust += (
                                intermediary_trust * agents[intermediary_agent].trust_values[other_agent_id]
                        )
                        total_weight += 1.0

                # ضبط الثقة غير المباشرة
                if total_weight > 0:
                    indirect_trust /= total_weight
                else:
                    indirect_trust = 0.01  # قيمة افتراضية صغيرة

                # دمج الثقة المباشرة وغير المباشرة
                updated_trust = (alpha * previous_trust + interaction_result + indirect_trust) / (1 + alpha)

            # ضبط الثقة لتكون بين 0 و 1
            self.trust_values[other_agent_id] = max(0.0, min(1.0, updated_trust))

            # طباعة القيم
            trust_type = "Direct + Indirect" if use_indirect else "Direct"
            print(
                f"Agent {self.agent_id}: Updated trust towards Agent {other_agent_id} ({trust_type}) to {self.trust_values[other_agent_id]:.2f}")

    def normalize_targets(self):
        """
        توحيد شكل البيانات داخل قائمة targets_seen.
        """
        self.targets_seen = [
            {"location": target, "verified": True, "source": "self"} if isinstance(target, list) else target
            for target in self.targets_seen
        ]

    def analyse_sensor_data(self, agent_id, coordinate_observation, sensor_data_observation):

        for i in range(len(sensor_data_observation)):
            for j in range(len(sensor_data_observation[i])):
                data = sensor_data_observation[i][j]
                location = [
                    coordinate_observation[0] + j - len(sensor_data_observation[i]) // 2,
                    coordinate_observation[1] + i - len(sensor_data_observation) // 2
                ]
                if data != None and 'target_' + str(agent_id) in data:
                    if location not in [target["location"] for target in self.targets_seen]:
                        self.targets_seen.append({
                            "location": location,
                            "verified": False,
                            "source": "self"  # أو مصدر آخر حسب الحاجة
                        })
                        print(f"Agent {agent_id}: Added target at {location} to targets_seen")

                # تحديث الذاكرة مع تمرير agent_id
                if data is not None and 'target_' in data:  # التحقق من وجود هدف
                    self.update_memory(location, data, agent_id)  # استدعاء update_memory

                # إزالة الأهداف التي تم جمعها
                if location[0] == coordinate_observation[0] and location[1] == coordinate_observation[1]:
                    if location in self.targets_seen:
                        self.targets_seen.remove(location)

    def analyse_communication(self, comm_observation, agent_id):
        for comm in comm_observation:
            origin_location = comm[0]
            sensor_data_observation = comm[1]
            reported_by = comm[2]  # الوكيل الذي أرسل الرسالة

            print(f"Agent {agent_id}: Received communication from Agent {reported_by} at {origin_location}")

            for i in range(len(sensor_data_observation)):
                for j in range(len(sensor_data_observation[i])):
                    data = sensor_data_observation[i][j]
                    location = [
                        origin_location[0] + j - len(sensor_data_observation[i]) // 2,
                        origin_location[1] + i - len(sensor_data_observation) // 2
                    ]

                    if data is not None and 'target_' in data:
                        if location not in [target["location"] for target in self.targets_seen]:
                            self.targets_seen.append({
                                "location": location,
                                "verified": False,
                                "source": f"agent_{reported_by}"
                            })
                            print(f"Agent {agent_id}: Added target at {location} from Agent {reported_by}")

    def update_memory(self, location, data, agent_id):

        print(f"Agent {agent_id} is updating memory for location {location} with data {data}")
        if location not in [record["location"] for record in self.memory]:
            # add
            self.memory.append({"location": location, "data": data})
            print(f"Agent {agent_id} Updated Memory: {location} -> {data}")

    def select_action(self, coordinate_observation, agent_id):
        print(f"Agent {agent_id}: Current targets seen: {self.targets_seen}")

        # إزالة الأهداف المكررة مع تحويل الموقع إلى tuple
        self.targets_seen = list({tuple(target["location"]): target for target in self.targets_seen}.values())

        if len(self.targets_seen) > 0:
            closest_target = None
            closest_target_distance = float('inf')  # مسافة كبيرة مبدئيًا
            for target in self.targets_seen:
                target_coordinate = target["location"]
                horizontal_distance = target_coordinate[0] - coordinate_observation[0]
                vertical_distance = target_coordinate[1] - coordinate_observation[1]
                distance = abs(horizontal_distance) + abs(vertical_distance)
                print(f"Agent {agent_id}: Target {target_coordinate} at distance {distance}")

                if distance < closest_target_distance:
                    closest_target_distance = distance
                    closest_target = target_coordinate

            if closest_target:
                # التحقق من صلاحية الموقع المستهدف
                grid_width = 15  # عرض الشبكة
                grid_height = 15  # ارتفاع الشبكة
                if not (0 <= closest_target[0] < grid_width and 0 <= closest_target[1] < grid_height):
                    print(f"Invalid target location {closest_target}, skipping target.")
                    closest_target = None

                if closest_target and closest_target_distance == 0:
                    print(f"Agent {agent_id}: Reached target at {closest_target}, removing from targets_seen.")
                    self.targets_seen = [t for t in self.targets_seen if tuple(t["location"]) != tuple(closest_target)]
                    return 0  # Stay

                if closest_target:
                    print(f"Agent {agent_id}: Moving towards target at {closest_target}")
                    horizontal_distance = closest_target[0] - coordinate_observation[0]
                    vertical_distance = closest_target[1] - coordinate_observation[1]
                    if abs(horizontal_distance) >= abs(vertical_distance):
                        return 3 if horizontal_distance < 0 else 4
                    else:
                        return 1 if vertical_distance < 0 else 2
        else:
            print(f"Agent {agent_id}: No valid targets, attempting random action.")
            possible_actions = [1, 2, 3, 4]  # كل الاتجاهات الممكنة
            return np.random.choice(possible_actions)


def get_action(agent_id, observation, num_actions, agents, env):
    """
    تنفيذ خطوة واحدة لكل وكيل، مع تحليل البيانات وتحديث الثقة.
    """
    coordinate_observation = tuple(observation[0])  # Keep observation as (x, y) tuple
    sensor_data_observation = observation[2]
    comm_observation = observation[3]

    print(f"Observation for Agent {agent_id}: {observation}")

    # تحقق من وجود بيانات الاتصال
    if comm_observation:
        for comm in comm_observation:
            origin_location = comm[0]
            data = comm[1]
            reported_by = comm[2]  # الوكيل الذي أرسل البيانات

            # تحليل البيانات المستلمة من وكيل معين
            agents[agent_id].analyse_communication([comm], agent_id)


            # Modify code
            # تحديث الثقة بناءً على الوكيل المصدر للاتصال
            #interaction_success = False  # افتراض التفاعل فشل

            #if data and all(
            #        isinstance(row, list) for row in data):  # تحقق من أن البيانات ليست None وأنها قائمة من القوائم
            #    if any("target_" in cell for row in data for cell in row if cell is not None):
            #        interaction_success = True


            # تحديث الثقة تجاه الوكيل المرسل
            #agents[agent_id].update_trust(reported_by, interaction_success=interaction_success)

            for i in range(len(sensor_data_observation)):
                for j in range(len(sensor_data_observation[i])):
                    data = sensor_data_observation[i][j]
                    location = [
                        coordinate_observation[0] + j - len(sensor_data_observation[i]) // 2,
                        coordinate_observation[1] + i - len(sensor_data_observation) // 2
                    ]
                    for target in agents[agent_id].targets_seen:
                        if location == target["location"] and not target["verified"]:
                            if data != None and 'target_' + str(agent_id) in data:
                                target["verified"] = True
                                if 'agent' in target['source']:
                                    reported_by = int(target['source'].split("_")[1])
                                    print(f"Reach reported target location in {location} report by {reported_by}")
                                    # تحديث الثقة تجاه الوكيل المرسل
                                    agents[agent_id].update_trust(reported_by, interaction_success=True)
                            else:
                                if 'agent' in target['source']:
                                    target["verified"] = True
                                    reported_by = int(target['source'].split("_")[1])
                                    #agents[agent_id].update_trust(reported_by, interaction_success=False)

    else:
        print(f"Agent {agent_id}: No communication data available this step.")

    # تحليل بيانات المستشعر
    agents[agent_id].analyse_sensor_data(agent_id, coordinate_observation, sensor_data_observation)

    # اختيار الإجراء الفيزيائي
    physical_action = agents[agent_id].select_action(coordinate_observation, agent_id)

    if env.is_agent_silent:
        comm_action = []  # Communication action is set to empty if agents are silent
    else:
        # Add noise to communication
        noisy_location = add_noise(coordinate_observation, agents[agent_id], "location", env)
        noisy_data = [
            [add_noise(cell, agents[agent_id], "color", env) for cell in row]
            for row in sensor_data_observation
        ]

        # prevent set noise more thank one time

        comm_action = [noisy_location, noisy_data, agent_id]

        print(f"Agent {agent_id}: Sending noisy communication: Location={noisy_location}, Data={noisy_data}")

    return (physical_action, comm_action)
def run(num_episodes, max_steps_per_episode, agents, num_actions, env):
    import pandas as pd
    import matplotlib.pyplot as plt

    results = []

    for episode in range(num_episodes):
        print(f"Starting episode {episode + 1}")

        # Reset environment
        observations = env.reset()

        # حذف الأهداف القديمة وإنشاء أهداف جديدة
        for target_list in env.target_objs:
            for target in target_list:
                env.canvas.delete(target)

        env.agent_targets = [[] for _ in range(env.num_agents)]
        env.target_objs = [[] for _ in range(env.num_agents)]

        for i in range(env.num_agents):
            for _ in range(env.num_targets_per_agent):
                target_position = env.get_random_target_position()
                env.agent_targets[i].append(target_position)

                target_x, target_y = target_position
                triangle_points = [
                    target_x, target_y - env.UNIT / 4,
                    target_x - env.UNIT / 4, target_y + env.UNIT / 4,
                    target_x + env.UNIT / 4, target_y + env.UNIT / 4
                ]
                target_obj = env.canvas.create_polygon(
                    triangle_points,
                    fill=env.agent_colors[i % len(env.agent_colors)],
                    outline='black'
                )
                env.target_objs[i].append(target_obj)

        print(f"Reinitialized targets for episode {episode + 1}: {env.agent_targets}")

        # Tracking variables
        done = [False] * env.num_agents
        step_count = 0
        agent_steps = {agent_id: 0 for agent_id in range(env.num_agents)}  # Track steps per agent
        agent_goals_achieved = {agent_id: 0 for agent_id in range(env.num_agents)}  # Track goals achieved per agent

        while not all(done) and step_count < max_steps_per_episode:
            actions = []
            for agent_id in range(env.num_agents):
                if not done[agent_id]:  # Only process agents still active
                    observation = observations[agent_id]
                    action = get_action(agent_id, observation, num_actions, agents, env)
                    actions.append(action)
                    agent_steps[agent_id] += 1  # Increment step count
                else:
                    actions.append((0, []))  # No action for agents marked as done

            observations, rewards, done = env.step(actions)

            # Check if goals are achieved and update counters
            for agent_id in range(env.num_agents):
                if rewards[agent_id] > 0:  # Positive reward implies a goal achieved
                    agent_goals_achieved[agent_id] += 1

            step_count += 1
            env.render()

        # Log results for this episode
        for agent_id in range(env.num_agents):
            trust_values = agents[agent_id].trust_values
            trust_columns = {f"Final Trust to Agent {other_id}": round(trust, 3) for other_id, trust in trust_values.items()}

            noise_type = "Color" if getattr(env, 'enable_color_noise', False) else "Location"

            trust_type = "Direct" if getattr(env, 'trust_type', 'Direct') == 'Direct' else "Indirect"

            results.append({
                "Agent ID": agent_id,
                "Noise Level": getattr(agents[agent_id], 'noise_level', 0),
                "Noise Type": noise_type,
                "Trust Type": trust_type,
                "Initial Trust Level": getattr(agents[agent_id], 'trust_level', 0),
                "Steps Taken": agent_steps[agent_id],
                "Goals Achieved": agent_goals_achieved[agent_id],
                "Episode": episode + 1,
                **trust_columns
            })

        print(f"Episode {episode + 1} finished after {step_count} steps.\n")

    # Save results to Excel
    df = pd.DataFrame(results)

    # Create summary data
    summary = df.groupby("Agent ID").agg({
        "Steps Taken": "mean",
        "Goals Achieved": "sum",
        "Noise Level": "first",
        "Noise Type": "first",
        "Trust Type": "first",
        "Initial Trust Level": "first"
    }).reset_index()

    # Adding Final Trust columns to the summary
    final_trust_columns = [col for col in df.columns if col.startswith("Final Trust to Agent")]
    for col in final_trust_columns:
        summary[col] = df.groupby("Agent ID")[col].mean().reset_index(drop=True)

    summary.rename(columns={"Steps Taken": "Average Steps", "Goals Achieved": "Total Goals"}, inplace=True)

    # Save to Excel with two sheets
    with pd.ExcelWriter("experiment_results.xlsx") as writer:
        df.to_excel(writer, index=False, sheet_name="Detailed Results")
        summary.to_excel(writer, index=False, sheet_name="Summary")

    print("Results saved to 'experiment_results.xlsx'.")

    # Plot results: Trust vs Steps Taken
    plt.figure(figsize=(12, 8))

    for agent_id in range(env.num_agents):
        agent_data = df[df["Agent ID"] == agent_id]
        plt.scatter(
            agent_data["Steps Taken"],
            agent_data[[col for col in agent_data.columns if col.startswith("Final Trust to")]].mean(axis=1),
            label=f"Agent {agent_id}"
        )

    plt.xlabel("Steps Taken")
    plt.ylabel("Final Trust Level (Average)")
    plt.title("Final Trust Levels vs Steps Taken (Per Agent)")
    plt.legend()
    plt.grid(True)
    plt.savefig("trust_vs_steps_plot.png")
    plt.show()

    print("Plot saved to 'trust_vs_steps_plot.png'.")


if __name__ == "__main__":

    gsize = 15  # grid size (square)
    gpixels = 30  # grid cell size in pixels

    is_sensor_active = True  # True:  Activate the sensory observation data
    sensory_size = 3  # 'is_sensor_active' must be True. The value must be odd, if event will be converted to one level odd number above

    num_agents = 8  # the number of agents will be run in paralel
    num_obstacles = 0  # the number of obstacles
    is_single_target = False  # True: all agents have a single target, False: each agent has their own target
    num_targets_per_agent = 5  # 'is_single_target' must be true to have an effect

    is_agent_silent = False  # True: communication among agents is allowed

    noise_levels = noise_levels = {agent_id: round(random.uniform(0, 1), 2) for agent_id in range(num_agents)}

    enable_location_noise = True  # تفعيل نويز الموقع
    enable_color_noise = False  # تفعيل نويز اللون
    # نسبة نويز اللون

    num_episodes = 20  # the number of episode will be run
    max_steps_per_episode = 1000  # each episode will be stopped when max_step is reached

    eps_moving_targets = 10  # set this value greater than 'num_episodes' to keep the targets in a stationary position
    eps_moving_obstacles = 10  # set this value greater than 'num_episodes' to keep the obstacles in a stationary position

    render = True  # True: render the animation into the screen (so far, it is still can not be deactivated)

    min_obstacle_distance_from_target = 1  # min grid distance of each obstacles relative to targets
    max_obstacle_distance_from_target = 5  # max grid distance of each obstacles relative to targets
    min_obstacle_distance_from_agents = 1  # min grid distance of each obstacles relative to agents

    reward_normal = -1  # reward value of normal steps
    reward_obstacle = -5  # reward value when hit an obstacle
    reward_target = 50  # reward value when reach the target

    is_totally_random = True  # True: target and obstacles initial as well as movement position is always random on each call, False: only random at the beginning.
    animation_speed = 0.1  # smaller is faster
    is_destroy_environment = True  # True: automatically close the animation after all episodes end.

    # Initialize environment
    env = Env(
        num_agents=num_agents, num_targets_per_agent=num_targets_per_agent, num_obstacles=num_obstacles,
        eps_moving_obstacles=eps_moving_obstacles, eps_moving_targets=eps_moving_targets,
        is_agent_silent=is_agent_silent, is_single_target=is_single_target, sensory_size=sensory_size,
        gpixels=gpixels, gheight=gsize, gwidth=gsize, is_sensor_active=is_sensor_active,
        min_obstacle_distance_from_target=min_obstacle_distance_from_target,
        max_obstacle_distance_from_target=max_obstacle_distance_from_target,
        min_obstacle_distance_from_agents=min_obstacle_distance_from_agents,
        is_totally_random=is_totally_random, animation_speed=animation_speed,
        reward_normal=reward_normal, reward_obstacle=reward_obstacle, reward_target=reward_target
    )

    num_actions = len(env.action_space)

    # Initialize Q-learning agents
    agents = [SearchAgent(num_actions, agent_id, num_agents) for agent_id in range(num_agents)]

    # Run episodes
    run(num_episodes, max_steps_per_episode, agents, num_actions, env)

    if is_destroy_environment:
        env.destroy_environment()


Agent 0: Initialized with noise level 0.91
Agent 0: Initialized with trust level 0.41
Agent 1: Initialized with noise level 0.83
Agent 1: Initialized with trust level 0.92
Agent 2: Initialized with noise level 0.98
Agent 2: Initialized with trust level 0.37
Agent 3: Initialized with noise level 0.13
Agent 3: Initialized with trust level 0.91
Agent 4: Initialized with noise level 0.71
Agent 4: Initialized with trust level 0.30
Agent 5: Initialized with noise level 0.80
Agent 5: Initialized with trust level 0.51
Agent 6: Initialized with noise level 0.81
Agent 6: Initialized with trust level 0.68
Agent 7: Initialized with noise level 0.87
Agent 7: Initialized with trust level 0.91
Starting episode 1
Observation for Agent 0: [[0, 0], False, [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], []]
Agent 0: No communication data available this step.
Agent 0: Current targets seen: []
Agent 0: No valid targets, attempting random action.
Agent 0: Sending noisy communicatio

Step 2:
  Agent 0: Observation: [[1, 0], False, [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(1, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(13, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 6), [[None, 'empty', 'empty'], [None, 'empty', 'empty'], [None, 'agent', 'empty']], 7]]], Action: (4, [(0, 0), [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[14, 1], False, [['empty', 'agent', None], ['empty', 'empty', None

Step 4:
  Agent 0: Observation: [[3, 0], False, [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'target_0_1']], [[(14, 2), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 1], [(14, 12), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 2], [(3, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 3], [(7, 2), [['target_5_2', 'agent', 'empty'], ['empty', 'target_7_1', 'empty'], ['empty', 'empty', 'empty']], 4], [(13, 8), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(8, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(2, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(2, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[14, 3

Step 6:
  Agent 0: Observation: [[4, 1], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['target_6_2', 'empty', 'empty']], [[(14, 4), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 1], [(14, 10), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 2], [(5, 14), [['empty', 'empty', 'target_4_0'], ['agent', 'empty', 'empty'], [None, None, None]], 3], [(9, 2), [['empty', 'target_4_1', 'empty'], ['agent', 'empty', 'empty'], ['target_2_2', 'empty', 'empty']], 4], [(12, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['target_0_2', 'agent', 'empty']], 5], [(9, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(3, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'target_5_3'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(4, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: 50, Done: False
  Agent

Step 8:
  Agent 0: Observation: [[5, 1], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'target_5_2'], ['empty', 'empty', 'target_7_4']], [[(14, 6), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 1], [(13, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(6, 13), [['empty', 'empty', 'empty'], ['empty', 'target_4_0', 'empty'], ['empty', 'agent', 'empty']], 3], [(9, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(11, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'target_1_3']], 5], [(9, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(4, 4), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(4, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Don

Step 10:
  Agent 0: Observation: [[6, 1], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'target_7_4', 'target_7_1']], [[(13, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 1], [(13, 8), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(7, 12), [['empty', 'empty', 'empty'], ['target_5_1', 'empty', 'agent'], ['target_4_0', 'agent', 'empty']], 3], [(9, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['target_3_0', 'agent', 'empty']], 5], [(7, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 6], [(5, 3), [['empty', 'empty', 'target_7_4'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(6, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 

Step 12:
  Agent 0: Observation: [[6, 2], False, [['empty', 'target_5_2', 'empty'], ['empty', 'agent', 'target_7_1'], ['empty', 'empty', 'target_3_3']], [[(13, 8), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(11, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(8, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(9, 5), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 3), [['empty', 'target_6_1', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(6, 12), [['target_0_3', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(6, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (0, [(6, 2), [['empty', 'agent', 'empty'], ['empty', 'empty', 'target_7_1'], ['empty', 'agent', 'empty']], 

Step 14:
  Agent 0: Observation: [[7, 2], False, [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'target_3_3', 'target_2_2']], [[(11, 8), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(12, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(8, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'target_1_2'], ['empty', 'empty', 'empty']], 5], [(6, 13), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(6, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 7]]], Action: (0, [(7, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'target_2_2']], 0]), Rewar

Step 16:
  Agent 0: Observation: [[8, 3], False, [['target_7_1', 'agent', 'empty'], ['target_3_3', 'target_2_2', 'empty'], ['empty', 'empty', 'empty']], [[(12, 8), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(12, 7), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(6, 11), [['empty', 'empty', 'empty'], ['target_0_3', 'empty', 'agent'], ['empty', 'target_5_1', 'empty']], 3], [(10, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(9, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 5], [(8, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(7, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 7]]], Action: (2, [(8, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), 

Step 18:
  Agent 0: Observation: [[8, 2], False, [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['target_3_3', 'agent', 'empty']], [[(12, 7), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['target_0_1', 'empty', 'empty']], 1], [(10, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(5, 11), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(11, 8), [['agent', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(8, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['agent', 'empty', 'empty']], 5], [(8, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(7, 2), [['target_5_2', 'empty', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'agent']], 7]]], Action: (1, [(8, 3), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1

Step 20:
  Agent 0: Observation: [[9, 1], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'target_6_1']], [[(11, 8), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(5, 9), [['empty', 'empty', 'empty'], ['empty', 'target_1_0', 'empty'], ['empty', 'agent', 'empty']], 3], [(11, 8), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(6, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 5], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'target_4_0', 'empty']], 6], [(8, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(9, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, 

Step 22:
  Agent 0: Observation: [[10, 1], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'target_1_3'], ['empty', 'target_6_1', 'target_1_2']], [[(10, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(9, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(5, 7), [['empty', 'target_2_0', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(13, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(6, 2), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'target_3_3']], 5], [(5, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'target_4_0']], 6], [(8, 3), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(9, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0

Step 24:
  Agent 0: Observation: [[10, 2], False, [['empty', 'empty', 'target_1_3'], ['empty', 'agent', 'target_1_2'], ['empty', 'empty', 'empty']], [[(10, 9), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(8, 4), [['agent', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(4, 6), [['empty', 'target_5_2', 'target_2_1'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(12, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(7, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'target_2_2']], 5], [(5, 11), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(7, 3), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'agent']], 7]]], Action: (0, [(10, 2), [['empty', 'agent', 'empty'], ['empty', 'target_6_1', 'target_1_2'], ['empty', 'empty', 'empty

Step 26:
  Agent 0: Observation: [[11, 2], False, [['empty', 'target_1_3', 'empty'], ['target_6_1', 'agent', 'target_0_2'], ['empty', 'empty', 'target_7_2']], [[(10, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'target_0_1']], 1], [(8, 3), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(4, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'target_2_1'], ['empty', 'empty', 'target_2_0']], 3], [(12, 7), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(7, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(5, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(8, 3), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(11, 2), [['empty', 'empty', 'empty'], ['agent', 'target_1_2', 'empty'], ['empty', 'empty', 'e

Step 28:
  Agent 0: Observation: [[12, 2], False, [['target_1_3', 'empty', 'empty'], ['target_1_2', 'agent', 'empty'], ['empty', 'target_7_2', 'empty']], [[(9, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(7, 3), [['empty', 'empty', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(5, 4), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'target_2_1', 'empty']], 3], [(11, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(8, 3), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(5, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(9, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 7]]], Action: (0, [(12, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward:

Step 30:
  Agent 0: Observation: [[12, 4], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['target_6_3', 'empty', 'empty']], [[(9, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(7, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'agent']], 2], [(6, 3), [['empty', 'empty', 'agent'], ['agent', 'empty', 'target_3_3'], ['empty', 'empty', 'empty']], 3], [(10, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(9, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(5, 6), [['empty', 'target_2_1', 'empty'], ['empty', 'target_2_0', 'empty'], ['empty', 'agent', 'empty']], 6], [(9, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(12, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward:

Step 32:
  Agent 0: Observation: [[12, 6], False, [['target_6_3', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(8, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(6, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(6, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(10, 9), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'target_7_1']], 4], [(10, 2), [['empty', 'agent', 'empty'], ['empty', 'target_6_1', 'empty'], ['empty', 'agent', 'empty']], 5], [(5, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(10, 2), [['empty', 'agent', 'empty'], ['empty', 'agent', 'target_1_2'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(12, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Rewar

Step 34:
  Agent 0: Observation: [[12, 7], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['target_0_1', 'empty', 'empty']], [[(8, 3), [['empty', 'empty', 'empty'], ['target_3_3', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(6, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(6, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(9, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(11, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(4, 5), [['empty', 'empty', 'empty'], ['empty', 'target_5_2', 'agent'], ['empty', 'empty', 'empty']], 6], [(10, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(12, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['target_0_1', 'empty', 'empty']], 0]), Rewar

Step 36:
  Agent 0: Observation: [[13, 8], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(7, 3), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(8, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(7, 2), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(8, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(4, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(11, 2), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(13, 7), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
 

Step 38:
  Agent 0: Observation: [[12, 8], False, [['empty', 'empty', 'empty'], ['target_0_1', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(7, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(7, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(8, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(5, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(11, 1), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(13, 8), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fa

Step 40:
  Agent 0: Observation: [[11, 8], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(6, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'agent']], 1], [(10, 2), [['agent', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(8, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(6, 12), [['target_0_1', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(8, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(6, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 6], [(12, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(11, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fa

Step 42:
  Agent 0: Observation: [[10, 9], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'target_7_1']], [[(6, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 1], [(11, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 2], [(8, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 3], [(6, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(7, 2), [['agent', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(6, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'agent']], 6], [(12, 3), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(10, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fa

Step 44:
  Agent 0: Observation: [[11, 9], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'target_7_1', 'target_6_4']], [[(8, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 1], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(9, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(7, 3), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(7, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(10, 3), [['empty', 'target_6_1', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(10, 9), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1

Step 46:
  Agent 0: Observation: [[11, 10], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'target_6_4'], ['empty', 'empty', 'empty']], [[(9, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'agent']], 1], [(10, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'agent', 'empty']], 2], [(10, 1), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'target_1_2']], 3], [(5, 11), [['empty', 'empty', 'empty'], ['empty', 'target_0_1', 'empty'], ['empty', 'agent', 'empty']], 4], [(6, 4), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['target_2_1', 'empty', 'empty']], 5], [(7, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(10, 2), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(11, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Re

Step 48:
  Agent 0: Observation: [[9, 10], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(10, 2), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(10, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 2], [(10, 2), [['empty', 'empty', 'target_1_3'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 3], [(5, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(5, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(7, 3), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(11, 2), [['empty', 'target_1_3', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(10, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, 

Step 50:
  Agent 0: Observation: [[8, 11], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(11, 2), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(11, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(11, 2), [['empty', 'target_1_2', 'empty'], ['target_6_1', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(5, 9), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(4, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'target_2_0']], 5], [(8, 3), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (3, [(9, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -

Step 52:
  Agent 0: Observation: [[8, 12], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(11, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 1], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['target_6_1', 'empty', 'empty']], 3], [(5, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(5, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(9, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'target_6_1'], ['empty', 'empty', 'empty']], 6], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(8, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Do

Step 54:
  Agent 0: Observation: [[6, 12], False, [['target_0_1', 'empty', 'empty'], ['empty', 'target_5_1', 'agent'], ['empty', 'empty', 'empty']], [[(10, 1), [['empty', 'empty', 'empty'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'agent']], 1], [(10, 2), [['agent', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(10, 2), [['agent', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 3], [(5, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(5, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(9, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'agent']], 6], [(10, 2), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(7, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Do

Step 56:
  Agent 0: Observation: [[6, 13], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(10, 2), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 2), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(10, 3), [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(5, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'target_2_0', 'empty']], 4], [(5, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(10, 2), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'empty']], 6], [(9, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'agent']], 7]]], Action: (2, [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fa

Step 58:
  Agent 0: Observation: [[6, 12], False, [['target_0_1', 'empty', 'empty'], ['empty', 'target_5_1', 'empty'], ['empty', 'agent', 'empty']], [[(8, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(7, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(10, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'target_6_2'], ['empty', 'empty', 'empty']], 3], [(4, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(5, 9), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(7, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(6, 13), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1,

Step 60:
  Agent 0: Observation: [[5, 11], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'target_5_1']], [[(7, 3), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(7, 3), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(9, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(5, 4), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(5, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(7, 3), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(5, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: 50, Done: Fal

Step 62:
  Agent 0: Observation: [[5, 10], False, [['empty', 'target_1_0', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], [[(6, 3), [['empty', 'empty', 'empty'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(6, 4), [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(10, 6), [['empty', 'empty', 'target_6_2'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(6, 3), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'empty']], 4], [(6, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'target_5_1', 'empty']], 5], [(11, 2), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(6, 4), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(5, 11), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1

Step 64:
  Agent 0: Observation: [[5, 9], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(5, 4), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(5, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(11, 7), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(6, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 4), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(5, 5), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'target_2_0', 'empty']], 7]]], Action: (0, [(5, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: Fals

Step 66:
  Agent 0: Observation: [[5, 7], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(5, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(4, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(11, 8), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(7, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(6, 13), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(5, 6), [['agent', 'agent', 'empty'], ['empty', 'target_2_0', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(5, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: Fals

Step 68:
  Agent 0: Observation: [[5, 6], False, [['agent', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(4, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'agent']], 1], [(5, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(13, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(7, 3), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(8, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(4, 6), [['empty', 'agent', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(5, 6), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  A

Step 70:
  Agent 0: Observation: [[5, 5], False, [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'empty']], [[(5, 6), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(5, 6), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(12, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(8, 3), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(8, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 8), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 6], [(4, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'agent']], 7]]], Action: (0, [(5, 5), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  A

Step 72:
  Agent 0: Observation: [[4, 5], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(5, 7), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(5, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(12, 7), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 3], [(10, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(9, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(13, 8), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(4, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 7]]], Action: (0, [(4, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 0]), Reward: -1, Done: False
  

Step 74:
  Agent 0: Observation: [[6, 5], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(5, 9), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(5, 9), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(11, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(10, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'target_7_1'], ['empty', 'empty', 'empty']], 5], [(12, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(5, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (4, [(5, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fa

Step 76:
  Agent 0: Observation: [[7, 4], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(5, 10), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(5, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(10, 9), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'target_7_1']], 3], [(11, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 9), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'target_7_1']], 5], [(12, 7), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(5, 9), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (4, [(6, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Do

Step 78:
  Agent 0: Observation: [[7, 3], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(5, 11), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(6, 11), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(11, 9), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'target_7_1', 'target_6_2']], 3], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(11, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(10, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 6], [(5, 11), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(7, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, D

Step 80:
  Agent 0: Observation: [[8, 3], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(6, 12), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(6, 12), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(11, 10), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(11, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(11, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(6, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (0, [(8, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False

Step 82:
  Agent 0: Observation: [[10, 3], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(6, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(6, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(9, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(11, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(11, 10), [['empty', 'empty', 'empty'], ['empty', 'agent', 'target_6_2'], ['empty', 'empty', 'empty']], 5], [(9, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (4, [(9, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done:

Step 84:
  Agent 0: Observation: [[10, 2], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(7, 13), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(8, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(8, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(11, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(12, 10), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(10, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(6, 13), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(10, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: Fa

Step 86:
  Agent 0: Observation: [[11, 2], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(8, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 1], [(8, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'empty', 'empty']], 2], [(8, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'empty', 'empty']], 3], [(11, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'agent']], 4], [(12, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(10, 9), [['empty', 'empty', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(8, 13), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(11, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fal

Step 88:
  Agent 0: Observation: [[11, 1], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(9, 12), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'agent', 'empty']], 2], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(11, 9), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(12, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(11, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(8, 12), [['empty', 'empty', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: Fa

Step 90:
  Agent 0: Observation: [[11, 3], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(10, 11), [['agent', 'empty', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(10, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'agent', 'empty']], 2], [(6, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(11, 10), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'empty', 'empty']], 4], [(11, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(12, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(9, 11), [['empty', 'empty', 'agent'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(11, 2), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done:

Step 92:
  Agent 0: Observation: [[11, 5], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(11, 10), [['agent', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 1], [(10, 9), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'empty', 'agent']], 2], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(12, 10), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(11, 4), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 5], [(11, 10), [['agent', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 6], [(10, 10), [['empty', 'agent', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(11, 4), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done:

Step 94:
  Agent 0: Observation: [[10, 5], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(12, 10), [['agent', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(11, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'agent']], 2], [(5, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(11, 9), [['empty', 'agent', 'empty'], ['agent', 'empty', 'agent'], ['agent', 'empty', 'agent']], 4], [(11, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(9, 10), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(10, 9), [['empty', 'empty', 'agent'], ['empty', 'agent', 'agent'], ['agent', 'empty', 'empty']], 7]]], Action: (3, [(11, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fa

Step 96:
  Agent 0: Observation: [[9, 6], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(12, 9), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['target_7_1', 'agent', 'empty']], 1], [(11, 9), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 2], [(5, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(10, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 4], [(10, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(8, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(11, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'agent']], 7]]], Action: (2, [(9, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: 

Step 98:
  Agent 0: Observation: [[9, 7], False, [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(11, 8), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 1], [(11, 10), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(5, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(9, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(11, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(8, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(12, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'agent']], 0]), Reward: -1, Done: False


Step 100:
  Agent 0: Observation: [[10, 8], False, [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(11, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(12, 10), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(5, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(13, 8), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(9, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fals

Step 102:
  Agent 0: Observation: [[11, 9], False, [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'target_7_1', 'empty']], [[(11, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(12, 8), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(5, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(7, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(11, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(5, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(12, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (4, [(10, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done:

Step 104:
  Agent 0: Observation: [[11, 10], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(10, 5), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(12, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(4, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(5, 6), [['agent', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(10, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 5], [(5, 11), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(12, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (0, [(11, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fa

Step 106:
  Agent 0: Observation: [[12, 10], False, [['empty', 'empty', 'empty'], ['target_7_1', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(9, 6), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(11, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(5, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(5, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 4], [(9, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 5], [(5, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(11, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (0, [(12, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: 

Step 108:
  Agent 0: Observation: [[10, 10], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(8, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['target_1_0', 'empty', 'empty']], 1], [(10, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['agent', 'empty', 'empty']], 2], [(6, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'target_1_0']], 3], [(5, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(9, 6), [['empty', 'empty', 'agent'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(5, 7), [['empty', 'empty', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(10, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['agent', 'empty', 'empty']], 7]]], Action: (3, [(11, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, D

Step 110:
  Agent 0: Observation: [[8, 10], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(7, 7), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 6), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(7, 7), [['empty', 'agent', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'target_6_0', 'empty']], 3], [(6, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(7, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 5], [(5, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(9, 6), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(9, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fals

Step 112:
  Agent 0: Observation: [[7, 9], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(7, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'agent']], 1], [(8, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['agent', 'empty', 'empty']], 2], [(8, 7), [['empty', 'agent', 'agent'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 3], [(6, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(7, 7), [['empty', 'empty', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'empty']], 5], [(5, 5), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(8, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['agent', 'agent', 'empty']], 7]]], Action: (3, [(8, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Age

Step 114:
  Agent 0: Observation: [[7, 8], False, [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(6, 8), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(7, 7), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 2], [(7, 8), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(6, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(7, 8), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(6, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 6], [(7, 7), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 7]]], Action: (0, [(7, 8), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Age

Step 116:
  Agent 0: Observation: [[7, 7], False, [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'agent']], [[(6, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(7, 8), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(8, 8), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(6, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'agent']], 4], [(6, 7), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 5], [(7, 7), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'agent']], 6], [(7, 8), [['agent', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(7, 7), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Ag

Step 118:
  Agent 0: Observation: [[7, 9], False, [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(5, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(7, 7), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(10, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(7, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(5, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(7, 8), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(8, 8), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(7, 8), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  A

Step 120:
  Agent 0: Observation: [[7, 11], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(5, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(7, 7), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(11, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'target_7_1', 'empty']], 3], [(7, 7), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 4], [(5, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(8, 8), [['agent', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(10, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 7]]], Action: (2, [(7, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: F

Step 122:
  Agent 0: Observation: [[6, 12], False, [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(7, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 7), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(11, 10), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(7, 8), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(6, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(10, 8), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(11, 9), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (2, [(6, 11), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fals

Step 124:
  Agent 0: Observation: [[7, 12], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(9, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(10, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(12, 10), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(7, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(7, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 9), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'agent']], 6], [(11, 10), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: F

Step 126:
  Agent 0: Observation: [[9, 12], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'target_7_0']], [[(11, 11), [['empty', 'agent', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(11, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'agent']], 2], [(11, 9), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'agent']], 3], [(6, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(8, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 10), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'empty']], 6], [(12, 10), [['agent', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'empty', 'empty']], 7]]], Action: (4, [(8, 12), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, D

Step 128:
  Agent 0: Observation: [[10, 11], False, [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(11, 10), [['agent', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(11, 10), [['agent', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 2], [(10, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(9, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 10), [['empty', 'empty', 'empty'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 6], [(12, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(10, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Do

Step 130:
  Agent 0: Observation: [[11, 10], False, [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], [[(13, 10), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(12, 11), [['empty', 'agent', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(9, 9), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(8, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 9), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(13, 10), [['agent', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'empty', 'empty']], 6], [(11, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(11, 11), [['empty', 'empty', 'agent'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done

Step 132:
  Agent 0: Observation: [[11, 11], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['agent', 'empty', 'target_4_0']], [[(11, 10), [['empty', 'agent', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(12, 9), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'agent', 'empty']], 2], [(8, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(10, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(11, 10), [['empty', 'agent', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(12, 11), [['agent', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(12, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (2, [(11, 10), [['empty', 'agent', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1

Step 134:
  Agent 0: Observation: [[10, 12], False, [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'target_7_0', 'target_2_1']], [[(11, 12), [['agent', 'agent', 'empty'], ['empty', 'agent', 'target_4_0'], ['empty', 'empty', 'empty']], 1], [(12, 11), [['agent', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 2], [(8, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(11, 11), [['empty', 'agent', 'empty'], ['agent', 'agent', 'agent'], ['empty', 'agent', 'target_4_0']], 4], [(12, 10), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'agent', 'empty']], 5], [(11, 12), [['empty', 'agent', 'agent'], ['empty', 'agent', 'empty'], ['target_7_0', 'empty', 'empty']], 6], [(12, 10), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 7]]], Action: (3, [(11, 12), [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'em

Step 136:
  Agent 0: Observation: [[10, 13], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'target_2_1'], ['empty', 'empty', 'empty']], [[(10, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(12, 11), [['agent', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(9, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 3], [(11, 10), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'agent']], 4], [(12, 11), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(10, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'target_2_1'], ['empty', 'empty', 'empty']], 6], [(12, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(10, 13), [['empty', 'agent', 'empty'], ['empty', 'target_7_0', 'empty'], ['empty', 'empty', 'empty']], 0]

Step 138:
  Agent 0: Observation: [[11, 13], False, [['agent', 'agent', 'agent'], ['agent', 'agent', 'target_0_0'], ['empty', 'empty', 'empty']], [[(10, 13), [['agent', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(12, 12), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'target_0_0', 'empty']], 2], [(10, 12), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'agent']], 3], [(12, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(12, 12), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'empty', 'empty']], 5], [(10, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 6], [(11, 12), [['empty', 'empty', 'agent'], ['agent', 'empty', 'agent'], ['agent', 'agent', 'empty']], 7]]], Action: (0, [(11, 13), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), R

Step 140:
  Agent 0: Observation: [[12, 13], False, [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(11, 13), [['empty', 'agent', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(11, 13), [['empty', 'agent', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 2], [(10, 13), [['empty', 'empty', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 3], [(12, 12), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'agent', 'empty']], 4], [(11, 13), [['empty', 'agent', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 5], [(12, 13), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(11, 13), [['empty', 'empty', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(12, 13), [['agent', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1,

Step 142:
  Agent 0: Observation: [[12, 12], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], [[(12, 13), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(10, 13), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 2], [(11, 13), [['empty', 'empty', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 3], [(12, 13), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 13), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 5], [(12, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 6], [(10, 13), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(12, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 0]), Reward: -1,

Step 144:
  Agent 0: Observation: [[10, 12], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], [[(12, 12), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'agent', 'empty']], 1], [(11, 13), [['empty', 'agent', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 2], [(12, 13), [['agent', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(11, 13), [['empty', 'agent', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 4], [(11, 13), [['empty', 'agent', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 5], [(11, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['agent', 'agent', 'agent']], 6], [(11, 13), [['empty', 'agent', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(11, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['agent', 'agent', 'agent']], 0]), Reward: -1,

Step 146:
  Agent 0: Observation: [[10, 13], False, [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(10, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'empty']], 1], [(12, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 2], [(12, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 3], [(10, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(12, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 5], [(10, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(12, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (0, [(10, 13), [['empty', 'agent', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1,

Step 148:
  Agent 0: Observation: [[10, 11], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], [[(10, 13), [['empty', 'agent', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 1], [(11, 12), [['empty', 'empty', 'empty'], ['agent', 'agent', 'agent'], ['agent', 'agent', 'empty']], 2], [(10, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'agent']], 3], [(11, 14), [['agent', 'agent', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 4], [(12, 14), [['agent', 'empty', 'empty'], ['agent', 'agent', 'empty'], [None, None, None]], 5], [(10, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'agent']], 6], [(11, 12), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'agent', 'empty']], 7]]], Action: (1, [(10, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 0]), Reward: -1, Done: False
  Age

Step 150:
  Agent 0: Observation: [[10, 9], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(11, 12), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'agent', 'agent']], 1], [(12, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 2], [(10, 13), [['agent', 'agent', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 3], [(10, 13), [['agent', 'agent', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 4], [(11, 13), [['agent', 'agent', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(9, 13), [['empty', 'agent', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(9, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 7]]], Action: (1, [(10, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 0]), Reward: -1, Do

Step 152:
  Agent 0: Observation: [[10, 7], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(11, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 1], [(13, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(9, 14), [['agent', 'empty', 'agent'], ['empty', 'empty', 'agent'], [None, None, None]], 3], [(9, 14), [['agent', 'empty', 'agent'], ['empty', 'agent', 'agent'], [None, None, None]], 4], [(10, 14), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 5], [(8, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(9, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(10, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observati

Step 154:
  Agent 0: Observation: [[10, 5], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(11, 14), [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 1], [(13, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(9, 14), [['agent', 'agent', 'agent'], ['agent', 'empty', 'empty'], [None, None, None]], 3], [(9, 14), [['agent', 'agent', 'agent'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(10, 14), [['empty', 'agent', 'empty'], ['agent', 'empty', 'agent'], [None, None, None]], 5], [(9, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'agent']], 6], [(9, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(10, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[10,

Step 156:
  Agent 0: Observation: [[9, 4], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(10, 13), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'agent', 'empty']], 1], [(13, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(8, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 3], [(9, 14), [['agent', 'empty', 'agent'], ['empty', 'agent', 'agent'], [None, None, None]], 4], [(9, 13), [['empty', 'empty', 'agent'], ['agent', 'empty', 'agent'], ['empty', 'agent', 'empty']], 5], [(9, 13), [['empty', 'empty', 'agent'], ['agent', 'agent', 'agent'], ['empty', 'agent', 'empty']], 6], [(10, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(9, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Ag

Step 158:
  Agent 0: Observation: [[8, 3], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(9, 14), [['agent', 'agent', 'empty'], ['empty', 'agent', 'agent'], [None, None, None]], 1], [(12, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(10, 13), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'agent', 'empty']], 3], [(10, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 4], [(9, 14), [['agent', 'empty', 'agent'], ['empty', 'agent', 'empty'], [None, None, None]], 5], [(7, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(10, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(8, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: O

Step 160:
  Agent 0: Observation: [[7, 2], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(9, 14), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 1], [(13, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(11, 12), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(10, 13), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'empty']], 4], [(7, 14), [['agent', 'empty', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 5], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(11, 12), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'empty', 'empty']], 7]]], Action: (1, [(7, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: O

Step 162:
  Agent 0: Observation: [[6, 1], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(9, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], [None, None, None]], 1], [(13, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(10, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 3], [(11, 14), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 4], [(8, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], [None, None, None]], 5], [(5, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(11, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'empty']], 7]]], Action: (1, [(6, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observatio

Step 164:
  Agent 0: Observation: [[7, 1], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(10, 14), [['empty', 'empty', 'agent'], ['empty', 'agent', 'empty'], [None, None, None]], 1], [(12, 13), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(12, 13), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(11, 14), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], [None, None, None]], 4], [(8, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 5], [(4, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(12, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(6, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observati

Step 166:
  Agent 0: Observation: [[7, 3], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(11, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'agent']], 1], [(13, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(12, 14), [['agent', 'empty', 'empty'], ['agent', 'agent', 'empty'], [None, None, None]], 3], [(10, 14), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], [None, None, None]], 4], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 5], [(4, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(14, 11), [['empty', 'empty', None], ['agent', 'empty', None], ['agent', 'empty', None]], 7]]], Action: (2, [(7, 2), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11,

Step 168:
  Agent 0: Observation: [[9, 3], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(11, 13), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'agent']], 1], [(12, 13), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(11, 14), [['empty', 'agent', 'agent'], ['agent', 'empty', 'agent'], [None, None, None]], 3], [(10, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 4], [(7, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 5], [(4, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 6], [(14, 9), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 7]]], Action: (4, [(8, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11, 

Step 170:
  Agent 0: Observation: [[10, 4], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(12, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'agent']], 1], [(13, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(12, 13), [['empty', 'agent', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(12, 13), [['empty', 'agent', 'agent'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(8, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 5], [(4, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 6], [(14, 10), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 7]]], Action: (2, [(10, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observa

Step 172:
  Agent 0: Observation: [[11, 3], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(10, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(14, 12), [['empty', 'empty', None], ['empty', 'agent', None], ['agent', 'empty', None]], 2], [(14, 13), [['empty', 'agent', None], ['agent', 'empty', None], ['empty', 'empty', None]], 3], [(12, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(8, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 5], [(5, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(12, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(11, 4), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observa

Step 174:
  Agent 0: Observation: [[12, 2], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(9, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['agent', 'empty', 'empty']], 1], [(12, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(14, 13), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 3], [(12, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(9, 14), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 5], [(5, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(12, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(12, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observat

Step 176:
  Agent 0: Observation: [[12, 0], False, [[None, None, None], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(9, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(13, 13), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 2], [(14, 13), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'agent', None]], 3], [(12, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 4], [(10, 14), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 5], [(7, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(12, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(12, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observa

Step 178:
  Agent 0: Observation: [[12, 0], False, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(10, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(13, 13), [['empty', 'agent', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(14, 12), [['empty', 'empty', None], ['empty', 'empty', None], ['agent', 'agent', None]], 3], [(12, 14), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], [None, None, None]], 4], [(11, 13), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 5], [(8, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(11, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['agent', 'empty', 'empty']], 7]]], Action: (1, [(12, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[

Step 180:
  Agent 0: Observation: [[13, 1], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(9, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(13, 13), [['empty', 'agent', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(14, 14), [['agent', 'agent', None], ['empty', 'empty', None], [None, None, None]], 3], [(11, 14), [['empty', 'empty', 'agent'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(13, 13), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'agent']], 5], [(7, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(11, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (2, [(13, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: 

Step 182:
  Agent 0: Observation: [[14, 0], False, [[None, None, None], ['empty', 'empty', None], ['empty', 'agent', None]], [[(10, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], [None, None, None]], 1], [(13, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], [None, None, None]], 2], [(14, 14), [['empty', 'empty', None], ['agent', 'agent', None], [None, None, None]], 3], [(12, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], [None, None, None]], 4], [(13, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(7, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(11, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(14, 1), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11, 14], False, [['empty', 'empt

Step 184:
  Agent 0: Observation: [[14, 1], False, [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], [[(11, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 1], [(12, 14), [['agent', 'empty', 'empty'], ['empty', 'agent', 'agent'], [None, None, None]], 2], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 3], [(12, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(14, 10), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 5], [(7, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(12, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11, 14], False, [['emp

Step 186:
  Agent 0: Observation: [[14, 1], False, [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], [[(11, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 1], [(11, 14), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], [None, None, None]], 2], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 3], [(12, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'agent', 'empty']], 4], [(12, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 5], [(7, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(13, 11), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(14, 1), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11, 14]

Step 188:
  Agent 0: Observation: [[13, 0], False, [[None, None, None], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(11, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 1], [(10, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 2], [(14, 12), [['empty', 'agent', None], ['empty', 'empty', None], ['agent', 'agent', None]], 3], [(14, 13), [['empty', 'agent', None], ['agent', 'empty', None], ['empty', 'empty', None]], 4], [(12, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(6, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(14, 12), [['empty', 'agent', None], ['empty', 'agent', None], ['empty', 'agent', None]], 7]]], Action: (1, [(13, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[1

Step 190:
  Agent 0: Observation: [[13, 0], False, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(11, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 1], [(10, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(14, 11), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 3], [(13, 13), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(12, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(8, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(14, 13), [['empty', 'agent', None], ['agent', 'empty', None], ['empty', 'empty', None]], 7]]], Action: (1, [(13, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11, 13], Fa

Step 192:
  Agent 0: Observation: [[14, 1], False, [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], [[(12, 13), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(10, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(14, 11), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 3], [(13, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(11, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(8, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(14, 12), [['empty', 'agent', None], ['empty', 'empty', None], ['agent', 'agent', None]], 7]]], Action: (2, [(14, 0), [[None, None, None], ['agent', 'empty', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11, 13],

Step 194:
  Agent 0: Observation: [[14, 0], False, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], [[(12, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(14, 11), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'agent', None]], 3], [(13, 13), [['empty', 'empty', 'agent'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(12, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(8, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(13, 12), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['agent', 'agent', 'empty']], 7]]], Action: (4, [(14, 0), [[None, None, None], ['empty', 'empty', None], ['empty', 'agent', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[12, 12

Step 196:
  Agent 0: Observation: [[14, 2], False, [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], [[(13, 12), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(8, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(13, 12), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 3], [(13, 13), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 4], [(12, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(8, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(14, 13), [['agent', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 7]]], Action: (2, [(14, 1), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observati

Step 198:
  Agent 0: Observation: [[13, 3], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(14, 13), [['empty', 'agent', None], ['empty', 'empty', None], ['agent', 'empty', None]], 1], [(7, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(13, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 3], [(13, 14), [['empty', 'empty', 'agent'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(11, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(8, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(13, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'agent']], 7]]], Action: (3, [(14, 3), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observati

Step 200:
  Agent 0: Observation: [[12, 2], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(13, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 1], [(8, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(13, 10), [['agent', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(13, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 4], [(12, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(9, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(13, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(12, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
 

Step 202:
  Agent 0: Observation: [[12, 2], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(14, 11), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 1], [(7, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(13, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'agent']], 3], [(13, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 4], [(11, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(11, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(14, 13), [['empty', 'empty', None], ['agent', 'empty', None], ['agent', 'empty', None]], 7]]], Action: (2, [(12, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observa

Step 204:
  Agent 0: Observation: [[12, 4], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(13, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(6, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(13, 10), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 3], [(13, 14), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 4], [(11, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(13, 14), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 7]]], Action: (2, [(12, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1

Step 206:
  Agent 0: Observation: [[12, 2], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(12, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(5, 14), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 2], [(13, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'empty']], 3], [(13, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 4], [(10, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(11, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(12, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 7]]], Action: (1, [(12, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1

Step 208:
  Agent 0: Observation: [[12, 0], False, [[None, None, None], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(12, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 1], [(6, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 2], [(14, 9), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 3], [(13, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'agent', 'empty']], 4], [(8, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(12, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(11, 14), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], [None, None, None]], 7]]], Action: (1, [(12, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11,

Step 210:
  Agent 0: Observation: [[13, 0], False, [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(12, 13), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(6, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 2], [(14, 10), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 3], [(13, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(12, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(10, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (4, [(12, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[1

Step 212:
  Agent 0: Observation: [[13, 0], False, [[None, None, None], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(12, 13), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 1], [(5, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(13, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(12, 12), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(10, 12), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 5], [(11, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(11, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'agent']], 7]]], Action: (3, [(14, 0), [[None, None, None], ['agent', 'empty', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Obse

Step 214:
  Agent 0: Observation: [[11, 0], False, [[None, None, None], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(11, 12), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'agent']], 1], [(5, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(13, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(12, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 4], [(12, 12), [['agent', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(12, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(10, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 7]]], Action: (3, [(12, 0), [[None, None, None], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observa

Step 216:
  Agent 0: Observation: [[13, 0], False, [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(12, 11), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(5, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(12, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(14, 14), [['empty', 'empty', None], ['agent', 'empty', None], [None, None, None]], 4], [(12, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 5], [(12, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(9, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(12, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[13, 11],

Step 218:
  Agent 0: Observation: [[12, 1], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(13, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(4, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 2], [(12, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(12, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], [None, None, None]], 4], [(12, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 5], [(13, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(9, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (3, [(13, 1), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observati

Step 220:
  Agent 0: Observation: [[12, 1], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(12, 9), [['empty', 'empty', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(4, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 2], [(12, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(12, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], [None, None, None]], 4], [(13, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 5], [(12, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 6], [(9, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (4, [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: O

Step 222:
  Agent 0: Observation: [[13, 2], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(12, 9), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(5, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 2], [(12, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(11, 14), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 4], [(12, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], [None, None, None]], 5], [(13, 9), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(10, 7), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(12, 2), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observatio

Step 224:
  Agent 0: Observation: [[14, 3], False, [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], [[(11, 8), [['empty', 'empty', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(5, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 2], [(13, 7), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(10, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(14, 14), [['empty', 'empty', None], ['agent', 'empty', None], [None, None, None]], 5], [(13, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(8, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(13, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11, 9], Fal

Step 226:
  Agent 0: Observation: [[14, 3], False, [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], [[(12, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 1], [(5, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 2], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 3], [(10, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(13, 14), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 5], [(14, 10), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 6], [(8, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(14, 2), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[11, 9], False, [['empt

Step 228:
  Agent 0: Observation: [[13, 4], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(11, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(6, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(13, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(8, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(14, 13), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 5], [(13, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(9, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(13, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  A

Step 230:
  Agent 0: Observation: [[13, 4], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(11, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(6, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(13, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(9, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 4], [(13, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(12, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(10, 9), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(12, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 0]), Reward: -1, Done: False
  A

Step 232:
  Agent 0: Observation: [[11, 4], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(12, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 1], [(6, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(11, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(8, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(12, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(13, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'empty']], 6], [(11, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 7]]], Action: (3, [(12, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  A

Step 234:
  Agent 0: Observation: [[12, 3], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(11, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(5, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(13, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(9, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(13, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(12, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(9, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(12, 4), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Ag

Step 236:
  Agent 0: Observation: [[12, 3], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(12, 7), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(5, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(11, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 3], [(9, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(14, 13), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(11, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(8, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (3, [(13, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Age

Step 238:
  Agent 0: Observation: [[12, 3], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(11, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(4, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(12, 5), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 3], [(7, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(14, 11), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 5], [(12, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(12, 4), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Age

Step 240:
  Agent 0: Observation: [[11, 4], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], [[(13, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(4, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(12, 5), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 3], [(7, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 11), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 5], [(12, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(11, 6), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(12, 4), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Ag

Step 242:
  Agent 0: Observation: [[10, 3], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(13, 8), [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(4, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(14, 5), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 3], [(8, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(14, 11), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 5], [(13, 7), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(13, 6), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(10, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Ob

Step 244:
  Agent 0: Observation: [[8, 3], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(14, 9), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'agent', None]], 1], [(4, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(14, 5), [['empty', 'empty', None], ['empty', 'empty', None], ['agent', 'agent', None]], 3], [(9, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 11), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 5], [(12, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 6], [(13, 6), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (3, [(9, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: 

Step 246:
  Agent 0: Observation: [[10, 3], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(14, 8), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(5, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(14, 3), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 3], [(9, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(13, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(14, 6), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 6], [(12, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (4, [(9, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation:

Step 248:
  Agent 0: Observation: [[11, 2], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(13, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(6, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(14, 3), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 3], [(8, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(12, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(13, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 6], [(13, 6), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(11, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Ag

Step 250:
  Agent 0: Observation: [[13, 2], False, [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(13, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(7, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(13, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(8, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(12, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(13, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 6], [(14, 5), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'agent', None]], 7]]], Action: (4, [(12, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 0]), Reward: -1, Done: False
  Agent 1: Ob

Step 252:
  Agent 0: Observation: [[12, 3], False, [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(13, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(8, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'empty']], 2], [(13, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(7, 14), [['empty', 'empty', 'agent'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(12, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(12, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(14, 5), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 7]]], Action: (2, [(12, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Ob

Step 254:
  Agent 0: Observation: [[12, 5], False, [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], [[(13, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(8, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(12, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 3], [(8, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 4], [(12, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(12, 6), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(12, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 7]]], Action: (2, [(12, 4), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'agent']], 0]), Reward: -1, Done: False
  Ag

Step 256:
  Agent 0: Observation: [[12, 5], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'empty', 'empty']], [[(12, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(9, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(12, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(7, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(13, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(11, 7), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 6], [(11, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 7]]], Action: (2, [(12, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: F

Step 258:
  Agent 0: Observation: [[11, 6], False, [['agent', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], [[(14, 8), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 1], [(9, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(13, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(8, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(12, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(11, 7), [['agent', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(10, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (3, [(12, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Ag

Step 260:
  Agent 0: Observation: [[12, 7], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(14, 8), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 1], [(7, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(12, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(6, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(11, 14), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 5], [(11, 7), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 6], [(8, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(11, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Obs

Step 262:
  Agent 0: Observation: [[13, 6], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(14, 8), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 1], [(6, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(13, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(4, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(13, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 5], [(13, 7), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 6], [(8, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (4, [(12, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: 

Step 264:
  Agent 0: Observation: [[14, 5], False, [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'agent', None]], [[(13, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(7, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(12, 0), [[None, None, None], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(5, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(12, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(13, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 6], [(6, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(14, 6), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: 

Step 266:
  Agent 0: Observation: [[13, 4], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], [[(12, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(8, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(13, 1), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(5, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(11, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(13, 5), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(7, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(14, 4), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 0]), Reward: -1, Done: False
  Agent

Step 268:
  Agent 0: Observation: [[13, 2], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(12, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(8, 7), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(12, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 3], [(4, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(11, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(14, 5), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 6], [(7, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 7]]], Action: (1, [(13, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agen

Step 270:
  Agent 0: Observation: [[14, 3], False, [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], [[(12, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(8, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(3, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(13, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(14, 5), [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], 6], [(7, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'agent']], 7]]], Action: (2, [(14, 2), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: 

Step 272:
  Agent 0: Observation: [[14, 2], False, [['empty', 'empty', None], ['empty', 'empty', None], ['empty', 'agent', None]], [[(11, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(9, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(11, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(5, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(12, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(13, 6), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(9, 6), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(14, 3), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Obse

Step 274:
  Agent 0: Observation: [[14, 2], False, [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], [[(11, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(8, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(10, 0), [[None, None, None], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(6, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(11, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(14, 5), [['empty', 'empty', None], ['agent', 'empty', None], ['empty', 'empty', None]], 6], [(10, 7), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 7]]], Action: (4, [(13, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation:

Step 276:
  Agent 0: Observation: [[14, 4], False, [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], [[(9, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(10, 7), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 2], [(11, 1), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(6, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(10, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(14, 7), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 6], [(10, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (2, [(14, 3), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation:

Step 278:
  Agent 0: Observation: [[14, 5], False, [['empty', 'empty', None], ['empty', 'agent', None], ['agent', 'empty', None]], [[(10, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 2], [(10, 0), [[None, None, None], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(7, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(8, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(13, 6), [['empty', 'empty', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(10, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 7]]], Action: (4, [(14, 5), [['empty', 'agent', None], ['empty', 'empty', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: 

Step 280:
  Agent 0: Observation: [[14, 6], False, [['empty', 'agent', None], ['agent', 'empty', None], ['empty', 'empty', None]], [[(12, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(10, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(8, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(8, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(13, 6), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(14, 5), [['empty', 'empty', None], ['agent', 'agent', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observation: [

Step 282:
  Agent 0: Observation: [[13, 6], False, [['agent', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(11, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(8, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(10, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(7, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(9, 12), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(12, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['agent', 'empty', 'empty']], 7]]], Action: (3, [(14, 6), [['agent', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 0]), Reward: -1, Done: False
  Agent 1: Observ

Step 284:
  Agent 0: Observation: [[12, 5], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], [[(11, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(9, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(9, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(6, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(10, 13), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(10, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 6], [(11, 6), [['agent', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (1, [(12, 6), [['agent', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: Fal

Step 286:
  Agent 0: Observation: [[12, 7], False, [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(12, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(10, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(9, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(5, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(9, 14), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 5], [(10, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 6], [(12, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(12, 6), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agen

Step 288:
  Agent 0: Observation: [[11, 6], False, [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(11, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(11, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(8, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(4, 10), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(8, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 5], [(9, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(12, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (3, [(12, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agen

Step 290:
  Agent 0: Observation: [[10, 5], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], [[(11, 10), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(10, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'agent']], 2], [(10, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(3, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(6, 14), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 5], [(9, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'agent']], 6], [(10, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(10, 6), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['agent', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Age

Step 292:
  Agent 0: Observation: [[10, 3], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'agent']], [[(10, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(11, 10), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(9, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'agent']], 3], [(2, 12), [['target_2_0', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(6, 14), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], [None, None, None]], 5], [(9, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 6], [(11, 4), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(10, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 0]), Reward: -1, Done: False
 

Step 294:
  Agent 0: Observation: [[8, 3], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], [[(9, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 1], [(10, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(8, 4), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(1, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(6, 14), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 5], [(8, 9), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(10, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(9, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1

Step 296:
  Agent 0: Observation: [[7, 4], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], [[(7, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 1], [(8, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(7, 5), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(2, 14), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], 4], [(4, 14), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], [None, None, None]], 5], [(6, 9), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(8, 5), [['empty', 'agent', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(8, 4), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 0]), Reward: -1, Done: False
  Agent 1: Observati

Step 298:
  Agent 0: Observation: [[6, 5], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'empty']], [[(5, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 1], [(6, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(6, 6), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(0, 14), [[None, 'empty', 'empty'], [None, 'empty', 'agent'], [None, None, None]], 4], [(3, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(4, 9), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(6, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 7]]], Action: (3, [(7, 5), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observ

Step 300:
  Agent 0: Observation: [[5, 6], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'empty']], [[(3, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 1], [(4, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(5, 7), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 3], [(1, 14), [['empty', 'empty', 'agent'], ['empty', 'agent', 'empty'], [None, None, None]], 4], [(2, 12), [['target_2_0', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(2, 9), [['empty', 'target_3_0', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 6], [(5, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 7]]], Action: (3, [(6, 6), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
 

Step 302:
  Agent 0: Observation: [[3, 6], False, [['empty', 'empty', 'empty'], ['target_5_0', 'empty', 'agent'], ['empty', 'agent', 'agent']], [[(2, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 1], [(2, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['agent', 'empty', 'empty']], 2], [(3, 7), [['target_5_0', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['target_3_0', 'empty', 'empty']], 3], [(2, 13), [['agent', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(1, 11), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 5], [(1, 10), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 6], [(4, 7), [['empty', 'agent', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(4, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 0]), Reward: -1

Step 304:
  Agent 0: Observation: [[2, 6], False, [['empty', 'empty', 'empty'], ['target_3_0', 'agent', 'empty'], ['empty', 'agent', 'empty']], [[(2, 8), [['empty', 'agent', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 1], [(1, 11), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'agent']], 2], [(2, 8), [['empty', 'agent', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 3], [(1, 12), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(1, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(1, 11), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 6], [(2, 7), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 7]]], Action: (0, [(2, 6), [['empty', 'empty', 'empty'], ['empty', 'target_5_0', 'agent'], ['empty', 'agent', 'agent']], 0]), Reward: -1, Don

Step 306:
  Agent 0: Observation: [[1, 6], False, [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'agent']], [[(2, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(1, 9), [['empty', 'empty', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(2, 7), [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(1, 11), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(2, 9), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 5], [(1, 9), [['empty', 'empty', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'empty']], 6], [(2, 8), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 7]]], Action: (0, [(1, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 0]), Reward: -1, Done: False
  Ag

Step 308:
  Agent 0: Observation: [[2, 7], False, [['agent', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(1, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 1], [(2, 8), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(2, 6), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'agent', 'empty']], 3], [(1, 9), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 4], [(2, 8), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 5], [(2, 8), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 6], [(2, 6), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'agent', 'empty']], 7]]], Action: (4, [(1, 7), [['empty', 'agent', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 0]), Reward: -1, Done: False
  Age

Step 310:
  Agent 0: Observation: [[2, 8], False, [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(1, 7), [['empty', 'agent', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 1], [(2, 7), [['agent', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(1, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'agent']], 3], [(2, 8), [['agent', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 4], [(2, 6), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'agent', 'empty']], 5], [(2, 7), [['agent', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'empty']], 6], [(1, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'agent']], 7]]], Action: (0, [(2, 8), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Age

Step 312:
  Agent 0: Observation: [[2, 10], False, [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(1, 9), [['empty', 'agent', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(2, 6), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'empty', 'empty']], 2], [(1, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 3], [(2, 7), [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 4], [(1, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'agent']], 5], [(2, 6), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'empty']], 6], [(1, 7), [['empty', 'agent', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 7]]], Action: (2, [(2, 9), [['agent', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Ag

Step 314:
  Agent 0: Observation: [[1, 11], False, [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(1, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(1, 6), [['empty', 'empty', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 2], [(1, 10), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 3], [(2, 6), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(1, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 5], [(1, 6), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 6], [(1, 9), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (2, [(1, 10), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
 

Step 316:
  Agent 0: Observation: [[1, 12], False, [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(2, 11), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(2, 5), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'empty', 'empty']], 2], [(1, 11), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 3], [(1, 6), [['empty', 'empty', 'agent'], ['agent', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(3, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(0, 5), [[None, 'empty', 'empty'], [None, 'empty', 'empty'], [None, 'agent', 'agent']], 6], [(1, 11), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(1, 11), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1

Step 318:
  Agent 0: Observation: [[1, 14], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], [None, None, None]], [[(2, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 1], [(1, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(0, 10), [[None, 'empty', 'empty'], [None, 'empty', 'agent'], [None, 'empty', 'agent']], 3], [(1, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(4, 4), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(0, 5), [[None, 'empty', 'agent'], [None, 'empty', 'empty'], [None, 'agent', 'agent']], 6], [(0, 11), [[None, 'agent', 'empty'], [None, 'empty', 'agent'], [None, 'empty', 'empty']], 7]]], Action: (2, [(1, 13), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[2, 8], Fals

Step 320:
  Agent 0: Observation: [[1, 12], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(3, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(1, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 2], [(0, 8), [[None, 'empty', 'agent'], [None, 'empty', 'empty'], [None, 'agent', 'empty']], 3], [(0, 7), [[None, 'empty', 'empty'], [None, 'empty', 'agent'], [None, 'agent', 'empty']], 4], [(5, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(0, 3), [[None, 'empty', 'agent'], [None, 'empty', 'empty'], [None, 'agent', 'empty']], 6], [(1, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(1, 13), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observation: [[3, 

Step 322:
  Agent 0: Observation: [[1, 12], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(3, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(3, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(0, 7), [[None, 'empty', 'empty'], [None, 'empty', 'agent'], [None, 'agent', 'empty']], 3], [(2, 7), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 4], [(7, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(0, 4), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 6], [(2, 9), [['empty', 'empty', 'agent'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(2, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observatio

Step 324:
  Agent 0: Observation: [[2, 11], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(3, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(5, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(0, 7), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 3], [(3, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(8, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(0, 5), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 6], [(2, 7), [['empty', 'empty', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'agent']], 7]]], Action: (1, [(2, 12), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observatio

Step 326:
  Agent 0: Observation: [[3, 10], False, [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(3, 8), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(4, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(1, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(3, 4), [['empty', 'empty', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 4], [(10, 2), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 5], [(0, 5), [[None, 'empty', 'empty'], [None, 'empty', 'empty'], [None, 'agent', 'agent']], 6], [(2, 7), [['agent', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'agent']], 7]]], Action: (4, [(2, 10), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: 

Step 328:
  Agent 0: Observation: [[2, 11], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], [[(3, 8), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 1], [(4, 3), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 2], [(0, 5), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'agent', 'empty']], 3], [(2, 5), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 4], [(8, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(0, 5), [[None, 'agent', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 6], [(1, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 7]]], Action: (3, [(3, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observatio

Step 330:
  Agent 0: Observation: [[3, 10], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(4, 7), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(4, 3), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 2], [(2, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'empty']], 3], [(4, 5), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(8, 2), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(0, 7), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 6], [(1, 8), [['agent', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(3, 11), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: O

Step 332:
  Agent 0: Observation: [[3, 12], False, [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], [[(5, 6), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 1], [(4, 5), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'agent']], 2], [(3, 4), [['empty', 'empty', 'empty'], ['agent', 'empty', 'agent'], ['empty', 'empty', 'agent']], 3], [(4, 3), [['target_6_0', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['agent', 'agent', 'empty']], 4], [(8, 0), [[None, None, None], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(0, 7), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 6], [(2, 9), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 7]]], Action: (2, [(3, 11), [['empty', 'agent', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Obser

Step 334:
  Agent 0: Observation: [[3, 10], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(5, 4), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(5, 4), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(2, 3), [['empty', 'empty', 'target_6_0'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(4, 5), [['empty', 'agent', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'empty', 'empty']], 4], [(7, 0), [[None, None, None], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(0, 7), [[None, 'empty', 'empty'], [None, 'empty', 'empty'], [None, 'agent', 'empty']], 6], [(3, 8), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(3, 11), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Obser

Step 336:
  Agent 0: Observation: [[3, 8], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(4, 3), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 1], [(4, 3), [['empty', 'empty', 'empty'], ['agent', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(3, 2), [['empty', 'empty', 'empty'], ['empty', 'target_6_0', 'empty'], ['empty', 'agent', 'agent']], 3], [(4, 3), [['agent', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 4], [(5, 0), [[None, None, None], ['empty', 'empty', 'agent'], ['empty', 'empty', 'empty']], 5], [(0, 5), [[None, 'empty', 'empty'], [None, 'empty', 'empty'], [None, 'agent', 'empty']], 6], [(3, 6), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(3, 9), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Observa

Step 338:
  Agent 0: Observation: [[3, 6], False, [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(3, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 1], [(3, 2), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 2], [(3, 1), [['empty', 'empty', 'agent'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 3], [(3, 2), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 4], [(4, 1), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 5], [(1, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 6], [(3, 4), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 7]]], Action: (1, [(3, 7), [['empty', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Age

Step 340:
  Agent 0: Observation: [[3, 4], False, [['agent', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], [[(2, 2), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 1], [(2, 2), [['empty', 'empty', 'agent'], ['empty', 'agent', 'agent'], ['empty', 'empty', 'agent']], 2], [(4, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 3], [(3, 1), [['empty', 'empty', 'agent'], ['empty', 'agent', 'empty'], ['agent', 'agent', 'empty']], 4], [(3, 2), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['empty', 'agent', 'empty']], 5], [(2, 3), [['empty', 'agent', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'empty']], 6], [(3, 2), [['empty', 'agent', 'empty'], ['agent', 'agent', 'empty'], ['agent', 'agent', 'empty']], 7]]], Action: (1, [(3, 5), [['agent', 'empty', 'empty'], ['empty', 'empty', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agent 1: Obs

Step 342:
  Agent 0: Observation: [[3, 2], True, [['empty', 'agent', 'empty'], ['agent', 'agent', 'agent'], ['empty', 'agent', 'empty']], [[(4, 2), [['empty', 'agent', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 1], [(3, 1), [['empty', 'empty', 'empty'], ['empty', 'empty', 'agent'], ['empty', 'agent', 'agent']], 2], [(5, 1), [['empty', 'empty', 'empty'], ['agent', 'empty', 'empty'], ['agent', 'empty', 'empty']], 3], [(3, 3), [['empty', 'agent', 'agent'], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(3, 1), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'agent']], 5], [(3, 2), [['empty', 'agent', 'empty'], ['empty', 'agent', 'agent'], ['empty', 'agent', 'empty']], 6], [(2, 2), [['empty', 'empty', 'agent'], ['empty', 'empty', 'agent'], ['empty', 'empty', 'agent']], 7]]], Action: (1, [(3, 3), [['empty', 'agent', 'empty'], ['empty', 'agent', 'empty'], ['empty', 'agent', 'empty']], 0]), Reward: -1, Done: False
  Agen

Observation for Agent 0: [[0, 0], False, [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], []]
Agent 0: No communication data available this step.
Agent 0: Current targets seen: []
Agent 0: No valid targets, attempting random action.
Agent 0: Sending noisy communication: Location=(0, 0), Data=[[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']]
Observation for Agent 1: [[14, 0], False, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], []]
Agent 1: No communication data available this step.
Agent 1: Current targets seen: []
Agent 1: No valid targets, attempting random action.
Agent 1: Sending noisy communication: Location=(14, 0), Data=[[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]]
Observation for Agent 2: [[14, 14], False, [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], []]
Agent 2: No communication data available this step.
Agent 2: Current targets seen: []
Agent 2: 

Step 2:
  Agent 0: Observation: [[0, 1], True, [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (3, [(0, 1), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty

Step 2:
  Agent 0: Observation: [[0, 1], True, [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (3, [(0, 1), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[13, 0], True, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'em

Step 2:
  Agent 0: Observation: [[0, 0], True, [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (3, [(0, 0), [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], [

Step 2:
  Agent 0: Observation: [[0, 1], True, [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (3, [(0, 1), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[13, 0], True, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'em

Step 2:
  Agent 0: Observation: [[0, 0], True, [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (1, [(0, 0), [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], [

Step 2:
  Agent 0: Observation: [[0, 0], True, [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (1, [(0, 0), [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 1], True, [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', Non

Step 2:
  Agent 0: Observation: [[0, 0], True, [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (4, [(0, 0), [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], [

Step 2:
  Agent 0: Observation: [[1, 0], True, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (4, [(1, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty

Step 2:
  Agent 0: Observation: [[1, 0], True, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (4, [(1, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[13, 0], True, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'em

Step 2:
  Agent 0: Observation: [[0, 0], True, [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (1, [(0, 0), [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[13, 0], True, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty

Step 2:
  Agent 0: Observation: [[0, 0], True, [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (4, [(0, 0), [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 1], True, [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', Non

Step 2:
  Agent 0: Observation: [[0, 1], True, [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (2, [(0, 1), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[13, 0], True, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'em

Step 2:
  Agent 0: Observation: [[0, 1], True, [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (2, [(0, 1), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty

Step 2:
  Agent 0: Observation: [[0, 1], True, [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (4, [(0, 1), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty

Step 2:
  Agent 0: Observation: [[1, 0], True, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (4, [(1, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty

Step 2:
  Agent 0: Observation: [[0, 0], True, [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (1, [(0, 0), [[None, None, None], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], [

Step 2:
  Agent 0: Observation: [[0, 1], True, [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (2, [(0, 1), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 1], True, [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 

Step 2:
  Agent 0: Observation: [[1, 0], True, [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (2, [(1, 0), [[None, None, None], ['agent', 'empty', 'empty'], ['empty', 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 1], True, [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 

Step 2:
  Agent 0: Observation: [[0, 1], True, [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], [[(14, 0), [[None, None, None], ['empty', 'agent', None], ['empty', 'empty', None]], 1], [(14, 14), [['empty', 'empty', None], ['empty', 'agent', None], [None, None, None]], 2], [(0, 14), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, None, None]], 3], [(7, 0), [[None, None, None], ['empty', 'agent', 'empty'], ['empty', 'empty', 'empty']], 4], [(14, 7), [['empty', 'empty', None], ['empty', 'agent', None], ['empty', 'empty', None]], 5], [(7, 14), [['empty', 'empty', 'empty'], ['empty', 'agent', 'empty'], [None, None, None]], 6], [(0, 7), [[None, 'empty', 'empty'], [None, 'agent', 'empty'], [None, 'empty', 'empty']], 7]]], Action: (1, [(0, 1), [[None, 'agent', 'empty'], [None, 'empty', 'empty'], [None, 'empty', 'empty']], 0]), Reward: 0, Done: True
  Agent 1: Observation: [[14, 0], True, [[None, None, None], ['empty', 'agent', None], ['empty', 'empty