In [None]:
from Environment import SokobanEnvironment
from RL_algorithms import SarsaAgent
from maps import MAPS  # Giả sử bạn đã lưu các bản đồ trong file maps.py
import matplotlib.pyplot as plt
import numpy as np

def main():
    # Khởi tạo môi trường với level 1
    env = SokobanEnvironment(MAPS["level_1"])

    # Định nghĩa số lượng hành động (4 hướng: up, down, left, right)
    action_size = 4

    # Khởi tạo agent với state_size dựa trên không gian trạng thái mã hóa
    state_size = env.state_space_size()  # Tính toán số lượng trạng thái có thể
    agent = SarsaAgent(state_size=state_size, action_size=action_size)

    episodes = 1000
    rewards = []

    for episode in range(episodes):
        # Đặt lại môi trường và lấy trạng thái ban đầu đã mã hóa
        state = env.reset()
        state = env.encode_state()  # Mã hóa trạng thái

        total_reward = 0
        done = False

        # Agent chọn hành động đầu tiên
        action = agent.choose_action(state)

        while not done:
            # Thực hiện hành động và nhận về trạng thái mới đã mã hóa, phần thưởng và trạng thái kết thúc
            next_state, reward, done = env.step(action)

            # Chọn hành động tiếp theo theo chính sách epsilon-greedy
            next_action = agent.choose_action(next_state)

            # Agent học từ hành động và trạng thái mới
            agent.learn(state, action, reward, next_state, next_action, done)

            # Cập nhật trạng thái và hành động hiện tại
            state = next_state
            action = next_action

            # Cộng dồn phần thưởng
            total_reward += reward

        # Ghi nhận tổng phần thưởng trong mỗi episode
        rewards.append(total_reward)

        # In ra tổng phần thưởng sau mỗi 100 episodes
        if (episode + 1) % 100 == 0:
            print(f'Episode {episode + 1}/{episodes}, Total Reward: {total_reward:.2f}')

    # Lưu phần thưởng vào file
    np.save("total_rewards_sarsa.npy", rewards)

    # Vẽ biểu đồ phần thưởng theo từng episode
    plt.plot(rewards)
    plt.xlabel('Episode')
    plt.ylabel('Total Reward')
    plt.title('Training Progress with SARSA')
    plt.show()

if __name__ == "__main__":
    main()
