In [1]:
# Khai báo các thư viện cần thiết

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.data import DataLoader, TensorDataset
import pickle
import numpy as np
import torch.optim as optim
import onnx
import onnxruntime
import os

In [2]:
# Khai báo tên model
while True:
    model_name = input("Enter model name: ")
    if model_name == "":
        print("Model name cannot be empty. Please enter a valid name.")
    else:
        if not os.path.exists(model_name):
            print("Model is not exist. Please enter a valid name.")
        else:
            break

In [3]:
# Mạng Nơ ron 

class MazeNetCombined(nn.Module):
    def __init__(self, local_size=11, global_size=10, num_actions=4):
        super(MazeNetCombined, self).__init__()
        
        # Quan sát cục bộ
        self.conv1_local = nn.Conv2d(1, 32, kernel_size=3, padding=1)
        self.conv2_local = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.conv3_local = nn.Conv2d(64, 128, kernel_size=3, padding=1)
        self.conv4_local = nn.Conv2d(128, 256, kernel_size=3, padding=1)
        
        # Quan sát toàn cục
        self.conv1_global = nn.Conv2d(1, 32, kernel_size=3, padding=1)
        self.conv2_global = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        self.conv3_global = nn.Conv2d(64, 128, kernel_size=3, padding=1)
        self.conv4_global = nn.Conv2d(128, 256, kernel_size=3, padding=1)
        
        # Fully Connected cho vị trí hiện tại
        self.fc_position = nn.Linear(2, 32)

        # Tầng Fully Connected cuối cùng
        self.fc1 = nn.Linear(256 * local_size * local_size + 256 * global_size * global_size + 32, 256)
        self.fc2 = nn.Linear(256, 128)
        self.dropout_fc = nn.Dropout(p=0.5)  # Dropout trước tầng FC3
        self.fc3 = nn.Linear(128, num_actions)

    def forward(self, local_obs, global_obs, position):
        # Xử lý local_obs
        x_local = F.relu(self.conv1_local(local_obs))
        x_local = F.relu(self.conv2_local(x_local))
        x_local = F.relu(self.conv3_local(x_local))
        x_local = F.relu(self.conv4_local(x_local))
        x_local = x_local.view(x_local.size(0), -1)
    
        # Xử lý global_obs
        x_global = F.relu(self.conv1_global(global_obs))
        x_global = F.relu(self.conv2_global(x_global))
        x_global = F.relu(self.conv3_global(x_global))
        x_global = F.relu(self.conv4_global(x_global))
        x_global = x_global.view(x_global.size(0), -1)
        # Xử lý vị trí hiện tại
        x_position = F.relu(self.fc_position(position))

        # Kết hợp tất cả
        x = torch.cat((x_local, x_global, x_position), dim=1)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.dropout_fc(x)  # Dropout trước FC3
        x = self.fc3(x)

        return x


In [4]:
# Replay Buffer
class ReplayBuffer:
    def __init__(self, capacity):
        self.capacity = capacity
        self.buffer = []

    def push(self, experience):
        """Thêm một trải nghiệm (local_obs, global_obs, position, action, reward, next_local_obs, next_global_obs, next_position, done) vào replay buffer."""
        if len(self.buffer) >= self.capacity:
            self.buffer.pop(0)  # Loại bỏ trải nghiệm cũ nhất nếu đầy
        self.buffer.append(experience)

    def sample(self, batch_size):
        """Trích xuất batch mẫu từ replay buffer."""
        indices = np.random.choice(len(self.buffer), batch_size, replace=False)
        batch = [self.buffer[idx] for idx in indices]
        # Tách dữ liệu thành các phần riêng biệt
        local_obs, global_obs, position, actions, rewards, next_local_obs, next_global_obs, next_position, dones = zip(*batch)
        return (np.array(local_obs), np.array(global_obs), np.array(position), 
                np.array(actions), np.array(rewards), np.array(next_local_obs), 
                np.array(next_global_obs), np.array(next_position), np.array(dones))

    def __len__(self):
        return len(self.buffer)
    
    def extend(self, buffer):
        """Mở rộng replay buffer bằng cách thêm một buffer khác."""
        if len(self.buffer) + len(buffer.buffer) > self.capacity:
            self.capacity = len(self.buffer) + len(buffer.buffer)
        self.buffer.extend(buffer.buffer)

In [5]:
# Cập nhật model
def update_model(policy_net, target_net, replay_buffer, optimizer, batch_size, gamma, device):
    """
    Cập nhật mô hình chính (policy network) cho mạng có đầu vào đa dạng (local_obs, global_obs, position).

    Args:
    - policy_net (nn.Module): Mạng chính dự đoán giá trị Q(s, a).
    - target_net (nn.Module): Mạng mục tiêu dùng để tính Q_target.
    - replay_buffer (ReplayBuffer): Bộ nhớ replay chứa các kinh nghiệm (local_obs, global_obs, position, action, reward, next_local_obs, next_global_obs, next_position, done).
    - optimizer (torch.optim.Optimizer): Trình tối ưu hóa (Adam, SGD, ...).
    - batch_size (int): Kích thước batch mẫu từ replay buffer.
    - gamma (float): Hệ số chiết khấu (discount factor).
    - device (torch.device): Thiết bị thực thi (CPU hoặc GPU).

    Returns:
    - loss (float): Giá trị mất mát (loss) sau khi cập nhật.
    """
    # Kiểm tra nếu replay buffer chưa đủ dữ liệu
    if len(replay_buffer) < batch_size:
        return None

    # 1. Lấy mẫu từ replay buffer
    batch = replay_buffer.sample(batch_size)
    (local_obs, global_obs, position, actions, rewards, 
     next_local_obs, next_global_obs, next_position, dones) = batch

    # 2. Chuyển đổi dữ liệu sang Tensor và đưa vào thiết bị (CPU/GPU)
    local_obs = torch.tensor(local_obs, dtype=torch.float32).to(device).unsqueeze(1)  # Thêm chiều kênh cho CNN
    global_obs = torch.tensor(global_obs, dtype=torch.float32).to(device).unsqueeze(1)  # Thêm chiều kênh
    position = torch.tensor(position, dtype=torch.float32).to(device)
    actions = torch.tensor(actions, dtype=torch.long).to(device)
    rewards = torch.tensor(rewards, dtype=torch.float32).to(device)
    next_local_obs = torch.tensor(next_local_obs, dtype=torch.float32).to(device).unsqueeze(1)  # Thêm chiều kênh
    next_global_obs = torch.tensor(next_global_obs, dtype=torch.float32).to(device).unsqueeze(1)  # Thêm chiều kênh
    next_position = torch.tensor(next_position, dtype=torch.float32).to(device)
    dones = torch.tensor(dones, dtype=torch.float32).to(device)

    # 3. Dự đoán Q(s, a) từ policy_net
    q_values = policy_net(local_obs, global_obs, position)  # Đầu ra: (batch_size, num_actions)
    q_values = q_values.gather(1, actions.unsqueeze(1)).squeeze(1)  # Lấy giá trị Q(s, a) cho hành động đã thực hiện

    # 4. Tính toán Q_target bằng target_net
    with torch.no_grad():
        next_q_values = target_net(next_local_obs, next_global_obs, next_position)  # Dự đoán Q(s', a') từ target_net
        max_next_q_values = next_q_values.max(1)[0]  # Lấy giá trị lớn nhất Q(s', a')
        q_targets = rewards + gamma * max_next_q_values * (1 - dones)  # Hàm Bellman

    # 5. Tính hàm mất mát
    loss = F.mse_loss(q_values, q_targets)

    # 6. Tối ưu hóa mô hình
    optimizer.zero_grad()  # Xóa gradient cũ
    loss.backward()  # Lan truyền ngược (backpropagation)
    optimizer.step()  # Cập nhật trọng số

    return loss.item()


In [6]:
# Đồng bộ với mạng mục tiêu
def sync_target_network(q_network, target_network):
    target_network.load_state_dict(q_network.state_dict())

In [7]:
# Lưu, tải trọng số của mô hình

# Lưu trọng số của mô hình
def save_model(model, path):
    torch.save(model, path)
    print(f"Model saved to: {path}")
# Tải trọng số của mô hình
def load_model(path):
    policy_model = torch.load(path, map_location=device, weights_only=False)  # Tải mô hình từ file
    target_model = policy_model
    target_model.eval() # Đặt target_model ở chế độ đánh giá
    print(F"Model loaded from: {path}")
    return policy_model, target_model

In [8]:
# Khởi tạo các siêu tham số

# Thiết bị thực thi (CPU hoặc GPU)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Training on: {device}")

# Đọc training info từ file
with open(model_name + "/training_info.pkl", "rb") as f:
    training_info = pickle.load(f)
gamma = training_info["gamma"]  # Hệ số chiết khấu
learning_rate = training_info["learning_rate"]  # Tốc độ học
weight_decay = training_info["weight_decay"]  # Hệ số điều chỉnh trọng số

# Hyperparameters
batch_size = 256  # Kích thước batch khi lấy mẫu từ replay buffer
max_episode = 10000             # Số episode tối đa

# Tải model từ file 
policy_net, target_net = load_model(model_name + "/model.pth")

# Optimizer
optimizer = optim.Adam(policy_net.parameters(), lr=learning_rate, weight_decay = weight_decay)

print("Initialization complete!")

Training on: cuda
Model loaded from: model01/model.pth
Initialization complete!


In [9]:
# Khởi tạo replay buffer
replay_buffer = ReplayBuffer(capacity=0)
with open(model_name + "/replay_buffer.pkl", "rb") as file:
    while True:
        try:
            # Tải buffer từ tệp pickle
            buffer = pickle.load(file)
            # Thêm buffer vào replay buffer hiện tại
            replay_buffer.extend(buffer)
        except EOFError:
            # Đến cuối tệp
            break
print(f"Replay buffer loaded with {len(replay_buffer)} experiences.")

Replay buffer loaded with 26871 experiences.


In [10]:
# Huấn luyện mô hình trên replay buffer
for episode in range(max_episode):
    print(f"Episode {episode + 1}/{max_episode}")
    loss = update_model(policy_net, target_net, replay_buffer, optimizer, batch_size, gamma, device)
    
    if loss is not None:
        print(f"Loss: {loss:.4f}")
    else:
        print("Replay buffer not enough data for training.")

    # Đồng bộ hóa mạng mục tiêu
    if episode % 100 == 0:
        sync_target_network(policy_net, target_net)

# Lưu trọng số của mô hình
save_model(policy_net, path=model_name + "/model.pth")

Episode 1/10000
Loss: 7.9437
Episode 2/10000
Loss: 11.8635
Episode 3/10000
Loss: 5.4592
Episode 4/10000
Loss: 10.6531
Episode 5/10000
Loss: 7.9957
Episode 6/10000
Loss: 7.8984
Episode 7/10000
Loss: 4.5134
Episode 8/10000
Loss: 6.9751
Episode 9/10000
Loss: 8.7988
Episode 10/10000
Loss: 6.0733
Episode 11/10000
Loss: 5.2207
Episode 12/10000
Loss: 6.8965
Episode 13/10000
Loss: 6.2168
Episode 14/10000
Loss: 5.1928
Episode 15/10000
Loss: 4.1190
Episode 16/10000
Loss: 7.8708
Episode 17/10000
Loss: 4.7300
Episode 18/10000
Loss: 8.9308
Episode 19/10000
Loss: 5.5065
Episode 20/10000
Loss: 10.9902
Episode 21/10000
Loss: 5.1827
Episode 22/10000
Loss: 4.1112
Episode 23/10000
Loss: 6.6377
Episode 24/10000
Loss: 6.5416
Episode 25/10000
Loss: 8.3115
Episode 26/10000
Loss: 5.5518
Episode 27/10000
Loss: 4.8167
Episode 28/10000
Loss: 9.6939
Episode 29/10000
Loss: 3.6950
Episode 30/10000
Loss: 8.0197
Episode 31/10000
Loss: 5.1416
Episode 32/10000
Loss: 5.5420
Episode 33/10000
Loss: 5.8471
Episode 34/10000

In [11]:
# Xuất mô hình sang định dạng ONNX

def export_to_onnx(trained_model, device, local_size=11, global_size=10, num_actions=4, output_file="model.onnx"):
    """
    Xuất mô hình PyTorch đã huấn luyện sang định dạng ONNX.

    Args:
    - trained_model (nn.Module): Mô hình PyTorch đã huấn luyện.
    - local_size (int): Kích thước quan sát cục bộ (ví dụ: 11x11).
    - global_size (int): Kích thước quan sát toàn cục (ví dụ: 10x10).
    - num_actions (int): Số lượng hành động trong mê cung.
    - output_file (str): Đường dẫn tệp để lưu mô hình ONNX.

    Returns:
    - None: Mô hình ONNX được lưu vào file.
    """
    # Đặt mô hình ở chế độ đánh giá
    trained_model.to(device)
    trained_model.eval()

    # Tạo dữ liệu đầu vào giả (dummy input) để định hình đầu vào
    dummy_local_obs = torch.randn(1, 1, local_size, local_size).to(device)  # Local observation
    dummy_global_obs = torch.randn(1, 1, global_size, global_size).to(device)  # Global observation
    dummy_position = torch.randn(1, 2).to(device)  # Vị trí hiện tại
    
    # Xuất mô hình sang định dạng ONNX
    torch.onnx.export(
        trained_model,  # Mô hình đã huấn luyện
        (dummy_local_obs, dummy_global_obs, dummy_position),  # Đầu vào
        output_file,  # Tên tệp ONNX
        input_names=["local_obs", "global_obs", "position"],  # Tên các đầu vào
        output_names=["action"],  # Tên đầu ra
        dynamic_axes={
            "local_obs": {0: "batch_size"}, 
            "global_obs": {0: "batch_size"}, 
            "position": {0: "batch_size"}, 
            "action": {0: "batch_size"}
        }
    )
    print(f"Model exported to ONNX format: {output_file}")

# Xuất mô hình sang ONNX
local_size = 11  # Kích thước quan sát cục bộ
global_size = 8  # Kích thước quan sát toàn cục
num_actions = 4  # Số lượng hành động trong mê cung
export_to_onnx(target_net, device, local_size, global_size, num_actions, "maze_net_combined.onnx")

Model exported to ONNX format: maze_net_combined.onnx
