<a href="https://colab.research.google.com/github/khang02sss/khang/blob/main/Untitled2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [46]:
import torch
import torch.nn as nn
import torch.optim as optim
import math

# --- 1. ĐỊNH NGHĨA CÁC THÀNH PHẦN KIẾN TRÚC CƠ BẢN ---

# Vị trí Mã hóa (Positional Encoding)
class PositionalEncoding(nn.Module):
    def __init__(self, d_model, max_len=5000):
        super(PositionalEncoding, self).__init__()
        # Tạo ma trận PE (max_len x d_model)
        pe = torch.zeros(max_len, d_model)
        position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
        div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-math.log(10000.0) / d_model))

        # Áp dụng công thức Sin cho vị trí chẵn
        pe[:, 0::2] = torch.sin(position * div_term)
        # Áp dụng công thức Cos cho vị trí lẻ
        pe[:, 1::2] = torch.cos(position * div_term)

        pe = pe.unsqueeze(0).transpose(0, 1) # Shape: (max_len, 1, d_model)
        self.register_buffer('pe', pe) # Đăng ký tensor như một buffer (không học)

    def forward(self, x):
        # x có shape (seq_len, batch_size, d_model)
        # Cộng PE vào embedding, chỉ lấy PE theo độ dài hiện tại
        x = x + self.pe[:x.size(0), :]
        return x

# --- 2. ĐỊNH NGHĨA KIẾN TRÚC TRANSFORMER HOÀN CHỈNH ---

class TransformerModel(nn.Module):
    def __init__(self, ntoken, d_model, nhead, d_hid, nlayers, dropout=0.5):
        super(TransformerModel, self).__init__()

        # 0. Thiết lập các thông số chính
        self.d_model = d_model

        # 1. Tầng Embedding và Positional Encoding
        self.encoder = nn.Embedding(ntoken, d_model)
        self.pos_encoder = PositionalEncoding(d_model, max_len=5000)

        # 2. Khối Transformer chính (Encoder và Decoder)
        # Sử dụng API TransformerEncoderLayer và TransformerEncoder của PyTorch
        transformer_layer = nn.TransformerEncoderLayer(
            d_model, nhead, d_hid, dropout)
        self.transformer_encoder = nn.TransformerEncoder(
            transformer_layer, nlayers)

        # 3. Tầng đầu ra (Linear Layer)
        # Biến đổi đầu ra từ d_model về số lượng token (ntoken)
        self.decoder = nn.Linear(d_model, ntoken)

        # Khởi tạo trọng số
        self.init_weights()

    def init_weights(self):
        initrange = 0.1
        self.encoder.weight.data.uniform_(-initrange, initrange)
        self.decoder.bias.data.zero_()
        self.decoder.weight.data.uniform_(-initrange, initrange)

    def forward(self, src, src_mask):
        # src có shape (seq_len, batch_size)
        # src_mask có shape (seq_len, seq_len) - để che các token padding

        # 1. Embedding và Positional Encoding
        src = self.encoder(src) * math.sqrt(self.d_model) # Scale embedding
        src = self.pos_encoder(src) # Thêm thông tin vị trí

        # 2. Truyền qua Transformer Encoder
        # src_key_padding_mask = (src == PAD_IDX).transpose(0, 1) # Mask padding nếu cần
        output = self.transformer_encoder(src, src_mask) #, src_key_padding_mask=src_key_padding_mask)

        # 3. Tầng đầu ra
        output = self.decoder(output) # Shape: (seq_len, batch_size, ntoken)
        return output

# # Example Usage (Optional - uncomment to test)
# ntokens = 1000  # Số lượng token trong từ điển
# d_model = 256   # Kích thước vector embedding
# nhead = 4       # Số lượng head trong Multi-Head Attention
# d_hid = 512     # Kích thước tầng ẩn trong Feed-Forward
# nlayers = 2     # Số lượng tầng Encoder
# dropout = 0.2

# model = TransformerModel(ntokens, d_model, nhead, d_hid, nlayers, dropout)
# print(model)

# # Tạo dữ liệu giả
# seq_len = 30
# batch_size = 16
# dummy_input = torch.randint(0, ntokens, (seq_len, batch_size)) # shape (seq_len, batch_size)

# # Tạo mask giả (ví dụ: không che gì cả, hoặc che padding)
# dummy_mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1).bool() # Mask cho lớp decoder nếu đây là bài toán seq2seq
# # Đối với Encoder đơn thuần, mask thường là None hoặc mask padding
# encoder_mask = None # Hoặc mask padding (batch_size, seq_len)

# # Forward pass
# # output = model(dummy_input, encoder_mask)
# # print("Output shape:", output.shape) # Expected: (seq_len, batch_size, ntokens)

In [45]:

ntokens = 1000  # Số lượng token trong từ điển
d_model = 256   # Kích thước vector embedding
nhead = 4       # Số lượng head trong Multi-Head Attention
d_hid = 512     # Kích thước tầng ẩn trong Feed-Forward
nlayers = 2     # Số lượng tầng Encoder
dropout = 0.2
seq_len = 35    # Độ dài chuỗi giả
batch_size = 32 # Kích thước batch giả
epochs = 5      # Số epoch huấn luyện

# Tạo mô hình
model = TransformerModel(ntokens, d_model, nhead, d_hid, nlayers, dropout)

criterion = nn.CrossEntropyLoss()

optimizer = optim.Adam(model.parameters(), lr=0.001)


dummy_src = torch.randint(0, ntokens, (seq_len, batch_size))
dummy_target = torch.roll(dummy_src, shifts=-1, dims=0)
dummy_target[-1, :] = -100

dummy_mask = torch.triu(torch.ones(seq_len, seq_len), diagonal=1).bool()




print("Bắt đầu huấn luyện...")
for epoch in range(epochs):
    model.train()
    optimizer.zero_grad()

    output = model(dummy_src, dummy_mask)


    loss = criterion(output.view(-1, ntokens), dummy_target.view(-1))

    loss.backward()
    optimizer.step()

    print(f'Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}')

print("Huấn luyện hoàn tất.")





Bắt đầu huấn luyện...
Epoch [1/5], Loss: 7.3233
Epoch [2/5], Loss: 6.7836
Epoch [3/5], Loss: 6.3645
Epoch [4/5], Loss: 5.9581
Epoch [5/5], Loss: 5.5282
Huấn luyện hoàn tất.
