## A. Pytorch introduction

### 1. Khám phá tensor

##### 1.1. Tạo tensor

In [2]:
import torch
import numpy as np
# Tạo tensor từ list
data = [[1, 2], [3, 4]]
x_data = torch.tensor(data)
print(f"Tensor từ list:\n {x_data}\n")

# Tạo tensor từ NumPy array
np_array = np.array(data)
x_np = torch.from_numpy(np_array)
print(f"Tensor từ NumPy array:\n {x_np}\n")

# Tạo tensor với các giá trị ngẫu nhiên hoặc hằng số
x_ones = torch.ones_like(x_data) # tạo tensor gồm các số 1 có cùng shape với x_data
print(f"Ones Tensor:\n {x_ones}\n")
x_rand = torch.rand_like(x_data, dtype=torch.float) # tạo tensor ngẫu nhiên
print(f"Random Tensor:\n {x_rand}\n")

# In ra shape, dtype, và device của tensor
print(f"Shape của tensor: {x_rand.shape}")
print(f"Datatype của tensor: {x_rand.dtype}")
print(f"Device lưu trữ tensor: {x_rand.device}")

Tensor từ list:
 tensor([[1, 2],
        [3, 4]])

Tensor từ NumPy array:
 tensor([[1, 2],
        [3, 4]], dtype=torch.int32)

Ones Tensor:
 tensor([[1, 1],
        [1, 1]])

Random Tensor:
 tensor([[0.2970, 0.7112],
        [0.0399, 0.6098]])

Shape của tensor: torch.Size([2, 2])
Datatype của tensor: torch.float32
Device lưu trữ tensor: cpu


##### 1.2. Các phép toán trên tensor

In [4]:
# cộng x_data với chính nó
y_data = x_data + x_data
print(f"\nKết quả phép cộng:\n {y_data}")

# nhân x_data với 5
z_data = x_data * 5 
print(f"\nKết quả phép nhân với scalar:\n {z_data}")

# nhân x_data với chuyển vị của nó
t_data = x_data @ x_data.T
print(f"\nKết quả phép nhân ma trận:\n {t_data}")


Kết quả phép cộng:
 tensor([[2, 4],
        [6, 8]])

Kết quả phép nhân với scalar:
 tensor([[ 5, 10],
        [15, 20]])

Kết quả phép nhân ma trận:
 tensor([[ 5, 11],
        [11, 25]])


##### 1.3. Indexing và slicing

In [6]:
# lấy ra hàng đầu của x_data
row_0 = x_data[0, :]
print(f"\nHàng đầu của x_data:\n {row_0}")

# lấy ra cột thứ hai của x_data
col_1 = x_data[:, 1]
print(f"\nCột thứ hai của x_data:\n {col_1}")

# lấy ra giá trị ở hàng thứ 2, cột thứ 2
elem_1_1 = x_data[1, 1]
print(f"\nPhần tử ở hàng thứ 2, cột thứ 2 của x_data:\n {elem_1_1}")


Hàng đầu của x_data:
 tensor([1, 2])

Cột thứ hai của x_data:
 tensor([2, 4])

Phần tử ở hàng thứ 2, cột thứ 2 của x_data:
 4


##### 1.4. Thay đổi hình dạng tensor

In [10]:
random_tensor = torch.rand(4, 4)
reshaped_tensor = random_tensor.view(16, 1)
print(f"\nTensor ban đầu có shape {random_tensor.shape}:\n {random_tensor}")
print(f"\nTensor sau khi thay đổi shape thành {reshaped_tensor.shape}:\n {reshaped_tensor}")


Tensor ban đầu có shape torch.Size([4, 4]):
 tensor([[0.0576, 0.1546, 0.6425, 0.0079],
        [0.9428, 0.8543, 0.4260, 0.1635],
        [0.3995, 0.2605, 0.3760, 0.2219],
        [0.0585, 0.2314, 0.8772, 0.1416]])

Tensor sau khi thay đổi shape thành torch.Size([16, 1]):
 tensor([[0.0576],
        [0.1546],
        [0.6425],
        [0.0079],
        [0.9428],
        [0.8543],
        [0.4260],
        [0.1635],
        [0.3995],
        [0.2605],
        [0.3760],
        [0.2219],
        [0.0585],
        [0.2314],
        [0.8772],
        [0.1416]])


### 2. Autograd

##### 2.1. Thực hành với autograd

In [15]:
# Tạo một tensor và yêu cầu tính đạo hàm cho nó
x = torch.ones(1, requires_grad=True)
print(f"x: {x}")

# Thực hiện một phép toán
y = x + 2
print(f"y: {y}")

# y được tạo ra từ một phép toán có x, nên nó cũng có grad_fn
print(f"grad_fn của y: {y.grad_fn}")

# Thực hiện thêm các phép toán
z = y * y * 3

# Tính đạo hàm của z theo x
z.backward() # tương đương z.backward(torch.tensor(1.))

# Đạo hàm được lưu trong thuộc tính .grad
# Ta có z = 3 * (x+2)^2 => dz/dx = 6 * (x+2). Với x=1, dz/dx = 18
print(f"Đạo hàm của z theo x: {x.grad}")

x: tensor([1.], requires_grad=True)
y: tensor([3.], grad_fn=<AddBackward0>)
grad_fn của y: <AddBackward0 object at 0x000002D443EB69E0>
Đạo hàm của z theo x: tensor([18.])


**? Câu hỏi**: Chuyện gì xảy ra nếu gọi z.backward() một lần nữa? Tại sao?

**Trả lời**: Khi thực hiện các phép toán trên tensor, pytorch tạo một đồ thị tính toán để autograd có thể truy ngược lại và thực hiện backprop. Sau khi thực hiện `backward()` xong, graph đã được giải phóng, do đó, nếu gọi `backward()` thêm một lần nữa, ta sẽ gặp lỗi:

`RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.`

### 3. Xây dựng mô hình đầu tiên với `torch.nn`

##### 3.1. Lớp `nn.Linear`

In [17]:
# Khởi tạo một lớp Linear biến đổi từ 5 chiều -> 2 chiều
linear_layer = torch.nn.Linear(in_features=5, out_features=2, bias=True)
# Tạo một tensor đầu vào mẫu
input_tensor = torch.randn(3, 5) # 3 mẫu, mỗi mẫu 5 chiều
# Truyền đầu vào qua lớp linear
output = linear_layer(input_tensor)
print(f"Input shape: {input_tensor.shape}")
print(f"Output shape: {output.shape}")
print(f"Output:\n {output}")

Input shape: torch.Size([3, 5])
Output shape: torch.Size([3, 2])
Output:
 tensor([[ 1.5633,  0.0229],
        [ 0.7108, -1.0280],
        [ 0.7114, -0.0930]], grad_fn=<AddmmBackward0>)


##### 3.2. Lớp `nn.Embedding`

In [18]:
# Khởi tạo lớp Embedding cho một từ điển 10 từ, mỗi từ biểu diễn bằng vector 3 chiều
embedding_layer = torch.nn.Embedding(num_embeddings=10, embedding_dim=3)
# Tạo một tensor đầu vào chứa các chỉ số của từ (ví dụ: một câu)
# Các chỉ số phải nhỏ hơn 10
input_indices = torch.LongTensor([1, 5, 0, 8])
# Lấy ra các vector embedding tương ứng
embeddings = embedding_layer(input_indices)
print(f"Input shape: {input_indices.shape}")
print(f"Output shape: {embeddings.shape}")
print(f"Embeddings:\n {embeddings}")

Input shape: torch.Size([4])
Output shape: torch.Size([4, 3])
Embeddings:
 tensor([[-0.6549, -0.6637,  0.3571],
        [-0.5784,  0.8276, -1.6882],
        [ 0.9680,  0.4330, -0.1997],
        [ 0.0266,  1.3040, -0.1350]], grad_fn=<EmbeddingBackward0>)


##### 3.3. Kết hợp thành một `nn.Module`

In [19]:
import torch.nn as nn

class MyFirstModel(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, output_dim):
        super(MyFirstModel, self).__init__()
        # Định nghĩa các lớp (layer) bạn sẽ dùng
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        self.linear = nn.Linear(embedding_dim, hidden_dim)
        self.activation = nn.ReLU() # Hàm kích hoạt
        self.output_layer = nn.Linear(hidden_dim, output_dim)
    
    def forward(self, indices):
        # Định nghĩa luồng dữ liệu đi qua các lớp
        # 1. Lấy embedding
        embeds = self.embedding(indices)
        # 2. Truyền qua lớp linear và hàm kích hoạt
        hidden = self.activation(self.linear(embeds))
        # 3. Truyền qua lớp output
        output = self.output_layer(hidden)
        return output
    
# Khởi tạo và kiểm tra mô hình
model = MyFirstModel(vocab_size=100, embedding_dim=16, hidden_dim=8, output_dim=2)
input_data = torch.LongTensor([[1, 2, 5, 9]]) # một câu gồm 4 từ
output_data = model(input_data)
print(f"Model output shape: {output_data.shape}")

Model output shape: torch.Size([1, 4, 2])


## B. Token classification

In [None]:
import torch
import torch.nn as nn
class SimpleRNNForTokenClassification(nn.Module):
    def __init__(self, vocab_size, embedding_dim, hidden_dim, num_tags):
        super(SimpleRNNForTokenClassification, self).__init__()
        # 1. Lớp Embedding: Chuyển đổi ID của từ thành vector dày đặc (dense vector).
        # Ví dụ: từ có ID là 5 -> vector [0.1, 0.9, ..., 0.4]
        self.embedding = nn.Embedding(vocab_size, embedding_dim)
        # 2. Lớp RNN: Xử lý chuỗi vector và tạo ra hidden state tại mỗi bước.
        # batch_first=True nghĩa là input và output sẽ có chiều batch ở đầu tiên.
        self.rnn = nn.RNN(embedding_dim, hidden_dim, batch_first=True)
        # 3. Lớp Linear: Ánh xạ từ hidden state (kích thước hidden_dim)
        # sang không gian số lượng nhãn (kích thước num_tags).
        self.linear = nn.Linear(hidden_dim, num_tags)
        
    def forward(self, sentence):
        # `sentence` là một chuỗi các ID của từ, có dạng (batch_size, seq_len).
        # 1. Truyền câu qua lớp Embedding.
        # Output `embeds` có dạng (batch_size, seq_len, embedding_dim).
        embeds = self.embedding(sentence)
        # 2. Truyền chuỗi embedding qua lớp RNN.
        # `rnn_out` là output của RNN tại mỗi bước thời gian.
        # `rnn_out` có dạng (batch_size, seq_len, hidden_dim).
        rnn_out, _ = self.rnn(embeds)
        # 3. Truyền output của RNN qua lớp Linear để lấy điểm số cho mỗi nhãn.
        # `tag_scores` có dạng (batch_size, seq_len, num_tags).
        tag_scores = self.linear(rnn_out)
        # (Trong thực tế, chúng ta sẽ áp dụng Softmax lên tag_scores để có phân phối xác suất)
        return tag_scores