In [None]:
# Bước 1: Đọc file + chia dữ liệu

In [11]:
import pandas as pd
import torch
import torch.nn as nn
import torch.optim as optim
from tqdm import tqdm
from sklearn.model_selection import train_test_split

# Đọc file CSV
df = pd.read_csv("f_coco_triplets.csv")

# Chia tập train/val/test
train_df, test_val_df = train_test_split(df, test_size=0.2, random_state=42)
val_df, test_df = train_test_split(test_val_df, test_size=0.5, random_state=42)

# Tạo entity & relation ID
entities = list(set(df['subject']).union(df['object']))
relations = list(set(df['predicate']))
entity2id = {e: i for i, e in enumerate(entities)}
relation2id = {r: i for i, r in enumerate(relations)}

# Chuyển về ID
def to_ids(dataframe):
    return [
        (entity2id[h], relation2id[r], entity2id[t])
        for h, r, t in zip(dataframe['subject'], dataframe['predicate'], dataframe['object'])
    ]

train_data = to_ids(train_df)
val_data = to_ids(val_df)
test_data = to_ids(test_df)

In [4]:
# Bước 2: Định nghĩa mô hình TransE

In [21]:
class TransEModel(nn.Module):
    def __init__(self, num_entities, num_relations, dim=200): 
        super(TransEModel, self).__init__()
        self.ent_embeddings = nn.Embedding(num_entities, dim)
        self.rel_embeddings = nn.Embedding(num_relations, dim)
        nn.init.xavier_uniform_(self.ent_embeddings.weight)
        nn.init.xavier_uniform_(self.rel_embeddings.weight)

    def forward(self, h, r, t):
        h_e = self.ent_embeddings(h)
        r_e = self.rel_embeddings(r)
        t_e = self.ent_embeddings(t)
        return torch.norm(h_e + r_e - t_e, p=1, dim=1)

In [22]:
# Bước 3: Huấn luyện mô hình

In [23]:
embedding_dim = 200
model = TransEModel(len(entities), len(relations), embedding_dim)
optimizer = optim.Adam(model.parameters(), lr=0.001)
loss_fn = nn.MarginRankingLoss(margin=0.5)  # margin mềm hơn

EPOCHS = 100
BATCH_SIZE = 512

# Convert toàn bộ train thành tensor để dễ batch
train_tensor = torch.tensor(train_data)

for epoch in range(EPOCHS):
    total_loss = 0
    perm = torch.randperm(len(train_tensor))

    for i in tqdm(range(0, len(train_tensor), BATCH_SIZE)):
        batch_idx = perm[i:i+BATCH_SIZE]
        batch = train_tensor[batch_idx]
        h_batch = batch[:, 0]
        r_batch = batch[:, 1]
        t_batch = batch[:, 2]

        # Negative sampling: chọn tail sai bất kỳ
        t_neg_batch = torch.randint(0, len(entities), t_batch.shape)

        pos_score = model(h_batch, r_batch, t_batch)
        neg_score = model(h_batch, r_batch, t_neg_batch)
        y = torch.tensor([-1], dtype=torch.float).repeat(pos_score.shape[0])
        loss = loss_fn(pos_score, neg_score, y)

        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        total_loss += loss.item()

    print(f"Epoch {epoch+1}/{EPOCHS}: Loss = {total_loss:.4f}")

100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 166.80it/s]


Epoch 1/100: Loss = 2.8797


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 236.77it/s]


Epoch 2/100: Loss = 1.4733


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 403.04it/s]


Epoch 3/100: Loss = 0.8785


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 332.51it/s]


Epoch 4/100: Loss = 0.5669


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 177.62it/s]


Epoch 5/100: Loss = 0.3665


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 239.88it/s]


Epoch 6/100: Loss = 0.2750


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 478.03it/s]


Epoch 7/100: Loss = 0.2144


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 240.80it/s]


Epoch 8/100: Loss = 0.1725


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 286.04it/s]


Epoch 9/100: Loss = 0.1193


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 182.80it/s]


Epoch 10/100: Loss = 0.1193


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 168.23it/s]


Epoch 11/100: Loss = 0.1317


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 227.31it/s]


Epoch 12/100: Loss = 0.1360


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 211.60it/s]


Epoch 13/100: Loss = 0.1085


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 351.52it/s]


Epoch 14/100: Loss = 0.1138


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 217.04it/s]


Epoch 15/100: Loss = 0.0682


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 235.83it/s]


Epoch 16/100: Loss = 0.0861


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 189.23it/s]


Epoch 17/100: Loss = 0.1049


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 226.13it/s]


Epoch 18/100: Loss = 0.0869


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 240.35it/s]


Epoch 19/100: Loss = 0.1083


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 390.53it/s]


Epoch 20/100: Loss = 0.0793


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 337.49it/s]


Epoch 21/100: Loss = 0.0858


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 250.90it/s]


Epoch 22/100: Loss = 0.1217


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 258.82it/s]


Epoch 23/100: Loss = 0.0782


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 203.40it/s]


Epoch 24/100: Loss = 0.0930


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 368.68it/s]


Epoch 25/100: Loss = 0.0639


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 127.83it/s]


Epoch 26/100: Loss = 0.0606


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 381.64it/s]


Epoch 27/100: Loss = 0.0556


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 349.33it/s]


Epoch 28/100: Loss = 0.0697


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 290.84it/s]


Epoch 29/100: Loss = 0.0728


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 180.12it/s]


Epoch 30/100: Loss = 0.0687


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 232.32it/s]


Epoch 31/100: Loss = 0.0794


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 228.38it/s]


Epoch 32/100: Loss = 0.0876


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 436.43it/s]


Epoch 33/100: Loss = 0.0576


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 301.28it/s]


Epoch 34/100: Loss = 0.0667


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 258.07it/s]


Epoch 35/100: Loss = 0.1020


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 410.46it/s]


Epoch 36/100: Loss = 0.1006


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 309.00it/s]


Epoch 37/100: Loss = 0.0576


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 179.03it/s]


Epoch 38/100: Loss = 0.0921


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 192.02it/s]


Epoch 39/100: Loss = 0.0830


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 295.75it/s]


Epoch 40/100: Loss = 0.0641


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 307.91it/s]


Epoch 41/100: Loss = 0.0657


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 150.93it/s]


Epoch 42/100: Loss = 0.0503


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 274.36it/s]


Epoch 43/100: Loss = 0.0629


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 179.38it/s]


Epoch 44/100: Loss = 0.0604


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 370.00it/s]


Epoch 45/100: Loss = 0.1303


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 324.76it/s]


Epoch 46/100: Loss = 0.0590


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 181.14it/s]


Epoch 47/100: Loss = 0.0610


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 175.71it/s]


Epoch 48/100: Loss = 0.0497


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 204.23it/s]


Epoch 49/100: Loss = 0.0418


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 216.86it/s]


Epoch 50/100: Loss = 0.0698


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 248.57it/s]


Epoch 51/100: Loss = 0.0460


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 252.64it/s]


Epoch 52/100: Loss = 0.0510


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 264.56it/s]


Epoch 53/100: Loss = 0.0578


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 196.53it/s]


Epoch 54/100: Loss = 0.0495


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 368.07it/s]


Epoch 55/100: Loss = 0.0657


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 189.87it/s]


Epoch 56/100: Loss = 0.0696


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 215.60it/s]


Epoch 57/100: Loss = 0.0479


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 355.96it/s]


Epoch 58/100: Loss = 0.0453


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 267.88it/s]


Epoch 59/100: Loss = 0.0421


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 178.67it/s]


Epoch 60/100: Loss = 0.0921


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 363.91it/s]

Epoch 61/100: Loss = 0.0604



100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 192.62it/s]


Epoch 62/100: Loss = 0.0534


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 357.81it/s]


Epoch 63/100: Loss = 0.0558


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 169.34it/s]


Epoch 64/100: Loss = 0.0484


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 228.57it/s]


Epoch 65/100: Loss = 0.0798


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 339.95it/s]


Epoch 66/100: Loss = 0.0470


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 176.41it/s]


Epoch 67/100: Loss = 0.0557


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 187.72it/s]


Epoch 68/100: Loss = 0.0702


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 245.70it/s]


Epoch 69/100: Loss = 0.0631


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 250.16it/s]


Epoch 70/100: Loss = 0.0532


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 219.53it/s]


Epoch 71/100: Loss = 0.0393


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 276.01it/s]


Epoch 72/100: Loss = 0.0574


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 252.17it/s]


Epoch 73/100: Loss = 0.0592


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 215.25it/s]


Epoch 74/100: Loss = 0.0449


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 208.65it/s]


Epoch 75/100: Loss = 0.0394


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 153.79it/s]


Epoch 76/100: Loss = 0.0396


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 256.26it/s]


Epoch 77/100: Loss = 0.0499


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 221.35it/s]


Epoch 78/100: Loss = 0.0556


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 217.38it/s]


Epoch 79/100: Loss = 0.0493


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 278.42it/s]


Epoch 80/100: Loss = 0.0482


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 215.10it/s]


Epoch 81/100: Loss = 0.0381


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 192.96it/s]


Epoch 82/100: Loss = 0.0704


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 284.72it/s]


Epoch 83/100: Loss = 0.0295


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 231.68it/s]


Epoch 84/100: Loss = 0.0515


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 230.55it/s]


Epoch 85/100: Loss = 0.0691


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 237.66it/s]


Epoch 86/100: Loss = 0.0565


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 238.39it/s]


Epoch 87/100: Loss = 0.0530


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 352.77it/s]


Epoch 88/100: Loss = 0.0514


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 275.28it/s]


Epoch 89/100: Loss = 0.0572


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 180.63it/s]


Epoch 90/100: Loss = 0.0742


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 212.05it/s]


Epoch 91/100: Loss = 0.0330


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 191.50it/s]


Epoch 92/100: Loss = 0.0599


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 223.20it/s]


Epoch 93/100: Loss = 0.0469


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 211.14it/s]


Epoch 94/100: Loss = 0.0409


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 338.92it/s]


Epoch 95/100: Loss = 0.0365


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 235.23it/s]


Epoch 96/100: Loss = 0.0613


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 225.52it/s]


Epoch 97/100: Loss = 0.0639


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 228.88it/s]


Epoch 98/100: Loss = 0.0323


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 271.47it/s]


Epoch 99/100: Loss = 0.0589


100%|███████████████████████████████████████████████████████████████████████████████████| 6/6 [00:00<00:00, 252.74it/s]

Epoch 100/100: Loss = 0.0693





In [24]:
# Code đánh giá Precision@10, Recall@10, F1@10

In [25]:
import numpy as np

def evaluate_transe(model, test_data, entity2id, top_k=10):
    model.eval()
    hits = 0
    precision_total = 0
    recall_total = 0
    f1_total = 0

    with torch.no_grad():
        for h_id, r_id, true_t_id in tqdm(test_data[:500]):  # Giới hạn test 500 để chạy nhanh
            h = torch.tensor([h_id])
            r = torch.tensor([r_id])
            all_t = torch.arange(len(entity2id))

            # Lặp qua mọi tail candidate
            h_batch = h.repeat(len(all_t))
            r_batch = r.repeat(len(all_t))

            scores = model(h_batch, r_batch, all_t)
            topk_indices = torch.topk(scores, k=top_k, largest=False).indices  # chọn score thấp nhất

            if true_t_id in topk_indices:
                hits += 1
                precision_total += 1 / top_k
                recall_total += 1
                f1_total += 2 / (1 + top_k)  # F1@K = 2PR / (P+R)

    total = len(test_data[:500])
    precision = precision_total / total
    recall = recall_total / total
    f1 = f1_total / total

    print(f"Evaluation @Top-{top_k}:")
    print(f"Precision@{top_k}: {precision:.4f}")
    print(f"Recall@{top_k}: {recall:.4f}")
    print(f"F1@{top_k}: {f1:.4f}")

In [26]:
evaluate_transe(model, test_data, entity2id, top_k=10)

100%|██████████████████████████████████████████████████████████████████████████████| 332/332 [00:00<00:00, 1052.37it/s]

Evaluation @Top-10:
Precision@10: 0.0389
Recall@10: 0.3886
F1@10: 0.0706



