In [None]:
import warnings
warnings.filterwarnings("ignore")

In [None]:
from transformers import AutoTokenizer
from transformers import AutoModel

In [None]:
all_MiniLM_L6_v2 = "..\\embedding_models\\all-MiniLM-L6-v2"
distiluse_base_multilingual_cased_v2 = "..\\embedding_models\\distiluse-base-multilingual-cased-v2"
multilingual_e5_small = "..\\embedding_models\\multilingual-e5-small"
sup_SimCSE_VietNamese_phobert_base = "..\\embedding_models\\sup-SimCSE-VietNamese-phobert-base"
vietnamese_bi_encoder = "..\\embedding_models\\vietnamese-bi-encoder"
vietnamese_embedding = "..\\embedding_models\\vietnamese-embedding"

vietnamese_history_dataset = "..\\datasets\\vietnamese_history_dataset\\data.json"

In [None]:
import pandas as pd
import json
from IPython.display import clear_output

df = pd.read_json(vietnamese_history_dataset)
df.head()

In [None]:
df["embedding"] = None
df["embeded"] = None

for idx in range(len(df)):
    df["embedding"][idx] = df["title"][idx] + ": " + df["content"][idx]

df.head()

In [None]:
import torch

max_seq_length = 8192
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)
if device.type == "cuda":
    convert_to_tensor = True
else:
    convert_to_tensor = False
convert_to_numpy = not convert_to_tensor
batch_size = 32
output_value = "sentence_embedding"
normalize_embeddings = False # Chuẩn hóa L2

| Loại Embedding       | Mô tả ngắn gọn                                                                                  |
| -------------------- | ----------------------------------------------------------------------------------------------- |
| `sentence_embedding` | Một vector đại diện cho **toàn bộ câu**. Thường là đầu ra của `[CLS]` hoặc trung bình các token |
| `token_embedding`    | Một list các vector – **mỗi token (từ, subword)** trong câu có một vector riêng                 |


| Tiêu chí                     | `sentence_embedding`                         | `token_embedding`                              |
| ---------------------------- | -------------------------------------------- | ---------------------------------------------- |
| 📌 Đầu ra                    | 1 vector có kích thước cố định (e.g., 768-d) | 1 list các vector (số lượng = số token)        |
| 📏 Độ dài                    | Không phụ thuộc độ dài câu                   | Phụ thuộc vào số lượng token của câu           |
| 🧮 Ứng dụng chính            | Semantic search, clustering, classification  | NER, POS tagging, highlighting, attention mask |
| 🧪 Dễ sử dụng                | Rất dễ – chỉ cần dùng như vector             | Khó hơn – cần xử lý token alignment            |
| ⚡ Tốc độ tính toán           | Nhanh hơn, ít tài nguyên hơn                 | Chậm hơn, tốn RAM/GPU hơn                      |
| 🔍 Mức độ chi tiết ngữ nghĩa | Tổng quan toàn câu                           | Chi tiết từng phần trong câu                   |


Dùng sentence_embedding khi:

- Semantic search: tìm tài liệu phù hợp với câu hỏi

- Text classification: phân loại câu, bài báo, bình luận

- Clustering: gom nhóm văn bản theo ý nghĩa

- Tính cosine similarity giữa các câu

→ Ưu điểm: Gọn, nhanh, dễ dùng


Dùng token_embedding khi:

- Named Entity Recognition (NER)

- Highlight cụm từ quan trọng (từng token)

- Cần sự chi tiết đến từng phần nhỏ của câu (subword level)

- Làm việc với attention, visualization layer

→ Ưu điểm: Cực kỳ linh hoạt và chi tiết, nhưng cũng phức tạp hơn
