In [16]:
# Step 1: Import necessary libraries
import pandas as pd
import numpy as np
import torch
from transformers import AutoTokenizer, AutoModel
from sklearn.metrics.pairwise import cosine_similarity
from tqdm import tqdm

# Step 2: Load data with appropriate encoding
file_path = "sent_truncated_vbpl_legal_only.csv"
try:
    df = pd.read_csv(file_path, encoding='utf-8-sig', sep=',', quotechar='"')
except Exception as e:
    print("utf-8-sig failed:", e)
    df = pd.read_csv(file_path, encoding='utf-16', sep=',', quotechar='"')

# Drop rows with missing values and duplicates in "truncated_text"
df = df.dropna(subset=["truncated_text", "dieu"]).drop_duplicates(subset=["truncated_text"])
df.reset_index(drop=True, inplace=True)

# Step 3: Load PhoBERT model & tokenizer, and set device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
tokenizer = AutoTokenizer.from_pretrained("vinai/phobert-base", use_fast=False)
model = AutoModel.from_pretrained("vinai/phobert-base")
model.to(device)
model.eval()  # Set model to evaluation mode

# Step 4: Define batch encoding function using GPU
def batch_encode_texts(texts, batch_size=32):
    embeddings = []
    for i in tqdm(range(0, len(texts), batch_size), desc="Encoding Batches"):
        batch_texts = texts[i: i + batch_size]
        # Tokenize the batch
        inputs = tokenizer(batch_texts, return_tensors="pt", truncation=True, max_length=256, padding="max_length")
        # Move input tensors to the GPU
        inputs = {k: v.to(device) for k, v in inputs.items()}
        with torch.no_grad():
            outputs = model(**inputs)
        # Extract the CLS token embedding from the last hidden state
        batch_embeddings = outputs.last_hidden_state[:, 0, :].cpu().numpy()
        embeddings.extend(batch_embeddings)
    return np.array(embeddings)

# Step 5: Encode all legal texts in batches and cache embeddings
print("🔄 Encoding all Điều...")
all_texts = df["truncated_text"].tolist()
embeddings = batch_encode_texts(all_texts, batch_size=32)
df["embedding"] = list(embeddings)  # Save each embedding as a numpy array
print("✅ Done encoding.")

# Step 6: Helper function for single text encoding (for inference)
def encode_text(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=256, padding="max_length")
    # Move inputs to device
    inputs = {k: v.to(device) for k, v in inputs.items()}
    with torch.no_grad():
        outputs = model(**inputs)
    # Return the embedding for the [CLS] token
    return outputs.last_hidden_state[:, 0, :].squeeze().cpu().numpy()

# Step 7: Function to find top similar articles using cosine similarity
def find_similar_articles(input_text, top_k=5):
    input_embedding = encode_text(input_text).reshape(1, -1)
    matrix = np.stack(df["embedding"].values)
    similarities = cosine_similarity(input_embedding, matrix).flatten()
    top_indices = similarities.argsort()[::-1][:top_k]
    
    results = df.iloc[top_indices][["dieu", "truncated_text"]].copy()
    results["similarity"] = similarities[top_indices]
    return results

# Step 8: Demo Input & Print top similar articles
demo_text = "Biên bản họp Hội đồng thành viên phải được giữ nguyên và không được phép thay đổi"
results = find_similar_articles(demo_text)
print("\n🔍 Top Related Articles:")
for idx, row in results.iterrows():
    print(f"\n📘 {row['dieu']} (Similarity: {row['similarity']:.2f})")
    print(f"📝 {row['truncated_text']}")


utf-8-sig failed: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte
🔄 Encoding all Điều...


Encoding Batches: 100%|███████████████████████████████████████████████████████████████| 290/290 [00:34<00:00,  8.46it/s]

✅ Done encoding.

🔍 Top Related Articles:

📘 Điều 159 (Similarity: 0.72)
📝 Hợp đồng uỷ thác mua bán hàng hoá phải được lập thành văn bản hoặc bằng hình thức khác có giá trị pháp lý tương đương.

📘 Điều 251 (Similarity: 0.70)
📝 Hợp đồng dịch vụ quá cảnh phải được lập thành văn bản hoặc bằng hình thức khác có giá trị pháp lý tương đương.

📘 Điều 179 (Similarity: 0.69)
📝 Hợp đồng gia công phải được lập thành văn bản hoặc bằng hình thức khác có giá trị pháp lý tương đương.

📘 Điều 362 (Similarity: 0.69)
📝 Hình thức bảo lãnh Việc bảo lãnh phải được lập thành văn bản, có thể lập thành văn bản riêng hoặc ghi trong hợp đồng chính. Trong trường hợp pháp luật có quy định thì văn bản bảo lãnh phải được công chứng hoặc chứng thực.

📘 Điều 142 (Similarity: 0.69)
📝 Hợp đồng đại diện cho thương nhân phải được lập thành văn bản hoặc bằng hình thức khác có giá trị pháp lý tương đương.





In [17]:
 %% [code]
# Step 8: Demo Input & Print top similar articles
demo_text = """Biên bản họp Hội đồng thành viên phải được giữ nguyên và không được phép thay đổi..."""
results = find_similar_articles(demo_text)
print("\n🔍 Top Related Articles:")
for idx, row in results.iterrows():
    print(f"\n📘 {row['dieu']} (Similarity: {row['similarity']:.2f})")
    print(f"📝 {row['truncated_text']}")

UsageError: Cell magic `%%` not found.
