In [16]:
!pip install trl



In [None]:
from datasets import load_dataset, Dataset
import pandas as pd


print("Loading dataset...")
ds = load_dataset("minhtoan/vietnamese-comment-sentiment", split="train", token="").shuffle(seed=42).select(range(3000))

print(ds)
print(ds.column_names)

Loading dataset...
Dataset({
    features: ['ID', 'Title', 'Content', 'BriefContent', 'URL', 'Published Date', 'Week', 'Keyword', 'Group', 'Sub', 'Keyword 2', 'Sentiment', 'Ngành', 'Source', 'Channel', 'Author'],
    num_rows: 3000
})
['ID', 'Title', 'Content', 'BriefContent', 'URL', 'Published Date', 'Week', 'Keyword', 'Group', 'Sub', 'Keyword 2', 'Sentiment', 'Ngành', 'Source', 'Channel', 'Author']


In [18]:
from collections import Counter

sentiments = ds['Sentiment']

# 2. Đếm số lượng từng nhãn
label_counts = Counter(sentiments)
print("Phân bố nhãn sentiment:")
for label, count in label_counts.items():
    print(f"  {label}: {count} mẫu ({count/len(ds)*100:.2f}%)")

Phân bố nhãn sentiment:
  Trung lập: 1599 mẫu (53.30%)
  Tích cực: 638 mẫu (21.27%)
  neutral: 569 mẫu (18.97%)
  positive: 137 mẫu (4.57%)
  Tiêu cực: 48 mẫu (1.60%)
  negative: 9 mẫu (0.30%)


In [19]:
label_mapping = {
    'positive': 'tích cực',
    'negative': 'tiêu cực',
    'neutral': 'trung lập',
    'Tích cực': 'tích cực',
    'Tiêu cực': 'tiêu cực',
    'Trung lập': 'trung lập'
}
ds_clean = ds.map(lambda x: {"Sentiment": label_mapping.get(x["Sentiment"], x["Sentiment"])})

In [20]:
from collections import Counter

sentiments = ds_clean['Sentiment']

# 2. Đếm số lượng từng nhãn
label_counts = Counter(sentiments)
print("Phân bố nhãn sentiment:")
for label, count in label_counts.items():
    print(f"  {label}: {count} mẫu ({count/len(ds)*100:.2f}%)")

Phân bố nhãn sentiment:
  trung lập: 2168 mẫu (72.27%)
  tích cực: 775 mẫu (25.83%)
  tiêu cực: 57 mẫu (1.90%)


In [21]:
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification,TrainingArguments,Trainer,DataCollatorWithPadding

# Hugging Face model id
model_id = "vinai/phobert-base"


# Load model and tokenizer
model = AutoModelForSequenceClassification.from_pretrained(
    model_id,
    num_labels=3,
    device_map="auto",
).to("cuda:0")
tokenizer = AutoTokenizer.from_pretrained(model_id)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at vinai/phobert-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
import google.generativeai as genai
import json
import random
from typing import List, Dict

genai.configure(api_key="")

In [23]:
import random
from google import genai

def generate_samples(api_key: str, num_samples: int = 1000):
      client = genai.Client(api_key=api_key)
      triggers = [
          "tôi rất thất vọng", "dịch vụ tệ hại", "không bao giờ quay lại", "lừa đảo",
          "hàng kém chất lượng", "giao hàng chậm", "nhân viên thô lỗ", "mất tiền oan",
          "không đáng tiền", "hối hận vì đã mua", "lỗi kỹ thuật", "không hỗ trợ",
          "tôi rất hài lòng", "dịch vụ tuyệt vời", "chắc chắn sẽ quay lại", "hoàn toàn đáng tin",
          "hàng chất lượng cao", "giao hàng nhanh", "nhân viên thân thiện", "tiết kiệm được tiền",
          "rất đáng tiền", "vui mừng vì đã mua", "hoạt động ổn định", "hỗ trợ chu đáo"

      ]

      results = []
      for _ in range(num_samples):
        trigger = random.choice(triggers)
        # Xác định sentiment từ trigger
        if any(neg in trigger for neg in ["thất vọng", "tệ", "không bao giờ", "lừa đảo", "kém", "chậm", "thô lỗ", "oan", "hối hận", "lỗi", "không hỗ trợ"]):
            sentiment = "tiêu cực"
        else:
            sentiment = "tích cực"

        prompt = f"""
        Tạo bình luận ngắn (1-2 câu) về sản phẩm/dịch vụ của sữa vinamilk, liên quan đến: "{trigger}".
        Trả về đúng 2 dòng:
        Content: <nội dung>
        Sentiment: {sentiment}
        Không thêm gì khác.
        """

        try:
            resp = client.models.generate_content(model="gemini-2.5-flash", contents=prompt)
            text = resp.text.strip()

            if "Content:" in text and "Sentiment:" in text:
                content = text.split("Content:")[1].split("Sentiment:")[0].strip()
                results.append({"Content": content, "Sentiment": sentiment})
            else:
                results.append({"Content": f"{trigger}. Sản phẩm/dịch vụ tốt.", "Sentiment": sentiment})

        except:
            results.append({"Content": f"{trigger}. Rất hài lòng." if sentiment == "tích cực" else f"{trigger}. Không hài lòng.", "Sentiment": sentiment})
      return results

In [24]:
import pandas as pd
from collections import Counter

extra_samples = generate_samples(api_key="AIzaSyBsTsr_foRjScUIfFdWauFq8F0_z7fU_A8", num_samples=2000)

df_orig = ds_clean.to_pandas()

df_extra = pd.DataFrame(extra_samples)

df_full = pd.concat([df_orig, df_extra], ignore_index=True)

N = 1500
balanced = []
for label in ['tích cực', 'tiêu cực', 'trung lập']:
    subset = df_full[df_full['Sentiment'] == label]
    if len(subset) > N:
        subset = subset.sample(N, random_state=42)
    balanced.append(subset)

df_balanced = pd.concat(balanced).sample(frac=1, random_state=42).reset_index(drop=True)

# 6. Kiểm tra
print("Dataset cân bằng:")
print(df_balanced['Sentiment'].value_counts())

Dataset cân bằng:
Sentiment
trung lập    1500
tích cực     1500
tiêu cực      945
Name: count, dtype: int64


In [25]:
def preprocess_function(example):
    Content = f"{example['Content']}"
    Sentiment = f"{example['Sentiment']}"

    tokenized = tokenizer(
        Content,
        truncation=True,
        max_length=256,
        padding=False,
    )


    label_map = {'tiêu cực': 0, 'trung lập': 1, 'tích cực': 2}
    label =label_map.get(Sentiment)
    labels = torch.tensor(label)

    return {
        "input_ids": tokenized["input_ids"],
        "attention_mask": tokenized["attention_mask"],
        "labels": labels
    }
ds_full = Dataset.from_pandas(df_balanced)
print("Preprocessing dataset...")
processed_ds = ds_full.map(preprocess_function, remove_columns=['ID', 'Title', 'Content', 'BriefContent', 'URL', 'Published Date', 'Week', 'Keyword', 'Group', 'Sub', 'Keyword 2', 'Sentiment', 'Ngành', 'Source', 'Channel', 'Author'])

print("Processed dataset structure:")
print(processed_ds)

sample = processed_ds[0]
print(f"\nSample 1: {sample}")

train_test_split = processed_ds.train_test_split(test_size=0.1, seed=42)
train_dataset = train_test_split['train']
eval_dataset = train_test_split['test']

print(f"\nTrain samples: {len(train_dataset)}")
print(f"Eval samples: {len(eval_dataset)}")



Preprocessing dataset...


Map:   0%|          | 0/3945 [00:00<?, ? examples/s]

Processed dataset structure:
Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 3945
})

Sample 1: {'input_ids': [0, 11559, 2210, 4062, 52, 25, 133, 1854, 35214, 80, 33, 43, 18123, 54, 10351, 1813, 765, 188, 27731, 39, 43, 18123, 30, 43, 17076, 740, 2487, 4062, 128, 133, 72, 43978, 17806, 1701, 4, 155, 73, 237, 1945, 33, 1673, 6, 1172, 133, 72, 24, 170, 13, 10351, 51, 2927, 7564, 10351, 66, 188, 10, 8682, 1957, 862, 2210, 102, 121, 16, 1422, 7, 239, 1494, 17182, 4, 6, 790, 124, 97, 26, 9, 20117, 6922, 10336, 188, 4062, 1362, 2209, 1093, 133, 1172, 72, 84, 29201, 25, 185, 133, 40875, 3494, 54, 10351, 14, 10, 1486, 1159, 119, 56255, 4089, 26, 2035, 40, 48, 99, 113, 862, 42243, 1881, 4, 42, 702, 48, 821, 186, 123, 373, 7, 239, 6615, 14, 45, 10351, 9152, 40047, 4, 52, 219, 16084, 2222, 123, 373, 90, 2240, 2412, 790, 4365, 89, 128, 281, 9, 83, 10351, 14, 13, 155, 3005, 203, 645, 51587, 1701, 4, 26, 9, 83, 202, 1159, 119, 54, 9, 83, 6922, 188, 24, 1172, 133, 72,

In [26]:
def compute_metrics(eval_pred):
    preds, labels = eval_pred
    preds = preds.argmax(axis=-1)
    return {
        "accuracy": accuracy_score(labels, preds),
        "f1_macro": f1_score(labels, preds, average="macro")
    }

In [27]:
args = TrainingArguments(
    output_dir="./phobert-sentiment",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    learning_rate=2e-5,
    weight_decay=0.01,
    logging_strategy="steps",
    eval_strategy="steps",
    eval_steps=10,
    save_strategy="steps",
    logging_steps=10,
    warmup_ratio=0.03,
    optim="adamw_torch_fused",
    load_best_model_at_end=True,
    greater_is_better=True,
    report_to="none",
    fp16=True,
)

In [28]:
trainer = Trainer(
    model=model,
    args=args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    processing_class=tokenizer,
    data_collator=data_collator,
)

The model is already on multiple devices. Skipping the move to device specified in `args`.


In [29]:
trainer.train()

Step,Training Loss,Validation Loss
10,1.1022,1.071311
20,1.048,1.016001
30,0.9727,0.943619
40,0.9776,0.857948
50,0.9449,0.788201
60,0.7256,0.710845
70,0.6914,0.629832
80,0.6535,0.541602
90,0.5363,0.454333
100,0.4233,0.423059


TrainOutput(global_step=2664, training_loss=0.20117756203040704, metrics={'train_runtime': 747.5735, 'train_samples_per_second': 14.246, 'train_steps_per_second': 3.564, 'total_flos': 1205887849345368.0, 'train_loss': 0.20117756203040704, 'epoch': 3.0})

In [30]:
trainer.save_model()
tokenizer.save_pretrained(args.output_dir)

('./phobert-sentiment/tokenizer_config.json',
 './phobert-sentiment/special_tokens_map.json',
 './phobert-sentiment/vocab.txt',
 './phobert-sentiment/bpe.codes',
 './phobert-sentiment/added_tokens.json')

In [31]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("/content/phobert-sentiment")
model = AutoModelForSequenceClassification.from_pretrained("/content/phobert-sentiment")

In [32]:
def predict(text: str):
    # Tokenize
    inputs = tokenizer(
        text,
        return_tensors="pt",      # trả về tensor pytorch
        truncation=True,
        max_length=256,
        padding=True              # thêm padding để tránh lỗi shape
    )

    # Di chuyển inputs sang cùng device với model (GPU/CPU)
    inputs = {k: v.to(model.device) for k, v in inputs.items()}

    # Dự đoán
    with torch.no_grad():
        outputs = model(**inputs)
        logits = outputs.logits

    # Tính xác suất
    probabilities = torch.softmax(logits, dim=-1).squeeze().cpu().numpy()

    # Lấy nhãn dự đoán
    predicted_id = int(probabilities.argmax())
    label_map = {0: "Tiêu cực", 1: "Trung lập", 2: "Tích cực"}
    predicted_label = label_map[predicted_id]

    # Trả về kết quả đẹp
    return {
        "text": text,
        "prediction": predicted_label,
        "confidence": float(probabilities.max()),
        "probabilities": {
            "Tiêu cực": round(float(probabilities[0]), 4),
            "Trung lập": round(float(probabilities[1]), 4),
            "Tích cực": round(float(probabilities[2]), 4)
        }
    }

# Test nhanh
print(predict("sản phẩm tốt"))
print(predict("Sản phẩm tệ quá, không bao giờ mua lại"))
print(predict("Cũng bình thường thôi, không có gì đặc biệt"))

{'text': 'sản phẩm tốt', 'prediction': 'Tích cực', 'confidence': 0.9994471669197083, 'probabilities': {'Tiêu cực': 0.0002, 'Trung lập': 0.0004, 'Tích cực': 0.9994}}
{'text': 'Sản phẩm tệ quá, không bao giờ mua lại', 'prediction': 'Tiêu cực', 'confidence': 0.9993475079536438, 'probabilities': {'Tiêu cực': 0.9993, 'Trung lập': 0.0005, 'Tích cực': 0.0002}}
{'text': 'Cũng bình thường thôi, không có gì đặc biệt', 'prediction': 'Tích cực', 'confidence': 0.4864797592163086, 'probabilities': {'Tiêu cực': 0.1148, 'Trung lập': 0.3987, 'Tích cực': 0.4865}}


In [None]:
from sklearn.metrics import accuracy_score, f1_score
import numpy as np
from tqdm.notebook import tqdm
import time


trainer = Trainer(
    model=model,
    args=TrainingArguments(output_dir="./temp", per_device_eval_batch_size=64, report_to=[]),
    eval_dataset=eval_dataset,
    data_collator=data_collator,
    compute_metrics=lambda p: {
        "accuracy": accuracy_score(p.label_ids, np.argmax(p.predictions, axis=1)),
        "f1_macro": f1_score(p.label_ids, np.argmax(p.predictions, axis=1), average='macro'),
    }
)

print("\nCÁCH 1: Đánh giá truyền thống trên 300 mẫu test...")
result1 = trainer.evaluate()

import google.generativeai as genai
genai.configure(api_key="")

gemini = genai.GenerativeModel('gemini-2.5-flash')

@torch.no_grad()
def predict_sentiment(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=256).to(model.device)
    logits = model(**inputs).logits
    pred = torch.argmax(logits, dim=-1).item()
    return { 0: "tiêu cực", 1: "trung lập", 2: "tích cực" }[pred]

def llm_judge_gemini(text, true_str, pred_str):
    prompt = f"""Chỉ trả về đúng 1 số: 1.0 nếu đúng hoàn toàn, 0.5 nếu gần đúng, 0.0 nếu sai.

Bình luận: "{text}"
Cảm xúc thực tế: {true_str}
Mô hình dự đoán: {pred_str}

Điểm (1.0 / 0.5 / 0.0):"""
    try:
        resp = gemini.generate_content(prompt, generation_config={"temperature": 0.0})
        return float(resp.text.strip())
    except:
        return 0.5

print("\nCÁCH 2: Đánh giá bằng Gemini (LLM Judge)...")
ds_test = ds_clean.select(range(300))
llm_scores = []
exact = 0
for i in tqdm(range(len(ds_test)), desc="LLM Judge"):
    ex = ds_test[i]
    true_str = "tích cực" if ex["Sentiment"] == 1 else "tiêu cực"
    pred_str = predict_sentiment(ex["Content"])

    score = llm_judge_gemini(ex["Content"], true_str, pred_str)
    llm_scores.append(score)
    if score == 1.0:
        exact += 1
    time.sleep(0.7)

llm_score = np.mean(llm_scores)
llm_acc = exact / len(ds_test)

# ==================== IN KẾT QUẢ CUỐI CÙNG ====================
print("\n" + "="*80)
print("KẾT QUẢ ĐÁNH GIÁ TRÊN minhtoan/vietnamese-comment-sentiment (300 mẫu test)")
print("="*80)
print(f"CÁCH 1 - TRUYỀN THỐNG (Trainer)")
print(f"   Accuracy    : {result1['eval_accuracy']:.4f}")
print(f"   F1-macro    : {result1['eval_f1_macro']:.4f}")
print("-"*80)
print(f"CÁCH 2 - LLM-as-a-Judge")
print(f"   LLM Judge Score : {llm_score:.4f} (càng gần 1.0 càng tốt)")
print("="*80)



CÁCH 1: Đánh giá truyền thống trên 300 mẫu test...



CÁCH 2: Đánh giá bằng Gemini (LLM Judge)...


LLM Judge:   0%|          | 0/300 [00:00<?, ?it/s]




KẾT QUẢ ĐÁNH GIÁ TRÊN minhtoan/vietnamese-comment-sentiment (300 mẫu test)
CÁCH 1 - TRUYỀN THỐNG (Trainer)
   Accuracy    : 0.9392
   F1-macro    : 0.9488
--------------------------------------------------------------------------------
CÁCH 2 - LLM-as-a-Judge
   LLM Judge Score : 0.4983 (càng gần 1.0 càng tốt)
