In [None]:
!pip install datasets

Collecting datasets
  Downloading datasets-3.4.1-py3-none-any.whl.metadata (19 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.12.0,>=2023.1.0 (from fsspec[http]<=2024.12.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.12.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.4.1-py3-none-any.whl (487 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m487.4/487.4 kB[0m [31m6.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.12.0-py3-none-any.w

In [None]:
# Load model directly
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("UngLong/cafebert-classification-ft")
model = AutoModelForSequenceClassification.from_pretrained("UngLong/cafebert-classification-ft")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/1.20k [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/791 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

In [None]:
from datasets import load_dataset, Dataset
import numpy as np
import pandas as pd
import re
import unicodedata
import torch
from torch.utils.data import DataLoader
from sklearn.metrics import accuracy_score, classification_report

In [None]:
# Load tập test
dataset = load_dataset("UngLong/ViSIR", split="test")

In [None]:
# 1️⃣ Dictionary chứa từ viết tắt toxic
toxic_abbreviations = {
    "vl": "vãi lồn",
    "vkl": "vãi cả lồn",
    "dm": "đụ mẹ",
    "dmm": "đụ mẹ mày",
    "cl": "cái lồn",
    "vc": "vãi cặc",
    "đmm": "đụ mẹ mày",
    "cc": "con cặc",
    "lol": "lồn",
    "dkm": "địt con mẹ",
    "đcmm": "địt con mẹ mày",
    "wtf": "cái đéo gì vậy",
    "clmm": "cái lồn mẹ mày",
    "ccmm": "con chó mẹ mày",
    "dcm": "địt con mẹ mày",
    "m": "mày",
    "t": "tao",
    "vcl": "vãi cả lồn",
    "nguu": "ngu",
    "tk": "thằng",
    "djt": "địt",
    "lmm": "lồn mẹ mày",
    "lòn": "lồn",
    "óc c": "óc cặc",
    "clm": "cái lồn má",
    "djtme": "địt mẹ",
    "đcho": "đĩ chó",
    "iồn": "lồn"
}

# 2️⃣ Regex thay thế từ viết tắt toxic (không nhầm trong từ khác)
toxic_pattern = re.compile(r"\b(" + "|".join(map(re.escape, toxic_abbreviations.keys())) + r")(?=\W|$)", re.IGNORECASE)

# 3️⃣ Hàm mở rộng từ viết tắt
def expand_toxic_abbreviations(text):
    return toxic_pattern.sub(lambda m: toxic_abbreviations[m.group(1).lower()], text)

# 4️⃣ Hàm làm sạch văn bản
def clean_text(text):
    # Chuyển sang string nếu không phải string
    if not isinstance(text, str):
        text = str(text)

    # Chuẩn hóa Unicode
    text = unicodedata.normalize("NFC", text)

    # Loại bỏ emoji
    text = re.sub(r"[^\w\s\u00C0-\u1FFF\u2C00-\uD7FF]", " ", text)

    # Thay thế từ viết tắt toxic
    text = expand_toxic_abbreviations(text)

    # Xóa khoảng trắng thừa
    text = re.sub(r"\s+", " ", text)

    return text.lower().strip()


In [None]:
df_test = pd.DataFrame(dataset)

In [None]:
df_test['text'] = df_test['text'].apply(clean_text)

In [None]:
dataset_test = Dataset.from_pandas(df_test)

In [None]:
# Tokenize dữ liệu
def preprocess_function(examples):
    return tokenizer(
        examples['text'],
        truncation=True,
        padding="max_length",  # Đảm bảo mọi mẫu đều có độ dài 77
        max_length=77
    )


In [None]:
encoded_dataset = dataset_test.map(preprocess_function, batched=True)

Map:   0%|          | 0/10750 [00:00<?, ? examples/s]

In [None]:
# Chỉ giữ lại các trường cần thiết và chuyển thành tensor
encoded_dataset.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])

# Tạo DataLoader
test_dataloader = DataLoader(encoded_dataset, batch_size=16)

# Đánh giá mô hình
model.eval()
predictions = []
labels = []

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)  # Di chuyển model lên GPU nếu có

with torch.no_grad():
    for batch in test_dataloader:
        # Kiểm tra kiểu dữ liệu của batch
        print({k: type(v) for k, v in batch.items()})  # Debug

        # Di chuyển dữ liệu lên thiết bị phù hợp (GPU nếu có)
        inputs = {k: v.to(device) for k, v in batch.items() if k in ["input_ids", "attention_mask"]}
        label_batch = batch["label"].to(device)  # Đưa nhãn về thiết bị

        # Dự đoán
        outputs = model(**inputs)
        logits = outputs.logits
        preds = torch.argmax(logits, dim=-1)

        # Lưu lại dự đoán và nhãn
        predictions.extend(preds.cpu().numpy())  # Chuyển về CPU để tránh lỗi
        labels.extend(label_batch.cpu().numpy())

{'label': <class 'torch.Tensor'>, 'input_ids': <class 'torch.Tensor'>, 'attention_mask': <class 'torch.Tensor'>}
{'label': <class 'torch.Tensor'>, 'input_ids': <class 'torch.Tensor'>, 'attention_mask': <class 'torch.Tensor'>}
{'label': <class 'torch.Tensor'>, 'input_ids': <class 'torch.Tensor'>, 'attention_mask': <class 'torch.Tensor'>}
{'label': <class 'torch.Tensor'>, 'input_ids': <class 'torch.Tensor'>, 'attention_mask': <class 'torch.Tensor'>}
{'label': <class 'torch.Tensor'>, 'input_ids': <class 'torch.Tensor'>, 'attention_mask': <class 'torch.Tensor'>}
{'label': <class 'torch.Tensor'>, 'input_ids': <class 'torch.Tensor'>, 'attention_mask': <class 'torch.Tensor'>}
{'label': <class 'torch.Tensor'>, 'input_ids': <class 'torch.Tensor'>, 'attention_mask': <class 'torch.Tensor'>}
{'label': <class 'torch.Tensor'>, 'input_ids': <class 'torch.Tensor'>, 'attention_mask': <class 'torch.Tensor'>}
{'label': <class 'torch.Tensor'>, 'input_ids': <class 'torch.Tensor'>, 'attention_mask': <class 

In [None]:
# Tính toán độ chính xác
accuracy = accuracy_score(labels, predictions)
report = classification_report(labels, predictions, target_names=["Non-Toxic", "Toxic"])

print(f"Accuracy: {accuracy:.4f}")
print("Classification Report:\n", report)

Accuracy: 0.9227
Classification Report:
               precision    recall  f1-score   support

   Non-Toxic       0.95      0.90      0.92      5548
       Toxic       0.90      0.95      0.92      5202

    accuracy                           0.92     10750
   macro avg       0.92      0.92      0.92     10750
weighted avg       0.92      0.92      0.92     10750

