In [33]:
import os, re, warnings, logging
import pandas as pd
import numpy as np
import torch

from datasets import Dataset
from huggingface_hub import login
from unsloth import FastMistralModel

from transformers import (
    AutoTokenizer,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling,
)

from sklearn.metrics import accuracy_score, f1_score, classification_report

warnings.filterwarnings("ignore")
logging.getLogger("transformers").setLevel(logging.ERROR)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

cuda


In [34]:
login(token="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")

In [35]:
TRAIN_FILE = r"/Depression1287_train.xlsx"
VALID_FILE = r"/Depression1287_valid.xlsx"
TEST_FILE  = r"/Depression1287_test.xlsx"

train_df = pd.read_excel(TRAIN_FILE)
valid_df = pd.read_excel(VALID_FILE)
test_df  = pd.read_excel(TEST_FILE)

# map nhãn theo thứ tự bạn đưa
label_order = ["1-Bình thường", "2-Nhẹ", "3-Vừa", "4-Nặng"]
label2id = {lbl: i for i, lbl in enumerate(label_order)}
id2label = {i: lbl for lbl, i in label2id.items()}

# Tự động dò tên cột text/label (đỡ bị lệch)
def detect_col(df, candidates):
    for c in candidates:
        if c in df.columns:
            return c
    raise ValueError(f"Không tìm thấy cột nào trong {candidates}. Columns hiện có: {df.columns.tolist()}")

TEXT_COL  = detect_col(train_df, ["Content", "content", "text", "Text"])
LABEL_COL = detect_col(train_df, ["Label", "label"])

print("TEXT_COL =", TEXT_COL, "| LABEL_COL =", LABEL_COL)

train_df[LABEL_COL] = train_df[LABEL_COL].astype(str).map(label2id)
valid_df[LABEL_COL] = valid_df[LABEL_COL].astype(str).map(label2id)

if LABEL_COL in test_df.columns:
    test_df[LABEL_COL] = test_df[LABEL_COL].astype(str).map(label2id)

TEXT_COL = Content | LABEL_COL = Label


In [36]:
# Xem phân bố trước khi cân bằng
print("Original train counts:\n", train_df[LABEL_COL].value_counts())

vc = train_df[LABEL_COL].value_counts()
min_count = vc.min()
max_count = vc.max()

# Nếu lớp nhỏ nhất quá ít (vd < 20), không ép toàn bộ về min_count,
# mà chọn một ngưỡng trung gian.
TARGET_PER_CLASS = max(min_count, 50)  # bạn có thể chỉnh 30 / 50 tuỳ dataset

balanced_parts = []
rng = np.random.default_rng(42)

for lid in range(len(label_order)):
    df_c = train_df[train_df[LABEL_COL] == lid]
    if len(df_c) == 0:
        continue
    if len(df_c) > TARGET_PER_CLASS:
        # undersample nhẹ
        balanced_parts.append(df_c.sample(TARGET_PER_CLASS, random_state=42))
    else:
        # oversample bằng cách lặp lại ngẫu nhiên
        idx = rng.choice(df_c.index, size=TARGET_PER_CLASS, replace=True)
        balanced_parts.append(df_c.loc[idx])

train_balanced = pd.concat(balanced_parts, ignore_index=True)
train_df = train_balanced.sample(frac=1.0, random_state=42).reset_index(drop=True)

print("Balanced train counts:\n", train_df[LABEL_COL].value_counts())

Original train counts:
 Label
0    608
1    190
2     82
3     17
Name: count, dtype: int64
Balanced train counts:
 Label
1    50
0    50
3    50
2    50
Name: count, dtype: int64


In [37]:
instruction_zero = """
Giả sử bản thân là một chuyên gia tâm lý. Hãy phân loại mức độ trầm cảm của văn bản
thành đúng một nhãn trong 4 mức, dựa trên mô tả và ví dụ hướng dẫn:

1-Bình thường:
- Không có hoặc hầu như không có triệu chứng trầm cảm.
- Có thể có chút lo lắng, phân vân, tìm kiếm sự giúp đỡ hoặc bày tỏ sự không chắc chắn về cảm xúc,
  nhưng chưa ảnh hưởng rõ rệt đến đời sống.
- Người viết vẫn kiểm soát được cuộc sống, mối quan hệ và công việc hằng ngày, không mô tả suy sụp kéo dài.

2-Nhẹ:
- Xuất hiện một vài triệu chứng trầm cảm hoặc lo âu, nhưng mức độ chưa mạnh và chưa ảnh hưởng rõ rệt
  đến chức năng hằng ngày.
- Người viết còn giữ được khả năng kiểm soát chung, có các phương pháp đối phó và vẫn duy trì được sinh hoạt cơ bản.
- Cảm xúc trầm buồn hoặc lo lắng có xuất hiện, nhưng không liên tục và không quá dữ dội.

3-Vừa:
- Mô tả lo âu, sợ hãi, suy nghĩ xâm nhập hoặc các triệu chứng khác ảnh hưởng đáng kể đến chức năng sống, công việc hằng ngày.
- Người viết có thể trải qua các cơn hoảng loạn, khó ngủ, hay nhắc đến việc sử dụng biện biện pháp điều trị hoặc cảm giác kiệt sức về mặt tinh thần.
- Cảm xúc trầm cảm sâu sắc hơn và kéo dài hơn so với mức "Nhẹ".

4-Nặng:
- Thể hiện cảm giác cô lập, tuyệt vọng, vô vọng, mắc kẹt, hoặc mô tả các trải nghiệm lạm dụng nghiêm trọng kéo dài
  với ảnh hưởng sâu sắc đến tâm lý.
- Các triệu chứng nặng đến mức làm suy giảm rõ rệt khả năng hoạt động bình thường, có thể kèm ý nghĩ hoặc hành vi
  tự hại/làm hại, hoặc mô tả mình “sụp đổ hoàn toàn”, “không chịu nổi nữa”.
- Mức độ đau khổ tinh thần rất cao, gần như không còn khả năng đối phó hiệu quả.

Hướng dẫn gán nhãn cho một số trường hợp đặc biệt:
- Nếu người viết chỉ liệt kê những chuyện không tốt đã/đang xảy ra nhưng không thể hiện cảm xúc gán nhãn: 1-Bình thường.
- Nếu người viết thể hiện sự cam chịu dẫn tới đánh mất bản thân:
  + Nếu mới diễn ra trong thời gian ngắn, mức độ ảnh hưởng chưa thật sự trầm trọng → ưu tiên: 2-Nhẹ.
  + Nếu diễn ra kéo dài, lặp lại nhiều lần, làm thay đổi rõ rệt bản thân và cuộc sống → có thể gán: 3-Vừa.
- Trường hợp ngoại tình:
  + Mặc định xem là 2-Nhẹ nếu chủ yếu là xung đột cảm xúc, tội lỗi, lo lắng ở mức vừa phải.
  + Nếu hoàn cảnh gia đình, con cái, áp lực xã hội làm người viết đau khổ kéo dài, suy sụp chức năng hàng ngày có thể nâng lên: 3-Vừa hoặc 4-Nặng tùy mức độ mô tả.
- Nếu người viết bị bạn bè bạo hành, cô lập nhiều lần, dẫn đến cảm giác tổn thương kéo dài, lo âu/trầm cảm rõ rệt sẽ gán nhãn: 3-Vừa.
- Nếu người viết kể đã trải qua quá khứ vô cùng tiêu cực, mức độ có thể là 3-Vừa trong quá khứ,
  nhưng hiện tại đã đỡ hơn, vẫn còn cảm xúc buồn/đau nhưng đã bớt nhiều sẽ  gán nhãn: 2-Nhẹ.
- Nếu người viết kể từng có quá khứ rất tiêu cực nhưng hiện tại đã ổn, không còn cảm giác đau khổ,
  chỉ nhắc lại như một câu chuyện đã qua thì gán nhãn: 1-Bình thường.
Chỉ trả về một nhãn duy nhất trong 4 mức:
1-Bình thường, 2-Nhẹ, 3-Vừa, hoặc 4-Nặng.
""".strip()

In [38]:
instruction_few = """
Giả sử bản thân là một chuyên gia tâm lý. Hãy phân loại mức độ trầm cảm của văn bản
thành đúng một nhãn trong 4 mức, dựa trên mô tả và ví dụ hướng dẫn:

1-Bình thường:
- Không có hoặc hầu như không có triệu chứng trầm cảm.
- Có thể có chút lo lắng, phân vân, tìm kiếm sự giúp đỡ hoặc bày tỏ sự không chắc chắn về cảm xúc,
  nhưng chưa ảnh hưởng rõ rệt đến đời sống.
- Người viết vẫn kiểm soát được cuộc sống, mối quan hệ và công việc hằng ngày, không mô tả suy sụp kéo dài.

2-Nhẹ:
- Xuất hiện một vài triệu chứng trầm cảm, buồn bã hoặc lo âu, nhưng mức độ chưa mạnh và chưa ảnh hưởng rõ rệt
  đến chức năng hằng ngày.
- Người viết còn giữ được khả năng kiểm soát chung, có các phương pháp đối phó và vẫn duy trì được sinh hoạt cơ bản.
- Cảm xúc trầm buồn hoặc lo lắng có xuất hiện, nhưng không liên tục và không quá dữ dội.

3-Vừa:
- Mô tả lo âu, sợ hãi, suy nghĩ xâm nhập hoặc các triệu chứng khác ảnh hưởng đáng kể đến chức năng sống, công việc hằng ngày.
- Người viết có thể trải qua các cơn hoảng loạn, khó ngủ, hay nhắc đến việc sử dụng biện biện pháp điều trị hoặc cảm giác kiệt sức về mặt tinh thần.
- Cảm xúc trầm cảm sâu sắc hơn và kéo dài hơn so với mức "Nhẹ".

4-Nặng:
- Thể hiện cảm giác cô lập, tuyệt vọng, vô vọng, mắc kẹt, hoặc mô tả các trải nghiệm lạm dụng nghiêm trọng kéo dài
  với ảnh hưởng sâu sắc đến tâm lý.
- Các triệu chứng nặng đến mức làm suy giảm rõ rệt khả năng hoạt động bình thường, có thể kèm ý nghĩ hoặc hành vi
  tự hại/làm hại, hoặc mô tả mình “sụp đổ hoàn toàn”, “không chịu nổi nữa”.
- Mức độ đau khổ tinh thần rất cao, gần như không còn khả năng đối phó hiệu quả.
- Muốn chết hoặc tự tử

Hướng dẫn gán nhãn cho một số trường hợp đặc biệt:
- Nếu người viết chỉ liệt kê những chuyện không tốt đã/đang xảy ra nhưng không thể hiện cảm xúc gán nhãn: 1-Bình thường.
Ví dụ:
Input: "Lúc còn nhỏ tôi bị bạo hành dẫn đến trầm cảm, nhưng hiện tại tôi đã vượt qua"
Output: "1-Bình thường"
- Nếu người viết thể hiện sự cam chịu dẫn tới đánh mất bản thân:
  + Nếu mới diễn ra trong thời gian ngắn, mức độ ảnh hưởng chưa thật sự trầm trọng → ưu tiên: 2-Nhẹ.
  + Nếu diễn ra kéo dài, lặp lại nhiều lần, làm thay đổi rõ rệt bản thân và cuộc sống → có thể gán: 3-Vừa.
- Trường hợp ngoại tình:
  + Mặc định xem là 2-Nhẹ nếu chủ yếu là xung đột cảm xúc, tội lỗi, lo lắng ở mức vừa phải.
  + Nếu hoàn cảnh gia đình, con cái, áp lực xã hội làm người viết đau khổ kéo dài, suy sụp chức năng hàng ngày có thể nâng lên: 3-Vừa hoặc 4-Nặng tùy mức độ mô tả.
- Nếu người viết bị bạn bè bạo hành, cô lập nhiều lần, dẫn đến cảm giác tổn thương kéo dài, lo âu/trầm cảm rõ rệt sẽ gán nhãn: 3-Vừa.
- Nếu người viết kể đã trải qua quá khứ vô cùng tiêu cực, mức độ có thể là 3-Vừa trong quá khứ,
  nhưng hiện tại đã đỡ hơn, vẫn còn cảm xúc buồn/đau nhưng đã bớt nhiều sẽ  gán nhãn: 2-Nhẹ.
- Nếu người viết kể từng có quá khứ rất tiêu cực nhưng hiện tại đã ổn, không còn cảm giác đau khổ,
  chỉ nhắc lại như một câu chuyện đã qua thì gán nhãn: 1-Bình thường.
  
Ví dụ mẫu: 
Input: "Nhiều lúc bị chồng làm tổn thương, tôi muốn chết đi hoặc ly hôn nhưng lại nghĩ đến các con, đang bầu bí nữa, không thể làm gì được, đành chịu đựng để mọi việc theo ý anh ."
Output: "4-Nặng"
Input: "Ngày đó tôi phát hiện chồng và người cũ vẫn qua lại. Người cũ của chồng tôi đã có gia đình riêng. Chị đó và chồng tôi thường hẹn gặp vào buổi trưa. Sau khi biết chuyện, tôi thật sự choáng váng, chồng không giải thích gì, chỉ nói họ là bạn. Cuộc sống gia đình tôi không còn bình yên nữa, vợ chồng thường xuyên cãi vã, tôi không còn tin tưởng anh. Sau khi việc bị bại lộ, tôi không biết hai người họ còn qua lại với nhau không, bản thân chẳng thể quên được chuyện này."
Output: "3-Vừa"
Input: "Tôi và anh kết hôn vừa tròn bốn năm. Khi tôi sinh bé thứ hai được đầy tháng thì phát hiện chồng có bồ. Mỗi ngày anh đều nói đi làm nhưng thực chất la cà cùng bồ khắp phố phường, trong khi tôi vừa chăm đứa lớn chưa tròn ba tuổi, vừa chăm đứa nhỏ tròn tháng, lại phải làm việc online (việc không thể nghỉ khi thai sản). Khi tôi phát hiện, anh hứa không tiếp tục chuyện đó nữa, thực chất họ vẫn quấn lấy nhau. Tôi khuyên không được nên đã bỏ về nhà mẹ đẻ cùng hai đứa nhỏ. Lúc này, tôi cảm giác anh như được giải thoát, tự do yêu đương với người phụ nữ đó. Tôi phải làm sao đây?"
Output: "2-Nhẹ"

Bạn chỉ trả về một nhãn duy nhất trong 4 nhãn:
1-Bình thường, 2-Nhẹ, 3-Vừa, hoặc 4-Nặng.
""".strip()

In [39]:
model_name = "Viet-Mistral/Vistral-7B-Chat"

UNSLOTH_MAX_SEQ_LEN = 2048
MAX_SEQ_LEN = 1536    

model, tokenizer = FastMistralModel.from_pretrained(
    model_name     = model_name,
    max_seq_length = UNSLOTH_MAX_SEQ_LEN,
    load_in_4bit   = True,
    device_map     = {"": 0},
)

model = FastMistralModel.get_peft_model(
    model,
    r            = 32,
    lora_alpha   = 64,
    lora_dropout = 0.1,
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj"],
    bias="all",        # Thêm bias
    use_gradient_checkpointing=True,
)

model.to(device)
print("Loaded model & tokenizer.")

==((====))==  Unsloth 2025.11.1: Fast Mistral patching. Transformers: 4.57.2.
   \\   /|    NVIDIA GeForce RTX 5060 Ti. Num GPUs = 1. Max memory: 15.477 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.9.1+cu128. CUDA: 12.0. CUDA Toolkit: 12.8. Triton: 3.5.1
\        /    Bfloat16 = TRUE. FA [Xformers = None. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Loading checkpoint shards: 100%|██████████| 2/2 [00:12<00:00,  6.29s/it]


Loaded model & tokenizer.


In [40]:
def build_prompt_with_label(text: str, label_id: int):
    """Tạo prompt train: luôn giữ nguyên instruction + nhãn, chỉ cắt bớt phần TEXT nếu quá dài."""
    label_text = id2label[int(label_id)]
    instr = instruction_few.strip()


    prefix = f"### Instruction:\n{instr}\n\n### Văn bản:\n"
    suffix = f"\n\n### Trả lời:\n{label_text}"

    # Token hóa prefix + suffix (không có TEXT)
    pref_suf_ids = tokenizer(
        prefix + suffix,
        add_special_tokens=False,
        truncation=False,
        return_tensors=None,
    )["input_ids"]
    pref_suf_len = len(pref_suf_ids)

    # Chừa khoảng 10 token đệm cho BOS/EOS, etc.
    max_text_tokens = max(0, MAX_SEQ_LEN - pref_suf_len - 10)

    # Token hóa TEXT riêng, cắt theo max_text_tokens
    text_ids = tokenizer(
        str(text),
        add_special_tokens=False,
        truncation=False,
        return_tensors=None,
    )["input_ids"]
    text_ids = text_ids[:max_text_tokens]

    # Decode lại TEXT đã cắt
    truncated_text = tokenizer.decode(text_ids, skip_special_tokens=True)

    prompt = prefix + truncated_text + suffix
    return prompt


def build_prompt_infer(text: str):
    """Prompt cho inference: không gắn nhãn, model sẽ tự sinh."""
    instr = instruction_few.strip()
    prefix = f"### Instruction:\n{instr}\n\n### Văn bản:\n"
    suffix = "\n\n### Trả lời:\n"

    # Giống logic trên nhưng không có nhãn
    pref_suf_ids = tokenizer(
        prefix + suffix,
        add_special_tokens=False,
        truncation=False,
        return_tensors=None,
    )["input_ids"]
    pref_suf_len = len(pref_suf_ids)
    max_text_tokens = max(0, MAX_SEQ_LEN - pref_suf_len - 10)

    text_ids = tokenizer(
        str(text),
        add_special_tokens=False,
        truncation=False,
        return_tensors=None,
    )["input_ids"]
    text_ids = text_ids[:max_text_tokens]
    truncated_text = tokenizer.decode(text_ids, skip_special_tokens=True)

    prompt = prefix + truncated_text + suffix
    return prompt

In [41]:
def tokenization_fn_train(examples):
    prompts = [
        build_prompt_with_label(t, l)
        for t, l in zip(examples[TEXT_COL], examples[LABEL_COL])
    ]
    enc = tokenizer(
        prompts,
        truncation=True,
        max_length=MAX_SEQ_LEN,
        padding="max_length",
    )
    # labels = input_ids cho causal LM
    enc["labels"] = enc["input_ids"].copy()
    return enc

def tokenization_fn_valid(examples):
    prompts = [
        build_prompt_with_label(t, l)
        for t, l in zip(examples[TEXT_COL], examples[LABEL_COL])
    ]
    enc = tokenizer(
        prompts,
        truncation=True,
        max_length=MAX_SEQ_LEN,
        padding="max_length",
    )
    enc["labels"] = enc["input_ids"].copy()
    return enc

train_ds = Dataset.from_pandas(train_df[[TEXT_COL, LABEL_COL]])
valid_ds = Dataset.from_pandas(valid_df[[TEXT_COL, LABEL_COL]])

train_ds = train_ds.map(tokenization_fn_train, batched=True, remove_columns=[TEXT_COL, LABEL_COL])
valid_ds = valid_ds.map(tokenization_fn_valid, batched=True, remove_columns=[TEXT_COL, LABEL_COL])

data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

print(train_ds)
print(valid_ds)
# def tokenization_fn_train(examples):
#     texts  = examples[TEXT_COL]  # Mảng các text
#     labels = examples[LABEL_COL]  # Mảng các labels

#     all_input_ids = []
#     all_labels    = []
#     all_attn_mask = []

#     # Kiểm tra kiểu dữ liệu
#     print(f"Type of texts: {type(texts)}")
#     print(f"Type of labels: {type(labels)}")

#     for text, lid in zip(texts, labels):
#         prefix_str = make_prefix(text)
#         full_str   = make_full_prompt(text, lid)
#         label_str  = id2label[int(lid)]

#         prefix_enc = tokenizer(
#             prefix_str,
#             truncation=True,
#             max_length=MAX_SEQ_LEN,
#             padding=False,
#         )
#         full_enc = tokenizer(
#             full_str,
#             truncation=True,
#             max_length=MAX_SEQ_LEN,
#             padding=False,
#         )

#         input_ids = full_enc["input_ids"]
#         attn_mask = full_enc["attention_mask"]

#         prefix_len = len(prefix_enc["input_ids"])

#         label_ids = tokenizer(
#             label_str,
#             add_special_tokens=False,
#         )["input_ids"]

#         labels_ids = [-100] * len(input_ids)

#         for j, tid in enumerate(label_ids):
#             pos = prefix_len + j
#             if pos < len(labels_ids):
#                 labels_ids[pos] = tid
#             else:
#                 break

#         all_input_ids.append(input_ids)
#         all_attn_mask.append(attn_mask)
#         all_labels.append(labels_ids)

#     return {
#         "input_ids": all_input_ids,
#         "attention_mask": all_attn_mask,
#         "labels": all_labels,
#     }

# train_ds = Dataset.from_pandas(train_df[[TEXT_COL, LABEL_COL]])
# valid_ds = Dataset.from_pandas(valid_df[[TEXT_COL, LABEL_COL]])

# train_ds = train_ds.map(tokenization_fn_train, batched=True, remove_columns=[TEXT_COL, LABEL_COL])
# valid_ds = valid_ds.map(tokenization_fn_valid, batched=True, remove_columns=[TEXT_COL, LABEL_COL])

# data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

# print(train_ds)
# print(valid_ds)

Map: 100%|██████████| 200/200 [00:00<00:00, 258.76 examples/s]
Map: 100%|██████████| 130/130 [00:00<00:00, 258.78 examples/s]

Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 200
})
Dataset({
    features: ['input_ids', 'attention_mask', 'labels'],
    num_rows: 130
})





In [42]:
training_args = TrainingArguments(
    output_dir="vistral_depression_sft",
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    gradient_accumulation_steps=8,
    num_train_epochs=10,      # tăng lên để model học tốt hơn
    learning_rate=2e-5,      # LR cao hơn cho LoRA
    warmup_ratio=0.03,
    weight_decay=0.0,
    fp16=True,
    eval_strategy="epoch",
    save_strategy="epoch",
    logging_steps=10,
    report_to="none",
    load_best_model_at_end=True,
    metric_for_best_model="eval_loss",
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_ds,
    eval_dataset=valid_ds,
    data_collator=data_collator,
    tokenizer=tokenizer,
)
trainer.train()

{'loss': 6.8135, 'grad_norm': 0.0007008453249000013, 'learning_rate': 1.920634920634921e-05, 'epoch': 0.8}
{'eval_loss': 2.0494325160980225, 'eval_runtime': 103.6194, 'eval_samples_per_second': 1.255, 'eval_steps_per_second': 0.627, 'epoch': 1.0}
{'loss': 5.4003, 'grad_norm': 0.0008371269213967025, 'learning_rate': 1.761904761904762e-05, 'epoch': 1.56}
{'eval_loss': 2.050011396408081, 'eval_runtime': 103.6091, 'eval_samples_per_second': 1.255, 'eval_steps_per_second': 0.627, 'epoch': 2.0}
{'loss': 2.8368, 'grad_norm': 0.0008158984128385782, 'learning_rate': 1.6031746031746033e-05, 'epoch': 2.32}
{'eval_loss': 2.0472896099090576, 'eval_runtime': 103.606, 'eval_samples_per_second': 1.255, 'eval_steps_per_second': 0.627, 'epoch': 3.0}
{'loss': 0.4752, 'grad_norm': 0.00043036832357756793, 'learning_rate': 1.4444444444444446e-05, 'epoch': 3.08}
{'loss': 0.1688, 'grad_norm': 0.00023191289801616222, 'learning_rate': 1.2857142857142859e-05, 'epoch': 3.88}
{'eval_loss': 2.047189950942993, 'eval

TrainOutput(global_step=130, training_loss=1.2365782877573601, metrics={'train_runtime': 5790.9538, 'train_samples_per_second': 0.345, 'train_steps_per_second': 0.022, 'train_loss': 1.2365782877573601, 'epoch': 10.0})

In [43]:
def adjust_normal_label(text: str, predicted_label: str) -> str:
    """Giảm xác suất nhãn không phải Bình thường nếu không có dấu hiệu trầm cảm"""
    if predicted_label == "1-Bình thường":
        return predicted_label
    
    lower_text = text.lower()
    # Kiểm tra xem có từ khóa tiêu cực hay không
    NEGATIVE_KEYWORDS = ["trầm cảm", "buồn", "tuyệt vọng", "mệt mỏi", "không muốn sống", "không muốn làm gì", "stress", "chết", "không thiết sống"]
    
    if any(kw in lower_text for kw in NEGATIVE_KEYWORDS):
        return predicted_label
    else:
        return "1-Bình thường"  # Nếu không có từ khóa tiêu cực, ưu tiên Bình thường

In [44]:
import re

def parse_label_from_answer(answer: str):
    answer = answer.strip()
    # Ưu tiên khớp toàn nhãn
    for lbl in label_order:
        if lbl in answer:
            return lbl
    # fallback: tìm số 1-4
    m = re.search(r"\b([1-4])\b", answer)
    if m:
        return label_order[int(m.group(1)) - 1]
    return None


def predict_label(text: str, max_new_tokens: int = 16):
    prompt = build_prompt_infer(text)

    inputs = tokenizer(
        prompt,
        return_tensors="pt",
        truncation=True,
        max_length=MAX_SEQ_LEN,
        padding=False,
    ).to(device)

    with torch.no_grad():
        gen_ids = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            do_sample=False,
            temperature=0.0,
            pad_token_id=tokenizer.eos_token_id,
        )

    out = tokenizer.decode(gen_ids[0], skip_special_tokens=True)
    answer = out.split("### Trả lời:")[-1].strip()
    lbl = parse_label_from_answer(answer)
    if lbl is None:
        # fallback an toàn
        lbl = "1-Bình thường"
    lbl = adjust_normal_label(text, lbl)
    return lbl


def eval_df(df):
    texts = df[TEXT_COL].astype(str).tolist()
    true_ids = df[LABEL_COL].tolist()

    preds = [predict_label(t) for t in texts]
    pred_ids = [label2id[p] if p in label2id else -1 for p in preds]

    acc = accuracy_score(true_ids, pred_ids)
    f1  = f1_score(true_ids, pred_ids, average="macro")
    print("Accuracy:", acc)
    print("Macro F1:", f1)
    print(classification_report(true_ids, pred_ids, target_names=label_order))


print("=== VALID EVAL ===")
eval_df(valid_df)

if LABEL_COL in test_df.columns:
    print("\n=== TEST EVAL ===")
    eval_df(test_df)


=== VALID EVAL ===
Accuracy: 0.3923076923076923
Macro F1: 0.24918691808402163
               precision    recall  f1-score   support

1-Bình thường       0.78      0.49      0.61        87
        2-Nhẹ       0.33      0.18      0.23        28
        3-Vừa       0.07      0.08      0.08        12
       4-Nặng       0.04      0.67      0.08         3

     accuracy                           0.39       130
    macro avg       0.31      0.36      0.25       130
 weighted avg       0.60      0.39      0.46       130


=== TEST EVAL ===
Accuracy: 0.45384615384615384
Macro F1: 0.2633649913381357
               precision    recall  f1-score   support

1-Bình thường       0.77      0.60      0.68       174
        2-Nhẹ       0.12      0.04      0.06        56
        3-Vừa       0.14      0.25      0.18        24
       4-Nặng       0.08      0.83      0.14         6

     accuracy                           0.45       260
    macro avg       0.28      0.43      0.26       260
 weighted avg 

In [45]:
save_dir = "/content/vistral_depression_lora"
os.makedirs(save_dir, exist_ok=True)

model.save_pretrained(save_dir)
tokenizer.save_pretrained(save_dir)
print("Saved to:", save_dir)


Saved to: /content/vistral_depression_lora


In [46]:
# # ====== CELL: PRINT 4 CORRECT + 4 INCORRECT PER LABEL (BY ID) ======

def build_pred_ids(df, text_col=TEXT_COL):
    # predict_label trả về string label -> map sang id
    pred_labels = [predict_label(t) for t in df[text_col].astype(str).tolist()]
    pred_ids = [label2id.get(lbl, -1) for lbl in pred_labels]
    return pred_labels, pred_ids

# Tạo prediction trên VALID (hoặc TEST)
valid_pred_labels, valid_pred_ids = build_pred_ids(valid_df)

# Lưu vào df để xem lại
valid_df = valid_df.copy()
valid_df["pred_label"] = valid_pred_labels
valid_df["pred_id"] = valid_pred_ids

def print_correct_incorrect_examples_by_id(df, n=4, text_max_chars=400):
    # buckets[label_id] = list of indices
    correct = {i: [] for i in range(len(label_order))}
    wrong   = {i: [] for i in range(len(label_order))}

    for idx, row in df.iterrows():
        true_id = int(row[LABEL_COL])
        pred_id = int(row["pred_id"])
        if pred_id == -1:
            continue
        if true_id == pred_id:
            correct[true_id].append(idx)
        else:
            wrong[true_id].append(idx)

    for lid in range(len(label_order)):
        print(f"\n=== {label_order[lid]} (id={lid}) ===")

        print("Dự đoán đúng:")
        if len(correct[lid]) == 0:
            print("  (Không có)")
        else:
            for k, idx in enumerate(correct[lid][:n], 1):
                text = str(df.loc[idx, TEXT_COL]).replace("\n", " ").strip()
                text = text[:text_max_chars] + ("..." if len(text) > text_max_chars else "")
                print(f"  {k}. TRUE={label_order[lid]} | PRED={df.loc[idx,'pred_label']}")
                print(f"     TEXT: {text}")

        print("Dự đoán sai:")
        if len(wrong[lid]) == 0:
            print("  (Không có)")
        else:
            for k, idx in enumerate(wrong[lid][:n], 1):
                true_id = int(df.loc[idx, LABEL_COL])
                pred_id = int(df.loc[idx, "pred_id"])
                text = str(df.loc[idx, TEXT_COL]).replace("\n", " ").strip()
                text = text[:text_max_chars] + ("..." if len(text) > text_max_chars else "")
                print(f"  {k}. TRUE={label_order[true_id]} | PRED={label_order[pred_id]} (raw='{df.loc[idx,'pred_label']}')")
                print(f"     TEXT: {text}")

# In kết quả
print_correct_incorrect_examples_by_id(valid_df, n=4)



=== 1-Bình thường (id=0) ===
Dự đoán đúng:
  1. TRUE=1-Bình thường | PRED=1-Bình thường
     TEXT: Tôi 28 tuổi, từng ly hôn, hiện sống một mình. Cách đây bốn tháng, thông qua trang hẹn hò, tôi quen một người. Sau những trao đổi qua email và chat, chúng tôi hẹn gặp mặt. Ấn tượng đầu tiên của tôi khi gặp mặt là anh khá cầu tiến, vui vẻ. Tuy nhiên, ở lần hẹn tiếp theo, khi chở tôi về nhà, anh đã đòi hỏi chuyện đó. Tôi nói dối là hôm đó mình đang đến kỳ. Sau hôm ấy, thái độ của anh đột nhiên thay đ...
  2. TRUE=1-Bình thường | PRED=1-Bình thường
     TEXT: Tôi 44 tuổi, hơn em năm tuổi, cả hai còn độc thân. Tôi là quản lý của em, chúng tôi quen và yêu nhau gần một năm. Tôi có nhà riêng rộng rãi và sống một mình, có người giúp việc bán thời gian. Vừa rồi, có năm người họ hàng của em ở nước ngoài về, sống nhờ trong hai tháng ở nhà em. Em lấy lý do thi thoảng phải đi công tác, bảo họ cứ tới, rồi ra thuê khách sạn ở. Tôi bảo em ở tạm chỗ tôi khi cần, nhà...
  3. TRUE=1-Bình thường | PRED=1-Bìn

In [47]:
# ===== CELL 1: BUILD DEBUG DF (CLEAN TRUE/PRED) =====
import pandas as pd
import numpy as np

def to_label_id(x):
    """
    Chuẩn hoá nhãn về id 0..3 dù x là int/float hay string '2-Nhẹ'
    """
    if pd.isna(x):
        return -1
    # nếu đã là số (0..3)
    if isinstance(x, (int, np.integer)):
        return int(x)
    if isinstance(x, (float, np.floating)):
        return int(x)
    # nếu là string nhãn
    xs = str(x).strip()
    if xs in label2id:
        return label2id[xs]
    # nếu string là "1".."4" thì map về 0..3
    if xs.isdigit() and xs in ["1", "2", "3", "4"]:
        return int(xs) - 1
    return -1

def build_debug_df(df):
    df_dbg = df.copy()

    # TRUE id/label
    df_dbg["true_id"] = df_dbg[LABEL_COL].apply(to_label_id)
    df_dbg["true_label"] = df_dbg["true_id"].apply(lambda i: label_order[i] if 0 <= i < len(label_order) else "UNKNOWN")

    # PRED label/id (predict lại sạch trong cùng 1 lần)
    pred_labels = [predict_label(t) for t in df_dbg[TEXT_COL].astype(str).tolist()]
    pred_ids = [label2id.get(lbl, -1) for lbl in pred_labels]

    df_dbg["pred_label"] = pred_labels
    df_dbg["pred_id"] = pred_ids
    df_dbg["is_correct"] = (df_dbg["true_id"] == df_dbg["pred_id"])

    # quick sanity check
    print("TRUE label counts:", df_dbg["true_id"].value_counts().sort_index().to_dict())
    print("PRED label counts:", df_dbg["pred_id"].value_counts().sort_index().to_dict())
    print("Correct counts per true label:", df_dbg.groupby("true_id")["is_correct"].sum().to_dict())

    return df_dbg

df_dbg = build_debug_df(valid_df)   # hoặc test_df
print("df_dbg shape:", df_dbg.shape)


TRUE label counts: {0: 87, 1: 28, 2: 12, 3: 3}
PRED label counts: {0: 55, 1: 15, 2: 14, 3: 46}
Correct counts per true label: {0: 43, 1: 5, 2: 1, 3: 2}
df_dbg shape: (130, 7)


In [54]:
FastMistralModel.for_inference(model)

def short_text(s, max_chars=3000):
    s = str(s).replace("\n", " ").strip()
    return s[:max_chars] + ("..." if len(s) > max_chars else "")

def llm_explain_choice(text, pred_label, max_new_tokens=120):
    """
    Cho model giải thích vì sao chọn nhãn đó.
    - Giải thích ngắn 2-4 gạch đầu dòng
    - Tránh dài để không rỗng
    """
    text = short_text(text, 3000)
    prompt = f"""
Bạn là chuyên gia tâm lý. Nhiệm vụ: giải thích NGẮN gọn vì sao văn bản thuộc nhãn "{pred_label}"
theo guideline đã học. 
Yêu cầu:
- Liệt kê các bằng chứng khác nhau liên quan đến quyết định.
- Không được viết dạng mở rộng từ câu giải thích trước.
- Trả lời 4 gạch đầu dòng.
- Mỗi gạch đầu dòng nêu: (tín hiệu trong văn bản) -> (liên hệ dẫn đến quyết định nhãn (1-Bình thường, 2-Nhẹ, 3-Vừa, 4-Nặng)).
- Không trích dẫn dài, chỉ nêu ý chính.

### Văn bản:
{text}

### Nhãn dự đoán: {pred_label}
### Giải thích:
-""".strip()

    try:
        inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=MAX_SEQ_LEN).to(device)
        with torch.no_grad():
            gen = model.generate(
                **inputs,
                max_new_tokens=max_new_tokens,
                do_sample=False,
                temperature=0.0,
                pad_token_id=tokenizer.eos_token_id,
                repetition_penalty = 1.15
            )
        out = tokenizer.decode(gen[0], skip_special_tokens=True)
        # lấy phần sau "Giải thích:"
        if "### Giải thích:" in out:
            out = out.split("### Giải thích:")[-1].strip()
        out = out.strip()

        # nếu model trả rỗng -> fallback
        if len(out) < 5:
            return "- (Không sinh được giải thích - có thể do prompt quá dài/format)\n- Hãy giảm MAX_SEQ_LEN hoặc giảm text_max_chars."
        # đảm bảo bắt đầu bằng dấu -
        if not out.lstrip().startswith("-"):
            out = "- " + out
        return out
    except Exception as e:
        return f"- (Lỗi khi sinh giải thích: {type(e).__name__}: {e})"

def print_cases_with_explain(df_dbg, n=4, text_max_chars=3000):
    for lid in range(len(label_order)):
        df_l = df_dbg[df_dbg["true_id"] == lid]

        correct_rows = df_l[df_l["is_correct"] == True].head(n)
        wrong_rows   = df_l[df_l["is_correct"] == False].head(n)

        print("\n" + "="*90)
        print(f"== LABEL TRUE = {label_order[lid]} (id={lid}) ==")

        print("\n--- CORRECT ---")
        if len(correct_rows) == 0:
            print("(Không có)")
        else:
            for _, row in correct_rows.iterrows():
                text = short_text(row[TEXT_COL], text_max_chars)
                pred = row["pred_label"]
                print(f"\nTRUE={label_order[lid]} | PRED={pred}")
                print(f"TEXT: {text}")
                print("EXPLAIN:")
                print(llm_explain_choice(row[TEXT_COL], pred))

        print("\n--- WRONG ---")
        if len(wrong_rows) == 0:
            print("(Không có)")
        else:
            for _, row in wrong_rows.iterrows():
                text = short_text(row[TEXT_COL], text_max_chars)
                pred = row["pred_label"]
                exp_true = label_order[lid]
                print(f"\nTRUE={exp_true} | PRED={pred}")
                print(f"TEXT: {text}")
                print("EXPLAIN:")
                print(llm_explain_choice(row[TEXT_COL], pred))

print_cases_with_explain(df_dbg, n=4, text_max_chars=3000)


== LABEL TRUE = 1-Bình thường (id=0) ==

--- CORRECT ---

TRUE=1-Bình thường | PRED=1-Bình thường
TEXT: Tôi 28 tuổi, từng ly hôn, hiện sống một mình. Cách đây bốn tháng, thông qua trang hẹn hò, tôi quen một người. Sau những trao đổi qua email và chat, chúng tôi hẹn gặp mặt. Ấn tượng đầu tiên của tôi khi gặp mặt là anh khá cầu tiến, vui vẻ. Tuy nhiên, ở lần hẹn tiếp theo, khi chở tôi về nhà, anh đã đòi hỏi chuyện đó. Tôi nói dối là hôm đó mình đang đến kỳ. Sau hôm ấy, thái độ của anh đột nhiên thay đổi, không trả lời tin nhắn nhưng vẫn vào bình luận trên trạng thái của tôi. Tôi suy nghĩ mấy ngày và viết mail, cho rằng anh đang đùa giỡn và xem thường tôi, không thấy anh phản hồi gì. Tôi đang chơi vơi với suy nghĩ liệu mình có thích anh không? Hay vì suy nghĩ bị xem thường và đùa cợt nên tôi có cảm giác khó chịu như hiện tại? Tôi nghĩ sẽ gặp trực tiếp và cho anh mấy cái bạt tai vì dám xem thường mình, nghĩ lại làm vậy có đáng không?
EXPLAIN:
- Anh ta đề cập đến việc cô gái này mới chia t