In [None]:
pip install -U bitsandbytes

In [None]:
import pandas as pd
import numpy as np
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, Trainer, TrainingArguments, DataCollatorWithPadding
from torch.utils.data import DataLoader, Dataset
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix
import time

In [None]:
# Load model and tokenizer
MODEL_NAME = "ura-hcmut/ura-llama-7b-r64"
ACCESS_TOKEN = "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"

# Quantization config
quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    load_in_8bit=False,
    llm_int8_threshold=6.0,
    llm_int8_has_fp16_weight=False,
    bnb_4bit_compute_dtype=torch.float16,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
)

# Load tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(
    MODEL_NAME,
    trust_remote_code=True,
    token=ACCESS_TOKEN,
    model_max_length=2048,
    padding_side="left",
    truncation_side="left",
)
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    token=ACCESS_TOKEN,
    device_map="auto",
    quantization_config=quantization_config,
)

if tokenizer.pad_token is None:
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})
    model.resize_token_embeddings(len(tokenizer))

In [None]:
# Function to generate prompt for fact-checking
def generate_prompt(statement, context, evidence):    
    return f"""
        Kiểm tra tính chính xác của các tuyên bố dựa trên thông tin được cung cấp. 
        Đọc kỹ tuyên bố, ngữ cảnh và các bằng chứng, sau đó phân loại tuyên bố vào một trong ba nhãn:
        - *Support*: Nếu tuyên bố được hỗ trợ bởi ngữ cảnh hoặc bằng chứng.
        - *Refuted*: Nếu tuyên bố bị bác bỏ bởi ngữ cảnh hoặc bằng chứng.
        - *N.E.I*: Nếu Không đủ thông tin để xác minh tính đúng/sai của tuyên bố.

        ### Nhiệm vụ:
        1. Đọc và hiểu rõ *tuyên bố*: "{statement}".
        2. Đọc *ngữ cảnh* sau: "{context}".
        3. Phân tích *các bằng chứng liên quan* sau đây:
        {evidence if evidence else "Không có bằng chứng được cung cấp."}
        4. Dựa trên thông tin trên, phân loại tuyên bố vào một trong ba nhãn (*Support*, *Refuted*, hoặc *N.E.I*).
        5. Trả lời chỉ với duy nhất một nhãn chính xác và không giải thích thêm.

        ### Example Responses:
        - <RESPONSE>: Support
        - <RESPONSE>: Refuted
        - <RESPONSE>: N.E.I
    """

def fact_check(statement, context, evidence, tokenizer, model):
    try:
        # Generate the prompt
        prompt = generate_prompt(statement, context, evidence)
        inputs = tokenizer(prompt, return_tensors="pt", truncation=True, max_length=512)
        
        # Generate output from the model
        outputs = model.generate(**inputs, max_new_tokens=8, do_sample=False)
        
        # Decode and clean the response
        response = tokenizer.decode(outputs[0], skip_special_tokens=True).strip()
        response_label = response.split("<RESPONSE>:")[-1].strip()  # Extract label after <RESPONSE>:
        print(f"Kết quả: {response_label}\n")
        
        # Map the response label to numeric categories
        if "Support" in response_label:
            return "Supports"
        elif "Refuted" in response_label:
            return "Refutes"
        elif "N.E.I" in response_label:
            return "Not_Enough_Information"
        else:
            return 0  # Unexpected output
    
    except Exception as e:
        print(f"Error during fact-checking: {e}")
        return -1  # Fallback for errors


In [None]:
# Load dataset
train = pd.read_csv('/kaggle/input/viwilkifc/train_final.csv')
dev = pd.read_csv('/kaggle/input/viwilkifc/dev_final.csv')
test = pd.read_csv('/kaggle/input/viwilkifc/test_final.csv')

In [None]:
results = {}
predicted_labels = []
for index, row in test.iterrows():
    statement = row["claim"]
    context = row["context"]
    evidence_list = row["evidence"]
    
    print(f"Đang kiểm tra tuyên bố {index} trong testset: {statement}")
    
    try:
        # Predict label
        label = fact_check(statement, context, evidence_list, tokenizer, model)
        predicted_labels.append(label)
        print(f"Predicted label: {label} (0: Supports, 1: Refutes, 2: Not_Enough_Info, -1: error)\n")
    except Exception as e:
        print(f"Error processing statement {index}: {e}")
        predicted_labels.append(-1)

# Thêm nhãn dự đoán vào DataFrame hiện tại
test["predicted_label"] = predicted_labels

# Lưu kết quả vào file CSV
output_file = f"fact_check_results_test.csv"
test.to_csv(output_file, index=False, encoding="utf-8-sig")
print(f"Kết quả đã được lưu vào file '{output_file}'.")

# Lưu vào results dictionary
results['Test'] = test

In [None]:
# Evaluate Results
from sklearn.metrics import (
    accuracy_score,
    precision_score,
    recall_score,
    f1_score,
    confusion_matrix,
    roc_auc_score,
    roc_curve,
    auc,
    precision_recall_curve,
)
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import label_binarize

def evaluate_results(results_df, class_labels=["Supports", "Refutes", "Not_Enough_Information"]):
    y_true = results_df["gold_label"].tolist()
    y_pred = results_df["predicted_label"].tolist()
    num_classes = len(class_labels)
    
    # Binarize labels for multi-class ROC and PR-AUC
    y_true_bin = label_binarize(y_true, classes=range(num_classes))
    y_pred_bin = label_binarize(y_pred, classes=range(num_classes))

    # Metrics
    accuracy = accuracy_score(y_true, y_pred)
    precision = precision_score(y_true, y_pred, average="weighted")
    recall = recall_score(y_true, y_pred, average="weighted")
    f1_micro = f1_score(y_true, y_pred, average="micro")
    f1_macro = f1_score(y_true, y_pred, average="macro")

    # Confusion matrix
    conf_matrix = confusion_matrix(y_true, y_pred)

    # ROC-AUC and PR-AUC calculations
    fpr, tpr, _ = roc_curve(y_true, y_pred, pos_label=1)
    roc_auc = auc(fpr, tpr)

    precision_curve, recall_curve, _ = precision_recall_curve(y_true, y_pred, pos_label=1)
    pr_auc = auc(recall_curve, precision_curve)

    # Print metrics
    print(f"Accuracy: {accuracy:.2f}")
    print(f"Precision: {precision:.2f}")
    print(f"Recall: {recall:.2f}")
    print(f"F1 Score (Micro): {f1_micro:.2f}")
    print(f"F1 Score (Macro): {f1_macro:.2f}")
    print(f"ROC-AUC: {roc_auc:.2f}")
    print(f"PR-AUC: {pr_auc:.2f}")
    print(f"Confusion Matrix:\n{conf_matrix}")
    
    # Confusion Matrix
    conf_matrix = confusion_matrix(y_true, y_pred)
    plt.figure(figsize=(8, 6))
    sns.heatmap(conf_matrix, annot=True, fmt="d", cmap="Blues", xticklabels=class_labels, yticklabels=class_labels)
    plt.xlabel("Predicted Label")
    plt.ylabel("True Label")
    plt.title("Confusion Matrix")
    plt.show()
    
    # ROC Curve and AUC for each class
    plt.figure(figsize=(10, 8))
    for i, label in enumerate(class_labels):
        fpr, tpr, _ = roc_curve(y_true_bin[:, i], y_pred_bin[:, i])
        roc_auc = auc(fpr, tpr)
        plt.plot(fpr, tpr, label=f"{label} (AUC = {roc_auc:.2f})")
    plt.plot([0, 1], [0, 1], "k--", label="Random Guess")
    plt.xlabel("False Positive Rate")
    plt.ylabel("True Positive Rate")
    plt.title("ROC Curve")
    plt.legend()
    plt.show()
    
    # Precision-Recall Curve and PR-AUC for each class
    plt.figure(figsize=(10, 8))
    for i, label in enumerate(class_labels):
        precision, recall, _ = precision_recall_curve(y_true_bin[:, i], y_pred_bin[:, i])
        pr_auc = auc(recall, precision)
        plt.plot(recall, precision, label=f"{label} (PR-AUC = {pr_auc:.2f})")
    plt.xlabel("Recall")
    plt.ylabel("Precision")
    plt.title("Precision-Recall Curve")
    plt.legend()
    plt.show()

In [None]:
# Save and Evaluate
fact_check_results = pd.read_csv("/kaggle/working/fact_check_results_test.csv")
evaluate_results(fact_check_results)