## Thử nghiệm khả năng nhận diện tin giả của các model LLMs

#### Khởi tạo

In [1]:
import sys
import os
import requests
import json

current_dir = os.getcwd()
project_root = os.path.abspath(os.path.join(current_dir, '..'))
sys.path.append(project_root)

# Bây giờ import
from CrewAI.tools.check import (
    check_url_virustotal, parse_vt_result_for_display,
    check_email_validity, parse_email_result,
    check_phone_validity, parse_phone_result
)

from CrewAI.tools.search_googleapi import search_google_api

In [2]:
API_URL = "http://172.17.128.1:1234/v1/chat/completions"
# MODEL_NAME = qwen2.5-7b-instruct-1m vicuna-7b-v1.5  phi-4 meta-llama-3.1-8b-instruct deepseek-r1-distill-llama-8b mistral-7b-v0.1
MODEL_NAME = "qwen2.5-7b-instruct-1m"

#### Lọc input đầu vào, trích xuất thông tin quan trọng

In [3]:
def extract_fields(data: dict):
    summary = data.get('summary', '').strip()
    keywords_list = data.get('keywords', [])
    request_user = data.get('request_user', '').strip()
    email = data.get('email', '').strip()
    phone = data.get('phone', '').strip()
    url = data.get('url', '').strip()

    keywords = ", ".join(str(k) for k in keywords_list if isinstance(k, str))

    return summary, keywords, request_user, email, phone, url

def llm_extract(input_text: str, api_url: str, model_name: str):
    messages = [
        {
            "role": "system",
            "content": (
                '''Bạn là trợ lý AI có nhiệm vụ trích xuất thông tin chính xác từ văn bản đầu vào.

                Yêu cầu:

                1. Tóm tắt (summary): Tóm tắt ngắn gọn, rõ ràng nội dung văn bản đầu vào.
                2. Keywords: Lấy ra danh sách các từ khóa quan trọng nhất phục vụ việc tìm kiếm thông tin trên Google.
                3. Emails, phones, urls: Chỉ trích xuất các email, số điện thoại, URL xuất hiện rõ ràng trong văn bản đầu vào. Nếu không tìm thấy, trả về danh sách rỗng.
                4. Tuyệt đối không đoán hay thêm thông tin không có trong văn bản đầu vào.

                Output trả về duy nhất là một chuỗi JSON có cấu trúc:

                {
                "summary": "...",
                "keywords": [...],
                "emails": [...],
                "phones": [...],
                "urls": [...]
                }

                Không kèm theo lời giải thích, không có code block, không thêm ký tự thừa.'''
            )
        },
        {
            "role": "user",
            "content": input_text
        }
    ]

    response = requests.post(
        api_url,
        headers={"Content-Type": "application/json"},
        json={
            "model": model_name,
            "messages": messages,
            "temperature": 0.7,
            "max_tokens": 1024,
            "stream": False
        }
    )

    if response.status_code != 200:
        raise RuntimeError(f"LLM request failed: {response.status_code} {response.text}")

    result = response.json()
    content = result['choices'][0]['message']['content']

    try:
        json_str = content.strip()
        if json_str.startswith("{") and "'" in json_str:
            json_str = json_str.replace("'", '"')
        parsed = json.loads(json_str)
    except json.JSONDecodeError:
        parsed = {}

    # Fallback nếu summary hoặc keywords rỗng
    summary = parsed.get("summary", "").strip()
    keywords = parsed.get("keywords", [])
    request_user = parsed.get("request_user", "")
    emails = parsed.get("emails", [])
    phones = parsed.get("phones", [])
    urls = parsed.get("urls", [])

    if not summary:
        summary = input_text
    if not keywords:
        keywords = list({w.lower() for w in input_text.split() if len(w) > 3})

    email = emails[0] if isinstance(emails, list) and len(emails) > 0 else ""
    phone = phones[0] if isinstance(phones, list) and len(phones) > 0 else ""
    url = urls[0] if isinstance(urls, list) and len(urls) > 0 else ""

    return {
        "summary": summary,
        "keywords": keywords,
        "request_user": request_user,
        "email": email,
        "phone": phone,
        "url": url
    }


#### Xác minh thông tin

In [4]:
def build_checks_summary(url=None, email=None, phone=None):
    parts = []

    if url:
        url_result = check_url_virustotal(url)
        check_url = parse_vt_result_for_display(url_result)
        parts.append(f"Kết quả kiểm tra URL: {check_url}")

    if email:
        mail_result = check_email_validity(email)
        check_mail = parse_email_result(mail_result)
        parts.append(f"Kết quả kiểm tra Mail: {check_mail}")

    if phone:
        phone_result = check_phone_validity(phone)
        check_phone = parse_phone_result(phone_result)
        parts.append(f"Kết quả kiểm tra Phone: {check_phone}")

    return "\n".join(parts)

def build_news_summary(keywords):
    news_df = search_google_api(keywords)

    lines = []
    for _, row in news_df.iterrows():
        title = row.get('title', '')
        content = row.get('content', '')
        lines.append(f"- Tiêu đề: {title}\n  Nội dung: {content[:300]}...")
    return "\n".join(lines)

def verify_scam(
    summary, url, email, phone, keywords, api_url, model_name):
    check_summary = build_checks_summary(url, email, phone)
    news_summary = build_news_summary(keywords)

    prompt_system = f"""
    Bạn là trợ lý AI chuyên xác minh tính xác thực của thông tin, giúp phân loại yêu cầu của người dùng có phải tin tức giả mạo, lừa đảo hay đáng nghi vấn không.

    Thông tin đầu vào gồm:

    1. Tóm tắt yêu cầu (summary):
    {summary}

    2. Kết quả kiểm tra URL, Email, Số điện thoại (nếu có):
    {check_summary}

    3. Các tin tức tham khảo liên quan được tìm thấy trên internet (có thể không hoàn toàn liên quan):
    {news_summary}

    Dựa vào các thông tin trên, vui lòng phân loại yêu cầu của người dùng thuộc loại nào trong ba nhóm sau:

    - ✅ real: thông tin tin cậy, không có dấu hiệu lừa đảo hay giả mạo
    - ❌ fake: thông tin có dấu hiệu giả mạo, lừa đảo

    Chỉ trả lời đúng theo định dạng sau, không thêm giải thích hay bình luận khác:

    Kết luận: <✅ real | ❌ fake>
    """

    messages = [
        {"role": "system", "content": prompt_system},
        {"role": "user", "content": ""}
    ]

    response = requests.post(
        api_url,
        headers={"Content-Type": "application/json"},
        json={
            "model": model_name,
            "messages": messages,
            "temperature": 0,
            "max_tokens": 20000,
            "stream": False
        }
    )

    if response.status_code != 200:
        raise RuntimeError(f"LLM request failed: {response.status_code} {response.text}")

    result = response.json()
    content = result['choices'][0]['message']['content'].strip()
    return content

#### Test Model with 1 input

In [8]:
input_text = 'Bannon thẳng_thừng chỉ_trích Trung_Quốc và các "" đồng_minh "" như Kissinger , Bill_Gates khiến truyền_thông Trung_Quốc "" gây_chiến "" với ông '

result = llm_extract(input_text, API_URL, MODEL_NAME)
print(result)

summary, keywords, request_user, email, phone, url = extract_fields(result)

print("Summary:", summary)
print("Keywords:", keywords)
print("Request User:", request_user)
print("Emails:", email)
print("Phones:", phone)
print("URLs:", url)

{'summary': 'Bannon thẳng_thừng chỉ_trích Trung_Quốc và các "" đồng_minh "" như Kissinger , Bill_Gates khiến truyền_thông Trung_Quốc "" gây_chiến "" với ông ', 'keywords': ['thẳng_thừng', 'bill_gates', 'kissinger', 'chỉ_trích', 'gây_chiến', 'khiến', 'bannon', 'truyền_thông', 'đồng_minh', 'trung_quốc'], 'request_user': '', 'email': '', 'phone': '', 'url': ''}
Summary: Bannon thẳng_thừng chỉ_trích Trung_Quốc và các "" đồng_minh "" như Kissinger , Bill_Gates khiến truyền_thông Trung_Quốc "" gây_chiến "" với ông
Keywords: thẳng_thừng, bill_gates, kissinger, chỉ_trích, gây_chiến, khiến, bannon, truyền_thông, đồng_minh, trung_quốc
Request User: 
Emails: 
Phones: 
URLs: 


In [9]:
output = verify_scam(summary, url, email, phone, keywords, API_URL, MODEL_NAME)

print(output)

HttpError: <HttpError 429 when requesting https://customsearch.googleapis.com/customsearch/v1?q=th%E1%BA%B3ng_th%E1%BB%ABng%2C+bill_gates%2C+kissinger%2C+ch%E1%BB%89_tr%C3%ADch%2C+g%C3%A2y_chi%E1%BA%BFn%2C+khi%E1%BA%BFn%2C+bannon%2C+truy%E1%BB%81n_th%C3%B4ng%2C+%C4%91%E1%BB%93ng_minh%2C+trung_qu%E1%BB%91c&cx=a59483bd7e3a449a9&num=10&key=AIzaSyBtAL2xOAbswY8omesw5KikJOUtQWIW5xc&alt=json returned "Quota exceeded for quota metric 'Queries' and limit 'Queries per day' of service 'customsearch.googleapis.com' for consumer 'project_number:160319135057'.". Details: "[{'message': "Quota exceeded for quota metric 'Queries' and limit 'Queries per day' of service 'customsearch.googleapis.com' for consumer 'project_number:160319135057'.", 'domain': 'global', 'reason': 'rateLimitExceeded'}]">

## Test model with test_dataset

In [9]:
import pandas as pd

df = pd.read_csv('/mnt/c/Users/trieuph5/Documents/FTI/KL/test.csv')
df_subset = df.copy() #df.head(100).copy()
llm_outputs = []

for i, row in df_subset.iterrows():
    input_text = row['text']
    
    try:
        result = llm_extract(input_text, API_URL, MODEL_NAME)
        summary, keywords, request_user, email, phone, url = extract_fields(result)
        output = verify_scam(summary, url, email, phone, keywords, API_URL, MODEL_NAME)

    except Exception as e:
        output = f"Error: {str(e)}"
    
    llm_outputs.append(output)
    print(output)

df_subset['qwen2.5'] = llm_outputs
df.loc[df_subset.index, 'qwen2.5'] = df_subset['qwen2.5']
df.to_csv('test_output_qwen2.5.csv', index=False)

print("Xử lý xong")

Kết luận: <❌ fake>
Kết luận: ❌ fake
Kết luận: ❌ fake
⚠️ Lỗi xử lý URL: https://vietteltelecom.vn/tin-tuc/chi-tiet/huong-dan-khach-hang-cach-doi-diem-viettel-nhan-uu-dai-data-hap-dan-tren-my-viettel/13314920 | 'NoneType' object has no attribute 'strip'
Kết luận: ❌ fake
Kết luận: ❌ fake
Kết luận: ❌ fake
Kết luận: ✅ real
Kết luận: ❌ fake
Kết luận: ✅ real
Kết luận: ❌ fake
Kết luận: ❌ fake
Kết luận: ❌ fake
Kết luận: ❌ fake
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ❌ fake
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
⚠️ Lỗi xử lý URL: https://vnu.edu.vn/ttsk/?C1636/N36769/Khoi-day-tu-duy-sang-tao-va-su-ho-tro-cua-AI-trong-hoc-tap.htm | 'NoneType' object has no attribute 'strip'
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết luận: ✅ real
Kết lu


Assuming this really is an XML document, what you're doing might work, but you should know that using an XML parser will be more reliable. To parse this document as XML, make sure you have the Python package 'lxml' installed, and pass the keyword argument `features="xml"` into the BeautifulSoup constructor.




  self._feed()


Kết luận: ✅ real
Kết luận: ✅ real
Error: <HttpError 429 when requesting https://customsearch.googleapis.com/customsearch/v1 returned "Quota exceeded for quota metric 'Queries' and limit 'Queries per day' of service 'customsearch.googleapis.com' for consumer 'project_number:160319135057'.". Details: "[{'message': "Quota exceeded for quota metric 'Queries' and limit 'Queries per day' of service 'customsearch.googleapis.com' for consumer 'project_number:160319135057'.", 'domain': 'global', 'reason': 'rateLimitExceeded'}]">
Error: <HttpError 429 when requesting https://customsearch.googleapis.com/customsearch/v1?q=MyTV%2C+FPT+TV+v%C3%A0+Clip_TV+c%C3%B3+ch%E1%BB%A9c+n%C4%83ng+xem+l%E1%BA%A1i+c%C3%A1c+k%C3%AAnh+truy%E1%BB%81n+h%C3%ACnh+%C4%91ang+ph%C3%A1t+s%C3%B3ng+ch%C6%B0%C6%A1ng+tr%C3%ACnh+h%E1%BB%8Dc.+H%E1%BB%8D+s%E1%BA%BD+b%E1%BB%95+sung+video+theo+y%C3%AAu+c%E1%BA%A7u+%28VOD%29+li%C3%AAn+quan+%C4%91%E1%BA%BFn+n%E1%BB%99i+dung+gi%C3%A1o+d%E1%BB%A5c+trong+t%C6%B0%C6%A1ng+lai.&cx=81fb1171