Cài đặt thư viện google-generativeai để sử dụng API Gemini

In [1]:
!pip install google-generativeai



Import các thư viện cần thiết và cấu hình API key cho Gemini

In [None]:
import json
import google.generativeai as genai
import re

GOOGLE_API_KEY = "AIzaSyD5NLgqsjm_sjTRkgh6Ckzv_9Li5B8k264"
genai.configure(api_key=GOOGLE_API_KEY)

model = genai.GenerativeModel('gemini-2.5-flash')
print("Đã khởi tạo mô hình Gemini")

Đã khởi tạo mô hình Gemini


Định nghĩa các hàm để tải dữ liệu luật từ JSON, xây dựng prompt cho Gemini và gọi API Gemini để sinh dữ liệu

In [None]:
def load_law_document(filepath: str) -> str:
    """Tải nội dung văn bản luật từ file JSON và parse thành string đầy đủ."""
    try:
        with open(filepath, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        law_text = ''
        
        # Extract metadata
        metadata = data.get('metadata', {})
        law_text += f"Metadata: Law ID {metadata.get('law_id')}, Version {metadata.get('version_id')}, Status {metadata.get('status')}, Last Updated {metadata.get('last_updated')}\n\n"
        
        # Extract main law
        law = data['content'].get('law', {})
        law_text += f"Law Type: {law.get('type')}\nIssuer: {law.get('issuer')}\nTitle: {law.get('title')}\nSource URL: {law.get('source_url')}\nPromulgation Date: {law.get('promulgation_date')}\nEffective Date: {law.get('effective_date')}\n\n"
        
        for chapter in law.get('structure', []):
            law_text += f"{chapter['type'].capitalize()} {chapter['number']}: {chapter['title']}\n"
            for article in chapter.get('articles', []):
                law_text += f"Article {article['number']}: {article['title']}\n"
                if article['text']:
                    law_text += f"{article['text']}\n"
                for clause in article.get('clauses', []):
                    law_text += f"Clause {clause['number']}: {clause['text']}\n"
                law_text += '\n'
        
        # Extract related documents
        for rel_doc in data['content'].get('related_documents', []):
            law_text += f"\nRelated Document: {rel_doc.get('title')}\nType: {rel_doc.get('type')}\nIssuer: {rel_doc.get('issuer')}\nPromulgation Date: {rel_doc.get('promulgation_date')}\nEffective Date: {rel_doc.get('effective_date')}\nRelationship: {rel_doc.get('relationship')}\n\n"
            for struct in rel_doc.get('structure', []):
                law_text += f"{struct['type'].capitalize()} {struct['number']}: {struct['title']}\n"
                for article in struct.get('articles', []):
                    law_text += f"Article {article['number']}: {article['title']}\n"
                    if article.get('text'):
                        law_text += f"{article['text']}\n"
                    for clause in article.get('clauses', []):
                        law_text += f"Clause {clause['number']}: {clause['text']}\n"
                    law_text += '\n'
        
        return law_text
    except FileNotFoundError:
        print(f"LỖI: Không tìm thấy file nguồn: {filepath}")
        return None
    except Exception as e:
        print(f"LỖI khi đọc file: {e}")
        return None

def build_generation_prompt(topic: str, law_text: str, num_questions: int) -> str:
    """
    Sinh tập dữ liệu kiểm thử (testset) pháp lý dựa trên văn bản luật Việt Nam.
    """
    return f"""
Bạn là **trợ lý pháp lý**, được giao sinh tập dữ liệu kiểm thử (test) chất lượng cao 
để đánh giá mô hình LLM về năng lực **hiểu và trả lời các câu hỏi liên quan đến luật giáo dục**.
Nguồn: Luật Giáo dục 2019 và các văn bản liên quan.

## Đầu vào: …

* Tập chủ đề dự kiến cho câu:
{topic} (bám sát nội dung JSON)

## Bối cảnh hội thoại:
* Khi hỏi: bạn là công dân, học sinh, phụ huynh hoặc người quan tâm đến giáo dục.
* Khi trả lời: bạn là cán bộ tư vấn pháp lý thuộc Bộ Giáo dục.

## Nhiệm vụ:
Sinh dữ liệu gồm các cặp câu hỏi - trả lời dựa theo nội dung luật. Sinh {num_questions} câu hỏi thuộc chủ đề đó. Các yêu cầu chi tiết hơn có ở dưới đây.

### Bước 1. Sinh câu hỏi:
* Bám sát hoặc mở rộng từ nội dung luật. Có thể hỏi về: mục tiêu, hệ thống, chương trình, quyền nghĩa vụ, quản lý, ...
* Được phép sinh ra những câu hỏi không có trong luật (VD: "Luật có quy định về học online không?").
* Mỗi câu hỏi chỉ nên tập trung vào một nội dung, nhưng ≤10% multi-intent.
* Viết bằng ngôn ngữ tự nhiên.

### Bước 2. Sinh câu trả lời:
* Rõ ràng, dứt khoát, trung tính, không đại từ nhân xưng.
* Nếu thiếu thông tin, tag insufficient_context: true (≤10%).

### Bước 3. Trích xuất tham chiếu:
* Đoạn văn bản đầy đủ, liền mạch (toàn bộ bảng/danh sách nếu có), 400-1300 token.

### Bước 4. Gán cấp độ suy diễn:
0 – Không cần (~25%): Tra cứu trực tiếp.
1 – Nhẹ (~30%): 2–3 bước.
2 – Đa bước (~45%): >3 bước phức tạp.

### Bước 5. Gán loại câu hỏi:
Khi nào, Ở đâu, Ai, Cái gì, Bao nhiêu, Như thế nào.

## Đầu ra:
List JSON objects:
[{{
  "id": "<mã duy nhất>",
  "question": "<câu hỏi>",
  "answer": "<trả lời>",
  "reference": "<tham chiếu>",
  "multi_intent": "<true|false>",
  "insufficient_context": "<true|false>",
  "reasoning_level": "<0|1|2>"
  "topic": "<chủ đề>",
  "question_type": "<loại>"
}}]

Nội dung luật: {law_text}
"""

def call_gemini_api(prompt: str) -> str:
    
    print("--- Bắt đầu gọi Gemini API... ---")
    try:
        response = model.generate_content(
            prompt,
            generation_config=genai.types.GenerationConfig(
                candidate_count=1,
                temperature=0.0,
                response_mime_type="application/json",
            ),
        )
        response_text = response.text
        
        # Xử lý JSON
        response_text = re.sub(r"^```json\n", "", response_text)
        response_text = re.sub(r"\n```$", "", response_text)
        print("--- Gọi API thành công. ---")
        return response_text
    except Exception as e:
        print(f"LỖI khi gọi Gemini API: {e}")
        return None

Thực hiện quá trình tải dữ liệu, sinh prompt, gọi API và lưu kết quả dataset

In [None]:
def main_generation_process():
    
    LAW_FILE_PATH = "../inputs/luat_giao_duc_input_converter.json" 
    
    # Tên file JSON kết quả đầu ra
    OUTPUT_FILE_PATH = "test_set_giao_duc.json"
    
    # Số lượng câu hỏi sinh cho MỖI chủ đề
    QUESTIONS_PER_TOPIC = 4
    
    # Các chủ đề cho Luật Giáo dục
    law_topics = [
        "QuyDinhChung",
        "MucTieuGiaoDuc",
        "HeThongGiaoDucQuocDan",
        "ChuongTrinhGiaoDuc",
        "QuanLyNhaNuocVeGiaoDuc"
    ]

    # Tải văn bản luật từ JSON
    print(f"Đang tải văn bản luật từ: {LAW_FILE_PATH}")
    law_text = load_law_document(LAW_FILE_PATH)
    if not law_text:
        return
    print("Tải văn bản luật thành công.")

    all_test_data = []
    
    # Lặp qua từng chủ đề để sinh dữ liệu
    for topic in law_topics:
        print(f"\n--- Đang sinh dữ liệu cho chủ đề: {topic} ---")
        
        # Xây dựng prompt
        prompt = build_generation_prompt(topic, law_text, QUESTIONS_PER_TOPIC)
        
        # Gọi Gemini API
        response_text = call_gemini_api(prompt)
        
        if not response_text:
            print(f"LỖI: Không nhận được phản hồi cho chủ đề: {topic}")
            continue
        
        # Xử lý kết quả JSON
        try:
            generated_data = json.loads(response_text)
            if isinstance(generated_data, list):
                print(f"Đã sinh thành công {len(generated_data)} câu hỏi cho chủ đề: {topic}")
                all_test_data.extend(generated_data)
            else:
                print(f"LỖI: API không trả về một danh sách JSON. Đã nhận: {type(generated_data)}")
        except json.JSONDecodeError as e:
            print(f"LỖI: Không thể parse JSON. Lỗi: {e}")
            print(f"Dữ liệu thô nhận được:\n{response_text}")

    # Lưu kết quả
    if all_test_data:
        try:
            with open(OUTPUT_FILE_PATH, 'w', encoding='utf-8') as f:
                json.dump(all_test_data, f, ensure_ascii=False, indent=2)
            print(f"\n🎉 Hoàn tất! Đã lưu {len(all_test_data)} mẫu test vào file: {OUTPUT_FILE_PATH}")
        except Exception as e:
            print(f"LỖI khi lưu file: {e}")
    else:
        print("\nKhông có dữ liệu nào được sinh ra. Vui lòng kiểm tra lại.")

main_generation_process()

Đang tải văn bản luật từ: ../inputs/luat_giao_duc_input_converter.json
Tải văn bản luật thành công.

--- Đang sinh dữ liệu cho chủ đề: QuyDinhChung ---
--- Bắt đầu gọi Gemini API... ---
--- Gọi API thành công. ---
Đã sinh thành công 4 câu hỏi cho chủ đề: QuyDinhChung

--- Đang sinh dữ liệu cho chủ đề: MucTieuGiaoDuc ---
--- Bắt đầu gọi Gemini API... ---
--- Gọi API thành công. ---
Đã sinh thành công 4 câu hỏi cho chủ đề: MucTieuGiaoDuc

--- Đang sinh dữ liệu cho chủ đề: HeThongGiaoDucQuocDan ---
--- Bắt đầu gọi Gemini API... ---
--- Gọi API thành công. ---
Đã sinh thành công 4 câu hỏi cho chủ đề: HeThongGiaoDucQuocDan

--- Đang sinh dữ liệu cho chủ đề: ChuongTrinhGiaoDuc ---
--- Bắt đầu gọi Gemini API... ---
--- Gọi API thành công. ---
Đã sinh thành công 4 câu hỏi cho chủ đề: ChuongTrinhGiaoDuc

--- Đang sinh dữ liệu cho chủ đề: QuanLyNhaNuocVeGiaoDuc ---
--- Bắt đầu gọi Gemini API... ---
--- Gọi API thành công. ---
Đã sinh thành công 4 câu hỏi cho chủ đề: QuanLyNhaNuocVeGiaoDuc

🎉 Hoà

Lưu kết quả

In [5]:
OUTPUT_FILE_PATH = "test_set_giao_duc.json"

try:
    with open(OUTPUT_FILE_PATH, 'r', encoding='utf-8') as f:
        data = json.load(f)
    print(f"Nội dung file '{OUTPUT_FILE_PATH}':\n")
    print(json.dumps(data, indent=2, ensure_ascii=False))
except FileNotFoundError:
    print(f"File '{OUTPUT_FILE_PATH}' chưa được tạo. Hãy chạy cell 'main_generation_process' trước.")
except Exception as e:
    print(f"Lỗi khi đọc file: {e}")

File 'test_set_giao_duc.json' chưa được tạo. Hãy chạy cell 'main_generation_process' trước.
