In [1]:
import os
import json
import google.generativeai as genai
import openai
from PIL import Image
import fitz  # PyMuPDF
import re
import time
import random
from dotenv import load_dotenv

load_dotenv()

# --- CẤU HÌNH ---
GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY")
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

# Cấu hình API key cho thư viện Gemini
genai.configure(api_key=GOOGLE_API_KEY)
# Cấu hình API key cho thư viện OpenAI
openai.api_key = OPENAI_API_KEY

def convert_pdf_to_images(pdf_path, output_folder="pdf_images"):
    """
    Chuyển đổi tất cả các trang của một tệp PDF thành hình ảnh PNG.

    Args:
        pdf_path (str): Đường dẫn đến tệp PDF đầu vào.
        output_folder (str): Thư mục để lưu các hình ảnh được tạo ra.

    Returns:
        list: Danh sách các đường dẫn đến các tệp hình ảnh đã được tạo.
    """
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    image_paths = []
    try:
        doc = fitz.open(pdf_path)
        print(f"PDF có {len(doc)} trang.")
        for i, page in enumerate(doc):
            # Render trang thành pixmap (hình ảnh) với độ phân giải cao (dpi=300)
            pix = page.get_pixmap(dpi=300)
            image_path = os.path.join(output_folder, f"page_{i + 1}.png")
            pix.save(image_path)
            image_paths.append(image_path)
        print(f"Đã chuyển đổi thành công {len(doc)} trang PDF thành hình ảnh trong thư mục '{output_folder}'.")
        doc.close()
    except Exception as e:
        print(f"Lỗi khi xử lý PDF: {e}")
        return []
        
    return image_paths

def analyze_image_with_gemini(image_path, prompt):
    """
    Gửi một hình ảnh và một prompt đến API Gemini và nhận về kết quả.

    Args:
        image_path (str): Đường dẫn đến tệp hình ảnh.
        prompt (str): Câu lệnh hướng dẫn cho mô hình AI.

    Returns:
        str: Phản hồi dạng văn bản từ mô hình.
    """
    print(f"Đang gửi trang {os.path.basename(image_path)} đến Gemini để phân tích...")
    try:
        # Chọn mô hình hỗ trợ hình ảnh
        model = genai.GenerativeModel('gemini-1.5-flash-latest')
        
        # Mở hình ảnh
        img = Image.open(image_path)
        
        # Gửi yêu cầu đến API
        response = model.generate_content([prompt, img])
        
        return response.text
    except Exception as e:
        print(f"Lỗi khi gọi API Gemini: {e}")
        return None

def analyze_image_with_openai(image_path, prompt):
    """
    Gửi một hình ảnh và một prompt đến API OpenAI và nhận về kết quả.

    Args:
        image_path (str): Đường dẫn đến tệp hình ảnh.
        prompt (str): Câu lệnh hướng dẫn cho mô hình AI.
    Returns:
        str: Phản hồi dạng văn bản từ mô hình.
    """
    print(f"Đang gửi trang {os.path.basename(image_path)} đến OpenAI để phân tích...")
    try:
        # Mở hình ảnh
        img = Image.open(image_path)

        # Gửi yêu cầu đến API
        response = openai.ChatCompletion.create(
            model="gpt-4",
            messages=[
                {"role": "user", "content": prompt}
            ]
        )

        return response.choices[0].message.content
    except Exception as e:
        print(f"Lỗi khi gọi API OpenAI: {e}")
        return None

def clean_json_response(response_text):
    """
    Làm sạch phản hồi văn bản từ Gemini để trích xuất chuỗi JSON hợp lệ.
    Loại bỏ các ký tự markdown ```json và ``` ở đầu và cuối.
    Escape lại các ký tự \ trong LaTeX cho đúng chuẩn JSON.
    Xử lý cả trường hợp xuống dòng, tab, và các ký tự đặc biệt khác.
    """
    # 1. Lấy nội dung bên trong ```json ... ```
    match = re.search(r'```json\s*([\s\S]*?)\s*```', response_text)
    if match:
        json_str = match.group(1).strip()
    else:
        json_str = response_text.strip()

    # 2. Chuẩn hóa các ký tự xuống dòng kiểu Windows về kiểu Unix
    json_str = json_str.replace('\r\n', '\n')

    # 3. Escape lại các ký tự \ chưa đúng chuẩn JSON (trừ trường hợp đã là \\ hoặc trước dấu ")
    # Xử lý cả trường hợp \n, \t, \r, \b, \f, \v, \a, \0
    # Chỉ giữ nguyên các escape hợp lệ của JSON: \\n, \\t, \\r, \\b, \\f, \\\\, \\", \\/
    # Các escape không hợp lệ sẽ chuyển thành \\

    # Escape các ký tự \ chưa đúng chuẩn JSON
    def escape_invalid(match):
        esc = match.group(0)
        # Nếu là các escape hợp lệ thì giữ nguyên
        if esc in ['\\n', '\\t', '\\r', '\\b', '\\f', '\\\\', '\\"', '\\/']:
            return esc
        # Nếu là \ trước dấu {, }, (, ), [, ], $, ^, _, *, +, =, <, >, |, ., ?, !, :, ; thì escape
        if re.match(r'\\[{}()\[\]\$^_*=<>|.?!:;]', esc):
            return '\\\\' + esc[1]
        # Nếu là \ trước chữ cái (LaTeX) thì escape
        if re.match(r'\\[a-zA-Z]', esc):
            return '\\\\' + esc[1]
        # Nếu là \ đơn lẻ thì escape
        return '\\\\'

    json_str = re.sub(r'\\.', escape_invalid, json_str)

    # 4. Loại bỏ các ký tự tab thừa
    json_str = json_str.replace('\t', '    ')

    # 5. Loại bỏ các ký tự điều khiển không hợp lệ
    json_str = re.sub(r'[\x00-\x08\x0b-\x0c\x0e-\x1f]', '', json_str)

    return json_str

def get_path_images(output_folder="pdf_images"):
    """
    Lấy danh sách tất cả các tệp hình ảnh trong thư mục đã cho.

    Args:
        output_folder (str): Thư mục chứa các hình ảnh.

    Returns:
        list: Danh sách các đường dẫn đến các tệp hình ảnh.
    """
    if not os.path.exists(output_folder):
        print(f"Thư mục '{output_folder}' không tồn tại.")
        return []
    
    image_files = [os.path.join(output_folder, f) for f in os.listdir(output_folder) if f.lower().endswith(('.png', '.jpg', '.jpeg'))]
    # Loại bỏ các tệp đã tạo dữ liệu trong thư mục json
    json_files = set(os.listdir("json")) if os.path.exists("json") else set()
    print(f"Tìm thấy {len(json_files)} tệp JSON đã tồn tại.")
    # json file name example page_233.png.json
    image_files = [f for f in image_files if os.path.basename(f) + ".json" not in json_files]
    return image_files

def main():
    """
    Hàm chính để điều phối toàn bộ quy trình.
    """
    pdf_file_path = "data.pdf"
    output_json_path = "output_data.json"
    
    if not os.path.exists(pdf_file_path):
        print(f"Lỗi: Không tìm thấy tệp '{pdf_file_path}'. Vui lòng đặt tệp PDF của bạn vào cùng thư mục và đặt tên là 'input.pdf' hoặc thay đổi đường dẫn.")
        return

    # Định nghĩa prompt hướng dẫn Gemini
    # Đây là phần quan trọng nhất để có được kết quả như ý
    prompt_template = """
    Bạn là một chuyên gia toán học có khả năng phân tích tài liệu.
    Nhiệm vụ của bạn là phân tích hình ảnh của một trang tài liệu toán học được cung cấp.
    Hãy xác định tất cả các cặp "đề bài" và "lời giải" riêng biệt trên trang này.

    Đối với MỖI cặp tìm thấy, hãy trích xuất thông tin và định dạng nó thành một đối tượng JSON theo cấu trúc sau:
    {
        "problem": "Nội dung đầy đủ của đề bài. Sử dụng cú pháp LaTeX cho tất cả các công thức toán học, ví dụ: \\( x - 3y = 5 \\) hoặc \\[ \\frac{a+b}{\\sqrt{a}} \\].",
        "problem_type": "Phân loại ngắn gọn về dạng bài toán (ví dụ: 'Kiểm tra nghiệm của phương trình', 'Rút gọn biểu thức và giải phương trình', 'Giải hệ phương trình bậc nhất hai ẩn').",
        "solution": "Nội dung đầy đủ của lời giải tương ứng với đề bài. Sử dụng cú pháp LaTeX cho tất cả các công thức toán học."
    }

    QUAN TRỌNG:
    - Nếu một trang chứa nhiều bài toán, hãy trả về một danh sách các đối tượng JSON (đặt trong dấu `[]`).
    - Nếu trang không chứa bài toán nào, hãy trả về một danh sách rỗng `[]`.
    - Đảm bảo rằng kết quả cuối cùng của bạn CHỈ là một chuỗi JSON hợp lệ, được bao bọc trong ```json và ```. Không thêm bất kỳ văn bản giải thích nào khác ngoài chuỗi JSON.
    """

    # 1. Chuyển đổi PDF thành hình ảnh (nếu đã xuất ảnh lấy path ảnh)
    # image_paths = convert_pdf_to_images(pdf_file_path)
    image_paths = get_path_images()
    if not image_paths:
        print("Không có hình ảnh nào được tạo. Dừng chương trình.")
        return
    # Show token env
    print("GOOGLE_API_KEY:", GOOGLE_API_KEY)
    print("OPENAI_API_KEY:", OPENAI_API_KEY)

    # 2. Phân tích từng hình ảnh và thu thập kết quả
    all_data = []
    for img_path in image_paths:
        response_text = analyze_image_with_gemini(img_path, prompt_template)
        # response_text = analyze_image_with_openai(img_path, prompt_template)
        if response_text:
            cleaned_json_string = clean_json_response(response_text)
            try:
                # Phân tích chuỗi JSON thành đối tượng Python
                page_data = json.loads(cleaned_json_string)
                if isinstance(page_data, list):
                    all_data.extend(page_data)
                elif isinstance(page_data, dict):
                     all_data.append(page_data) # Xử lý trường hợp chỉ có 1 bài trên trang
                # Save file json in folder
                json_file_path = f"json/{os.path.basename(img_path)}.json"
                with open(json_file_path, 'w', encoding='utf-8') as json_file:
                    json.dump(page_data, json_file, ensure_ascii=False, indent=4)
                print(f"Đã phân tích và trích xuất thành công {len(page_data)} bài toán từ trang {os.path.basename(img_path)}.")
            except json.JSONDecodeError as e:
                print(f"Lỗi khi phân tích JSON từ trang {os.path.basename(img_path)}: {e}")
                print("--- Phản hồi gốc từ API ---")
                print(response_text)
                print("---------------------------")
        else:
            print(f"Không nhận được phản hồi cho trang {os.path.basename(img_path)}.")
            return
        # time out
        time.sleep(random.uniform(8, 12))
         
    # 3. Lưu tất cả dữ liệu vào một tệp JSON
    if all_data:
        with open(output_json_path, 'w', encoding='utf-8') as f:
            json.dump(all_data, f, ensure_ascii=False, indent=4)
        print(f"\nHoàn tất! Đã lưu tổng cộng {len(all_data)} bài toán vào tệp '{output_json_path}'.")
    else:
        print("\nKhông có dữ liệu nào được trích xuất từ PDF.")

if __name__ == "__main__":
    main()

  Escape lại các ký tự \ trong LaTeX cho đúng chuẩn JSON.
  from .autonotebook import tqdm as notebook_tqdm


Tìm thấy 858 tệp JSON đã tồn tại.
GOOGLE_API_KEY: AIzaSyByfjBE_tWZeMPaRU2jiN_XJibXjFvJLwE
OPENAI_API_KEY: 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
Đang gửi trang page_216.png đến Gemini để phân tích...
Đã phân tích và trích xuất thành công 2 bài toán từ trang page_216.png.

Hoàn tất! Đã lưu tổng cộng 2 bài toán vào tệp 'output_data.json'.


In [2]:
import os
import json

def get_files(folder="json"):
    """
        Lấy danh sách file .json trong folder
    """
    files = []
    for root, dirs, filenames in os.walk(folder):
        for filename in filenames:
            if filename.endswith(".json"):
                files.append(os.path.join(root, filename))
    return files

def is_valid_item(item: dict) -> bool:
    """
        Kiểm tra item có hợp lệ không:
        - Không chấp nhận giá trị None hoặc chuỗi rỗng cho bất kỳ trường nào
    """
    if not isinstance(item, dict):
        return False
    for k, v in item.items():
        if v is None:
            return False
        if isinstance(v, str) and v.strip() == "":
            return False
    return True

def main(folder="json", output="data.json"):
    """
        Tổng hợp data trong folder vào thành 1 file JSON,
        bỏ qua object có field rỗng hoặc null
    """
    all_data = []
    files = get_files(folder)

    for file in files:
        try:
            with open(file, "r", encoding="utf-8") as f:
                data = json.load(f)
                # chỉ cộng nếu data là list
                if isinstance(data, list):
                    # lọc dữ liệu hợp lệ
                    filtered = [item for item in data if is_valid_item(item)]
                    all_data.extend(filtered)
        except Exception as e:
            print(f"⚠️ Lỗi khi đọc file {file}: {e}")

    # Ghi ra file tổng hợp
    with open(output, "w", encoding="utf-8") as f:
        json.dump(all_data, f, ensure_ascii=False, indent=4)

    print(f"Đã tổng hợp {len(all_data)} mục từ {len(files)} file vào {output}")

if __name__ == "__main__":
    main()


Đã tổng hợp 1531 mục từ 859 file vào data.json


In [3]:

def main():
    """
        Create id for data json
    """
    file_path = "data.json"
    file_path_new = "data_with_ids.json"
    with open(file_path, "r", encoding="utf-8") as f:
        data = json.load(f)
    for idx, item in enumerate(data):
        item["id"] = str(idx)
    with open(file_path_new, "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

if __name__ == "__main__":
    main()