## Chuyển pdf đã convert từ pdf scan sang text

In [None]:
import os
import pdfplumber
from pathlib import Path
import concurrent.futures
import time
from datetime import datetime

# Định nghĩa thư mục đầu vào và đầu ra
PDF_FOLDER = "folder_2_converted"
TXT_FOLDER = "folder_2_txt"
LOG_FILE = "extract_pdf_log.txt"

# Tạo thư mục TXT nếu chưa tồn tại
os.makedirs(TXT_FOLDER, exist_ok=True)

# Ghi log
def write_log(message, log_file=LOG_FILE):
    with open(log_file, "a", encoding="utf-8") as f:
        timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        f.write(f"[{timestamp}] {message}\n")

# Hàm trích xuất text từ một file PDF
def extract_text_from_pdf(pdf_path: Path):
    try:
        with pdfplumber.open(pdf_path) as pdf:
            text = ""
            for page in pdf.pages:
                text += page.extract_text() or ""  # Trích xuất text từ mỗi trang, bỏ qua nếu None
            # Chuẩn hóa text: loại bỏ khoảng trắng thừa
            text = "\n".join(line.strip() for line in text.splitlines() if line.strip())
        return text
    except Exception as e:
        error_msg = f"❌ Lỗi trích xuất PDF {pdf_path.name}: {e}"
        write_log(error_msg)
        print(error_msg)
        return None

# Lưu text vào file TXT
def save_text_to_txt(pdf_path: Path, text: str):
    txt_filename = pdf_path.stem + ".txt"  # Giữ nguyên tên file, thay đuôi .pdf thành .txt
    txt_path = Path(TXT_FOLDER) / txt_filename
    try:
        with open(txt_path, "w", encoding="utf-8") as f:
            f.write(text)
        log_msg = f"✅ Đã lưu text từ {pdf_path.name} vào {txt_path}"
        write_log(log_msg)
        print(log_msg)
    except Exception as e:
        error_msg = f"❌ Lỗi lưu file {txt_path.name}: {e}"
        write_log(error_msg)
        print(error_msg)

# Xử lý song song các file PDF
def extract_all_pdfs_concurrently(max_workers=4):
    pdf_files = list(Path(PDF_FOLDER).glob("*.pdf"))
    if not pdf_files:
        log_msg = "📂 Không có file PDF nào trong thư mục folder_1_converted."
        write_log(log_msg)
        print(log_msg)
        return

    log_msg = f"🚀 Số file PDF cần trích xuất: {len(pdf_files)}"
    write_log(log_msg)
    print(log_msg)

    with concurrent.futures.ThreadPoolExecutor(max_workers=max_workers) as executor:
        # Tạo mapping future -> pdf_file
        future_to_pdf = {executor.submit(extract_text_from_pdf, pdf_file): pdf_file for pdf_file in pdf_files}

        for future in concurrent.futures.as_completed(future_to_pdf):
            pdf_file = future_to_pdf[future]
            try:
                text = future.result()
                if text:
                    save_text_to_txt(pdf_file, text)
            except Exception as e:
                error_msg = f"❌ Lỗi xử lý {pdf_file.name}: {e}"
                write_log(error_msg)
                print(error_msg)

# Chạy phần trích xuất
if __name__ == "__main__":
    start_time = time.time()
    extract_all_pdfs_concurrently(max_workers=4)
    elapsed_time = time.time() - start_time
    log_msg = f"⏱️ Hoàn tất trích xuất PDF! Tổng thời gian: {elapsed_time:.2f} giây"
    write_log(log_msg)
    print(log_msg)


## Sinh chunk cho dữ liệu txt, nên chạy lại vài lần hoặc kiểm tra trước bằng code bên dưới để xem có đủ số file không

In [2]:
import os
import json
import google.generativeai as genai
from dotenv import load_dotenv
from pathlib import Path
from concurrent.futures import ThreadPoolExecutor, as_completed
import re
from itertools import cycle
import time

# Tải biến môi trường từ .env
load_dotenv()

# Lấy API keys từ .env và tách thành list
API_KEYS = os.getenv("API_KEYS", "").replace('"', '').split(",")

# Kiểm tra API keys
print(f"Tổng số API keys: {len(API_KEYS)}")
for i, key in enumerate(API_KEYS, 1):
    print(f"Key {i}: {key}")

NUM_THREADS = 3
if len(API_KEYS) < NUM_THREADS:
    raise ValueError(f"❌ Cần ít nhất {NUM_THREADS} API keys, hiện tại chỉ có {len(API_KEYS)}.")

print(len(API_KEYS), "API keys được tìm thấy.")

# Chia API_KEYS thành các nhóm cho mỗi thread
def split_api_keys(keys, num_threads):
    groups = [[] for _ in range(num_threads)]
    for idx, key in enumerate(keys):
        groups[idx % num_threads].append(key)
    return groups

api_key_groups = split_api_keys(API_KEYS, NUM_THREADS)

# Cấu hình thư mục
OUTPUT_FOLDER = "folder_2.5_step1"
EXTRACTED_TXT_FOLDER = "folder_2.5_txt"
ERROR_LOG = "error_log_step1.jsonl"
INCOMPLETE_LOG = "incomplete_log_step1.jsonl"

# Định nghĩa instruction
INSTRUCTION = """
Bạn là một hệ thống xử lý dữ liệu báo cáo tài chính.
Nhiệm vụ của bạn: Nhận toàn bộ nội dung của một báo cáo tài chính và chia thành các đoạn (chunk) 400–800 token (dưới 1500 ký tự), thứ hai là báo cáo trích xuất qua OCR và pdfplumber nên sẽ có nhiều lỗi chính tả, hãy sửa nó
Quy tắc chia chunk:
1. Mỗi chunk phải chứa đầy đủ thông tin ngữ cảnh:
- Tên công ty
- Mã cổ phiếu (VD: AAH)
- Loại báo cáo: hợp nhất, riêng, quý, thường niên, bán niên, công bố thông tin
- Thời gian: ngày phát hành và/hoặc quý/năm (VD: 20/07/2025, Q2 2025)
- Ý kiến kiểm toán:
    + Chấp nhận toàn phần
    + Ngoại trừ
    + Không chấp nhận
    + Từ chối
    + Không có
- Ngắn gọn nhưng đủ thông tin ngữ cảnh.
2. Bảng số liệu:
- Nếu bảng không quá dài → giữ nguyên trong chunk.
- Nếu bảng quá dài → cắt hợp lý, giữ phần liên quan.
- Đảm bảo phải giữ bảng đầy đủ, không thiếu thông tin, bảng phải theo cấu trúc của các bảng trong báo cáo tài chính, nếu bảng thiếu thì điền dấu '-' vào.
- Không bịa thông tin, cái gì không có trong báo cáo thì ghi là không có, tránh tạo thông tin sai cho mô hình.
- Không xuống dòng trong JSON → dùng \n thay cho line break thật.
- Nếu bảng hoặc văn bản quá dài thì chia 2-3 bảng một cách hợp lý, bảng cân đối kế toán chia làm 3 bảng là A(Tài sản ngắn hạn), B(Tài sản dài hạn), C(Nợ) và D(Vốn chủ sở hữu) thì gộp chung, Bảng báo cáo kết quả kinh doanh và luu chuyển tiền tệ thì có thể để riêng lẻ không cần cắt, thuyết minh báo cáo tài chính thì chia ra các đoạn hợp lý đủ độ dài và ngữ cảnh, các bảng bé trong thuyết minh báo cáo tài chính có thể gộp lại để có độ dài hợp lý tránh 1 chunk có bảng quá ngắn không có thông tin.
3. Câu hỏi cho mỗi chunk
- Mỗi chunk kèm 3–6 câu hỏi có thể trả lời trực tiếp từ chunk đó:
    + 1-2 câu dễ (QA, NER): trích xuất trực tiếp (VD: doanh thu, nợ, tên công ty, mã cổ phiếu).
    + 2–4 câu trung bình (QA, SA): phân tích hoặc so sánh cơ bản (VD: năm này vs năm trước, phân tích tâm lý tài chính).
    + 3-5 câu khó (QA, SA): tổng hợp hoặc phân tích phức tạp (VD: đánh giá sức khỏe tài chính, rủi ro).
- Chủ đề câu hỏi có thể bao gồm: Nguồn vốn, Tài sản, Doanh thu, Chi phí, Lưu chuyển tiền tệ, Chỉ số tài chính, Tình hình tổng thể, Sự kiện đặc biệt, Dự báo, Rủi ro.
- Mỗi câu hỏi loại nào cần có đánh dấu riêng ví dụ Easy_QA, Medium_QA, Hard_QA, Easy_NER, Medium_SA, Hard_SA, v.v.
- Các câu hỏi cần đa dạng về chủ đề và độ khó, không lặp lại nhiều.
4. Yêu cầu khác
- Đánh dấu rõ:
    + Section (VD: "Bảng cân đối kế toán", "Thuyết minh", "Công bố thông tin").
    + Loại nội dung: bảng, text, hoặc cả hai.
    + Nếu báo cáo hoặc đoạn thông tin là tiếng Anh → dịch sang tiếng Việt theo phong cách của báo cáo tài chính.
- Với báo cáo ngắn, không có bảng (VD: báo cáo hợp nhất) → vẫn áp dụng quy tắc trên, chỉ điều chỉnh câu hỏi cho phù hợp.

5. Output JSON mẫu
[
    {
    "chunk_id": "1",
    "content": "Công ty: Công ty Cổ phần Thực phẩm Lâm Đồng\nMã cổ phiếu: Không có\nLoại báo cáo: Báo cáo tài chính riêng quý II/2024\nThời gian: Phát hành tháng 10/2024, Quý II/2024\nÝ kiến kiểm toán: Không có\n\nSection: Bảng cân đối kế toán (Phần A - Tài sản ngắn hạn)\nLoại nội dung: Bảng\n| Chỉ tiêu | Mã số | Thuyết minh | Số cuối quý | Số đầu năm |\n|----------|--------|-------------|-------------|------------|\n| A. TÀI SẢN NGẮN HẠN | 100 | | 129.431.969.001 | 127.524.284.310 |\n| I. Tiền và các khoản tương đương tiền | 110 | | 16.831.267.495 | 17.384.196.156 |\n| 1. Tiền | 111 | | 3.780.407.221 | 12.384.196.156 |\n| 2. Các khoản tương đương tiền | 112 | | 13.050.860.274 | 5.000.000.000 |\n| II. Các khoản đầu tư tài chính ngắn hạn | 120 | | 42.000.000.000 | 60.000.000.000 |\n| 1. Chứng khoán kinh doanh | 121 | | - | - |\n| 2. Dự phòng giảm giá chứng khoán kinh doanh | 122 | | - | - |\n| 3. Đầu tư nắm giữ đến ngày đáo hạn | 123 | | 42.000.000.000 | 60.000.000.000 |\n| III. Các khoản phải thu ngắn hạn | 130 | | 2.481.490.083 | 7.121.118.051 |\n| 1. Phải thu ngắn hạn của khách hàng | 131 | | 1.217.081.219 | 4.151.614.789 |\n| 2. Trả trước cho người bán ngắn hạn | 132 | | 1.159.680.597 | 252.269.403 |\n| 3. Phải thu nội bộ ngắn hạn | 133 | | - | - |\n| 4. Phải thu theo tiến độ kế hoạch hợp đồng xây dựng | 134 | | - | - |\n| 5. Phải thu về cho vay ngắn hạn | 135 | | - | - |\n| 6. Phải thu ngắn hạn khác | 136 | | 104.728.267 | 17.952.907.545 |\n| 7. Dự phòng phải thu ngắn hạn khó đòi | 137 | | - | (15.235.673.686) |\n| IV. Hàng tồn kho | 140 | | 67.069.015.034 | 41.395.556.696 |\n| 1. Hàng tồn kho | 141 | | 67.069.015.034 | 41.395.556.696 |\n| 2. Dự phòng giảm giá hàng tồn kho | 149 | | - | - |\n| V. Tài sản ngắn hạn khác | 150 | | 1.050.196.389 | 1.623.413.407 |\n| 1. Chi phí trả trước ngắn hạn | 151 | | 498.882.665 | 1.183.019.212 |\n| 2. Thuế GTGT được khấu trừ | 152 | | - | - |\n| 3. Thuế và các khoản khác phải thu Nhà nước | 153 | | 440.394.195 | 440.394.195 |\n| 4. Giao dịch mua bán lại trái phiếu Chính phủ | 154 | | - | - |\n| 5. Tài sản ngắn hạn khác | 155 | | 110.919.529 | - |",
    "questions": [
        {"question": "Tổng tài sản ngắn hạn cuối quý II/2024 là bao nhiêu?", "difficulty": "Easy_QA"},
        {"question": "Hàng tồn kho cuối quý là bao nhiêu VND?", "difficulty": "Easy_QA"},
        {"question": "So sánh tiền và tương đương tiền cuối quý với đầu năm, thay đổi như thế nào?", "difficulty": "Medium_QA"},
        {"question": "Tỷ lệ đầu tư tài chính ngắn hạn trên tổng tài sản ngắn hạn là bao nhiêu phần trăm?", "difficulty": "Medium_QA"},
        {"question": "Đánh giá khả năng thanh khoản dựa trên tỷ trọng tiền và tương đương tiền trong tài sản ngắn hạn.", "difficulty": "Medium_SA"},
        {"question": "Tính hệ số thanh toán nhanh (Quick Ratio) dựa trên tài sản ngắn hạn và nợ ngắn hạn từ bảng cân đối.", "difficulty": "Hard_QA"},
        {"question": "Phân tích rủi ro tài chính nếu hàng tồn kho tiếp tục tăng mạnh trong quý tới.", "difficulty": "Hard_SA"},
        {"question": "Dự báo tác động của việc giảm các khoản phải thu ngắn hạn đến thanh khoản công ty.", "difficulty": "Hard_SA"}
    ]
    },
    {
        "chunk_id": "2",
        "content": "Công ty: Công ty Cổ phần Thực phẩm Lâm Đồng\nMã cổ phiếu: Không có\nLoại báo cáo: Báo cáo tài chính riêng quý II/2024\nThời gian: Phát hành tháng 10/2024, Quý II/2024\nÝ kiến kiểm toán: Không có\n\nSection: Bảng cân đối kế toán (Phần B - Tài sản dài hạn)\nLoại nội dung: Bảng\n| Chỉ tiêu | Mã số | Thuyết minh | Số cuối quý | Số đầu năm |\n|----------|--------|-------------|-------------|------------|\n| B. TÀI SẢN DÀI HẠN | 200 | | 46.786.914.057 | 48.539.257.373 |\n| I. Các khoản phải thu dài hạn | 210 | | - | - |\n| 1. Phải thu dài hạn của khách hàng | 211 | | - | - |\n| 2. Trả trước cho người bán dài hạn | 212 | | - | - |\n| 3. Vốn kinh doanh ở đơn vị trực thuộc | 213 | | - | - |\n| 4. Phải thu nội bộ dài hạn | 214 | | - | - |\n| 5. Phải thu về cho vay dài hạn | 215 | | - | - |\n| 6. Phải thu dài hạn khác | 216 | | - | - |\n| II. Tài sản cố định | 220 | | 42.731.112.649 | 43.969.139.154 |\n| 1. Tài sản cố định hữu hình | 221 | | 42.731.112.649 | 43.969.139.154 |\n| - Nguyên giá | 222 | | 136.584.468.433 | 120.670.272.525 |\n| - Giá trị hao mòn lũy kế | 223 | | (93.853.355.784) | (76.701.133.371) |\n| 2. Tài sản cố định thuê tài chính | 224 | | - | - |\n| 3. Tài sản cố định vô hình | 227 | | - | - |\n| - Nguyên giá | 228 | | 314.162.500 | 314.162.500 |\n| - Giá trị hao mòn lũy kế | 229 | | (314.162.500) | (314.162.500) |\n| III. Bất động sản đầu tư | 230 | | - | - |\n| - Nguyên giá | 231 | | - | - |\n| - Giá trị hao mòn lũy kế | 232 | | - | - |\n| IV. Tài sản dở dang dài hạn | 240 | | - | - |\n| 1. Chi phí sản xuất, kinh doanh dở dang dài hạn | 241 | | - | - |\n| V. Đầu tư tài chính dài hạn | 250 | | - | - |\n| 1. Đầu tư vào công ty con | 251 | | - | 15.000.000.000 |\n| 2. Đầu tư vào công ty liên kết, liên doanh | 252 | | - | - |\n| 3. Đầu tư góp vốn vào đơn vị khác | 253 | | - | - |\n| 4. Dự phòng đầu tư tài chính dài hạn | 254 | | - | (15.000.000.000) |\n| 5. Đầu tư nắm giữ đến ngày đáo hạn | 255 | | - | - |\n| VI. Tài sản dài hạn khác | 260 | | 4.055.801.408 | 4.570.118.219 |\n| 1. Chi phí trả trước dài hạn | 261 | | 4.055.801.408 | 4.570.118.219 |\n| 2. Tài sản thuế thu nhập hoãn lại | 262 | | - | - |\n| 3. Thiết bị, vật tư, phụ tùng thay thế dài hạn | 263 | | - | - |\n| 4. Tài sản dài hạn khác | 268 | | - | - |\n| TỔNG CỘNG TÀI SẢN | 270 | | 176.218.883.058 | 176.063.541.683 |",
        "questions": [
            {"question": "Tổng tài sản dài hạn cuối quý II/2024 là bao nhiêu?", "difficulty": "Easy_QA"},
            {"question": "Giá trị tài sản cố định hữu hình cuối quý là bao nhiêu VND?", "difficulty": "Easy_QA"},
            {"question": "So sánh chi phí trả trước dài hạn cuối quý với đầu năm.", "difficulty": "Medium_QA"},
            {"question": "Tỷ lệ tài sản cố định trên tổng tài sản dài hạn là bao nhiêu phần trăm?", "difficulty": "Medium_QA"},
            {"question": "Đánh giá sự phụ thuộc vào tài sản cố định trong cơ cấu tài sản dài hạn.", "difficulty": "Medium_SA"},
            {"question": "Phân tích tác động của việc không có đầu tư tài chính dài hạn đến chiến lược tăng trưởng.", "difficulty": "Hard_SA"},
            {"question": "Dự báo rủi ro nếu giá trị hao mòn tài sản cố định tiếp tục tăng nhanh.", "difficulty": "Hard_SA"},
            {"question": "Đánh giá hiệu quả sử dụng tài sản dài hạn dựa trên cơ cấu hiện tại.", "difficulty": "Hard_SA"}
        ]
    },
    {
        "chunk_id": "3",
        "content": "Công ty: Công ty Cổ phần Thực phẩm Lâm Đồng\nMã cổ phiếu: Không có\nLoại báo cáo: Báo cáo tài chính riêng quý II/2024\nThời gian: Phát hành tháng 10/2024, Quý II/2024\nÝ kiến kiểm toán: Không có\n\nSection: Bảng cân đối kế toán (Phần C - Nợ phải trả và Phần D - Vốn chủ sở hữu)\nLoại nội dung: Bảng\n| Chỉ tiêu | Mã số | Thuyết minh | Số cuối quý | Số đầu năm |\n|----------|--------|-------------|-------------|------------|\n| C. NỢ PHẢI TRA | 300 | | 6.694.694.333 | 4.648.015.400 |\n| I. Nợ ngắn hạn | 310 | | 6.694.694.333 | 4.648.015.400 |\n| 1. Phải trả người bán ngắn hạn | 311 | | 4.773.503.501 | 1.420.930.321 |\n| 2. Người mua trả tiền trước ngắn hạn | 312 | | 208.000 | 180.000 |\n| 3. Thuế và các khoản phải nộp nhà nước | 313 | | 716.626.406 | 1.979.632.282 |\n| 4. Phải trả người lao động | 314 | | 899.082.033 | 942.897.424 |\n| 5. Chi phí phải trả ngắn hạn | 315 | | - | - |\n| 6. Phải trả nội bộ ngắn hạn | 316 | | - | - |\n| 7. Phải trả theo tiến độ kế hoạch hợp đồng xây dựng | 317 | | - | - |\n| 8. Doanh thu chưa thực hiện ngắn hạn | 318 | | - | - |\n| 9. Phải trả ngắn hạn khác | 319 | | 169.430.425 | 105.031.405 |\n| 10. Vay và nợ thuê tài chính ngắn hạn | 320 | | - | - |\n| 11. Dự phòng phải trả ngắn hạn | 321 | | - | - |\n| 12. Quỹ khen thưởng, phúc lợi | 322 | | 135.843.968 | 199.343.968 |\n| II. Nợ dài hạn | 330 | | - | - |\n| 1. Phải trả người bán dài hạn | 331 | | - | - |\n| 2. Người mua trả tiền trước dài hạn | 332 | | - | - |\n| 3. Chi phí phải trả dài hạn | 333 | | - | - |\n| 4. Phải trả nội bộ về vốn kinh doanh | 334 | | - | - |\n| 5. Phải trả nội bộ dài hạn | 335 | | - | - |\n| 6. Doanh thu chưa thực hiện dài hạn | 336 | | - | - |\n| 7. Phải trả dài hạn khác | 337 | | - | - |\n| 8. Vay và nợ thuê tài chính dài hạn | 338 | | - | - |\n| D. VỐN CHỦ SỞ HỮU | 400 | | 169.524.188.725 | 171.415.526.283 |\n| I. Vốn chủ sở hữu | 410 | | 169.524.188.725 | 171.415.526.283 |\n| 1. Vốn đầu tư của chủ sở hữu | 411 | | 146.571.500.000 | 146.571.500.000 |\n| - Cổ phiếu phổ thông có quyền biểu quyết | 411a | | 146.571.500.000 | 146.571.500.000 |\n| - Cổ phiếu ưu đãi | 411b | | - | - |\n| 8. Quỹ đầu tư phát triển | 418 | | - | 9.933.986.561 |\n| 9. Quỹ hỗ trợ sắp xếp doanh nghiệp | 419 | | - | - |\n| 10. Quỹ khác thuộc vốn chủ sở hữu | 420 | | - | - |\n| 11. Lợi nhuận sau thuế chưa phân phối | 421 | | 22.952.688.725 | 14.910.039.722 |\n| - LNST chưa phân phối lũy kế đến cuối kỳ trước | 421a | | 24.844.026.283 | 36.437.036.716 |\n| - LNST chưa phân phối kỳ này | 421b | | (1.891.337.558) | (21.526.996.994) |\n| II. Nguồn kinh phí và quỹ khác | 430 | | - | - |\n| TỔNG CỘNG NGUỒN VỐN | 440 | | 176.218.883.058 | 176.063.541.683 |",
        "questions": [
            {"question": "Nợ phải trả cuối quý II/2024 là bao nhiêu?", "difficulty": "Easy_QA"},
            {"question": "Vốn chủ sở hữu cuối quý là bao nhiêu VND?", "difficulty": "Easy_QA"},
            {"question": "Tỷ lệ nợ phải trả trên tổng nguồn vốn cuối quý là bao nhiêu?", "difficulty": "Medium_QA"},
            {"question": "So sánh phải trả người bán ngắn hạn cuối quý với đầu năm.", "difficulty": "Medium_QA"},
            {"question": "Đánh giá cơ cấu nợ ngắn hạn có an toàn cho công ty không?", "difficulty": "Medium_SA"},
            {"question": "Tính hệ số nợ trên vốn chủ sở hữu (D/E ratio) cuối quý.", "difficulty": "Hard_QA"},
            {"question": "Phân tích rủi ro đầu tư nếu lợi nhuận sau thuế âm.", "difficulty": "Hard_SA"},
            {"question": "Đánh giá mức độ phụ thuộc vào vốn chủ sở hữu so với nợ.", "difficulty": "Hard_SA"}
        ]
    }
Dưới đây là báo cáo đã được trích xuất bằng pdfplumber:
"""

# Tạo thư mục nếu chưa có
os.makedirs(OUTPUT_FOLDER, exist_ok=True)
os.makedirs(EXTRACTED_TXT_FOLDER, exist_ok=True)


# --- Ghi log ---
def log_error(filename, api_key, error_message):
    log_path = ERROR_LOG
    log_entry = {
        "file": filename,
        "api_key": api_key,
        "error": error_message,
        "time": time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
    }
    with open(log_path, "a", encoding="utf-8") as f:
        f.write(json.dumps(log_entry, ensure_ascii=False) + "\n")
    print(f"🛑 Đã ghi log lỗi cho {filename}")


def log_incomplete(filename, partial_content):
    log_path = INCOMPLETE_LOG
    log_entry = {
        "file": filename,
        "status": "incomplete",
        "length": len(partial_content),
        "time": time.strftime("%Y-%m-%d %H:%M:%S", time.localtime())
    }
    with open(log_path, "a", encoding="utf-8") as f:
        f.write(json.dumps(log_entry, ensure_ascii=False) + "\n")
    print(f"📌 Đã ghi log incomplete cho {filename}")


# Đọc nội dung từ file .txt đã trích xuất
def read_text_from_txt(txt_path: Path):
    try:
        with open(txt_path, "r", encoding="utf-8") as f:
            text = f.read().strip()
        # Chuẩn hóa text: loại bỏ ký tự lạ
        text = re.sub(r'[^\w\s.,|]', '', text)
        print(f"📄 Đã đọc text từ: {txt_path}")
        return text
    except Exception as e:
        print(f"❌ Lỗi đọc file {txt_path.name}: {e}")
        return None


# Gửi prompt lên Gemini bằng API key cụ thể
def ask_gemini_from_text(pdf_text, instruction, api_key):
    full_prompt = f"""{instruction}
------------------------------
- Báo cáo tài chính: {pdf_text}
"""
    try:
        genai.configure(api_key=api_key)
        model = genai.GenerativeModel('gemini-2.5-flash')
        response = model.generate_content(full_prompt)
        return response.text
    except Exception as e:
        return f"❌ Lỗi gọi Gemini API (key {api_key[:8]}...): {e}"


# Lưu kết quả, phân loại theo các trường hợp
def save_output(filename, content):
    json_path = os.path.join(OUTPUT_FOLDER, filename.replace(".txt", ".json"))

    if not content:
        print(f"⚠️ Không có nội dung để lưu cho {filename}")
        return False

    # Trường hợp lỗi ❌
    if "❌" in content:
        log_error(filename, "unknown", content)
        return False

    # Trường hợp có block ```json ... ```
    if "```json" in content:
        try:
            extracted = re.search(r"```json(.*?)```", content, re.DOTALL)
            if extracted:
                clean_json = extracted.group(1).strip()
                data = json.loads(clean_json)
                with open(json_path, "w", encoding="utf-8") as f:
                    json.dump(data, f, indent=2, ensure_ascii=False)
                print(f"✅ Lưu JSON thành công (chuẩn format): {json_path}")
                return True
            else:
                # Có ```json nhưng không có dấu kết thúc ```
                incomplete_part = content.split("```json", 1)[-1].strip()
                with open(json_path, "w", encoding="utf-8") as f:
                    f.write(incomplete_part)
                log_incomplete(filename, incomplete_part)
                print(f"⚠️ JSON bị ngắt, đã lưu phần incomplete: {json_path}")
                return False
        except Exception as e:
            print(f"❌ Lỗi parse JSON trong {filename}: {e}")
            with open(json_path, "w", encoding="utf-8") as f:
                f.write(content)
            log_incomplete(filename, content)
            return False

    # Trường hợp không có block ```json
    else:
        try:
            data = json.loads(content)
            with open(json_path, "w", encoding="utf-8") as f:
                json.dump(data, f, indent=2, ensure_ascii=False)
            print(f"✅ Lưu JSON thành công (dạng raw): {json_path}")
            return True
        except json.JSONDecodeError:
            with open(json_path, "w", encoding="utf-8") as f:
                f.write(content)
            log_incomplete(filename, content)
            print(f"⚠️ Nội dung không phải JSON hoàn chỉnh, đã lưu raw: {json_path}")
            return False


# Xóa entry lỗi trong error_log khi file xử lý thành công
def remove_error_log_entry(filename):
    log_path = ERROR_LOG
    if not Path(log_path).exists():
        return
    new_lines = []
    removed = False
    with open(log_path, "r", encoding="utf-8") as f:
        for line in f:
            try:
                entry = json.loads(line)
                if entry["file"] == filename:
                    removed = True
                    continue
                new_lines.append(line.strip())
            except:
                continue
    if removed:
        with open(log_path, "w", encoding="utf-8") as f:
            f.write("\n".join(new_lines) + ("\n" if new_lines else ""))
        print(f"🧹 Đã xóa log lỗi cũ cho {filename}")


# Xóa entry incomplete trong incomplete_log khi file xử lý thành công (thêm mới)
def remove_incomplete_log_entry(filename):
    log_path = INCOMPLETE_LOG
    if not Path(log_path).exists():
        return
    new_lines = []
    removed = False
    with open(log_path, "r", encoding="utf-8") as f:
        for line in f:
            try:
                entry = json.loads(line)
                if entry["file"] == filename:
                    removed = True
                    continue
                new_lines.append(line.strip())
            except:
                continue
    if removed:
        with open(log_path, "w", encoding="utf-8") as f:
            f.write("\n".join(new_lines) + ("\n" if new_lines else ""))
        print(f"🧹 Đã xóa log incomplete cũ cho {filename}")


# Xử lý một file .txt với nhóm API key riêng
def process_txt_file(txt_file: Path, api_keys: cycle):
    print(f"\n📝 Đang xử lý: {txt_file.name}")

    text = read_text_from_txt(txt_file)
    if not text:
        return

    api_key = next(api_keys)
    result = ask_gemini_from_text(text, INSTRUCTION, api_key)

    success = save_output(txt_file.name, result)
    if success:
        remove_error_log_entry(txt_file.name)
        remove_incomplete_log_entry(txt_file.name)


# Gán file .txt cho từng luồng theo round-robin
def assign_txts_to_threads(txt_files, num_threads):
    assigned = [[] for _ in range(num_threads)]
    for idx, txt in enumerate(txt_files):
        assigned[idx % num_threads].append(txt)
    return assigned


# Xử lý song song nhiều file .txt
def process_all_txts_concurrently(max_workers=NUM_THREADS):
    txt_files = list(Path(EXTRACTED_TXT_FOLDER).glob("*.txt"))
    if not txt_files:
        print(f"📂 Không có file .txt nào trong thư mục {EXTRACTED_TXT_FOLDER} .")
        return

    print(f"🚀 Tổng số file cần xử lý: {len(txt_files)}")
    start_time = time.time()

    # Bỏ qua những file đã xử lý thành công (có JSON hợp lệ)
    processed_files = {Path(f).stem for f in Path(OUTPUT_FOLDER).glob("*.json")}

    # Lấy danh sách file lỗi từ log
    error_files = set()
    if Path(ERROR_LOG).exists():
        with open(ERROR_LOG, "r", encoding="utf-8") as f:
            for line in f:
                try:
                    entry = json.loads(line)
                    error_files.add(Path(entry["file"]).stem)
                except:
                    continue

    # Lấy danh sách file incomplete từ log
    incomplete_files = set()
    if Path(INCOMPLETE_LOG).exists():
        with open(INCOMPLETE_LOG, "r", encoding="utf-8") as f:
            for line in f:
                try:
                    entry = json.loads(line)
                    incomplete_files.add(Path(entry["file"]).stem)
                except:
                    continue

    # Xử lý những file chưa có JSON hoặc bị lỗi hoặc incomplete
    files_to_process = [
        txt for txt in txt_files
        if txt.stem not in processed_files or txt.stem in error_files or txt.stem in incomplete_files
    ]

    print(f"📌 Sẽ xử lý {len(files_to_process)} file (bao gồm lỗi, incomplete & chưa có).")

    # Gán file cho từng thread
    thread_txt_lists = assign_txts_to_threads(files_to_process, max_workers)

    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = []
        for i in range(max_workers):
            txt_list = thread_txt_lists[i]
            api_keys_cycle = cycle(api_key_groups[i])
            for txt in txt_list:
                futures.append(executor.submit(process_txt_file, txt, api_keys_cycle))

        for future in as_completed(futures):
            _ = future.result()

    print(f"\n⏱️ Xong! Tổng thời gian: {time.time() - start_time:.2f} giây")


# 🧪 Entry point
if __name__ == "__main__":
    process_all_txts_concurrently(max_workers=NUM_THREADS)

  from .autonotebook import tqdm as notebook_tqdm


Tổng số API keys: 9
Key 1: AIzaSyDurEPeaKYb1F9rCcF1rOY2-Et3VtPIJLg
Key 2: AIzaSyDYjG9Z_fj4zttInrUm3wk7f7aKawpm3qE
Key 3: AIzaSyDV9f9gyCt1-pbU-AX3HaYZrxMA417-Se4
Key 4: AIzaSyDQClTO07TsamAs2vXuk_-s0EjX8GTEwvU
Key 5: AIzaSyBO_S3_xvW4NmTU93Wsp9pnBVKNXe12O0A
Key 6: AIzaSyAZnDLm3tcEfilmvdJVZCNMol_8ezR3Nj4
Key 7: AIzaSyAt4K0VMxBmE80qWnyV_wAuSV5P5B4Rdq8
Key 8: AIzaSyBk-Z6rGVq0bxqP_F_GgjFK1deMeqmVYco
Key 9: AIzaSyBnjpOb7nJWOtQ_6m7031gm9vr8shIy-SQ
9 API keys được tìm thấy.
🚀 Tổng số file cần xử lý: 6
📌 Sẽ xử lý 6 file (bao gồm lỗi, incomplete & chưa có).

📝 Đang xử lý: 000000014459170_EN__SeparateFinancialStatements_Q4_2024.txt

📝 Đang xử lý: 000000014459603_EN_FinacialStatemants_Q4_2024.Holding_Company.txt

📝 Đang xử lý: 000000014459180_EN_SeperateFinancialStatements_Q4_2024KS.txt
📄 Đã đọc text từ: folder_2.5_txt\000000014459180_EN_SeperateFinancialStatements_Q4_2024KS.txt
📄 Đã đọc text từ: folder_2.5_txt\000000014459603_EN_FinacialStatemants_Q4_2024.Holding_Company.txt
📄 Đã đọc text từ: folde

### Kiểm tra các file hỏng và file chưa tồn tại, hỏi người dùng có chuyển file hỏng và chỉ giữ các file tốt ở folder chính hay không.So sánh từ txt_folder, folder output và chuyển các file lỗi(xóa file lỗi trong file output) sang folder continue

In [None]:
import os
import json
import shutil
from pathlib import Path

# Thư mục
TXT_FOLDER = "folder_2.5_txt"
OUTPUT_FOLDER = "folder_2.5_step1"
CONTINUE_FOLDER = "folder_2.5_step1_continue"
GOOD_FOLDER = "folder_2.5_step1_good"

# Tạo các thư mục nếu chưa có
os.makedirs(CONTINUE_FOLDER, exist_ok=True)
os.makedirs(GOOD_FOLDER, exist_ok=True)

def is_json_complete(file_path: Path) -> bool:
    """Kiểm tra file json có hợp lệ không"""
    try:
        text = file_path.read_text(encoding="utf-8").strip()
        if text.startswith("❌ Lỗi gọi Gemini"):
            return False
        if text.startswith("```json"):
            if text.endswith("```"):
                text = text.strip("`").replace("json", "", 1).strip()
            else:
                return False  # không đóng ``` => incomplete
        json.loads(text)  # thử parse
        return True
    except Exception:
        return False

def compare_folders():
    txt_files = {Path(f).stem for f in Path(TXT_FOLDER).glob("*.txt")}
    json_files = {Path(f).stem for f in Path(OUTPUT_FOLDER).glob("*.json")}

    missing = txt_files - json_files
    incomplete = set()
    good = set()

    for json_file in Path(OUTPUT_FOLDER).glob("*.json"):
        if is_json_complete(json_file):
            good.add(json_file.stem)
        else:
            incomplete.add(json_file.stem)

    print("📊 Kết quả so sánh:")
    print(f"- Tổng số file .txt: {len(txt_files)}")
    print(f"- Tổng số file .json: {len(json_files)}")
    print(f"- Số file chưa có .json: {len(missing)}")
    print(f"- Số file JSON hợp lệ (good): {len(good)}")
    print(f"- Số file bị ngắt đoạn (incomplete): {len(incomplete)}")

    if missing:
        print("\n⚠️ Danh sách file chưa có .json:")
        for fname in sorted(missing):
            print(f"  - {fname}.txt  (dự kiến sẽ có {fname}.json trong {OUTPUT_FOLDER})")

    if good:
        print("\n✅ Danh sách file JSON hợp lệ:")
        for fname in sorted(good):
            print(f"  - {fname}.json")

    if incomplete:
        print("\n⚠️ Danh sách file bị ngắt đoạn (incomplete):")
        for fname in sorted(incomplete):
            print(f"  - {fname}.json")

    return missing, incomplete, good

def copy_incomplete_files(incomplete_files):
    copied_count = 0
    for fname in incomplete_files:
        src = Path(OUTPUT_FOLDER) / f"{fname}.json"
        dst = Path(CONTINUE_FOLDER) / f"{fname}.json"
        if src.exists():
            shutil.copy2(src, dst)
            print(f"📂 Đã copy {src} → {dst}")
            copied_count += 1
    return copied_count

def copy_good_files(good_files):
    copied_count = 0
    for fname in good_files:
        src = Path(OUTPUT_FOLDER) / f"{fname}.json"
        dst = Path(GOOD_FOLDER) / f"{fname}.json"
        if src.exists():
            shutil.copy2(src, dst)
            print(f"📂 Đã copy JSON hợp lệ {src} → {dst}")
            copied_count += 1
    return copied_count

if __name__ == "__main__":
    missing, incomplete, good = compare_folders()

    if good:
        # choice = input(f"\n❓ Có muốn copy {len(good)} file JSON hợp lệ sang {GOOD_FOLDER}? (y/n): ").strip().lower()
        choice = "y"
        if choice == "y":
            copied_good = copy_good_files(good)
            print(f"✅ Hoàn tất copy {copied_good} file JSON hợp lệ.")
        else:
            print("⏩ Bỏ qua copy file JSON hợp lệ.")

    if incomplete:
        # choice = input(f"\n❓ Có muốn copy {len(incomplete)} file bị ngắt đoạn sang {CONTINUE_FOLDER}? (y/n): ").strip().lower()
        choice = "y"
        if choice == "y":
            copied_incomplete = copy_incomplete_files(incomplete)
            print(f"✅ Hoàn tất copy {copied_incomplete} file bị ngắt.")
        else:
            print("⏩ Bỏ qua copy file bị ngắt.")

📊 Kết quả so sánh:
- Tổng số file .txt: 6
- Tổng số file .json: 4
- Số file chưa có .json: 2
- Số file JSON hợp lệ (good): 4
- Số file bị ngắt đoạn (incomplete): 0

⚠️ Danh sách file chưa có .json:
  - 000000014459603_EN_FinacialStatemants_Q4_2024.Holding_Company.txt  (dự kiến sẽ có 000000014459603_EN_FinacialStatemants_Q4_2024.Holding_Company.json trong folder_2.5_step1)
  - 000000014459629_EN_FinacialStatements_Q4_2024_Final.signed.txt  (dự kiến sẽ có 000000014459629_EN_FinacialStatements_Q4_2024_Final.signed.json trong folder_2.5_step1)

✅ Danh sách file JSON hợp lệ:
  - 000000014459170_EN__SeparateFinancialStatements_Q4_2024.json
  - 000000014459180_EN_SeperateFinancialStatements_Q4_2024KS.json
  - 000000014459316_BCTC_Quy_4.2024__Cong_ty_Me.json
  - 000000014459666_EN_The_Consolidated_financial_statements_for_the_fourth_quarter_of_2024.json
📂 Đã copy JSON hợp lệ folder_2.5_step1\000000014459180_EN_SeperateFinancialStatements_Q4_2024KS.json → folder_2.5_step1_good\000000014459180_E

## Sinh dữ liệu instruction data từ good_folder lọc ra từ step1 từ bước trước

In [4]:
import os
import json
import google.generativeai as genai
from dotenv import load_dotenv
from pathlib import Path
from concurrent.futures import ThreadPoolExecutor, as_completed
from itertools import cycle
import time
from datetime import datetime
import threading

# Tải biến môi trường từ .env
load_dotenv()

# Lấy API keys từ .env và tách thành list
API_KEYS = os.getenv("API_KEYS", "").replace('"', '').split(",")

# Kiểm tra API keys
print(f"Tổng số API keys: {len(API_KEYS)}")
for i, key in enumerate(API_KEYS, 1):
    print(f"Key {i}: {key}")

NUM_THREADS = 6
if len(API_KEYS) < NUM_THREADS:
    raise ValueError(f"❌ Cần ít nhất {NUM_THREADS} API keys, hiện tại chỉ có {len(API_KEYS)}.")

print(f"{len(API_KEYS)} API keys được tìm thấy.")

# Danh sách API keys bị vô hiệu hóa tạm thời
disabled_api_keys = set()

# Khóa để tránh xung đột khi ghi file và log
file_lock = threading.Lock()
log_lock = threading.Lock()

# Chia API keys thành các nhóm cho mỗi thread
def split_api_keys(keys, num_threads):
    active_keys = [key for key in keys if key not in disabled_api_keys]
    if len(active_keys) < num_threads:
        raise ValueError(f"❌ Không đủ API keys hoạt động, chỉ còn {len(active_keys)} key.")
    groups = [[] for _ in range(num_threads)]
    for idx, key in enumerate(active_keys):
        groups[idx % num_threads].append(key)
    return groups

api_key_groups = split_api_keys(API_KEYS, NUM_THREADS)

# Cấu hình thư mục và file log
INPUT_FOLDER = "folder_2.5_step1_good"
OUTPUT_FOLDER = "folder_2.5_step2"
LOG_FILE = "step2_log.txt"
ERROR_LOG = "new_error_log_step2.jsonl"  # Log lỗi mới để tránh xung đột
SUCCESS_LOG = "success_log_step2.jsonl"
COMPLETE_LOG = "complete_log_step2.jsonl"  # Từ code xử lý
INCOMPLETE_LOG = "incomplete_log_step2.jsonl"  # Từ code xử lý
ERROR_LOG_PROCESS = "error_log_step2.jsonl"  # Từ code xử lý

# Định nghĩa instruction
INSTRUCTION = """
Bạn là một hệ thống tạo dữ liệu huấn luyện cho mô hình ngôn ngữ lớn (LLM) trong lĩnh vực tài chính.
Đầu vào: danh sách các chunk dữ liệu và câu hỏi liên quan, ở dạng JSON:
[
{
"chunk_id": 1,
"content": "Nội dung chunk 1 ...",
"questions": [
"Câu hỏi 1",
"Câu hỏi 2"
]
},
...
]
Nhiệm vụ của bạn:
Với mỗi câu hỏi, đọc nội dung chunk tương ứng và trả lời ngắn gọn, chính xác, đủ thông tin.
Câu trả lời phải dựa 100% vào nội dung chunk. Nếu thông tin không tồn tại trong chunk, trả lời: "Thông tin không có trong dữ liệu", tuy nhiên nếu cần phân tích hãy dùng kiến thức phân tích của bạn.
Xuất kết quả ở định dạng JSON Lines (mỗi dòng một object), với cấu trúc:
[
    {
        "instruction": "Câu hỏi",
        "input": "chunk_id"(để tôi có thể chèn sau đó và bạn không bị quá tải),
        "output": "Câu trả lời"
    },
    ...
]
Yêu cầu:
Giữ nguyên định dạng bảng Markdown nếu có trong "input".
Không thêm thông tin ngoài chunk.
Ngôn ngữ: tiếng Việt.
Bắt đầu tạo dữ liệu instruction ngay sau đây, đây là chunk:
"""

# Tạo thư mục đầu ra nếu chưa có
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

# --- Logging ---
def write_log(message, log_file=LOG_FILE):
    with log_lock:
        with open(log_file, "a", encoding="utf-8") as f:
            timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
            f.write(f"[{timestamp}] {message}\n")

def log_error(filename, api_key, error_message, error_type):
    entry = {
        "file": filename,
        "api_key": api_key if api_key else "N/A",
        "error": error_message,
        "error_type": error_type,
        "time": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    }
    with log_lock:
        with open(ERROR_LOG, "a", encoding="utf-8") as f:
            f.write(json.dumps(entry, ensure_ascii=False) + "\n")

def log_success(filename):
    entry = {
        "file": filename,
        "status": "GOOD",
        "time": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    }
    with log_lock:
        with open(SUCCESS_LOG, "a", encoding="utf-8") as f:
            f.write(json.dumps(entry, ensure_ascii=False) + "\n")

# Đọc nguyên văn file JSON
def read_json_file(json_path: Path):
    try:
        with open(json_path, "r", encoding="utf-8") as f:
            content = f.read()
        if not content.strip():
            raise ValueError("File JSON rỗng.")
        log_msg = f"📄 Đã đọc content từ: {json_path.name}"
        write_log(log_msg)
        print(log_msg)
        return content
    except Exception as e:
        error_msg = f"❌ Lỗi đọc file JSON {json_path.name}: {str(e)}"
        write_log(error_msg)
        print(error_msg)
        log_error(json_path.name, None, str(e), "FILE_READ_ERROR")
        return None

# Gửi content lên Gemini
def ask_gemini_from_text(content, instruction, api_key):
    full_prompt = f"""{instruction}
------------------------------
{content}
"""
    try:
        genai.configure(api_key=api_key)
        model = genai.GenerativeModel('gemini-2.5-flash')
        response = model.generate_content(full_prompt)
        return response.text.strip()
    except Exception as e:
        error_msg = f"❌ Lỗi gọi Gemini API (key {api_key[:8]}...): {str(e)}"
        error_type = "GEMINI_ERROR"
        if "quota" in str(e).lower() or "rate limit" in str(e).lower():
            disabled_api_keys.add(api_key)
            error_msg += f" | API key {api_key[:8]}... bị vô hiệu hóa tạm thời do quota."
            error_type = "GEMINI_QUOTA_ERROR"
        return error_msg, error_type

# Lưu kết quả
def save_output(json_path: Path, response, api_key):
    output_path = os.path.join(OUTPUT_FOLDER, json_path.name)
    try:
        if response.startswith("❌"):
            raise ValueError(response)
        with file_lock:
            with open(output_path, "w", encoding="utf-8") as f:
                f.write(response)
        log_msg = f"✅ Lưu file thành công: {output_path}"
        write_log(log_msg)
        print(log_msg)
        log_success(json_path.name)
        return True
    except Exception as e:
        log_msg = f"❌ Lỗi lưu file {output_path}: {str(e)}"
        write_log(log_msg)
        print(log_msg)
        log_error(json_path.name, api_key, str(e), "FILE_WRITE_ERROR")
        return False

# Load các file từ log xử lý để chạy lại
def get_files_to_retry():
    files_to_retry = set()
    for log_file in [INCOMPLETE_LOG, ERROR_LOG_PROCESS]:
        if Path(log_file).exists():
            with open(log_file, "r", encoding="utf-8") as f:
                for line in f:
                    try:
                        entry = json.loads(line)
                        if entry["status"] in ["INCOMPLETE", "ERROR"]:
                            files_to_retry.add(entry["file"])
                    except:
                        continue
    return list(files_to_retry)

# Lấy file chưa xử lý hoặc cần retry
def get_unprocessed_json_files():
    json_files = set(Path(INPUT_FOLDER).glob("*.json"))
    output_files = set(Path(OUTPUT_FOLDER).glob("*.json"))
    complete_files = set()
    if Path(COMPLETE_LOG).exists():
        with open(COMPLETE_LOG, "r", encoding="utf-8") as f:
            for line in f:
                try:
                    entry = json.loads(line)
                    if entry["status"] == "COMPLETE":
                        complete_files.add(entry["file"])
                except:
                    continue

    # File chưa xử lý: có trong folder_1_step1_good nhưng không có trong folder_1_step2_final
    unprocessed = [f for f in json_files if f.name not in output_files]
    
    # File cần retry: INCOMPLETE hoặc ERROR từ log xử lý
    retry_files = get_files_to_retry()
    retry_paths = [Path(INPUT_FOLDER) / f for f in retry_files if (Path(INPUT_FOLDER) / f).exists() and f not in complete_files]
    
    # Kết hợp và loại bỏ file đã hoàn thiện
    all_to_process = list(set(unprocessed + retry_paths))
    all_to_process = [f for f in all_to_process if f.name not in complete_files]
    
    # Ghi log tóm tắt
    write_log(f"📂 Tổng file input tốt ({INPUT_FOLDER}): {len(json_files)}")
    write_log(f"📂 File đã có trong {OUTPUT_FOLDER}: {len(output_files)}")
    write_log(f"📂 File hoàn thiện theo {COMPLETE_LOG}: {len(complete_files)}")
    write_log(f"⚠️ File chưa xử lý: {len(unprocessed)}")
    if unprocessed:
        display_unprocessed = [f.name for f in unprocessed][:10]
        if len(unprocessed) > 10:
            display_unprocessed.append("... (và thêm)")
        write_log(f"   - Danh sách file chưa xử lý: {', '.join(display_unprocessed)}")
    write_log(f"⚠️ File cần retry (INCOMPLETE/ERROR): {len(retry_paths)}")
    if retry_paths:
        display_retry = [f.name for f in retry_paths][:10]
        if len(retry_paths) > 10:
            display_retry.append("... (và thêm)")
        write_log(f"   - Danh sách file retry: {', '.join(display_retry)}")

    return all_to_process

# Xử lý một file JSON
def process_json_file(json_file: Path, api_keys_cycle: cycle):
    print(f"\n📝 Đang xử lý: {json_file.name}")
    file_content = read_json_file(json_file)
    if not file_content:
        return

    success = False
    active_keys = [key for key in API_KEYS if key not in disabled_api_keys]
    if len(active_keys) == 0:
        write_log(f"❌ Không còn API key hoạt động nào, dừng xử lý {json_file.name}")
        return

    for api_key in cycle(active_keys):
        if len([k for k in API_KEYS if k not in disabled_api_keys]) < NUM_THREADS:
            write_log(f"❌ Số API key hoạt động dưới {NUM_THREADS}, dừng xử lý {json_file.name}")
            break

        result = ask_gemini_from_text(file_content, INSTRUCTION, api_key)
        if isinstance(result, tuple):
            response, error_type = result
            log_error(json_file.name, api_key, response, error_type)
            write_log(f"⚠️ Lỗi với key {api_key[:8]}... cho {json_file.name}: {response}")
            time.sleep(2)
        else:
            if save_output(json_file, result, api_key):
                success = True
                break

    if not success:
        write_log(f"❌ Bỏ qua {json_file.name} sau khi thử tất cả key hoạt động.")
    file_content = None

# Chia file cho các thread
def assign_jsons_to_threads(json_files, num_threads):
    assigned = [[] for _ in range(num_threads)]
    for idx, json_file in enumerate(json_files):
        assigned[idx % num_threads].append(json_file)
    return assigned

# Xử lý song song
def process_all_jsons_concurrently(max_workers=NUM_THREADS):
    json_files = get_unprocessed_json_files()
    if not json_files:
        write_log(f"📂 Không có file JSON nào chưa xử lý hoặc cần retry trong thư mục {INPUT_FOLDER}.")
        return

    write_log(f"🚀 Tổng số file cần xử lý: {len(json_files)}")
    print(f"🚀 Tổng số file cần xử lý: {len(json_files)}")

    start_time = time.time()
    thread_json_lists = assign_jsons_to_threads(json_files, max_workers)

    with ThreadPoolExecutor(max_workers=max_workers) as executor:
        futures = []
        for i in range(max_workers):
            json_list = thread_json_lists[i]
            api_keys_cycle = cycle(api_key_groups[i])
            for json_file in json_list:
                futures.append(executor.submit(process_json_file, json_file, api_keys_cycle))

        for future in as_completed(futures):
            _ = future.result()

    elapsed_time = time.time() - start_time
    write_log(f"⏱️ Xong! Tổng thời gian: {elapsed_time:.2f} giây")
    print(f"⏱️ Xong! Tổng thời gian: {elapsed_time:.2f} giây")

# Chạy chương trình
if __name__ == "__main__":
    process_all_jsons_concurrently(max_workers=NUM_THREADS)

Tổng số API keys: 9
Key 1: AIzaSyDurEPeaKYb1F9rCcF1rOY2-Et3VtPIJLg
Key 2: AIzaSyDYjG9Z_fj4zttInrUm3wk7f7aKawpm3qE
Key 3: AIzaSyDV9f9gyCt1-pbU-AX3HaYZrxMA417-Se4
Key 4: AIzaSyDQClTO07TsamAs2vXuk_-s0EjX8GTEwvU
Key 5: AIzaSyBO_S3_xvW4NmTU93Wsp9pnBVKNXe12O0A
Key 6: AIzaSyAZnDLm3tcEfilmvdJVZCNMol_8ezR3Nj4
Key 7: AIzaSyAt4K0VMxBmE80qWnyV_wAuSV5P5B4Rdq8
Key 8: AIzaSyBk-Z6rGVq0bxqP_F_GgjFK1deMeqmVYco
Key 9: AIzaSyBnjpOb7nJWOtQ_6m7031gm9vr8shIy-SQ
9 API keys được tìm thấy.
🚀 Tổng số file cần xử lý: 4

📝 Đang xử lý: 000000014459666_EN_The_Consolidated_financial_statements_for_the_fourth_quarter_of_2024.json

📝 Đang xử lý: 000000014459180_EN_SeperateFinancialStatements_Q4_2024KS.json

📝 Đang xử lý: 000000014459316_BCTC_Quy_4.2024__Cong_ty_Me.json

📝 Đang xử lý: 000000014459170_EN__SeparateFinancialStatements_Q4_2024.json
📄 Đã đọc content từ: 000000014459180_EN_SeperateFinancialStatements_Q4_2024KS.json
📄 Đã đọc content từ: 000000014459170_EN__SeparateFinancialStatements_Q4_2024.json
📄 Đã đọc cont

### Kiểm tra và lọc ra file tốt từ bước 2

In [9]:
import os
import json
import re
from pathlib import Path
from datetime import datetime
import time

# Cấu hình thư mục và file log
INPUT_FOLDER = "folder_2.5_step2"
OUTPUT_FOLDER = "folder_2.5_step2_cleaned"
INPUT_GOOD_FOLDER = "folder_2.5_step1_good"
COMPLETE_LOG = "complete_log_step2.jsonl"
INCOMPLETE_LOG = "incomplete_log_step2.jsonl"
ERROR_LOG = "error_log_step2.jsonl"
SUMMARY_LOG = "summary_log_step2.txt"

# Tạo thư mục đầu ra nếu chưa có
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

# --- Logging ---
def write_summary_log(message, log_file=SUMMARY_LOG):
    with open(log_file, "a", encoding="utf-8") as f:
        timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        f.write(f"[{timestamp}] {message}\n")

def log_complete(filename, num_items):
    entry = {
        "file": filename,
        "status": "COMPLETE",
        "num_items": num_items,
        "time": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    }
    with open(COMPLETE_LOG, "a", encoding="utf-8") as f:
        f.write(json.dumps(entry, ensure_ascii=False) + "\n")
    write_summary_log(f"✅ Hoàn thiện file: {filename} (số item: {num_items})")

def log_incomplete(filename, content, reason):
    entry = {
        "file": filename,
        "status": "INCOMPLETE",
        "length": len(content) if isinstance(content, str) else 0,
        "reason": reason,
        "time": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    }
    with open(INCOMPLETE_LOG, "a", encoding="utf-8") as f:
        f.write(json.dumps(entry, ensure_ascii=False) + "\n")
    write_summary_log(f"⚠️ Chưa hoàn thiện file: {filename} (lý do: {reason})")

def log_error(filename, error_message):
    entry = {
        "file": filename,
        "status": "ERROR",
        "error": error_message,
        "time": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    }
    with open(ERROR_LOG, "a", encoding="utf-8") as f:
        f.write(json.dumps(entry, ensure_ascii=False) + "\n")
    write_summary_log(f"❌ Lỗi file: {filename} (lỗi: {error_message})")

# --- JSON Processing ---
def clean_output_field(output_text):
    """Loại bỏ dấu ngoặc kép bao quanh các cụm từ trong trường output."""
    def replace_quoted(match):
        quoted_text = match.group(1)
        if '"' not in quoted_text:
            return quoted_text
        return match.group(0)  # Giữ nguyên nếu có dấu ngoặc kép bên trong
    cleaned_text = re.sub(r'"([^"]*)"', replace_quoted, output_text)
    return cleaned_text

def parse_and_clean_dict_str(dict_str):
    """Parse thủ công dict_str để extract fields, clean output, rồi rebuild dùng json.dumps."""
    dict_str = dict_str.strip()

    # Extract instruction (giả định không có " bên trong)
    instr_match = re.search(r'"instruction"\s*:\s*"([^"]*)"', dict_str)
    if not instr_match:
        return None
    instruction = instr_match.group(1)

    # Extract input (giả định không có " bên trong)
    input_match = re.search(r'"input"\s*:\s*"([^"]*)"', dict_str)
    if not input_match:
        return None
    input_val = input_match.group(1)

    # Extract output: từ sau "output": " đến trước " cuối cùng trước }
    output_pos = dict_str.find('"output"')
    if output_pos == -1:
        return None

    colon_pos = dict_str.find(':', output_pos)
    value_start = dict_str.find('"', colon_pos)
    if value_start == -1:
        return None

    end_pos = dict_str.rfind('}')
    if end_pos == -1:
        return None

    value_end = dict_str.rfind('"', 0, end_pos)
    if value_end == -1 or value_end <= value_start:
        return None

    output_value = dict_str[value_start + 1 : value_end]

    # Clean output
    cleaned_output = clean_output_field(output_value)

    # Tạo dict Python
    data_dict = {
        "instruction": instruction,
        "input": input_val,
        "output": cleaned_output
    }

    # Rebuild thành chuỗi JSON
    try:
        new_dict_str = json.dumps(data_dict, ensure_ascii=False)
        return new_dict_str
    except Exception:
        return None

def extract_json_block(content):
    if "```json" in content and "```" not in content.split("```json")[1]:
        incomplete_content = content.split("```json")[1].strip()
        return incomplete_content, False, True, "Khối ```json``` không đóng"

    extracted = re.search(r"```json\s*(.*?)\s*```", content, re.DOTALL)
    if extracted:
        json_content = extracted.group(1).strip()
        dicts, is_complete = extract_complete_dicts(json_content)
        reason = "JSON bị ngắt giữa chừng trong khối ```json```" if not is_complete else None
        if dicts:
            return dicts, is_complete, True, reason
        return json_content, is_complete, True, reason
    return content, True, False, None

def extract_complete_dicts(raw_text):
    """Tách các dict hoàn chỉnh từ chuỗi text, và clean trước khi validate."""
    dicts = []
    stack = 0
    start = None

    for i, ch in enumerate(raw_text):
        if ch == "{":
            if stack == 0:
                start = i
            stack += 1
        elif ch == "}":
            stack -= 1
            if stack == 0 and start is not None:
                dict_str = raw_text[start:i+1]
                # Clean và rebuild
                cleaned_str = parse_and_clean_dict_str(dict_str)
                if cleaned_str:
                    try:
                        json.loads(cleaned_str)
                        dicts.append(cleaned_str)
                    except json.JSONDecodeError:
                        pass
                start = None
        elif stack < 0:
            break

    return dicts, stack == 0

def validate_json_lines(data):
    if not isinstance(data, list):
        return False, "Dữ liệu không phải danh sách JSON"
    for item in data:
        if not isinstance(item, dict) or not all(key in item for key in ["instruction", "input", "output"]):
            return False, "Object thiếu các trường instruction/input/output"
    return True, ""

def process_json_file(json_file: Path):
    print(f"\n📝 Đang xử lý: {json_file.name}")
    try:
        with open(json_file, "r", encoding="utf-8") as f:
            raw_content = f.read().strip()
    except Exception as e:
        log_error(json_file.name, f"Lỗi đọc file: {str(e)}")
        return "error"

    content, is_complete, in_json_block, ngat_reason = extract_json_block(raw_content)
    if ngat_reason:
        log_incomplete(json_file.name, raw_content, ngat_reason)
        output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(raw_content)
        return "incomplete"

    if isinstance(content, list):
        json_str = "[" + ",".join(content) + "]"
        try:
            data = json.loads(json_str)
            is_valid, reason = validate_json_lines(data)
            if not is_valid:
                log_incomplete(json_file.name, json_str, f"Cấu trúc JSON Lines không hợp lệ: {reason}")
                output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
                with open(output_path, "w", encoding="utf-8") as f:
                    f.write(json_str)
                return "incomplete"
            output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
            with open(output_path, "w", encoding="utf-8") as f:
                json.dump(data, f, indent=2, ensure_ascii=False)
            log_complete(json_file.name, len(data))
            if not is_complete and ngat_reason:
                log_incomplete(json_file.name, raw_content, ngat_reason)
            return "complete"
        except json.JSONDecodeError as e:
            log_incomplete(json_file.name, json_str, f"Lỗi parse các dict trong khối ```json```: {str(e)}")
            output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
            with open(output_path, "w", encoding="utf-8") as f:
                f.write(json_str)
            return "incomplete"

    content = content.replace('<br>', '\n')

    try:
        data = json.loads(content)
        if isinstance(data, list):
            is_valid, reason = validate_json_lines(data)
            if not is_valid:
                log_incomplete(json_file.name, content, f"Cấu trúc JSON Lines không hợp lệ: {reason}")
                output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
                with open(output_path, "w", encoding="utf-8") as f:
                    f.write(content)
                return "incomplete"
            output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
            with open(output_path, "w", encoding="utf-8") as f:
                json.dump(data, f, indent=2, ensure_ascii=False)
            log_complete(json_file.name, len(data))
            return "complete"
        else:
            data = [data]
            is_valid, reason = validate_json_lines(data)
            if not is_valid:
                log_incomplete(json_file.name, content, f"Cấu trúc JSON Lines không hợp lệ: {reason}")
                output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
                with open(output_path, "w", encoding="utf-8") as f:
                    f.write(content)
                return "incomplete"
            output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
            with open(output_path, "w", encoding="utf-8") as f:
                json.dump(data, f, indent=2, ensure_ascii=False)
            log_complete(json_file.name, len(data))
            return "complete"
    except json.JSONDecodeError:
        pass

    dicts, is_complete = extract_complete_dicts(content)
    if dicts:
        json_str = "[" + ",".join(dicts) + "]"
        try:
            data = json.loads(json_str)
            is_valid, reason = validate_json_lines(data)
            if not is_valid:
                log_incomplete(json_file.name, json_str, f"Cấu trúc JSON Lines không hợp lệ: {reason}")
                output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
                with open(output_path, "w", encoding="utf-8") as f:
                    f.write(json_str)
                return "incomplete"
            output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
            with open(output_path, "w", encoding="utf-8") as f:
                json.dump(data, f, indent=2, ensure_ascii=False)
            log_complete(json_file.name, len(data))
            if not is_complete:
                log_incomplete(json_file.name, content, "JSON bị ngắt giữa chừng")
            return "complete"
        except json.JSONDecodeError as e:
            log_incomplete(json_file.name, content, f"Lỗi parse các dict: {str(e)}")
            output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
            with open(output_path, "w", encoding="utf-8") as f:
                f.write(content)
            return "incomplete"

    log_error(json_file.name, "Không tìm thấy JSON hoặc dict hợp lệ")
    output_path = os.path.join(OUTPUT_FOLDER, json_file.name)
    with open(output_path, "w", encoding="utf-8") as f:
        f.write(content)
    return "error"

def compare_with_good_folder():
    good_files = {f.name for f in Path(INPUT_GOOD_FOLDER).glob("*.json")}
    step2_files = {f.name for f in Path(INPUT_FOLDER).glob("*.json")}

    processed = list(step2_files)
    not_processed = list(good_files - step2_files)

    write_summary_log(f"🌟 Tổng số file input tốt (folder_1_step1_good): {len(good_files)}")
    write_summary_log(f"📂 Số file đã xử lý (có trong {INPUT_FOLDER}): {len(processed)}")
    if processed:
        display_processed = processed if len(processed) <= 10 else processed[:10] + ["... (và thêm)"]
        write_summary_log(f"   - Danh sách file đã xử lý: {', '.join(display_processed)}")
    write_summary_log(f"⚠️ Số file chưa xử lý: {len(not_processed)}")
    if not_processed:
        display_not = not_processed if len(not_processed) <= 10 else not_processed[:10] + ["... (và thêm)"]
        write_summary_log(f"   - Danh sách file chưa xử lý: {', '.join(display_not)}")

    return len(processed), len(not_processed)

def summarize_results(num_files, num_complete, num_incomplete, num_error):
    write_summary_log(f"📊 Tóm tắt xử lý trong {INPUT_FOLDER}:")
    write_summary_log(f"   - Tổng file: {num_files}")
    write_summary_log(f"   - Hoàn thiện: {num_complete}")
    write_summary_log(f"   - Chưa hoàn thiện: {num_incomplete}")
    write_summary_log(f"   - Lỗi: {num_error}")

def process_all_files():
    num_processed, num_not_processed = compare_with_good_folder()

    files = list(Path(INPUT_FOLDER).glob("*.json"))
    if not files:
        write_summary_log("📂 Không có file JSON nào trong thư mục.")
        return

    write_summary_log(f"🚀 Bắt đầu xử lý {len(files)} file")

    start = time.time()
    num_complete = 0
    num_incomplete = 0
    num_error = 0

    for json_file in files:
        status = process_json_file(json_file)
        if status == "complete":
            num_complete += 1
        elif status == "incomplete":
            num_incomplete += 1
        elif status == "error":
            num_error += 1

    summarize_results(len(files), num_complete, num_incomplete, num_error)

    write_summary_log(f"⏱️ Hoàn tất sau {time.time() - start:.2f} giây")

# --- Run ---
if __name__ == "__main__":
    process_all_files()


📝 Đang xử lý: 000000014459170_EN__SeparateFinancialStatements_Q4_2024.json

📝 Đang xử lý: 000000014459180_EN_SeperateFinancialStatements_Q4_2024KS.json

📝 Đang xử lý: 000000014459316_BCTC_Quy_4.2024__Cong_ty_Me.json

📝 Đang xử lý: 000000014459666_EN_The_Consolidated_financial_statements_for_the_fourth_quarter_of_2024.json


### Code merge để tạo instruction data cuối cùng

In [10]:
import os
import json
import shutil
from pathlib import Path
from datetime import datetime

# Cấu hình thư mục
STEP1_FOLDER = "folder_2.5_step1_good"
STEP2_FOLDER = "folder_2.5_step2_cleaned"
OUTPUT_FOLDER = "instruction_data_2.5_final"
ERROR_FOLDER = "instruction_data_2.5_error"
COMPLETE_LOG = "complete_log_step2.jsonl"
LOG_FILE = "instruction_data_log.jsonl"

# Tạo thư mục đầu ra nếu chưa có
os.makedirs(OUTPUT_FOLDER, exist_ok=True)

# Hàm ghi và in log
def write_and_print_log(entry, log_file=LOG_FILE):
    entry["timestamp"] = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
    log_str = json.dumps(entry, ensure_ascii=False)
    print(f"[LOG] {log_str}")
    with open(log_file, "a", encoding="utf-8") as f:
        f.write(log_str + "\n")

# Hàm lấy danh sách file hoàn thiện từ complete_log_step2.jsonl
def get_complete_files():
    complete_files = set()
    if not os.path.exists(COMPLETE_LOG):
        write_and_print_log({
            "file": None,
            "status": "ERROR",
            "reason": f"Không tìm thấy file log {COMPLETE_LOG}"
        })
        return complete_files
    try:
        with open(COMPLETE_LOG, "r", encoding="utf-8") as f:
            for line in f:
                entry = json.loads(line.strip())
                if entry.get("status") == "COMPLETE":
                    complete_files.add(entry["file"])
    except Exception as e:
        write_and_print_log({
            "file": None,
            "status": "ERROR",
            "reason": f"Lỗi đọc file log {COMPLETE_LOG}: {str(e)}"
        })
    return complete_files

# Hàm xử lý một file từ step1 và step2
def process_files(step1_path: Path, step2_path: Path):
    filename = step1_path.stem
    try:
        # Load data từ step1
        with open(step1_path, "r", encoding="utf-8") as f:
            step1_data = json.load(f)
        if not isinstance(step1_data, list):
            raise ValueError("Step1 data không phải danh sách")

        # Load data từ step2
        with open(step2_path, "r", encoding="utf-8") as f:
            step2_data = json.load(f)
        if not isinstance(step2_data, list):
            raise ValueError("Step2 data không phải danh sách")

        # Tạo dictionary answers theo chunk_id
        answers_by_chunk = {}
        for item in step2_data:
            chunk_id = str(item.get("input"))  # Đảm bảo là string
            instruction = item.get("instruction")
            output = item.get("output")
            if chunk_id not in answers_by_chunk:
                answers_by_chunk[chunk_id] = []
            answers_by_chunk[chunk_id].append({"instruction": instruction, "output": output})

        # Xử lý từng chunk trong step1
        output_data = []
        for chunk in step1_data:
            chunk_id = str(chunk.get("chunk_id"))  # Đảm bảo là string
            content = chunk.get("content")
            questions = chunk.get("questions", [])

            if not questions:
                write_and_print_log({
                    "file": filename,
                    "chunk_id": chunk_id,
                    "status": "ERROR",
                    "reason": "Không có questions trong chunk"
                })
                continue

            # Thu thập danh sách instruction (questions) và difficulty
            instr_list = [q["question"] for q in questions]
            diff_list = [q["difficulty"] for q in questions]

            # Lấy answers từ step2
            chunk_answers = answers_by_chunk.get(chunk_id, [])
            out_list = []
            unmatched = []
            for ans_item in chunk_answers:
                if ans_item["instruction"] in instr_list:
                    idx = instr_list.index(ans_item["instruction"])
                    out_list.append((idx, ans_item["output"]))
                else:
                    unmatched.append(ans_item["instruction"])

            if unmatched:
                write_and_print_log({
                    "file": filename,
                    "chunk_id": chunk_id,
                    "status": "WARNING",
                    "reason": f"Các instruction không khớp: {unmatched}"
                })

            # Sắp xếp out_list theo thứ tự questions
            out_list.sort(key=lambda x: x[0])
            out_list = [o[1] for o in out_list]

            # Kiểm tra số lượng
            if len(instr_list) != len(out_list):
                write_and_print_log({
                    "file": filename,
                    "chunk_id": chunk_id,
                    "status": "ERROR",
                    "reason": f"Số lượng questions ({len(instr_list)}) không khớp với outputs ({len(out_list)})"
                })
                continue

            # Tạo object mới
            new_item = {
                "instruction": instr_list,
                "input": content,
                "output": out_list,
                "difficulty": diff_list
            }
            output_data.append(new_item)

        if not output_data:
            write_and_print_log({
                "file": f"{filename}.json",
                "status": "ERROR",
                "reason": "Không có chunk nào hợp lệ"
            })
            return

        # Lưu output
        output_path = os.path.join(OUTPUT_FOLDER, f"{filename}.json")
        with open(output_path, "w", encoding="utf-8") as f:
            json.dump(output_data, f, indent=2, ensure_ascii=False)
        write_and_print_log({
            "file": f"{filename}.json",
            "status": "SUCCESS",
            "num_chunks": len(output_data)
        })

    except Exception as e:
        write_and_print_log({
            "file": f"{filename}.json",
            "status": "ERROR",
            "reason": str(e)
        })

# Hàm xử lý toàn bộ
def process_all_files():
    # Lấy danh sách file hoàn thiện từ complete_log_step2.jsonl
    complete_files = get_complete_files()
    if not complete_files:
        write_and_print_log({
            "file": None,
            "status": "INFO",
            "reason": "Không có file nào hoàn thiện trong complete_log_step2.jsonl"
        })
        return

    # Chỉ lấy các file trong STEP1_FOLDER và STEP2_FOLDER có tên trong complete_files
    step1_files = {f.stem: f for f in Path(STEP1_FOLDER).glob("*.json") if f.name in complete_files}
    step2_files = {f.stem: f for f in Path(STEP2_FOLDER).glob("*.json") if f.name in complete_files}

    # Tìm các file chung
    common_stems = set(step1_files.keys()) & set(step2_files.keys())
    if not common_stems:
        write_and_print_log({
            "file": None,
            "status": "INFO",
            "reason": "Không có file chung giữa step1 và step2 (trong danh sách complete)"
        })
        return

    write_and_print_log({
        "file": None,
        "status": "INFO",
        "reason": f"Tìm thấy {len(common_stems)} file chung để xử lý: {', '.join(sorted(common_stems))}"
    })

    # Xử lý các file
    for stem in common_stems:
        process_files(step1_files[stem], step2_files[stem])

    # Log các file trong step2 không có trong step1
    missing_step1 = set(step2_files.keys()) - set(step1_files.keys())
    for stem in missing_step1:
        write_and_print_log({
            "file": f"{stem}.json",
            "status": "ERROR",
            "reason": "Không tìm thấy file tương ứng trong step1"
        })

    # Kiểm tra và xử lý file lỗi
    error_files = set()
    if os.path.exists(LOG_FILE):
        try:
            with open(LOG_FILE, "r", encoding="utf-8") as f:
                for line in f:
                    entry = json.loads(line.strip())
                    if entry.get("status") == "ERROR" and entry.get("file"):
                        file_name = entry["file"]
                        # Chuẩn hóa tên file
                        if not file_name.endswith(".json"):
                            file_name = f"{file_name}.json"
                        # Kiểm tra file tồn tại trong OUTPUT_FOLDER
                        file_path = os.path.join(OUTPUT_FOLDER, file_name)
                        if os.path.exists(file_path):
                            error_files.add(file_name)
                        else:
                            write_and_print_log({
                                "file": file_name,
                                "status": "INFO",
                                "reason": f"File lỗi không tồn tại trong {OUTPUT_FOLDER}, bỏ qua copy/xóa"
                            })
        except Exception as e:
            write_and_print_log({
                "file": None,
                "status": "ERROR",
                "reason": f"Lỗi đọc file log {LOG_FILE}: {str(e)}"
            })

    if error_files:
        print("\n📛 Các file có lỗi trong quá trình xử lý:")
        for error_file in sorted(error_files):
            print(f"  - {error_file}")
        print(f"\nTổng số file lỗi: {len(error_files)}")

        # Hỏi người dùng về việc copy file lỗi
        # response = input("\n❓ Có muốn copy các file lỗi sang thư mục 'instruction_data_error' không? (y/n): ").strip().lower()
        response = 'y'
        if response == 'y':
            os.makedirs(ERROR_FOLDER, exist_ok=True)
            for error_file in error_files:
                src_path = os.path.join(OUTPUT_FOLDER, error_file)
                dst_path = os.path.join(ERROR_FOLDER, error_file)
                try:
                    shutil.copy2(src_path, dst_path)
                    write_and_print_log({
                        "file": error_file,
                        "status": "INFO",
                        "reason": f"Đã copy file lỗi sang {ERROR_FOLDER}"
                    })
                except Exception as e:
                    write_and_print_log({
                        "file": error_file,
                        "status": "ERROR",
                        "reason": f"Lỗi khi copy file sang {ERROR_FOLDER}: {str(e)}"
                    })

            # Hỏi người dùng về việc xóa file lỗi
            # response = input("\n❓ Có muốn xóa các file lỗi trong thư mục đích ('instruction_data_final') không? (y/n): ").strip().lower()
            response = 'y'
            if response == 'y':
                for error_file in error_files:
                    file_path = os.path.join(OUTPUT_FOLDER, error_file)
                    try:
                        os.remove(file_path)
                        write_and_print_log({
                            "file": error_file,
                            "status": "INFO",
                            "reason": f"Đã xóa file lỗi khỏi {OUTPUT_FOLDER}"
                        })
                    except Exception as e:
                        write_and_print_log({
                            "file": error_file,
                            "status": "ERROR",
                            "reason": f"Lỗi khi xóa file trong {OUTPUT_FOLDER}: {str(e)}"
                        })

# Chạy chương trình
if __name__ == "__main__":
    process_all_files()

[LOG] {"file": null, "status": "INFO", "reason": "Tìm thấy 4 file chung để xử lý: 000000014459170_EN__SeparateFinancialStatements_Q4_2024, 000000014459180_EN_SeperateFinancialStatements_Q4_2024KS, 000000014459316_BCTC_Quy_4.2024__Cong_ty_Me, 000000014459666_EN_The_Consolidated_financial_statements_for_the_fourth_quarter_of_2024", "timestamp": "2025-09-09 01:15:24"}
[LOG] {"file": "000000014459180_EN_SeperateFinancialStatements_Q4_2024KS.json", "status": "SUCCESS", "num_chunks": 20, "timestamp": "2025-09-09 01:15:24"}
[LOG] {"file": "000000014459666_EN_The_Consolidated_financial_statements_for_the_fourth_quarter_of_2024.json", "status": "SUCCESS", "num_chunks": 25, "timestamp": "2025-09-09 01:15:24"}
[LOG] {"file": "000000014459316_BCTC_Quy_4.2024__Cong_ty_Me.json", "status": "SUCCESS", "num_chunks": 24, "timestamp": "2025-09-09 01:15:24"}
[LOG] {"file": "000000014459170_EN__SeparateFinancialStatements_Q4_2024.json", "status": "SUCCESS", "num_chunks": 22, "timestamp": "2025-09-09 01:15: