<a href="https://colab.research.google.com/github/tradetolive/qlq4/blob/main/PDFtoDOCX.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# -*- coding: utf-8 -*-
#@title I. Chuyển đổi PDF sang DOCX từ Google Drive
#@markdown ## 1. Cài đặt Môi trường
#@markdown - Nhấn nút ▶️ để cài đặt **tất cả** các thư viện và phụ trợ cần thiết cho mọi chế độ OCR.
#@markdown -Quá trình này có thể mất vài phút. Sau khi cài đặt môi trường xong tiến hành nhập các thông tin ở bước dưới. *(Chỉ cần chạy lần đầu hoặc khi môi trường Colab bị reset)*
import subprocess
import sys
from IPython.display import clear_output

def install_package(package_name):
    try:
        subprocess.check_call([sys.executable, "-m", "pip", "install",
                             "--quiet", "--no-cache-dir", package_name])
        return True
    except:
        return False

def install_system_package(package_name):
    try:
        subprocess.check_call(["apt-get", "install", "-y", "-qq", package_name])
        return True
    except:
        return False

print("🔄 Đang cài đặt môi trường... Vui lòng đợi...")

# 1. Cập nhật package manager một cách an toàn
try:
    subprocess.check_call(["apt-get", "update", "-qq"], stderr=subprocess.DEVNULL)
except:
    print("⚠️ Không thể cập nhật package manager, nhưng vẫn tiếp tục...")

# 2. Cài đặt các thư viện Python cơ bản
python_packages = ["PyDrive2", "pdf2docx", "python-docx", "ocrmypdf",
                  "google-generativeai", "pdf2image"]

print("\n📦 Đang cài đặt các thư viện Python...")
for package in python_packages:
    if install_package(package):
        print(f"✅ Đã cài đặt {package}")
    else:
        print(f"❌ Không thể cài đặt {package}")

# 3. Cài đặt các gói hệ thống cần thiết
system_packages = ["ghostscript", "tesseract-ocr", "tesseract-ocr-vie",
                  "poppler-utils"]

print("\n🔧 Đang cài đặt các gói hệ thống...")
for package in system_packages:
    if install_system_package(package):
        print(f"✅ Đã cài đặt {package}")
    else:
        print(f"❌ Không thể cài đặt {package}")

# 4. Kiểm tra cài đặt
print("\n🔍 Đang kiểm tra cài đặt...")

def check_imports():
    try:
        import PyDrive2
        import pdf2docx
        import docx
        import ocrmypdf
        import google.generativeai
        import pdf2image
        return True
    except ImportError as e:
        print(f"❌ Lỗi import: {str(e)}")
        return False

if check_imports():
    print("\n✨ Tất cả thư viện đã được cài đặt thành công!")
    print("\n🎉 Môi trường đã sẵn sàng! Bạn có thể tiếp tục với các bước tiếp theo.")
else:
    print("\n⚠️ Có một số thư viện chưa được cài đặt đúng cách.")
    print("Vui lòng chạy lại cell này hoặc liên hệ để được hỗ trợ.")

# Xóa các biến tạm và làm sạch output
clear_output(wait=True)
print("✅ Cài đặt môi trường hoàn tất!")

✅ Cài đặt môi trường hoàn tất!


In [None]:
#@title II. Nhập thông tin để chuyển đổi PDF sang DOCX hàng loạt từ Google Drive
#@markdown ## 2. Nhập Thông tin và Tùy chọn:
#@markdown ---
#@markdown **ID Thư mục Google Drive:** Nhập ID của thư mục chứa các tệp PDF.
#@markdown * **Cách lấy ID:** Mở thư mục đó trên Google Drive. ID là chuỗi ký tự sau `/folders/` trên thanh địa chỉ.
#@markdown * **Ví dụ:** Nếu URL là `https://drive.google.com/drive/folders/1aBcDeFghIJkLmNoPqRsTuVwXyZ_12345`, thì ID là `1aBcDeFghIJkLmNoPqRsTuVwXyZ_12345`.
#@markdown * **Lưu ý:**  Thư mục Google Drive cần phải mở quyền chỉnh sửa với bất kỳ ai có liên kết này
folder_id_input = "1bchEPQHgT4_0Cz4RuTHwvF2eM_I9M8HU" #@param {type:"string"}

#@markdown **Chọn OCR Engine:**
#@markdown - `tesseract`: Sử dụng Tesseract qua `ocrmypdf` (giữ layout tốt hơn).
#@markdown - `gemini`: Sử dụng Gemini API (OCR có thể chính xác hơn, **mất layout gốc**).
#@markdown - `none`: Chuyển đổi trực tiếp (PDF không phải là file scan) khả năng giữ layout tốt nhất.
ocr_engine = "tesseract" #@param ["tesseract", "gemini", "none"]

#@markdown ---
#@markdown ### Tùy chọn cho Tesseract Engine (`ocr_engine = 'tesseract'`)
#@markdown **Ngôn ngữ OCR (Tesseract):** Mã ngôn ngữ (vd: `vie`, `eng`, `vie+eng`). *Chỉ cần điền nếu chọn engine 'tesseract'.*
tesseract_language = "vie+eng" #@param {type:"string"}
#@markdown **Chế độ OCR (Tesseract):** `force_ocr` (luôn OCR) hoặc `skip_text` (chỉ OCR ảnh). *Chỉ cần điền nếu chọn engine 'tesseract'.*
tesseract_mode = "force_ocr" #@param ["force_ocr", "skip_text"]

#@markdown ---
#@markdown ### Tùy chọn cho Gemini Engine (`ocr_engine = 'gemini'`)
#@markdown **Gemini API Key:** Nhập Key API của bạn. Lấy từ Google AI Studio / Google Cloud tại: https://aistudio.google.com
#@markdown * **Hướng dẫn** lấy API Key tại:  https://ai.google.dev/gemini-api/docs/api-key?hl=vi
#@markdown * **Lưu ý:** Nhập API Key vào ô phải có cả ký tự " "
gemini_api_key_input = "AIzaSyD1T-jZjZ5y82mkp2kLUUmfVByo9GW4E7M" #@param {type:"password"}

#@markdown ---
#@markdown ## 3. Chạy Tiến trình Chuyển đổi:
#@markdown Nhấn nút ▶️ để bắt đầu. Script sẽ yêu cầu quyền truy cập Google Drive.

# --- Phần mã nguồn chính ---

import os
import time
import shutil
import subprocess
import google.generativeai as genai
from pdf2image import convert_from_path, pdfinfo_from_path
from pdf2docx import Converter
from pydrive2.auth import GoogleAuth
from pydrive2.drive import GoogleDrive
from google.colab import auth, output
from oauth2client.client import GoogleCredentials
from docx import Document
from PIL import Image
import io
import google.api_core.exceptions

# --- Các hàm phụ trợ cho từng engine ---
# (Giữ nguyên các hàm _check_dependencies, _configure_gemini,
# _process_tesseract, _process_gemini, _process_none như v6.0)
def _check_dependencies(engine_choice):
    """Kiểm tra các phụ thuộc cần thiết dựa trên engine được chọn."""
    if engine_choice == 'tesseract':
         try:
             subprocess.run(['ocrmypdf', '--version'], check=True, capture_output=True, text=True, timeout=10)
             subprocess.run(['gs', '--version'], check=True, capture_output=True, text=True, timeout=10)
             subprocess.run(['tesseract', '--version'], check=True, capture_output=True, text=True, timeout=10)
             return True
         except (FileNotFoundError, subprocess.CalledProcessError, subprocess.TimeoutExpired) as dep_err:
             print(f"\n❌ LỖI THIẾU PHỤ TRỢ cho Tesseract: {dep_err}")
             print("   Vui lòng chạy lại ô '1. Cài đặt Môi trường'.")
             return False
    elif engine_choice == 'gemini':
        try:
            import google.generativeai
            import pdf2image
            subprocess.run(['pdftoppm', '-v'], check=True, capture_output=True, text=True, timeout=10)
            return True
        except (ImportError, FileNotFoundError, subprocess.CalledProcessError, subprocess.TimeoutExpired) as dep_err:
            print(f"\n❌ LỖI THIẾU PHỤ TRỢ cho Gemini/PDF-Ảnh: {dep_err}")
            print("   Vui lòng chạy lại ô '1. Cài đặt Môi trường'.")
            return False
    return True

def _configure_gemini(api_key):
    """Cấu hình và trả về model Gemini."""
    try:
        genai.configure(api_key=api_key)
        model = genai.GenerativeModel('gemini-1.5-flash-latest')
        # Test nhỏ để đảm bảo key hoạt động (có thể bỏ nếu muốn nhanh hơn)
        # model.generate_content("Hi", generation_config=genai.types.GenerationConfig(max_output_tokens=5))
        print("   ✅ Cấu hình Gemini API thành công.")
        return model
    except Exception as e:
        print(f"\n   ❌ LỖI CẤU HÌNH GEMINI API: {e}. Kiểm tra lại API Key và quyền truy cập.")
        return None

def _process_tesseract(temp_pdf_path, temp_ocred_pdf_path, temp_docx_path, lang, mode):
    """Thực hiện OCR bằng Tesseract và chuyển đổi sang DOCX."""
    print(f"      2. Đang thực hiện OCR Tesseract (ngôn ngữ: {lang}, chế độ: {mode})...")
    start_ocr_time = time.time()
    ocr_command = [
        'ocrmypdf', '--output-type', 'pdf', '-l', lang,
        '--skip-big', '50', '--optimize', '1'
    ]
    if mode == 'force_ocr':
        ocr_command.append('--force-ocr')
    elif mode == 'skip_text':
        ocr_command.append('--skip-text')
    ocr_command.extend([temp_pdf_path, temp_ocred_pdf_path])

    ocrmypdf_process = subprocess.run(ocr_command, capture_output=True, text=True, check=False)
    ocr_time = time.time() - start_ocr_time

    if ocrmypdf_process.returncode != 0:
        ocr_error_msg = f"ocrmypdf thất bại (mã lỗi {ocrmypdf_process.returncode}).\n"
        relevant_error = "N/A"
        if ocrmypdf_process.stderr:
            lines = ocrmypdf_process.stderr.strip().split('\n'); relevant_error = "\n".join(lines[-5:])
        if "Need language pack" in (ocrmypdf_process.stderr or ""): ocr_error_msg += f"   Gợi ý: Gói ngôn ngữ '{lang}' chưa cài đúng.\n"
        elif "No usable Ghostscript" in (ocrmypdf_process.stderr or ""): ocr_error_msg += "   Gợi ý: Lỗi Ghostscript.\n"
        ocr_error_msg += f"   Thông tin lỗi:\n---\n{relevant_error}\n---"
        raise RuntimeError(f"Lỗi OCR Tesseract: {ocr_error_msg}")

    if not os.path.exists(temp_ocred_pdf_path): raise FileNotFoundError(f"File OCRed PDF ({temp_ocred_pdf_path}) không được tạo.")
    print(f"         -> OCR Tesseract xong ({os.path.getsize(temp_ocred_pdf_path)/1024:.1f} KB) trong {ocr_time:.2f}s")
    pdf_to_convert = temp_ocred_pdf_path

    print(f"      3. Đang chuyển đổi PDF (đã OCR) sang DOCX...")
    start_convert_time = time.time()
    cv = None
    try:
        cv = Converter(pdf_to_convert); cv.convert(temp_docx_path, start=0, end=None)
    finally:
        if cv: cv.close()
    convert_time = time.time() - start_convert_time
    if not os.path.exists(temp_docx_path) or os.path.getsize(temp_docx_path) == 0: raise ValueError("DOCX trống hoặc không được tạo (Tesseract).")
    print(f"         -> Chuyển đổi DOCX xong ({os.path.getsize(temp_docx_path)/1024:.1f} KB) trong {convert_time:.2f}s")
    return temp_docx_path

def _process_gemini(temp_pdf_path, temp_docx_path, gemini_model, pdf_title_for_header=""):
    """Thực hiện OCR bằng Gemini API và tạo DOCX cơ bản."""
    print(f"      2. Đang chuyển đổi PDF sang ảnh...")
    start_pdf2img_time = time.time()
    images = []
    page_count = 'N/A'
    try:
        try: info = pdfinfo_from_path(temp_pdf_path); page_count = info.get('Pages', 0)
        except Exception: pass
        print(f"         -> PDF có {page_count} trang.")
        images = convert_from_path(temp_pdf_path, dpi=200)
    except Exception as pdf2img_err: raise RuntimeError(f"Lỗi khi chuyển PDF sang ảnh: {pdf2img_err}")
    if not images: raise ValueError("Không có trang ảnh nào được tạo.")
    pdf2img_time = time.time() - start_pdf2img_time
    print(f"         -> Chuyển đổi {len(images)} trang ảnh xong trong {pdf2img_time:.2f}s")

    print(f"      3. Đang thực hiện OCR bằng Gemini API...")
    prompt = "Trích xuất toàn bộ văn bản trong hình ảnh này theo đúng thứ tự đọc. Chỉ trả về nội dung văn bản."
    api_call_delay = 1
    start_ocr_time = time.time()
    all_pages_text = []
    generation_config = genai.types.GenerationConfig(max_output_tokens=8192)

    for i, page_image in enumerate(images):
        current_page_num = i + 1; print(f"         - Đang xử lý trang {current_page_num}/{len(images)}...")
        page_text = f"[Lỗi không xác định OCR trang {current_page_num}]"
        img_bytes = None
        try:
            with io.BytesIO() as img_byte_arr: page_image.save(img_byte_arr, format='PNG'); img_bytes = img_byte_arr.getvalue()
            request_content = [prompt, {'mime_type': 'image/png', 'data': img_bytes}]
            response = gemini_model.generate_content(request_content, generation_config=generation_config)
            if not response.parts:
                try: feedback=response.prompt_feedback; reason=feedback.block_reason; safety=feedback.safety_ratings
                except Exception: reason="N/A"; safety="N/A"
                msg = f"Bị chặn (Lý do: {reason}, Safety: {safety})"
                print(f"            -> ⚠️ {msg} cho trang {current_page_num}.")
                page_text = f"[OCR bị chặn/lỗi trang {current_page_num}: {msg}]"
            else:
                page_text = response.text; print(f"            -> Trang {current_page_num} OCR xong.")
        except google.api_core.exceptions.ResourceExhausted as rate_limit_err:
            msg=f"Lỗi API Gemini (Rate Limit) trang {current_page_num}: {rate_limit_err}"; print(f"            -> ❌ {msg}")
            page_text = f"[Lỗi Rate Limit API trang {current_page_num}]"; wait = api_call_delay * 5; print(f"            -> Chờ {wait} giây..."); time.sleep(wait)
        except Exception as api_err:
            msg=f"Lỗi API Gemini khác trang {current_page_num}: {api_err}"; print(f"            -> ❌ {msg}")
            page_text = f"[Lỗi API khác trang {current_page_num}: {api_err}]"; time.sleep(api_call_delay)
        finally: page_image.close(); img_bytes = None
        all_pages_text.append(page_text)
        if current_page_num < len(images): time.sleep(api_call_delay)
    ocr_time = time.time() - start_ocr_time; print(f"         -> OCR {len(images)} trang Gemini xong trong {ocr_time:.2f}s"); images.clear()

    print(f"      4. Đang tạo file DOCX (văn bản thô)...")
    start_docx_time = time.time()
    if not all_pages_text: raise ValueError("Không có text OCR (Gemini) để tạo DOCX.")
    document = Document(); document.add_paragraph(f"OCR bằng Gemini từ file: {pdf_title_for_header} ({page_count} trang) lúc {time.strftime('%Y-%m-%d %H:%M:%S')}")
    document.add_paragraph("--- Nội dung OCR (mất định dạng gốc) ---"); document.add_page_break()
    for i, text in enumerate(all_pages_text):
        document.add_paragraph(text if text else f"[Trang {i+1} trống / OCR rỗng]");
        if i < len(all_pages_text) - 1: document.add_page_break()
    document.save(temp_docx_path); docx_time = time.time() - start_docx_time
    if not os.path.exists(temp_docx_path) or os.path.getsize(temp_docx_path) == 0: raise ValueError("DOCX trống hoặc không tạo được (Gemini).")
    print(f"         -> Tạo DOCX xong ({os.path.getsize(temp_docx_path)/1024:.1f} KB) trong {docx_time:.2f}s")
    return temp_docx_path

def _process_none(temp_pdf_path, temp_docx_path):
    """Chuyển đổi trực tiếp PDF sang DOCX."""
    print(f"      2. Đang chuyển đổi trực tiếp PDF sang DOCX ...")
    start_convert_time = time.time(); cv = None
    try:
        cv = Converter(temp_pdf_path); cv.convert(temp_docx_path, start=0, end=None)
    except Exception as err:
        if "text is none" in str(err).lower(): raise ValueError(f"Lỗi pdf2docx: PDF gốc không chứa text? Thử 'tesseract' với 'force_ocr'. ({err})")
        else: raise err
    finally:
        if cv: cv.close()
    convert_time = time.time() - start_convert_time
    if not os.path.exists(temp_docx_path) or os.path.getsize(temp_docx_path) == 0: raise ValueError("DOCX trống. PDF gốc không có text đọc được?")
    print(f"         -> Chuyển đổi DOCX xong ({os.path.getsize(temp_docx_path)/1024:.1f} KB) trong {convert_time:.2f}s")
    return temp_docx_path

# --- Hàm chính Tổng hợp ---
def process_conversion_combined(folder_id_raw, engine_choice, tesseract_lang_raw, tesseract_mode_opt, gemini_key_raw):
    folder_id = folder_id_raw.strip()
    tesseract_lang = tesseract_lang_raw.strip()
    gemini_api_key = gemini_key_raw.strip() # Lấy key từ input form

    output.clear()
    print(f"--- BẮT ĐẦU TIẾN TRÌNH CHUYỂN ĐỔI PDF SANG DOCX (v6.1 - Engine: {engine_choice}) ---")
    print(f"Thời gian bắt đầu: {time.strftime('%Y-%m-%d %H:%M:%S')}")

    # ===== Bước 1: Kiểm tra Input & Phụ thuộc =====
    if not folder_id or folder_id == "YOUR_FOLDER_ID_HERE":
        print("\n❌ LỖI INPUT: Vui lòng điền ID thư mục Google Drive.")
        return
    # Chỉ kiểm tra các tham số phụ thuộc vào engine được chọn
    if engine_choice == 'tesseract':
        if not tesseract_lang:
            print("\n❌ LỖI INPUT: Vui lòng điền Ngôn ngữ OCR Tesseract khi chọn engine 'tesseract'.")
            return
    elif engine_choice == 'gemini':
        if not gemini_api_key or gemini_api_key == "YOUR_GEMINI_API_KEY_HERE":
            print("\n❌ LỖI INPUT: Vui lòng điền Gemini API Key hợp lệ khi chọn engine 'gemini'.")
            return
    # Kiểm tra phụ thuộc hệ thống/thư viện
    if not _check_dependencies(engine_choice):
        return

    # ===== Bước 2: Cấu hình & Xác thực =====
    gemini_model = None
    # Chỉ cấu hình Gemini nếu được chọn và key hợp lệ (đã kiểm tra ở trên)
    if engine_choice == 'gemini':
        print("\nBước 1a: Cấu hình Gemini API...")
        gemini_model = _configure_gemini(gemini_api_key)
        if not gemini_model: return # Dừng nếu cấu hình Gemini lỗi
    else:
        print("\nBước 1a: Bỏ qua cấu hình Gemini API (không được chọn).")

    print("\nBước 1b: Đang xác thực quyền truy cập Google Drive...")
    drive = None
    # (Code xác thực Drive giữ nguyên)
    try:
        auth.authenticate_user()
        gauth = GoogleAuth()
        gauth.credentials = GoogleCredentials.get_application_default()
        drive = GoogleDrive(gauth)
        user_info = drive.GetAbout()
        print(f"   ✅ Xác thực Drive thành công: {user_info['user']['emailAddress']}")
    except Exception as auth_error:
        print(f"\n   ❌ LỖI XÁC THỰC DRIVE: {auth_error}. Thử chạy lại và cấp quyền.")
        return


    # ===== Bước 3: Kiểm tra Thư mục Drive =====
    print(f"\nBước 2: Kiểm tra thư mục Drive ID: {folder_id}")
    # (Code kiểm tra thư mục giữ nguyên)
    folder_title = folder_id
    try:
        folder_metadata = drive.CreateFile({'id': folder_id})
        folder_metadata.FetchMetadata(fields='id, title, mimeType')
        if folder_metadata['mimeType'] != 'application/vnd.google-apps.folder':
             print(f"\n   ❌ LỖI ID THƯ MỤC: ID '{folder_id}' không phải thư mục.")
             return
        folder_title = folder_metadata.get('title', folder_id)
        print(f"   ✅ Đã tìm thấy thư mục: '{folder_title}' (ID: {folder_id})")
    except Exception as e:
        print(f"\n   ❌ LỖI TRUY CẬP THƯ MỤC: ID '{folder_id}'. Chi tiết: {e}")
        return


    # ===== Bước 4: Thực hiện chuyển đổi =====
    print(f"\nBước 3: Đang quét và chuyển đổi PDF trong '{folder_title}' bằng engine '{engine_choice}'...")
    # (Khởi tạo biến đếm, thời gian, thư mục tạm giữ nguyên)
    files_processed = 0
    files_converted = 0
    files_failed = 0
    files_skipped_existing = 0
    conversion_errors = []
    start_time_proc = time.time()
    temp_dir = f"/content/pdf_convert_temp_{engine_choice}_{int(start_time_proc)}"

    try:
        if os.path.exists(temp_dir): shutil.rmtree(temp_dir)
        os.makedirs(temp_dir, exist_ok=True)
        print(f"   ℹ️ Đã tạo thư mục tạm: {temp_dir}")

        query = f"'{folder_id}' in parents and mimeType='application/pdf' and trashed=false"
        print(f"   Đang tìm kiếm PDF với truy vấn: {query}")
        pdf_files = drive.ListFile({'q': query, 'maxResults': 1000, 'fields': 'items(id, title)'}).GetList()

        if not pdf_files:
            print("\n   ⚠️ Không tìm thấy tệp PDF nào.")
        else:
            total_files = len(pdf_files)
            print(f"\n   ✅ Tìm thấy {total_files} tệp PDF. Bắt đầu:")

            for index, pdf_file_drive in enumerate(pdf_files):
                # (Xử lý tên file, đường dẫn tạm giữ nguyên)
                files_processed += 1
                pdf_title = pdf_file_drive.get('title', f'unk_{index}.pdf')
                pdf_id = pdf_file_drive['id']
                print(f"\n   --- [{index + 1}/{total_files}] File: {pdf_title} (ID: {pdf_id}) ---")

                base_name = os.path.splitext(pdf_title)[0]
                docx_title = base_name + '.docx'
                timestamp_suffix = f"_{index}_{int(time.time()*1000)}"
                safe_pdf_title = "".join([c for c in base_name if c.isalnum() or c in (' ', '.', '_', '-')]).rstrip()
                temp_pdf_path = os.path.join(temp_dir, f"{safe_pdf_title}{timestamp_suffix}.pdf")
                temp_ocred_pdf_path = os.path.join(temp_dir, f"{safe_pdf_title}{timestamp_suffix}_ocr.pdf")
                temp_docx_path = os.path.join(temp_dir, f"{safe_pdf_title}{timestamp_suffix}.docx")

                pdf_file_gdrive_obj = None
                docx_drive_file = None
                created_docx_path = None

                try:
                    # 0. Kiểm tra file DOCX đích
                    # (Giữ nguyên)
                    print(f"      🔍 Kiểm tra DOCX đích '{docx_title}'...")
                    escaped_docx_title = docx_title.replace('"', '\\"')
                    docx_query = f"'{folder_id}' in parents and title=\"{escaped_docx_title}\" and mimeType='application/vnd.openxmlformats-officedocument.wordprocessingml.document' and trashed=false"
                    existing_docx = drive.ListFile({'q': docx_query, 'maxResults': 1, 'fields': 'items(id)'}).GetList()
                    if existing_docx:
                         print(f"      ⚠️ DOCX '{docx_title}' đã tồn tại. Bỏ qua.")
                         files_skipped_existing += 1
                         continue
                    print("      ✅ DOCX đích chưa tồn tại.")


                    # 1. Download PDF
                    # (Giữ nguyên)
                    print(f"      1. Đang tải PDF gốc...")
                    start_download_time = time.time()
                    pdf_file_gdrive_obj = drive.CreateFile({'id': pdf_id})
                    pdf_file_gdrive_obj.GetContentFile(temp_pdf_path)
                    download_time = time.time() - start_download_time
                    if not os.path.exists(temp_pdf_path): raise FileNotFoundError("Tải PDF thất bại.")
                    print(f"         -> Tải xong ({os.path.getsize(temp_pdf_path)/1024:.1f} KB) trong {download_time:.2f}s")


                    # 2. Xử lý theo engine đã chọn
                    if engine_choice == 'tesseract':
                        created_docx_path = _process_tesseract(temp_pdf_path, temp_ocred_pdf_path, temp_docx_path, tesseract_lang, tesseract_mode_opt)
                    elif engine_choice == 'gemini':
                        if not gemini_model: raise ValueError("Lỗi logic: Model Gemini không được cấu hình dù đã chọn engine Gemini.")
                        created_docx_path = _process_gemini(temp_pdf_path, temp_docx_path, gemini_model, pdf_title)
                    elif engine_choice == 'none':
                        created_docx_path = _process_none(temp_pdf_path, temp_docx_path)
                    else:
                        raise ValueError(f"OCR Engine không hợp lệ: {engine_choice}")

                    # 3. Upload DOCX nếu xử lý thành công
                    # (Giữ nguyên logic upload)
                    if created_docx_path and os.path.exists(created_docx_path):
                        print(f"      { '4' if engine_choice != 'none' else '3' }. Đang tải DOCX lên Drive...")
                        start_upload_time = time.time()
                        docx_drive_file = drive.CreateFile({
                             'title': docx_title, 'parents': [{'id': folder_id}],
                             'mimeType': 'application/vnd.openxmlformats-officedocument.wordprocessingml.document'
                        })
                        docx_drive_file.SetContentFile(created_docx_path)
                        docx_drive_file.Upload({'convert': False})
                        upload_time = time.time() - start_upload_time
                        uploaded_file_id = docx_drive_file.get('id')
                        if not uploaded_file_id: raise ConnectionError("Tải lên DOCX thất bại.")
                        print(f"         -> Tải lên thành công (ID: {uploaded_file_id}) trong {upload_time:.2f}s")
                        files_converted += 1
                    else:
                         raise RuntimeError("Không tìm thấy file DOCX tạm sau khi xử lý.")


                except Exception as conversion_error:
                    # (Giữ nguyên logic xử lý lỗi)
                    files_failed += 1
                    error_type = type(conversion_error).__name__
                    error_detail = f"Lỗi [{error_type}] khi xử lý '{pdf_title}' (ID: {pdf_id}): {conversion_error}"
                    print(f"      ❌ LỖI: {error_detail}")
                    conversion_errors.append(error_detail)


                finally:
                    # (Giữ nguyên logic dọn dẹp file tạm)
                    for f_path in [temp_pdf_path, temp_ocred_pdf_path, temp_docx_path]:
                         if os.path.exists(f_path):
                             try: os.remove(f_path)
                             except OSError as e: print(f"      (Lỗi nhỏ khi xóa file tạm {os.path.basename(f_path)}: {e})")


    except Exception as outer_error:
       # (Giữ nguyên)
       print(f"\n   ❌ LỖI NGHIÊM TRỌNG NGOÀI VÒNG LẶP: {outer_error}")
       conversion_errors.append(f"Lỗi hệ thống/ngoài vòng lặp: {outer_error}")


    finally:
        # ===== Bước 5: Dọn dẹp & Báo cáo =====
        # (Giữ nguyên logic dọn dẹp và báo cáo tổng kết)
        if os.path.exists(temp_dir):
            try: shutil.rmtree(temp_dir)
            except Exception as e: print(f"\n   ⚠️ Không thể xóa thư mục tạm {temp_dir}: {e}")

        end_time_proc = time.time()
        total_time = end_time_proc - start_time_proc

        print(f"\n================= KẾT QUẢ TỔNG KẾT (v6.1 - Engine: {engine_choice}) =================")
        print(f"   Thời gian hoàn tất: {time.strftime('%Y-%m-%d %H:%M:%S')}")
        print(f"   Thư mục đã xử lý: '{folder_title}' (ID: {folder_id})")
        print(f"   Tổng thời gian thực hiện: {total_time:.2f} giây ({total_time/60:.1f} phút)")
        print("--------------------------------------------------")
        print(f"   Tổng số tệp PDF được tìm thấy và quét: {files_processed}")
        print(f"   ✅ Số tệp chuyển đổi thành công: {files_converted}")
        print(f"   ❌ Số tệp chuyển đổi thất bại: {files_failed}")
        if files_skipped_existing > 0:
             print(f"   ⚠️ Số tệp PDF được bỏ qua (do DOCX đã tồn tại): {files_skipped_existing}")
        print("--------------------------------------------------")
        if engine_choice == 'gemini': print("   LƯU Ý: Engine 'gemini' đã dùng. DOCX chứa text thô, mất định dạng gốc.")
        elif engine_choice == 'tesseract': print("   LƯU Ý: Engine 'tesseract' đã dùng. DOCX cố gắng giữ lại bố cục.")
        else: print("   LƯU Ý: Chuyển đổi trực tiếp không OCR ('none').")
        print("--------------------------------------------------")

        if conversion_errors:
             print("\n   --- Chi tiết các lỗi đã xảy ra ---")
             error_print_limit = 20; displayed_errors = 0
             for i, err in enumerate(conversion_errors):
                 if displayed_errors < error_print_limit: print(f"      [{i+1}] {err}"); displayed_errors += 1
                 elif displayed_errors == error_print_limit: print(f"      ... (và {len(conversion_errors) - error_print_limit} lỗi khác)"); displayed_errors += 1
                 else: break # Đã in dòng '...'
             print("   -----------------------------------")

        if files_converted > 0: print(f"\n   ➡️ Các tệp DOCX mới đã được lưu vào thư mục '{folder_title}' trên Drive.")
        elif files_processed > 0 and files_failed == 0 and files_skipped_existing > 0: print(f"\n   ℹ️ Không có PDF mới được chuyển đổi (DOCX đã tồn tại).")
        elif files_processed > 0: print(f"\n   ⚠️ Không có tệp nào được chuyển đổi thành công. Vui lòng kiểm tra lỗi.")
        else: print(f"\n   ℹ️ Không tìm thấy tệp PDF nào để xử lý.")

        print("\n==================================================")
        # (Thông tin liên hệ giữ nguyên)
        print("\n CÔNG CỤ HỖ TRỢ CHUYỂN ĐỔI PDF SANG DOCX (v6.1 - Tích hợp OCR)")
        print("--------------------------------------------------")
        print("   Script được thực hiện bởi: Phạm Ngọc Tú. Script hữu ích? Mời tác giả ly cà phê ủng hộ nhé! 😊☕")
        print("   📞 Điện thoại/Zalo: 091 545 1313")
        print("   📧 Email: led14900@gmail.com")
        print("\n   🙏 Xin chân thành cảm ơn!")
        print("==================================================")


# --- Chạy hàm chính ---
# Đổi tên biến key từ form để tránh nhầm lẫn
if ('folder_id_input' in locals() and 'ocr_engine' in locals() and
    'tesseract_language' in locals() and 'tesseract_mode' in locals() and
    'gemini_api_key_input' in locals()): # Sử dụng tên biến mới từ form
    process_conversion_combined(
        folder_id_input,
        ocr_engine,
        tesseract_language,
        tesseract_mode,
        gemini_api_key_input # Truyền giá trị từ biến form mới
    )
else:
    error_message_config = "Lỗi Cấu hình Colab: Không tìm thấy một hoặc nhiều ô nhập liệu cần thiết."
    print(f"❌ LỖI NGHIÊM TRỌNG: {error_message_config}")

--- BẮT ĐẦU TIẾN TRÌNH CHUYỂN ĐỔI PDF SANG DOCX (v6.1 - Engine: tesseract) ---
Thời gian bắt đầu: 2025-06-01 11:53:47

Bước 1a: Bỏ qua cấu hình Gemini API (không được chọn).

Bước 1b: Đang xác thực quyền truy cập Google Drive...
   ✅ Xác thực Drive thành công: tatylic@gmail.com

Bước 2: Kiểm tra thư mục Drive ID: 1bchEPQHgT4_0Cz4RuTHwvF2eM_I9M8HU
   ✅ Đã tìm thấy thư mục: 'Colab Notebooks' (ID: 1bchEPQHgT4_0Cz4RuTHwvF2eM_I9M8HU)

Bước 3: Đang quét và chuyển đổi PDF trong 'Colab Notebooks' bằng engine 'tesseract'...
   ℹ️ Đã tạo thư mục tạm: /content/pdf_convert_temp_tesseract_1748778843
   Đang tìm kiếm PDF với truy vấn: '1bchEPQHgT4_0Cz4RuTHwvF2eM_I9M8HU' in parents and mimeType='application/pdf' and trashed=false

   ✅ Tìm thấy 1 tệp PDF. Bắt đầu:

   --- [1/1] File: QLQ1.pdf (ID: 1ineJo9dc9ihIa2UMZJLoj4FPlsehi3vI) ---
      🔍 Kiểm tra DOCX đích 'QLQ1.docx'...
      ✅ DOCX đích chưa tồn tại.
      1. Đang tải PDF gốc...
         -> Tải xong (6652.4 KB) trong 2.46s
      2. Đang thực 



         -> Chuyển đổi DOCX xong (55913.3 KB) trong 20.41s
      4. Đang tải DOCX lên Drive...
         -> Tải lên thành công (ID: 1VlkLtNc2DWmOtd54kxfRdaodu86mRo5M) trong 1.67s

   Thời gian hoàn tất: 2025-06-01 11:57:05
   Thư mục đã xử lý: 'Colab Notebooks' (ID: 1bchEPQHgT4_0Cz4RuTHwvF2eM_I9M8HU)
   Tổng thời gian thực hiện: 182.78 giây (3.0 phút)
--------------------------------------------------
   Tổng số tệp PDF được tìm thấy và quét: 1
   ✅ Số tệp chuyển đổi thành công: 1
   ❌ Số tệp chuyển đổi thất bại: 0
--------------------------------------------------
   LƯU Ý: Engine 'tesseract' đã dùng. DOCX cố gắng giữ lại bố cục.
--------------------------------------------------

   ➡️ Các tệp DOCX mới đã được lưu vào thư mục 'Colab Notebooks' trên Drive.


 CÔNG CỤ HỖ TRỢ CHUYỂN ĐỔI PDF SANG DOCX (v6.1 - Tích hợp OCR)
--------------------------------------------------
   Script được thực hiện bởi: Phạm Ngọc Tú. Script hữu ích? Mời tác giả ly cà phê ủng hộ nhé! 😊☕
   📞 Điện thoại/Zalo