In [28]:
# !C:\Users\user\AppData\Local\Programs\Python\Python311\python.exe -m pip install pdfplumber

In [24]:
import camelot
import pandas as pd
from typing import List
import os 

current_dir = os.path.dirname(os.path.abspath(__file__)) if '__file__' in locals() else '.'
data_dir = os.path.join(current_dir, 'data')

In [51]:
# pdf.pages[1].extract_words()

In [88]:
import pdfplumber
pdf_file_path = 'C:\\Users\\user\\Desktop\\SSID\\Project_ValuX\\Financial_Statement_Analysis\\notebook\\test_BCTC.pdf'
with pdfplumber.open(pdf_file_path) as pdf:
    first_page = pdf.pages[3]
    text = first_page.chars
    # print(text)

In [89]:
import pdfplumber
import pandas as pd
from typing import List

def extract_tables_robust(pdf_path: str, pages_to_process: list = None) -> List[pd.DataFrame]:
    """
    Tự động bóc tách bảng từ PDF một cách mạnh mẽ bằng pdfplumber,
    kết hợp phát hiện đường viền và chiến lược dựa trên văn bản.

    Args:
        pdf_path (str): Đường dẫn đến file PDF.
        pages_to_process (list, optional): Danh sách chỉ số trang (bắt đầu từ 0). 
                                           Nếu None, xử lý tất cả.

    Returns:
        List[pd.DataFrame]: Danh sách các DataFrame đã được bóc tách.
    """
    list_of_dataframes = []
    print(f"Bắt đầu bóc tách từ file: {pdf_path} với phương pháp nâng cao...")

    # Cấu hình chính của chúng ta, ưu tiên cấu trúc dựa trên văn bản
    text_based_settings = {
        "vertical_strategy": "text",
        "horizontal_strategy": "text",
        "snap_tolerance": 3,
    }

    try:
        with pdfplumber.open(pdf_path) as pdf:
            target_pages = pdf.pages
            if pages_to_process:
                target_pages = [pdf.pages[i] for i in pages_to_process if i < len(pdf.pages)]

            for page in target_pages:
                page_number = page.page_number
                print(f"\n--- Đang xử lý trang {page_number} ---")

                # Kỹ thuật nâng cao: Cắt trang theo đường viền của bảng
                # Lấy tất cả các hình chữ nhật (thường là đường viền bảng) trên trang
                table_bboxes = [r for r in page.rects if r['height'] > 10 and r['width'] > 50]

                if table_bboxes:
                    print(f"Phát hiện {len(table_bboxes)} vùng có khả năng là bảng dựa trên đường viền.")
                    
                    for i, bbox in enumerate(table_bboxes):
                        # Cắt trang để chỉ giữ lại vùng chứa bảng
                        cropped_page = page.crop((bbox['x0'], bbox['top'], bbox['x1'], bbox['bottom']))
                        
                        # Chạy thuật toán bóc tách trên vùng đã cắt
                        tables = cropped_page.extract_tables(table_settings=text_based_settings)
                        
                        if tables:
                            print(f"  -> Đã bóc tách {len(tables)} bảng từ vùng {i+1}.")
                            for table_data in tables:
                                if table_data:
                                    # Chuyển thành DataFrame (xử lý trường hợp không có header)
                                    try:
                                        header = table_data[0]
                                        data = table_data[1:]
                                        # Kiểm tra header có hợp lệ không
                                        if all(isinstance(h, str) for h in header):
                                            df = pd.DataFrame(data, columns=header)
                                        else: # Nếu header không hợp lệ, coi như không có header
                                            df = pd.DataFrame(table_data)
                                    except Exception:
                                        df = pd.DataFrame(table_data)

                                    list_of_dataframes.append(df)
                                else:
                                    print(f"    - Bảng rỗng trong vùng {i+1}.")
                        else:
                             print(f"  -> Không tìm thấy cấu trúc bảng trong vùng {i+1}, thử đọc văn bản thô...")
                             raw_text = cropped_page.extract_text()
                             # Bạn có thể thêm logic xử lý văn bản thô ở đây nếu cần
                             # print(raw_text)

                else:
                    # Nếu không phát hiện đường viền nào, chạy thuật toán trên toàn trang
                    print("Không phát hiện đường viền, thử bóc tách trên toàn trang...")
                    tables = page.extract_tables(table_settings=text_based_settings)
                    if tables:
                        print(f"Tìm thấy {len(tables)} bảng trên toàn trang {page_number}.")
                        for table_data in tables:
                            if table_data:
                                df = pd.DataFrame(table_data[1:], columns=table_data[0])
                                list_of_dataframes.append(df)
                    else:
                        print(f"Không tìm thấy bảng nào trên trang {page_number} ngay cả với chiến lược 'text'.")

                # Gỡ lỗi trực quan cho trang 25 (chỉ số 24)
                if page.page_number == 25:
                    im = page.to_image(resolution=150)
                    # Vẽ các vùng chữ nhật được phát hiện
                    im.draw_rects(table_bboxes, stroke="red", stroke_width=2)
                    debug_path = f"debug_page_{page_number}_regions.png"
                    im.save(debug_path, format="PNG")
                    print(f"ĐÃ LƯU ẢNH GỠ LỖI cho trang {page_number} tại '{debug_path}'")

    except Exception as e:
        print(f"Đã xảy ra lỗi nghiêm trọng: {e}")
        return []

    return list_of_dataframes

# # --- CÁCH SỬ DỤNG ---
# if __name__ == '__main__':
#     pdf_file_path = 'CTD_Baocaotaichinh_Q4_2025_Congtyme.pdf'
    
#     # Chạy hàm bóc tách nâng cao
all_dataframes_robust = extract_tables_robust(pdf_file_path)

if all_dataframes_robust:
    print(f"\n>>> Hoàn tất! Đã bóc tách thành công {len(all_dataframes_robust)} bảng.")
    
    # In ra một trong các bảng để kiểm tra
    if len(all_dataframes_robust) > 0:
        print("\nHiển thị một DataFrame mẫu đã bóc tách:")
        print(all_dataframes_robust[-1].head())

Bắt đầu bóc tách từ file: C:\Users\user\Desktop\SSID\Project_ValuX\Financial_Statement_Analysis\notebook\test_BCTC.pdf với phương pháp nâng cao...

--- Đang xử lý trang 1 ---
Không phát hiện đường viền, thử bóc tách trên toàn trang...
Tìm thấy 1 bảng trên toàn trang 1.

--- Đang xử lý trang 2 ---
Không phát hiện đường viền, thử bóc tách trên toàn trang...
Tìm thấy 1 bảng trên toàn trang 2.

--- Đang xử lý trang 3 ---
Không phát hiện đường viền, thử bóc tách trên toàn trang...
Không tìm thấy bảng nào trên trang 3 ngay cả với chiến lược 'text'.

--- Đang xử lý trang 4 ---
Không phát hiện đường viền, thử bóc tách trên toàn trang...
Không tìm thấy bảng nào trên trang 4 ngay cả với chiến lược 'text'.

--- Đang xử lý trang 5 ---
Không phát hiện đường viền, thử bóc tách trên toàn trang...
Không tìm thấy bảng nào trên trang 5 ngay cả với chiến lược 'text'.

--- Đang xử lý trang 6 ---
Không phát hiện đường viền, thử bóc tách trên toàn trang...
Không tìm thấy bảng nào trên trang 6 ngay cả với ch

In [77]:
from google.cloud import documentai_v1 as documentai

def process_document_with_google_ai(
    project_id: str, location: str, processor_id: str, file_path: str
):
    try:
        # Khởi tạo client
        client = documentai.DocumentProcessorServiceClient()

        # Tên của bộ xử lý
        name = f"projects/{project_id}/locations/{location}/processors/{processor_id}"

        # Đọc file PDF
        with open(file_path, "rb") as image:
            image_content = image.read()

        # Tạo yêu cầu xử lý
        request = documentai.ProcessRequest(
            name=name,
            raw_document=documentai.RawDocument(content=image_content, mime_type="application/pdf"),
        )

        # Gửi yêu cầu và nhận kết quả
        result = client.process_document(request=request)
        document = result.document

        print(f"Đã xử lý xong tài liệu. Tổng số {len(document.pages)} trang.")

        # Lấy tất cả các bảng từ tài liệu
        for page in document.pages:
            print(f"\n--- Trang {page.page_number} ---")
            print(f"Tìm thấy {len(page.tables)} bảng.")
            for i, table in enumerate(page.tables):
                # Logic để chuyển đổi bảng của Document AI sang pandas DataFrame
                # Đây là một bước phức tạp hơn vì cấu trúc trả về rất chi tiết
                print(f"Bảng {i+1} có {len(table.header_rows)} hàng tiêu đề và {len(table.body_rows)} hàng dữ liệu.")
                #... code chuyển đổi sang DataFrame ...

    except Exception as e:
        print(f"Lỗi khi gọi API Google Document AI: {e}")

# if __name__ == '__main__':
#     PROJECT_ID = "your-gcp-project-id"
#     LOCATION = "us"  # Ví dụ
#     PROCESSOR_ID = "your-processor-id"
#     PDF_PATH = "CTD_Baocaotaichinh_Q4_2025_Congtyme.pdf"
#     process_document_with_google_ai(PROJECT_ID, LOCATION, PROCESSOR_ID, PDF_PATH)

In [80]:
project_id = 'my-project-address-mapping'
location = 'us'
processor_name = 'demo-document-ocr'
processor_id = '63eefbea280a6a3'
result = process_document_with_google_ai(project_id, location, processor_id, pdf_file_path)

Lỗi khi gọi API Google Document AI: 400 Document pages exceed the limit: 30 got 49 [reason: "PAGE_LIMIT_EXCEEDED"
domain: "documentai.googleapis.com"
metadata {
  key: "pages"
  value: "49"
}
metadata {
  key: "page_limit"
  value: "30"
}
]
