# Agent 1: Document Parser Agent

* *Job:* Uses strong tools (like `PyMuPDF`, `unstructured.io`, `Marker`) and might use information from Agent 0. Pulls out the basic parts: text blocks, images, tables, charts. Gets basic extra information about the document (file name, page number).
* *(Improvement):* Could add a special **Metadata Agent** to find and organize more detailed extra information (author, title, creation date, etc.).
* *Output:* Raw pieces of data sorted by type.

In [6]:
import sys
import os

# Lấy đường dẫn đến thư mục gốc của dự án (poly-parser)
# Giả sử notebook đang ở trong thư mục 'notebooks'
project_root = os.path.abspath(os.path.join(os.getcwd(), '..'))

# Thêm thư mục gốc vào sys.path nếu chưa có
if project_root not in sys.path:
    sys.path.insert(0, project_root)
    print(f"Added '{project_root}' to sys.path")

# Bây giờ bạn có thể import các module từ thư mục gốc và thư mục agents
try:
    from graph_definition import GraphState, create_graph_nodes
    from agents import parser
    print("Successfully imported modules.")
except ImportError as e:
    print(f"Error importing modules: {e}")
    print("Ensure the notebook is in the 'notebooks' directory and the structure is correct.")

# --- Tiếp tục code của notebook ở đây ---
# Ví dụ:
# pdf_file_path = '../sample_pdfs/example.pdf' # Đường dẫn tương đối từ notebook
# initial_state = GraphState(pdf_path=pdf_file_path, ...) # Tạo state ban đầu
# parser_output = parser.parse_document(initial_state)
# print(parser_output)

Successfully imported modules.


In [7]:
pdf_file_path = '../sample_pdfs/part0.pdf'
initial_state = GraphState(pdf_path=pdf_file_path)
parser_output = parser.parse_document(initial_state)
print(parser_output)

Parsing document: ../sample_pdfs/part0.pdf
Parsed 74 raw elements from 9 pages.
{'raw_elements': [{'type': 'text', 'content': '7  \n  \n1.   \nGIỚI THIỆU TỔNG QUAN', 'metadata': {'page_number': 1, 'bbox': (85.10399627685547, 36.212650299072266, 318.42999267578125, 80.19261169433594)}}, {'type': 'text', 'content': '1.1   \nĐối tượng sử dụng', 'metadata': {'page_number': 1, 'bbox': (85.10399627685547, 89.7938003540039, 236.0, 105.53263854980469)}}, {'type': 'text', 'content': '-   \nDùng cho công dân Việt Nam có căn cước công dân gắn chíp thực hiện  \nđăng ký tài khoản Định danh diện tử', 'metadata': {'page_number': 1, 'bbox': (85.10399627685547, 115.23380279541016, 542.2900390625, 150.2926483154297)}}, {'type': 'text', 'content': '1.2   \n Mô tả tài liệu', 'metadata': {'page_number': 1, 'bbox': (85.10399627685547, 160.11380004882812, 207.79998779296875, 175.85264587402344)}}, {'type': 'text', 'content': 'Nội dung tài liệu bao gồm các phần sau:', 'metadata': {'page_number': 1, 'bbox': (8

In [9]:
parser_output.keys()

dict_keys(['raw_elements', 'metadata'])

In [10]:
len(parser_output['raw_elements'])

74

In [11]:
parser_output['metadata']

{'source': '../sample_pdfs/part0.pdf', 'page_count': 9}

In [12]:
parser_output['raw_elements'][0]

{'type': 'text',
 'content': '7  \n  \n1.   \nGIỚI THIỆU TỔNG QUAN',
 'metadata': {'page_number': 1,
  'bbox': (85.10399627685547,
   36.212650299072266,
   318.42999267578125,
   80.19261169433594)}}

In [13]:
parser_output['raw_elements'][1]

{'type': 'text',
 'content': '1.1   \nĐối tượng sử dụng',
 'metadata': {'page_number': 1,
  'bbox': (85.10399627685547, 89.7938003540039, 236.0, 105.53263854980469)}}

In [14]:
parser_output['raw_elements'][2]

{'type': 'text',
 'content': '-   \nDùng cho công dân Việt Nam có căn cước công dân gắn chíp thực hiện  \nđăng ký tài khoản Định danh diện tử',
 'metadata': {'page_number': 1,
  'bbox': (85.10399627685547,
   115.23380279541016,
   542.2900390625,
   150.2926483154297)}}

In [17]:
parser_output['raw_elements'][5]

{'type': 'text',
 'content': '1.   \nMục A: Giới thiệu tổng quan',
 'metadata': {'page_number': 1,
  'bbox': (85.10399627685547,
   210.51376342773438,
   287.2400207519531,
   226.2526092529297)}}

In [18]:
from pprint import pprint
pprint(parser_output['raw_elements'][5:10])

[{'content': '1.   \nMục A: Giới thiệu tổng quan',
  'metadata': {'bbox': (85.10399627685547,
                        210.51376342773438,
                        287.2400207519531,
                        226.2526092529297),
               'page_number': 1},
  'type': 'text'},
 {'content': '2.   \n'
             'Mục B: Hướng dẫn các chức năng hệ thống có trên APP cho người '
             'dân sử  \n'
             'dụng.',
  'metadata': {'bbox': (85.10399627685547,
                        235.83377075195312,
                        542.2900390625,
                        270.89263916015625),
               'page_number': 1},
  'type': 'text'},
 {'content': '1.3   \n Thuật ngữ viết tắt',
  'metadata': {'bbox': (85.10399627685547,
                        280.7438049316406,
                        236.47999572753906,
                        296.482666015625),
               'page_number': 1},
  'type': 'text'},
 {'content': 'STT  \nThuật ngữ   \nÝ nghĩa',
  'metadata': {'bbox': (91.823997