In [10]:
from dotenv import load_dotenv
load_dotenv()

True

# 1. 단일 문서 변환
- Docling은 convert() 메서드를 통해 문서 변환 기능을 제공함
- 이 기능은 단일 문서 변환의 가장 기본적인 사용법임
- convert() 메서드는 문서를 다른 형식으로 변환하는데 사용됨.
  

In [7]:
from docling.document_converter import DocumentConverter

# 로컬 경로 또는 URL로 문서 지정
# source = "https://arxiv.org/pdf/2408.09869"
source = "data/transformer.pdf"
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # 마크다운으로 출력



Provided proper attribution is provided, Google hereby grants permission to reproduce the tables and figures in this paper solely for use in journalistic or scholarly works.

## Attention Is All You Need

Ashish Vaswani ∗ Google Brain avaswani@google.com

Noam Shazeer ∗ Google Brain noam@google.com

Niki Parmar ∗ Google Research nikip@google.com

Jakob Uszkoreit ∗ Google Research usz@google.com

Llion Jones ∗ Google Research llion@google.com

Aidan N. Gomez ∗ † University of Toronto aidan@cs.toronto.edu

Łukasz Kaiser Google Brain lukaszkaiser@google.com

∗

Illia Polosukhin ∗ ‡

illia.polosukhin@gmail.com

## Abstract

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks that include an encoder and a decoder. The best performing models also connect the encoder and decoder through an attention mechanism. We propose a new simple network architecture, the Transformer, based solely on attention mechanisms, dispensing with recurrence and

In [11]:
type(result) # 결과의 타입 확인

docling.datamodel.document.ConversionResult

In [12]:
result.document.export_to_dict() # 문서 내용을 딕셔너리로 변환

{'schema_name': 'DoclingDocument',
 'version': '1.4.0',
 'name': 'transformer',
 'origin': {'mimetype': 'application/pdf',
  'binary_hash': 2949302674760005271,
  'filename': 'transformer.pdf'},
 'furniture': {'self_ref': '#/furniture',
  'children': [],
  'content_layer': 'furniture',
  'name': '_root_',
  'label': 'unspecified'},
 'body': {'self_ref': '#/body',
  'children': [{'$ref': '#/texts/0'},
   {'$ref': '#/texts/1'},
   {'$ref': '#/texts/2'},
   {'$ref': '#/texts/3'},
   {'$ref': '#/texts/4'},
   {'$ref': '#/texts/5'},
   {'$ref': '#/texts/6'},
   {'$ref': '#/groups/0'},
   {'$ref': '#/texts/11'},
   {'$ref': '#/texts/12'},
   {'$ref': '#/texts/13'},
   {'$ref': '#/texts/14'},
   {'$ref': '#/texts/15'},
   {'$ref': '#/texts/16'},
   {'$ref': '#/texts/17'},
   {'$ref': '#/texts/18'},
   {'$ref': '#/texts/19'},
   {'$ref': '#/texts/20'},
   {'$ref': '#/texts/21'},
   {'$ref': '#/texts/22'},
   {'$ref': '#/texts/23'},
   {'$ref': '#/texts/24'},
   {'$ref': '#/texts/25'},
   {'$re

In [13]:
print(result.document.export_to_document_tokens()) # 문서 내용을 토큰화된 형태로 변환

  print(result.document.export_to_document_tokens()) # 문서 내용을 토큰화된 형태로 변환


<doctag><page_header><loc_15><loc_104><loc_30><loc_350>arXiv:1706.03762v7  [cs.CL]  2 Aug 2023</page_header>
<text><loc_102><loc_47><loc_399><loc_71>Provided proper attribution is provided, Google hereby grants permission to reproduce the tables and figures in this paper solely for use in journalistic or scholarly works.</text>
<section_header_level_1><loc_173><loc_95><loc_327><loc_105>Attention Is All You Need</section_header_level_1>
<text><loc_95><loc_148><loc_177><loc_168>Ashish Vaswani ∗ Google Brain avaswani@google.com</text>
<text><loc_188><loc_148><loc_253><loc_168>Noam Shazeer ∗ Google Brain noam@google.com</text>
<text><loc_265><loc_148><loc_333><loc_168>Niki Parmar ∗ Google Research nikip@google.com</text>
<text><loc_345><loc_148><loc_406><loc_168>Jakob Uszkoreit ∗ Google Research usz@google.com</text>
<text><loc_104><loc_179><loc_172><loc_200>Llion Jones ∗ Google Research llion@google.com</text>
<text><loc_192><loc_179><loc_278><loc_200>Aidan N. Gomez ∗ † University of Toro

# 2. PDF 테이블 추출 옵션
- `PdfPipelineOptions`에서 do_table_structure=True로 설정하여 테이블 구조 인식을 활성화함.
- TableFormerMode.ACCURATE 모드를 사용하여 더 정확한 테이블 구조 인식이 가능함.
- `DocumentConverter`클래스에 format_options를 통해 PDF 관련 설정을 적용함.

In [None]:
from docling.datamodel.base_models import InputFormat
from docling.document_converter import DocumentConverter, PdfFormatOption
from docling.datamodel.pipeline_options import PdfPipelineOptions, TableFormerMode

pipeline_options = PdfPipelineOptions(do_table_structure=True) # 테이블 구조 추출 활성화
pipeline_options.table_structure_options.mode = TableFormerMode.ACCURATE # 더 정확한 TableFormer 모델 사용

doc_converter = DocumentConverter(
    format_options={
        InputFormat.PDF: PdfFormatOption(pipeline_options=pipeline_options)
    }
)

# 로컬 경로 또는 URL로 문서 지정
source = "data/transformer.pdf"
result = doc_converter.convert(source)
print(result.document.export_to_markdown()) # 마크다운으로 출력

# 3. 문서 청킹(Chunking)

- Docling은 문서를 의미있는 단위로 나누는 **청킹 기능**을 제공함
- `HybridChunker` 클래스는 **토크나이저 설정**을 통해 문서 청킹을 수행함
- `chunk_iter`를 통해 청킹된 문서 단위에 순차적으로 접근할 수 있음

In [19]:
from docling.document_converter import DocumentConverter
from docling.chunking import HybridChunker

# 문서에서 청크를 생성
conv_res = DocumentConverter().convert("data/transformer.pdf")
doc = conv_res.document

chunker = HybridChunker(
    tokenizer="BAAI/bge-m3", # 필요에 따라 토크나이저 설정
    chunk_size=1000, # 청크 크기 설정
    overlap=100, # 청크 간 중복 설정
)

# 청크 생성
chunk_iter = chunker.chunk(doc)

# 청크를 리스트로 변환
chunks = list(chunk_iter)

# 청크의 개수 확인
print(f"Total chunks: {len(chunks)}")

# 청크의 첫 번째 항목 확인
print(chunks[0])



Total chunks: 27
text='Provided proper attribution is provided, Google hereby grants permission to reproduce the tables and figures in this paper solely for use in journalistic or scholarly works.' meta=DocMeta(schema_name='docling_core.transforms.chunker.DocMeta', version='1.0.0', doc_items=[DocItem(self_ref='#/texts/1', parent=RefItem(cref='#/body'), children=[], content_layer=<ContentLayer.BODY: 'body'>, label=<DocItemLabel.TEXT: 'text'>, prov=[ProvenanceItem(page_no=1, bbox=BoundingBox(l=124.313, t=717.82, r=487.895, b=679.663, coord_origin=<CoordOrigin.BOTTOMLEFT: 'BOTTOMLEFT'>), charspan=(0, 173))])], headings=None, captions=None, origin=DocumentOrigin(mimetype='application/pdf', binary_hash=2949302674760005271, filename='transformer.pdf', uri=None))


In [20]:
for chunk in chunks:
    print(chunk)
    print(chunk.text)
    print("\n" + "="*80 + "\n") # 구분선 출력

text='Provided proper attribution is provided, Google hereby grants permission to reproduce the tables and figures in this paper solely for use in journalistic or scholarly works.' meta=DocMeta(schema_name='docling_core.transforms.chunker.DocMeta', version='1.0.0', doc_items=[DocItem(self_ref='#/texts/1', parent=RefItem(cref='#/body'), children=[], content_layer=<ContentLayer.BODY: 'body'>, label=<DocItemLabel.TEXT: 'text'>, prov=[ProvenanceItem(page_no=1, bbox=BoundingBox(l=124.313, t=717.82, r=487.895, b=679.663, coord_origin=<CoordOrigin.BOTTOMLEFT: 'BOTTOMLEFT'>), charspan=(0, 173))])], headings=None, captions=None, origin=DocumentOrigin(mimetype='application/pdf', binary_hash=2949302674760005271, filename='transformer.pdf', uri=None))
Provided proper attribution is provided, Google hereby grants permission to reproduce the tables and figures in this paper solely for use in journalistic or scholarly works.


text='Ashish Vaswani ∗ Google Brain avaswani@google.com\nNoam Shazeer ∗ Go

# 4. PDF 문서에서 표 인식 (예제)
- DocumentConverter를 사용해 PDF를 변환하고 문서의 모든 표를 순회함
- 추출된 표는 export_to_dataframe()으로 pandas DataFrame으로 변환됨
- 표 데이터는 CSV 파일과 HTML 파일로 각각 저장되어 다양한 용도로 활용 가능함.

In [26]:
import time
from pathlib import Path
import pandas as pd

from docling.document_converter import DocumentConverter

# 표 추출 및 내보내기 함수 정의
def extract_and_export_tables(input_path, output_directory):
    """
    PDF 문서에서 표를 추출하고 CSV 및 HTML 형식으로 내보내는 함수

    Args:
        input_path (Path): 입력 PDF 파일 경로
        output_directory (Path): 출력 파일을 저장할 디렉토리 경로

    Returns:
        int: 추출된 표의 수
    """
    # 출력 디렉토리가 없으면 생성
    output_directory.mkdir(parents=True, exist_ok=True)

    # 문서 변환기 초기화
    doc_converter = DocumentConverter()

    # 변환 시작 시간 기록
    start_time = time.time()
    print(f"문서 변환 시작: {input_path}")

    # 문서 변환
    conv_res = doc_converter.convert(input_path)
    doc_filename = conv_res.input.file.stem

    # 표 내보내기
    for table_ix, table in enumerate(conv_res.document.tables):
        table_df = table.export_to_dataframe()
        print(f"## Table {table_ix}")
        print(table_df.to_markdown())

        # 표를 CSV로 저장
        csv_filename = output_directory / f"{doc_filename}-table-{table_ix+1}.csv"
        print(f"Saving CSV table to {csv_filename}")
        table_df.to_csv(csv_filename)

        # 표를 HTML로 저장
        html_filename = output_directory / f"{doc_filename}-table-{table_ix+1}.html"
        print(f"Saving HTML table to {html_filename}")
        with html_filename.open("w") as fp:
            fp.write(table.export_to_html())

    # 변환 소요 시간 계산
    elapsed_time = time.time() - start_time
    print(f"문서 변환 완료: {elapsed_time:.2f}초 소요")

    # 추출된 표 수 확인
    table_count = len(conv_res.document.tables)
    print(f"추출된 표 수: {table_count}개")

    return table_count


# 표 추출 및 내보내기 함수 호출
output_dir = Path("output")
output_dir.mkdir(parents=True, exist_ok=True)

try:
    table_count = extract_and_export_tables("data/transformer.pdf", output_dir)
    print(f"성공적으로 {table_count}개의 표를 추출했습니다.")
except Exception as e:
    print(f"표 추출 중 오류 발생: {e}")

문서 변환 시작: data/transformer.pdf


Usage of TableItem.export_to_html() without `doc` argument is deprecated.
Usage of TableItem.export_to_html() without `doc` argument is deprecated.
Usage of TableItem.export_to_html() without `doc` argument is deprecated.
Usage of TableItem.export_to_html() without `doc` argument is deprecated.
Usage of TableItem.export_to_html() without `doc` argument is deprecated.
Usage of TableItem.export_to_html() without `doc` argument is deprecated.


## Table 0
|    | Layer Type                  | Complexity per Layer   | Sequential Operations   | Maximum Path Length   |
|---:|:----------------------------|:-----------------------|:------------------------|:----------------------|
|  0 | Self-Attention              | O ( n 2 · d )          | O (1)                   | O (1)                 |
|  1 | Recurrent                   | O ( n · d 2 )          | O ( n )                 | O ( n )               |
|  2 | Convolutional               | O ( k · n · d 2 )      | O (1)                   | O ( log k ( n ))      |
|  3 | Self-Attention (restricted) | O ( r · n · d )        | O (1)                   | O ( n/r )             |
Saving CSV table to output/transformer-table-1.csv
Saving HTML table to output/transformer-table-1.html
## Table 1
|    | Model.                          | BLEU.EN-DE   | BLEU.EN-FR   | Training Cost (FLOPs).EN-DE   | Training Cost (FLOPs).EN-FR   |
|---:|:--------------------------------|:-------------|:-----------