## 事前セットアップ
必要なライブラリのインストールを行います。

In [4]:
# Yomitoku Clientの使用例
# このノートブックでは、Yomitoku Clientを使用してSageMaker Yomitokuの出力を
# 様々な形式（CSV、Markdown、HTML、JSON）に変|換する方法を示します

# 必要なライブラリのインポート
from yomitoku_client.parsers import parse_pydantic_model
from pprint import pprint
import pandas as pd
import json
from PIL import Image
import matplotlib.pyplot as plt
import cv2
import numpy as np


### サンプルデータの読み込み
`sample.json`はYomiToku SageMakerの出力結果をJSONファイルで保存したデータです。

In [5]:
with open("sample.json", "r", encoding="utf-8") as f:
    sample_json =  json.load(f)

pprint(sample_json)

{'result': [{'figures': [{'box': [1475, 178, 1581, 348],
                          'caption': None,
                          'decode': None,
                          'direction': 'horizontal',
                          'order': 3,
                          'paragraphs': [{'box': [1471, 297, 1583, 345],
                                          'contents': 'MIC',
                                          'direction': 'horizontal',
                                          'indent_level': None,
                                          'order': 0,
                                          'role': None}],
                          'role': 'logo'},
                         {'box': [32, 605, 1624, 2281],
                          'caption': None,
                          'decode': None,
                          'direction': 'horizontal',
                          'order': 6,
                          'paragraphs': [{'box': [71, 637, 483, 683],
                                          '

### Parser とは？
- AWS SageMaker の Yomitoku サービスから返される生のJSON出力をPydantic モデルのラッパーオブジェクトに変換するためモデルです

主な機能：
1. 生のJSONデータを構造化されたPydanticオブジェクトに変換
2. データの検証とバリデーション
3. 各種フォーマットへの変換とエクスポートを実行でます。
4. データの可視化、読み取り結果の確認を容易にします。

In [6]:
# parse_dict: SageMaker Yomitokuの辞書形式の出力をPydanticモデルに変換
sample_data = parse_pydantic_model(sample_json)
pprint(sample_data)

MultiPageDocumentResult(pages=[DocumentResult(figures=[Figure(box=[1475, 178, 1581, 348], caption=None, decode=None, direction='horizontal', order=3, paragraphs=[Paragraph(box=[1471, 297, 1583, 345], contents='MIC', direction='horizontal', indent_level=None, order=0, role=None)], role='logo'), Figure(box=[32, 605, 1624, 2281], caption=None, decode=None, direction='horizontal', order=6, paragraphs=[Paragraph(box=[71, 637, 483, 683], contents='CONTENTS', direction='horizontal', indent_level=None, order=0, role=None), Paragraph(box=[86, 936, 136, 971], contents='P.6', direction='horizontal', indent_level=None, order=1, role=None), Paragraph(box=[156, 863, 377, 1043], contents='地方のかがやき\n宮崎県\n都農町', direction='horizontal', indent_level=None, order=2, role=None), Paragraph(box=[156, 1076, 892, 1120], contents='11月9日(土) から11月15日(金)まで', direction='horizontal', indent_level=None, order=3, role=None), Paragraph(box=[154, 1122, 794, 1202], contents='P10 秋季全国火災予防運動を実施します!\nこの機会に防火への意識を高めましょう', dire

## データエクスポート機能
### 様々な形式への変換とファイル保存

このセクションでは、OCR処理済みのデータを実用的な各種フォーマットに変換し、ファイルとして保存する方法を示します。

**対応フォーマット：**
- **CSV**: Excel等の表計算ソフトで開ける形式。データ分析に最適
- **Markdown**: GitHubやドキュメント作成に便利な軽量マークアップ形式
- **HTML**: ブラウザで直接表示可能。レポートやプレゼンテーションに活用
- **JSON**: プログラムで処理しやすい構造化データ。API連携やデータベース保存に最適

**共通の引数:**
- `output_path`: 出力ファイルのパスを指定します。パスにフォルダが含まれる場合は指定フォルダに出力します。
- `mode`: 出力モード(`combine` or `separate`)を指定します。default: `combine`
    - `combine`モードは複数ページの読み取り結果を単一ファイルにまとめて出力
    - `separate`モードは複数ページをそれぞれのページに分割して出力
- `page_index`: 出力対象のページを指定します。(e.g. [0,1,2])
- `ignore_line_break`: 段落ごとの読み取り結果の改行を無視して出力

### CSV 形式で保存

In [13]:
# 読み取り結果をcsv形式で保存
sample_data.to_csv(output_path="sample.csv")

# demoフォルダ内に読み取り結果をcsv形式で保存. page番号を表すsuffix付き
#sample_data.to_csv(output_path="demo/sample.csv")

# 読み取り結果をページごとにcsv形式で保存（mode="separate"）
#sample_data.to_csv(output_path="sample.csv", mode="separate")

# 指定のページの読み取り結果をcsv形式で保存
#sample_data.to_csv(output_path="sample.csv", mode="separate", page_index=[0,2])

# 改行を無視してcsv形式で保存
#sample_data.to_csv(output_path="sample.csv", ignore_line_break=True)

### Markdown形式で保存

In [18]:
# 読み取り結果をmd形式で保存
sample_data.to_markdown(output_path="sample.md")

# demoフォルダ内に読み取り結果をmd形式で保存. page番号を表すsuffix付き
#sample_data.to_markdown(output_path="demo/sample.md")

# 読み取り結果をページごとにmd形式で保存（mode="separate"）
#sample_data.to_markdown(output_path="sample.md", mode="separate")

# 指定のページの読み取り結果をmd形式で保存
#sample_data.to_markdown(output_path="sample.md", mode="separate", page_index=[0,2])

# 改行を無視してmd形式で保存
#sample_data.to_markdown(output_path="sample.md", ignore_line_break=True)

### HTML形式で保存

In [23]:
# 読み取り結果をmd形式で保存
sample_data.to_html(output_path="sample.html")

# demoフォルダ内に読み取り結果をhtml形式で保存. page番号を表すsuffix付き
#sample_data.to_html(output_path="demo/sample.html")

# 読み取り結果をページごとにhtml形式で保存（mode="separate"）
#sample_data.to_html(output_path="sample.html", mode="separate")

# 指定のページの読み取り結果をhtml形式で保存
#sample_data.to_html(output_path="sample.html", mode="separate", page_index=[0,2])

# 改行を無視してhtml形式で保存
#sample_data.to_html(output_path="sample.html", ignore_line_break=True)

### JSON形式で保存

In [30]:
# 読み取り結果をmd形式で保存
sample_data.to_json(output_path="sample.json")

# demoフォルダ内に読み取り結果をjson形式で保存. page番号を表すsuffix付き
#sample_data.to_json(output_path="demo/sample.json")

# 読み取り結果をページごとにjson形式で保存（mode="separate"）
#sample_data.to_json(output_path="sample.json", mode="separate")

# 指定のページの読み取り結果をjson形式で保存
#sample_data.to_json(output_path="sample.json", mode="separate", page_index=[0,2])

# 改行を無視してjson形式で保存
#sample_data.to_json(output_path="sample.json", ignore_line_break=True)

## 可視化
このセクションでは、OCRで検出されたテキスト、図表、テーブルなどの要素を画像上に可視化する機能を紹介します。
これらの可視化機能により、OCR結果の品質確認や文書構造の理解が容易になります。

- **レイアウト構造のレンダリング**: 文書のレイアウト情報やレイアウトカテゴリを視覚的に確認
- **OCRの読み取り結果のレンダリング**：文書の読み取り結果の文字列情報や読み取り位置を確認

### テキストの可視化

- `image_path` : 読み取り結果の元画像のパスを指定
- `type` : 可視化対象の情報("layout" or "ocr") 
- `output_path`: 可視化画像の出力先ファイルのパスを指定
- `page_index`; 可視化対象のページ番号

In [32]:
#サンプル情報の画像パス
image_path = "image.pdf"

# DocumentVisualizerを使用してレイアウトの詳細を可視化
# visualize: 画像とパースされたデータを受け取り、バウンディングボックスを描画
# type='ocr': テキストを可視化

sample_data.visualize(
    image_path=image_path,
    mode='ocr',
    page_index=[0,1],
    output_path="demo/sample.png",
)

TypeError: list indices must be integers or slices, not list

In [19]:
#pdf_data.pages[0].export_viz_image(
#    image_path=pdf_path,
#    folder_path=export_dir,
#    viz_type='ocr',
#    page_index=0
#    )

'image_ocr_data/0.png'

### レイアウトの可視化
DocumentVisualizerを使用してレイアウトの詳細を可視化します。
visualize: 画像とパースされたデータを受け取り、バウンディングボックスを描画
type='ocr': テキストを可視化

In [35]:
sample_data.visualize(
    folder_path="./viz_images",
    viz_type='layout_detail',
    image_path=image_path,
    page_index=0,
    )

array([[[255, 255, 255],
        [255, 255, 255],
        [255, 255, 255],
        ...,
        [255, 255, 255],
        [255, 255, 255],
        [255, 255, 255]],

       [[255, 255, 255],
        [255, 255, 255],
        [255, 255, 255],
        ...,
        [255, 255, 255],
        [255, 255, 255],
        [255, 255, 255]],

       [[255, 255, 255],
        [255, 255, 255],
        [255, 255, 255],
        ...,
        [255, 255, 255],
        [255, 255, 255],
        [255, 255, 255]],

       ...,

       [[255, 255, 255],
        [255, 255, 255],
        [255, 255, 255],
        ...,
        [255, 255, 255],
        [255, 255, 255],
        [255, 255, 255]],

       [[255, 255, 255],
        [255, 255, 255],
        [255, 255, 255],
        ...,
        [255, 255, 255],
        [255, 255, 255],
        [255, 255, 255]],

       [[255, 255, 255],
        [255, 255, 255],
        [255, 255, 255],
        ...,
        [255, 255, 255],
        [255, 255, 255],
        [255, 255, 255]]

In [2]:
export_dir = "pdf_layout_data"
if not os.path.exists(export_dir):
    os.makedirs(export_dir)
    print(f"📁 画像テーブルデータディレクトリを作成: {export_dir}/")
else:
    print(f"📁 既存のエクスポートディレクトリを使用: {export_dir}/")
    
pdf_data.export_viz_images(
    image_path=pdf_path,
    folder_path=export_dir,
    viz_type='layout_detail'
    )


NameError: name 'os' is not defined

## テーブルデータの確認と変換
### TableExtractorを使用してテーブルデータを処理

#### 様々な形式にtableを保存できます

### 単一画像の場合

In [22]:
# エクスポート用のディレクトリを作成
import os
export_dir = "image_table_data"
if not os.path.exists(export_dir):
    os.makedirs(export_dir)
    print(f"📁 画像テーブルデータディレクトリを作成: {export_dir}/")
else:
    print(f"📁 既存のエクスポートディレクトリを使用: {export_dir}/")

# textの形式
img_data.export_tables(output_folder=export_dir,output_format='text',page_index=0)
# # htmlの形式
img_data.export_tables(output_folder=export_dir,output_format='html',page_index=0)
# # # jsonの形式
img_data.export_tables(output_folder=export_dir,output_format='json',page_index=0)
# # # csvの形式
img_data.export_tables(output_folder=export_dir,output_format='csv',page_index=0)

📁 画像テーブルデータディレクトリを作成: image_table_data/


['image_table_data/table_1.csv']

### pdfの場合

In [23]:
# エクスポート用のディレクトリを作成
import os
export_dir = "pdf_table_data"
if not os.path.exists(export_dir):
    os.makedirs(export_dir)
    print(f"📁 pdfテーブルデータディレクトリを作成: {export_dir}/")
else:
    print(f"📁 既存のエクスポートディレクトリを使用: {export_dir}/")
# textの形式
pdf_data.export_tables(output_folder=export_dir,output_format='text')
# htmlの形式
pdf_data.export_tables(output_folder=export_dir,output_format='html')
# jsonの形式
pdf_data.export_tables(output_folder=export_dir,output_format='json')
# csvの形式
pdf_data.export_tables(output_folder=export_dir,output_format='csv')

📁 pdfテーブルデータディレクトリを作成: pdf_table_data/
Found 2 tables across 9 pages
Page 2: 1 tables
Page 7: 1 tables
Found 2 tables across 9 pages
Page 2: 1 tables
Page 7: 1 tables
Found 2 tables across 9 pages
Page 2: 1 tables
Page 7: 1 tables
Found 2 tables across 9 pages
Page 2: 1 tables
Page 7: 1 tables


['pdf_table_data/table_1.csv', 'pdf_table_data/table_2.csv']