# PDFパーサーの使い方 

以下のサイトを参考にしました．  
[【PDFMiner】PDFからテキストの抽出](https://qiita.com/mczkzk/items/894110558fb890c930b5)  
[Programming with PDFMine](https://www.unixuser.org/~euske/python/pdfminer/programming.html)

In [4]:
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams, LTContainer, LTTextBox
from pdfminer.pdfinterp import PDFPageInterpreter, PDFResourceManager
from pdfminer.pdfpage import PDFPage

In [5]:
from pathlib import Path

## LayoutオブジェクトからLTTextBoxのリストを取得する関数

`device`オブジェクトの`get_result`メソッドが返す`layout`オブジェクトのうち，`LTTextBox`(テキストが入っている)のみ取り出し，リストにする．

In [6]:
def find_textboxes_recursively(layout):
    """
    再帰的にテキストボックス（LTTextBox）を探して、テキストボックスのリストを取得する。
    """
    # LTTextBoxを継承するオブジェクトの場合は1要素のリストを返す。
    if isinstance(layout, LTTextBox):
        text_boxes = [layout]
        return text_boxes  # 返すのはリスト

    # LTContainerを継承するオブジェクトは子要素を含むので、再帰的に探す。
    if isinstance(layout, LTContainer):
        text_boxes = []
        for child in layout:
            text_boxes.extend(find_textboxes_recursively(child))  # 再帰的にリストをextend
            
        return text_boxes

    return []  # 何も取得できなかった場合は空リストを返す

## パースに必要なクラスの作成 

In [7]:
# Layout Analysisのパラメーターを設定。縦書きの検出を有効にする。
laparams = LAParams(detect_vertical=True)

# 共有のリソースを管理するリソースマネージャーを作成。
resource_manager = PDFResourceManager(caching=False)  # この引数によってエラーが出なくなる

# ページを集めるPageAggregatorオブジェクトを作成。
device = PDFPageAggregator(resource_manager, laparams=laparams)

# Interpreterオブジェクトを作成。
interpreter = PDFPageInterpreter(resource_manager, device)

## 二段組専用のソート方法 

In [8]:
class Sort2Column():
    def __init__(self, layout_x0, layout_x1):
        self.half_x = (layout_x0 + layout_x1)/2
    
    def __call__(self, text_box):
        if text_box.x0 < self.half_x:
            left_or_right = -1  # it mean left
            
        else:
            left_or_right = 1  # it mean right
            
        return (left_or_right, -text_box.y1)

In [9]:
sorted([0,2,1])

[0, 1, 2]

## ファイルを読み込み，パースを行う

qiitaの記事では，documentオブジェクトは必要ない`PDFPage.get_pages`メソッドを利用する．このメソッドはファイルオブジェクトを引数にとる．

In [63]:
#file_path = Path("./PDFs/IS1-20.pdf")
#file_path = Path("/home/umelab-server2020/workspace/paper_parse/paper_example/ロボット学会/rsj_2010.pdf")
#file_path = Path("/home/umelab-server2020/workspace/paper_parse/paper_example/SSII/ssii_2018.pdf")
#file_path = Path("/home/umelab-server2020/workspace/paper_parse/paper_example/robomech/robomech_2015.pdf")
#file_path = Path("/home/umelab-server2020/workspace/paper_parse/paper_example/MiRU/miru_2019.pdf")
#file_path = Path("/home/umelab-server2020/workspace/paper_parse/paper_example/ViEW/view_2017.pdf")
file_path = Path("/home/umelab-server2020/workspace/paper_parse/paper_example/robotics_symposia/robosym_2020.pdf")

In [64]:
with open(file_path, "rb") as f:
    for page in PDFPage.get_pages(f):
        interpreter.process_page(page)  # ページを処理する。
        layout = device.get_result()  # LTPageオブジェクトを取得。
        text_boxes = find_textboxes_recursively(layout)      

        # text_boxの座標値毎にソート，複数キーのソート
        #text_boxes.sort(key=lambda text_box: (-text_box.y1, text_box.x0))  # y1がy座標，x0がx座標らしい(画像座標なので，y1を負に)
        #text_boxes.sort(key=lambda text_box: (text_box.x0, -text_box.y1)) # 正直二段組のデータでの取得は難しく，ある程度1段踏み前提
        
        # 二段組のソート
        sort2column = Sort2Column(layout_x0=layout.x0, layout_x1=layout.x1)
        text_boxes.sort(key=sort2column)
        for box in text_boxes:
            print("------------------")
            print(box.get_text().strip())  # 末尾の文字を削除
            print("x0:{},x1:{}".format(box.x0, box.x1))
            print("y0:{},y1:{}".format(box.y0, box.y1))
            
        print("-------pages---------")

------------------
コンテキストに基づく画素レベル凹型障害物検出
x0:148.63,x1:452.3179999999999
y0:730.4291159999999,y1:747.1595639999999
------------------
∗1, 阪野 貴彦
x0:286.52,x1:353.95100092800004
y0:708.1077769999999,y1:730.77601
------------------
堀内 英一
x0:235.13,x1:284.121000928
y0:708.1077769999999,y1:722.302479
------------------
Context-based Pixel-level Negative Obstacle Detection
x0:162.95000000000005,x1:437.98556999999994
y0:677.1957649999999,y1:690.9798800000001
------------------
∗1
∗1 and Atsuhiko BANNO
x0:279.98999999999995,x1:410.44599999999997
y0:655.4557649999999,y1:677.94601
------------------
Eiichi HORIUCHI
x0:189.99999999999997,x1:279.97333
y0:655.4557649999999,y1:668.7975449999999
------------------
∗1 Robot Innovation Research Center, AIST
x0:221.63999999999996,x1:379.29793910199993
y0:637.554378,y1:654.85989
------------------
Central 2, 1-1-1 Umezono, Tsukuba, Ibaraki 305-8568, Japan
x0:190.02999999999997,x1:410.8984440000001
y0:628.2443780000001,y1:638.250434
------------------
Neg

------------------
Daytime IR
x0:106.63,x1:139.36595599999998
y0:680.2666419999999,y1:688.049626
------------------
Nighttime IR
x0:215.67000000000002,x1:252.667
y0:680.2666419999999,y1:688.049626
------------------
Fig. 6 Context augmentation.
x0:116.62,x1:240.54972711099995
y0:661.368029,y1:672.486737
------------------
タ収集は，歩車道段差を主に含む歩道環境（SW），側
溝を主に含む通路環境（PSG），下り階段を主に含むテ
ラス環境（TCE）の異なる環境でデータの多様性の確
保を考慮して行った．各フレームはロボット直前の路
面と凹型障害物を少なくとも一つ含む．日中データは
好天時のものである．本報告が用いたデータセット
は https://staff.aist.go.jp/horiuchi.e/から
アクセスできる．
x0:65.2,x1:291.9691762420001
y0:528.2697739999996,y1:644.708898
------------------
アノテーションはロボットの直進を想定して，直前
の路面からの延長上に存在して実際にロボットが遭遇
する可能性がある段差や溝などの凹型障害物を対象に
行う．この指針は従来の幾何学的条件に到達可能性の
判断を加えたものである．前述のエッジモデルに従い，
ツールを利用して人手で赤外線画像（IR）上でエッジ
画素を 1 画素幅の折れ線でアノテーションする．この
アノテーションに膨張処理を 4 近傍（菱形カーネル），
処理回数 0 から 128 で適用した拡張されたコンテキス
トを検出対象として障害物検出を行う．図 6 に日中，
夜間 IR にその一部を重ねて示すが，後者には投射さ
れた赤外光パターンが映っている．フレームは多数の
エッジを含むが上記指針より対象は 2 箇所の段差だけ
である．また元のアノテーションが真の画素からぶれ
てもコンテキストは障害物を捉えることができる．

------------------
∗
DPT HHA
x0:165.19,x1:205.2705
y0:753.486642,y1:766.382035
------------------
20.0
x0:115.79,x1:127.9945
y0:758.216642,y1:765.999626
------------------
hHLD wHLD
x0:212.76,x1:256.296798
y0:753.6366419999999,y1:761.519626
------------------
IR
x0:145.62,x1:152.594
y0:753.686642,y1:761.4696260000001
------------------
FPRintestdata[%]
x0:94.780374,x1:102.56335800000001
y0:692.96,y1:749.518596
------------------
15.0
x0:115.79,x1:127.9945
y0:737.816642,y1:745.5996260000001
------------------
10.0
x0:115.79,x1:127.9945
y0:717.406642,y1:725.1896260000001
------------------
5.0
x0:117.53,x1:126.2475
y0:696.9966420000001,y1:704.7796260000001
------------------
0.0
x0:117.53,x1:126.2475
y0:676.5866420000001,y1:684.3696260000002
------------------
96
x0:224.98000000000002,x1:231.954
y0:672.076642,y1:679.859626
------------------
0
x0:131.49,x1:134.977
y0:672.046642,y1:679.8296260000001
------------------
32
x0:161.490006982,x1:168.464006982
y0:672.046642,y1:679.8296260000001

### documentオブジェクトを利用する場合 