<a href="https://colab.research.google.com/github/nakamura196/E34/blob/master/ndl_ocr_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# NDLOCRの実行例 Ver.2：Google Driveを用いた画像の入力と結果の保存

Google Drive上のフォルダを指定して、当該フォルダに含まれる複数画像に対してOCR処理を実行し、指定したフォルダに認識結果を出力します。

**本ノートブック（Ver.2）では、PDFファイルやIIIFマニフェストファイルの入力をサポートしています。また、実行後に認識結果をマージしたテキストファイルをダウンロードすることができます。**

## 参考記事

https://zenn.dev/nakamura196/articles/b6712981af3384

## 参考にしたノートブック

@blue0620 さんが作成したノートブック

https://github.com/blue0620/NDLOCR-GoogleColabVersion/blob/main/NDLOCR_googlecolabversion.ipynb

## 使用方法

- 「1.初期セットアップ」を実行してください。初回のみ実行が必要です。

- 「2. 設定」を変更してください。

## 1.初期セットアップ

時間がかかります。初回のみ実行が必要です。

In [None]:
# @title

%cd "/content/"

# 6. google driveのマウント
from google.colab import drive
drive.mount('/content/drive/')

from IPython.display import clear_output 

# 1. NDLOCRのリポジトリをcloneする(--recursiveを忘れずに！)
!rm -rf ndlocr_cli
!git clone -q --recursive https://github.com/ndl-lab/ndlocr_cli
# !git clone -q --recursive https://github.com/nakamura196/ndlocr_cli
clear_output()

# 2. 必要なパッケージをインストールする
PROJECT_DIR="/content/ndlocr_cli"
!pip install -q -r {PROJECT_DIR}/requirements.txt
!pip install -q torch==1.8.1+cu111 torchvision==0.9.1+cu111 -f https://download.pytorch.org/whl/lts/1.8/torch_lts.html
clear_output()
!pip install -q mmcv-full==1.4.0 -f https://download.openmmlab.com/mmcv/dist/cu111/torch1.8.0/index.html
##numpyのバージョン問題でcolabでは動かなかったのでアップデートする(参考:https://stackoverflow.com/questions/66060487/valueerror-numpy-ndarray-size-changed-may-indicate-binary-incompatibility-exp)
!pip install -q --upgrade numpy
clear_output()

%cd {PROJECT_DIR}/src/ndl_layout/mmdetection
!python setup.py bdist_wheel
clear_output()
!pip install -q dist/*.whl
clear_output()

# # 4. OCRに必要な学習済みモデルをダウンロードする

%cd {PROJECT_DIR}
!wget -q https://lab.ndl.go.jp/dataset/ndlocr/text_recognition/mojilist_NDL.txt -P ./src/text_recognition/models
!wget -q https://lab.ndl.go.jp/dataset/ndlocr/text_recognition/ndlenfixed64-mj0-synth1.pth -P ./src/text_recognition/models
!wget -q https://lab.ndl.go.jp/dataset/ndlocr/ndl_layout/ndl_layout_config.py -P ./src/ndl_layout/models
!wget -q https://lab.ndl.go.jp/dataset/ndlocr/ndl_layout/epoch_140_all_eql_bt.pth -P ./src/ndl_layout/models
!wget -q https://lab.ndl.go.jp/dataset/ndlocr/separate_pages_ssd/weights.hdf5 -P ./src/separate_pages_ssd/ssd_tools
clear_output()

# 5. 環境変数を追加する
import os
os.environ["PYTHONPATH"]=os.environ["PYTHONPATH"]+":"+f"{PROJECT_DIR}/src/text_recognition/deep-text-recognition-benchmark"

clear_output()

# PDF関連
!apt-get install poppler-utils
!pip install -q pdf2image

clear_output()

In [None]:
#@title 独自関数のロード

from pathlib import Path
import glob
from tqdm import tqdm
from pdf2image import convert_from_path
import os
import datetime
import pytz
from google.colab import files
import requests
import json
from urllib import request
import time
import pprint

def getProcessParam(process):
  p = "0..3"
  if process == "傾き補正,レイアウト抽出,文字認識(OCR)":
    p = "1..3"
  elif process == "レイアウト抽出,文字認識(OCR)":
    p = "2..3"
  elif process == "文字認識(OCR)":
    p = "3"
  return p

def createParentDir(path):
  basename = os.path.basename(path)
  parent_path = os.path.dirname(path)
  os.makedirs(parent_path, exist_ok=True)

def listFiles(input_dir, exts):
  paths = []
  ext_list = exts.split(",")
  for ext in ext_list:
    files = glob.glob("{}/**/*.{}".format(input_dir, ext), recursive=True)
    paths.extend(files)
  return sorted(paths)

def prepareImgDir(file_id):
  print("### 入力画像フォルダの作成 ###")

  run_id = datetime.datetime.now(pytz.timezone('Asia/Tokyo')).strftime('%Y%m%d%H%M%S')
  tmp_dir = "/tmp/" + run_id + "/" + file_id

  '''
  if os.path.exists(tmp_dir):
    !rm -rf $tmp_dir
  '''

  # img_dir
  tmp_img_dir = tmp_dir + "/img"
  os.makedirs(tmp_img_dir, exist_ok=True)

  return tmp_dir, tmp_img_dir

# 画像のダウンロード
def downloadImages(url, output_dir, time_sleep):
  print("### IIIFマニフェストを用いた画像のダウンロード ###")
  df = requests.get(url).json()
  canvases = df["sequences"][0]["canvases"]
  if process_size > 0:
    canvases = canvases[0:process_size]
  for i in tqdm(range(len(canvases))):
    res = canvases[i]["images"][0]["resource"]
    index = str(i+1).zfill(4)
    path = "{}/{}.jpg".format(output_dir, index)
    os.makedirs(os.path.dirname(path), exist_ok=True)

    '''
    if "service" in res:
      info_url = res["service"]["@id"]
      info = requests.get(info_url + "/info.json").json()

      json_path = "{}/json/{}.json".format(etc_dir, index)
      os.makedirs(os.path.dirname(json_path), exist_ok=True)
      json.dump(info, open(json_path, "w"))

      image_width = info["width"]
      image_height = info["height"]

      # 短辺が1600になるように
      size = ",1600"

      if image_width < image_height:
        size = "1600,"
      url = "{}/full/{}/0/default.jpg".format(info_url, size)
      
    else:
    '''
    url = canvases[i]["images"][0]["resource"]["@id"]

    time.sleep(time_sleep)
    request.urlretrieve(url, path)

def createImagesFromPDF(pdf_path, img_dir, filename):
  print("### PDFファイルから画像ファイルの作成 ###")
  pdf_path = Path(pdf_path)
  img_path=Path(img_dir)
  convert_from_path(pdf_path, output_folder=img_path,fmt='jpeg', output_file=pdf_path.stem,dpi=100)

def execByLocalPdf(file, process, download=True):
  filename = getFileIdAndName(file)
  tmp_dir, tmp_img_dir = prepareImgDir(filename)
  createImagesFromPDF(file, tmp_img_dir, filename)
  main(tmp_dir, output_dir + "/" + filename, process, download=download)

def getFileIdAndName(path):
  print("### ファイルIDと名前の取得 ###")
  return path.split("/")[-1].split(".")[0]

def main(input_dir, output_dir, process, clearOutputFlag=True, download=True):
  print("### 推論の実行 ###")  

  p = getProcessParam(process)

  output_dir_by_param = createOutputDirIfExist(output_dir, p)

  # CPUのみを使用する場合
  c = "config.yml"
  '''
  try:
    if not use_gpu:
      c = "config_cpu.yml"
  except:
    pass
  '''

  !python main.py infer -c $c -s s $input_dir $output_dir_by_param -x -i -p $p
  if clearOutputFlag:
    clear_output()

  if download:
    mergeTxtAndDownload(output_dir_by_param)

  print("認識結果を以下に格納しました。")
  print(output_dir_by_param)

# 出力フォルダの設定

def createOutputDirIfExist(output_dir, p):
  output_dir = output_dir + "@p" + p 
  if os.path.exists(output_dir): 
    run_id = datetime.datetime.now(pytz.timezone('Asia/Tokyo')).strftime('%Y%m%d%H%M%S')
    output_dir = output_dir + "_" + run_id
    print("!!! 指定された出力フォルダが既に存在するため、 {} に出力します。 !!!".format(output_dir))

  # 親フォルダの作成
  createParentDir(output_dir)

  return output_dir

# txtファイルにまとめる
def mergeTxtAndDownload(output_dir):
  tmp_dirs = glob.glob(output_dir + "/*/txt")
  txt_dir = tmp_dirs[0]
  
  file_id = txt_dir.split("/")[-2]
  output_id_dir = output_dir + "/" + file_id

  txt_files = glob.glob(txt_dir + "/*.txt")
  txt_files = sorted(txt_files)
  merged_txt_file_path = output_id_dir + "/" + file_id + '.txt'
  merged_txt_file = open(merged_txt_file_path, 'a')
  for each_txt_file_path in txt_files:
    each_txt_file = open(each_txt_file_path, 'r')
    data = each_txt_file.read()
    each_txt_file.close()
    merged_txt_file.write(data+"\n")
  merged_txt_file.close()

  files.download(merged_txt_file_path)

## 2.設定

以下、入力方式によって適切なものを選んでください。

- 画像
  - [単一の画像ファイルのURLを指定する場合](#scrollTo=HugE-wRDxl5E)
  - [単一の画像ファイルをアップロードする場合](#scrollTo=Hx0mBi_jk9_s)
  - [複数の既にダウンロード済みの画像ファイルを対象にする場合（Sigle input dir mode）](#scrollTo=OPICIT1-Z6_3)
  - [複数の既にダウンロード済みの画像ファイルを対象にする場合（Image file mode: 単体の画像ファイルを入力として与える場合）](#scrollTo=7arhNS34eIWM)
- PDF
  - [単一のPDFファイルのURLを指定する場合](#scrollTo=jlitIIC5SkrR)
  - [単一のPDFファイルをアップロードする場合](#scrollTo=yK5kvjlY1T3K)
  - [単一の既にダウンロード済みのPDFファイルを対象にする場合](#scrollTo=4DFFxQECQtzJ)
  - [複数の既にダウンロード済みのPDFファイルを格納したフォルダを指定する場合](#scrollTo=VXRz_3tn60v5)
- IIIF
  - [IIIFマニフェストファイルのURLを指定する場合](#scrollTo=LhMvDLsXUZde)

## 画像

### 単一の画像ファイルのURLを指定する場合

- url: 画像ファイルのURL
- output_dir: 出力するフォルダへのパス

入力サンプル：「校異源氏物語」（国立国会図書館所蔵）

In [None]:
#@title 設定

url = "https://www.dl.ndl.go.jp/api/iiif/3437686/R0000006/full/full/0/default.jpg" #@param {type:"string"}
output_dir = "/content/drive/MyDrive/ndl_ocr/output/image_url" #@param {type:"string"}
process = "\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)" #@param ["\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u6587\u5B57\u8A8D\u8B58(OCR)"]

output_dir = str(Path(output_dir))

In [None]:
#@title 実行
filename = getFileIdAndName(url)
tmp_dir, tmp_img_dir = prepareImgDir(filename)
# 画像のダウンロード
request.urlretrieve(url, tmp_img_dir+"/"+filename+".jpg")
main(tmp_dir, output_dir + "/" + filename, process)

def createManifest(input_dir, output_dir, urls):
  xml_files = glob.glob(output_dir + "/*/xml/*.xml")
  xml_file = xml_files[0]

  files = glob.glob(input_dir + "/img/*.jpg")

  for i in range(len(files)):
    file = files[i]
    url = urls[i]
    print(file, url)
  print(xml_file)

# createManifest(tmp_dir, output_dir, [url])

### 単一の画像ファイルをアップロードする場合

- output_dir: 出力するフォルダへのパス

以下の設定の再生ボタンを押すと、ファイルのアップロードフォームが表示されます。

In [None]:
#@title 設定

output_dir = "/content/drive/MyDrive/ndl_ocr/output/image_local" #@param {type:"string"}
process = "\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)" #@param ["\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u6587\u5B57\u8A8D\u8B58(OCR)"]

from google.colab import files
uploaded = files.upload()
input_file = next(iter(uploaded))

output_dir = str(Path(output_dir))

In [None]:
#@title 実行
filename = getFileIdAndName(input_file)
tmp_dir, tmp_img_dir = prepareImgDir(filename)
# 画像のコピー
output_path = tmp_img_dir+"/"+filename+".jpg"
!cp $input_file $output_path
!rm -rf $input_file
main(tmp_dir, output_dir + "/" + filename, process)

### 複数の既にダウンロード済みの画像ファイルを対象にする場合（Sigle input dir mode）

- input_dir: 入力するフォルダのパス
  - 指定したフォルダの下にimgフォルダを用意し、その中に画像を格納してください。
- output_dir: 出力するフォルダへのパス

In [None]:
#@title 設定

input_dir = "/content/drive/MyDrive/ndl_ocr/input" #@param {type:"string"}
output_dir = "/content/drive/MyDrive/ndl_ocr/output/image_single" #@param {type:"string"}
process = "\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)" #@param ["\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u6587\u5B57\u8A8D\u8B58(OCR)"]

output_dir = str(Path(output_dir))
input_dir = str(Path(input_dir))

In [None]:
#@title 実行
folder_name = input_dir.split("/")[-1]
main(input_dir, output_dir + "/" + folder_name, process) # , clearOutputFlag=False

### 既にダウンロード済みの画像ファイルを対象にする場合（Image file mode: 単体の画像ファイルを入力として与える場合）

- input_dir: 入力するフォルダのパス
  - 指定したフォルダに含まれる画像ファイル（jpg）を再帰的に探索します。
- output_dir: 出力するフォルダへのパス

In [None]:
#@title 設定

input_dir = "/content/drive/MyDrive/ndl_ocr/input/img" #@param {type:"string"}
output_dir = "/content/drive/MyDrive/ndl_ocr/output/image_file" #@param {type:"string"}
process = "\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)" #@param ["\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u6587\u5B57\u8A8D\u8B58(OCR)"]

output_dir = str(Path(output_dir))
input_dir = str(Path(input_dir))

extensions = ["jpg", "jpeg", "JPG", "JPEG"]
target_files = []
for extension in extensions:
  tmp_files = glob.glob("{}/**/*.{}".format(input_dir, extension), recursive=True)
  target_files.extend(tmp_files)

print("実行対象のファイルは以下です。")
pprint.pprint(target_files)

In [None]:
#@title 実行
for file in target_files:
  filename = getFileIdAndName(file)
  tmp_dir, tmp_img_dir = prepareImgDir(filename)
  # downloadImages(url, tmp_img_dir)
  output_path = "{}/{}.jpg".format(tmp_img_dir, filename)
  !cp $file $output_path
  main(tmp_dir, output_dir + "/" + filename, process, download=False)

## PDF

### 単一のPDFファイルのURLを指定する場合

- url: PDFファイルのURL
- output_dir: 出力するフォルダへのパス

入力サンプル：「東洋学芸雑誌」（人間文化研究機構国立国語研究所所蔵）

In [None]:
#@title 設定

url = "https://dglb01.ninjal.ac.jp/ninjaldl/toyogakuge/001/PDF/tygz-001.pdf" #@param {type:"string"}
# https://repository.dl.itc.u-tokyo.ac.jp/record/53864/files/01_hyakunenshi_tsushi01.pdf
output_dir = "/content/drive/MyDrive/ndl_ocr/output/pdf_url" #@param {type:"string"}
process = "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)" #@param ["\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u6587\u5B57\u8A8D\u8B58(OCR)"]

output_dir = str(Path(output_dir))
# input_dir = str(Path(input_dir))

In [None]:
#@title　実行

filename = getFileIdAndName(url)
tmp_dir, tmp_img_dir = prepareImgDir(filename)

print("### PDFファイルのダウンロード ###")
tmp_pdf_path = tmp_dir + "/" + filename + ".pdf"
!curl $url -o $tmp_pdf_path

createImagesFromPDF(tmp_pdf_path, tmp_img_dir, filename)

main(tmp_dir, output_dir+"/"+filename, process)

### 単一のPDFファイルをアップロードする場合

- output_dir: 出力するフォルダへのパス

以下の設定の再生ボタンを押すと、ファイルのアップロードフォームが表示されます。

In [None]:
#@title 設定

output_dir = "/content/drive/MyDrive/ndl_ocr/output/image_local" #@param {type:"string"}
process = "\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)" #@param ["\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u6587\u5B57\u8A8D\u8B58(OCR)"]

from google.colab import files
uploaded = files.upload()
input_file = next(iter(uploaded))

output_dir = str(Path(output_dir))

In [None]:
#@title　実行

filename = getFileIdAndName(input_file)
tmp_dir, tmp_img_dir = prepareImgDir(filename)

tmp_pdf_path = tmp_dir + "/" + filename + ".pdf"
!cp $input_file $tmp_pdf_path
!rm -rf $input_file

createImagesFromPDF(tmp_pdf_path, tmp_img_dir, filename)

main(tmp_dir, output_dir+"/"+filename, process)

### 単一の既にダウンロード済みのPDFファイルを対象にする場合

- input_file: PDFファイルのパス
- output_dir: 出力するフォルダへのパス

In [None]:
#@title　設定

input_file = "/content/drive/MyDrive/ndl_ocr/input/pdfs/tygz-001.pdf" #@param {type:"string"}
# input_dir = "/content/drive/MyDrive/ndl_ocr/input/pdfs"
output_dir = "/content/drive/MyDrive/ndl_ocr/output/pdf_local" #@param {type:"string"}
process = "\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)" #@param ["\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u6587\u5B57\u8A8D\u8B58(OCR)"]

output_dir = str(Path(output_dir))

In [None]:
#@title 実行
execByLocalPdf(input_file, process)

### 複数の既にダウンロード済みのPDFファイルを格納したフォルダを指定する場合

- input_dir: ダウンロード済みのPDFファイルを格納したフォルダ
- output_dir: 出力するフォルダへのパス

In [None]:
#@title　設定

input_dir = "/content/drive/MyDrive/ndl_ocr/input/pdfs" #@param {type:"string"}
output_dir = "/content/drive/MyDrive/ndl_ocr/output/pdfs_local" #@param {type:"string"}
process = "\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)" #@param ["\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u6587\u5B57\u8A8D\u8B58(OCR)"]

output_dir = str(Path(output_dir))
input_dir = str(Path(input_dir))

target_files = glob.glob(input_dir+"/**/*.pdf", recursive=True)

print("実行対象のファイルは以下です。")
pprint.pprint(target_files)

In [None]:
#@title 実行
for file in target_files:
  execByLocalPdf(file, process, download=False)

## IIIF

### IIIFマニフェストファイルのURLを指定する場合

- url: IIIFマニフェストファイルのURL
- output_dir: 出力するフォルダへのパス
- process_size: 処理するcanvas数。-1を指定するとすべてのcanvasを処理対象とする。負荷軽減のため、初期値は5に設定しています。
- sleep_time: 画像ダウンロードの間隔（秒数）

入力サンプル：「校異源氏物語」（国立国会図書館所蔵）

In [None]:
#@title 設定

url = "https://www.dl.ndl.go.jp/api/iiif/3437686/manifest.json" #@param {type:"string"}
output_dir = "/content/drive/MyDrive/ndl_ocr/output/iiif" #@param {type:"string"}
process = "\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)" #@param ["\u3059\u3079\u3066: \u30CE\u30C9\u5143\u5206\u5272,\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u50BE\u304D\u88DC\u6B63,\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u30EC\u30A4\u30A2\u30A6\u30C8\u62BD\u51FA,\u6587\u5B57\u8A8D\u8B58(OCR)", "\u6587\u5B57\u8A8D\u8B58(OCR)"]

process_size =   5#@param {type:"number"}
sleep_time =   1#@param {type:"number"}

output_dir = str(Path(output_dir))

In [None]:
#@title 実行
filename = getFileIdAndName(url)
tmp_dir, tmp_img_dir = prepareImgDir(filename)
downloadImages(url, tmp_img_dir, sleep_time)
main(tmp_dir, output_dir + "/" + filename, process)