Skip to content

GoogleDriveOCR

Naohide Sano edited this page May 29, 2024 · 8 revisions

OCR by Google Drive

image

Automation OCR Process

Program

https://github.com/umjammer/vavi-apps-fuse/blob/master/vavi-nio-file-sandbox/src/test/java/GoogleOCR.java

Result 2020-03-11

例のチェッカーで校正してみる。 極めて精度が良い。数年前とは別物になっている。500ページに渡り文字化けした記号の羅列が一つもなかった。後は、

  • 名字などの固有名詞
  • 常用漢字以外 (まぁしゃーなし)
  • わからなかったところを適当に正しい文に無理やり直しているところがある、これ校正に引っかからなくなるので問題
  • ルビ (人間でも厳しいこの解像度でできるようになったら凄い、こここそ予測変換の出番じゃない?)

サンプルが時代物だったので少々難敵だったかも。現代文オンリーならすごい精度なんじゃなかろうか?

result

Clone this wiki locally