# Tika

[Apache Tika](https://tika.apache.org/) is the best software in all of history when it comes to converting documents to text. It takes absolutely *anything* and turns it into text (just make sure you've installed tesseract first).

## Installation, Part 1

### OS X

You can install Java using Homebrew.

```
brew install --cask adoptopenjdk
```

### Windows

You'll need to [download Java](https://java.com/en/download/manual.jsp) and install it (pick the offline installer, fewer things to go wrong).

## Installation, Part 2

Now we'll install the [Python bindings](https://github.com/chrismattmann/tika-python) of the Tika library.

```
pip install tika
```

We don't need to download Tika itself because *the Python library does it for us, every single time it runs*.

## Using Tika

Let's see if we can get this to work!



In [1]:
import tika
from tika import parser

In [16]:
parsed = parser.from_file('ocr-pdfs/players-scan.jpg')

In [17]:
parsed.keys()

dict_keys(['metadata', 'content', 'status'])

In [18]:
parsed['status']

200

In [20]:
print(parsed['content'].strip())

Player

Rhett Bomar
Joe Webb
Christian Ponder
Adrian Peterson
Lorenzo Booker
Ryan D'Imperio
Jeff Dugan

Toby Gerhart
Greg Camarillo
Juaquin Iglesias
Freddie Brown
Jaymar Johnson
Emmanuel Arceneaux
Bernard Berrian
Percy Harvin
Sidney Rice
Visanthe Shiancoe
Jim Kleinsasser
Cullen Loeffler
Jon Cooper
John Sullivan
Anthony Herrera
Steve Hutchinson
Seth Olsen
Chris DeGeare
Thomas Welch
Phil Loadholt
Bryant McKinnie
Patrick Brown
Ryan Cook
Chris Kluwe
Brian Robison
Kevin Williams
Ray Edwards
Jared Allen
Tremaine Johnson
Adrian Awasom
Letroy Guion
Jimmy Kennedy
Everson Griffen
Chad Greenway
E.J. Henderson
Heath Farwell
Kenny Onatolu
Jasper Brinkley
Erin Henderson
Madieu Williams
Chris Cook
Marcus Sherels
Asher Allen
Cedric Griffin

Pos

Quarterback
Quarterback
Quarterback
Running Back
Running Back
Running Back
Running Back
Running Back
Wide Receiver
Wide Receiver
Wide Receiver
Wide Receiver
Wide Receiver
Wide Receiver
Wide Receiver
Wide Receiver
Tight End

Tight End

Center

Center

Center

G

> # If you aren't working in English, you'll need to set headers with info from `tesseract --list-langs`

In [26]:
headers = {
    "X-Tika-OCRLanguage": "chi_sim"
}

results = parser.from_file('non-english/museums-scanned.jpg', headers=headers)
print(results['content'].strip())

附件 1

2015 年 度 全 国 博 物 馆 名 录

博物 馆 性 | 质量 等 | 是 否 免费

北京 市 〈151 家 )

故宫 博物 院 文物

人 民 革 命 军事 博物 馆 行业

人 | 文胸 是

 

 

城区 景山 前 街 4 号

 

 

 

 

 

 

 

 

 

 

城区 东 长 安 街 16 号

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

了

 

 

 

 

 

 

 

 

地 质 博 物 馆

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

目 农 业 博 物 馆

 

 

 

 

 

二

 

 

 

 

 

抗日 战争 纪念 馆 文物 区 宛 平 城内 街 101 号

 

 

 

 

 

 

 

 

 

 

 

北京 市 朝阳 区 北 展 东 路 5 号
城区 天 桥 南 大 街 126 号

区 复兴 门 外 大 街 16 号
房山 区 周口 店 大 街 1 号
昌平 区 小 汤山 5806 号

IN

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

首都 博物 馆 文物

店 北京 人 遗址 博物 馆 文物

 

 

 

 

 

 

 

 

 

 

 

二

 

 

 

 

 

 

 

中 国航 空 博物 锯

 

 

 

 

 

北京 天 文 馆 《北京 古 观 象 台 )

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

文物 区 东经 路 21 号

 

 

 

 

洗 区 学 院 路 42 号
西城 区 马连道 南 街 2 号 院 1 号 楼

 

R|R

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

R

 

 

 

 

 

 

 

 

 

 

 

 

 

 

子 监 街 13 一 15 号

平 区 十 三 陵 特 区 办 事 处 定 陵

演 区 五 塔 寺 24 

In [28]:
headers = {
    "X-Tika-OCRLanguage": "grc"
}

results = parser.from_file('non-english/greek.png', headers=headers)
print(results['content'].strip())

Η Αϑήνα (Αϑῆναι στὰ ἀρχαία ελληνικά και τὴν καϑαρεύουσα) εἶναι ἡ πρω-
τεύουσα τῆς Βλλάδας. Ἐπίσης είναι ἡ ἔδρα τῆς Περιφέρειας Αττικής. Βρίσχεται
στὴ Στερεά (Κεντρική) Ἑλλάδα και αποτελεί εύρωστο οιχονομιχό, πολιτιστικό χαι
διοικητικό κέντρο τῆς χώρας. Πήρε το ὀνομά τῆς από τὴ ϑεά Αϑηνά που ἦταν χαι
ἡ προστάτιδά της. Η Αϑήνα σήμερα εἰναι μία σύγχρονη πόλη αλλά χαι διάσημη,
χκαϑώς στὴν αρχαιότητα ἦταν πανίσχυρη πόλη-χράτος και σημαντικότατο χέντρο
πολιτισμού. ϑεωρείται ἡ ἱιστορικότερη πόλη τῆς Ευρώπης μαζί με τὴ Ρώμη. ἘΣ
ίναι γνωστή σε όλο τον κόσμο για τα ιστοριχά τῆς μνημεία που διασώϑγηραν,έστω
χκαι μερικώς, στο πέρασμα τῶν αἰώνων. Ἐπίνειο τῆς ἱιστορικής πόλης εἰναι το λι-
μάνι του Πειραιά. Πολιούχος τῆς Πόλης των Αϑηνών εἰναι ο Ἅγιος Διονύσιος ο
ἈΑρεοπαγίτης.
