<h1> Optical Character Recogntion and Machine Translation using Google Services</h1> <br>

<b> First, let's download tesseract's language model for Finnish. </b> 

In [2]:
!wget https://github.com/tesseract-ocr/langdata/tree/master/fin

--2019-11-27 18:42:02--  https://github.com/tesseract-ocr/langdata/tree/master/fin
Resolving github.com (github.com)... 140.82.114.4
Connecting to github.com (github.com)|140.82.114.4|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘fin’

fin.3                   [ <=>                ]  62.28K  --.-KB/s    in 0.05s   

2019-11-27 18:42:02 (1.13 MB/s) - ‘fin’ saved [63776]



<b> Next, let's import the dependencies we need. </b>

In [4]:
import glob 
import pytesseract 

from wand.image import Image as Img
from PIL import Image

from googletrans import Translator 
translator = Translator()

<b>Specify input and output directories</b><br>
In this example, I've hard coded the input and output dirs. If you want, you can uncomment to input the dirs. When converting this notebook to a python script, you can also use sys.argv to specify input and output dirs as command line arguments when executing. 


In [6]:
# input_dir = input('enter full working directory of images you want to transcribe. ')
input_dir = "/input/"
print(input_dir)

# output_dir = input('enter the full working directory of where you want to put transcribed images. ')
output_dir = "/output/"
print(output_dir)

images = []

# turn each page of the .pdf into a numbered .jpg file and save the images to the input_dir
for filename in glob.glob(input_dir+'*'):            
    if filename.endswith('.pdf'):
        fname = filename.split(input_dir)[1] # remove input path from filename
        with Img(filename=filename, resolution=300) as img:
            img.compression_quality = 60
            img.save(filename=input_dir+fname.split('.pdf')[0]+'.jpg')

# now open all the .jpgs in order and add them to a list
for filename in sorted(glob.glob(input_dir+'*')):
    if filename.endswith('.jpg'): 
        fname = filename.split(input_dir)[1] # remove input path 
        with open(filename, 'r+b') as image:
            # for Tibetan OCR: lang='bod' 
            images.append(pytesseract.image_to_string(Image.open(image), lang='fin')) 
            print('Finished transcribing ' + filename)

/input/
/output/
Finished transcribing /input/URN_NBN_fi_jyu-20081112871-0.jpg
Finished transcribing /input/URN_NBN_fi_jyu-20081112871-1.jpg
Finished transcribing /input/URN_NBN_fi_jyu-20081112871-10.jpg
Finished transcribing /input/URN_NBN_fi_jyu-20081112871-100.jpg
Finished transcribing /input/URN_NBN_fi_jyu-20081112871-101.jpg
Finished transcribing /input/URN_NBN_fi_jyu-20081112871-102.jpg
Finished transcribing /input/URN_NBN_fi_jyu-20081112871-103.jpg
Finished transcribing /input/URN_NBN_fi_jyu-20081112871-104.jpg
Finished transcribing /input/URN_NBN_fi_jyu-20081112871-105.jpg


<b>Let's take a look at the text that has been extracted. <b>

In [35]:
for image in images:
    print(image)

ITSE OPPINUT TAITEILIJA

- tapaustutkimus: Paavo Pyhtilä, 80v

Jyväskylän yliopisto

Taiteiden ja kulttuurintutkimuksen laitos
Taidekasvatuksen pro gradu -tutkielma
kevät 2008

Pertti Pyhtilä
JYVÄSKYLÄN YLIOPISTO

Tiedekunta — Faculty Laitos — Department
Humanistinen tiedekunta Taiteiden ja kulttuurin tutkimuksen laitos

Tekijä — Author .
Pertti Juhani PYHTILÄ

Työn nimi — Title
ITSE OPPINUT TAITEILIJA - tapaustutkimus: Paavo Pyhtilä, 80v

Oppiaine — Subject Työn laji — Level
Taidekasvatus Pro gradu -tutkielma

Aika — Month and year Sivumäärä — Number of pages
toukokuu 2008 136 + 5 liitettä = 178 sivua

Tiivistelmä — Abstract: Itseoppinut taiteilija kompensoi ammatillisen taidekoulutuksen puutetta opiske-
lemalla itsenäisesti moninkertaisesti koulutettuihin kollegoihinsa verrattuna. Hän epäilee taitojaan ja
perehtyy siksi huolella tekniikoihin niitä — ilman ohjausta — luovasti kokeillen. Häneltä puuttuu taidekou-
lun sosiaalistava ja identiteettiä rakentava verkosto, joten hän etsii ta

<b>Now let's translate the text into English.</b> 

In [8]:
im = []
for image in images:
    image = translator.translate(image, dest='en')
    im.append(image)

In [36]:
for i in im:
    print(i)

Translated(src=fi, dest=en, text=Self-taught artist

- case study: Paavo Pyhtilä, 80v

University of Jyväskylä

Department of Art and Culture Studies
Art Education Master's thesis
spring 2008

Pertti Pyhtilä, pronunciation=None, extra_data="{'translat...")
Translated(src=fi, dest=en, text=UNIVERSITY OF JYVÄSKYLÄ

The faculty - Faculty Department - Department
Faculty of Humanities Department of Art and Culture Studies

By - Author.
Pertti Juhani Pyhtilä

Title of Project - Title
Self-taught artist - case study: Paavo Pyhtilä, 80v

Subject - Subject Type - Level
Arts Education Master's Thesis

Time - Month and year Number of pages - Number of pages
in May 2008 136 + 5 = 178 pages of appendices

Abstract - Abstract: Self-taught artist compensates for the lack of professional art education student
treating the poly-independently trained compared to their counterparts. He suspects skills and
therefore, become familiar with the techniques carefully they are - without the guidance - creativel

<b>Now translate the text into Armenian.</b>

In [13]:
im2 = []
for image in images:
    image = translator.translate(image, dest='hy')
    im2.append(image)

In [14]:
for i in im2:
    print(i)

Translated(src=fi, dest=hy, text=Ինքնուս նկարիչ

- Case Study: Paavo Pyhtilä, 80v

Համալսարան Jyväskylä

Արվեստի վարչության եւ մշակույթի հետազոտությունների
Գեղարվեստական ​​կրթության մագիստրոսի թեզը
գարուն 2008

Pertti Pyhtilä, pronunciation=None, extra_data="{'translat...")
Translated(src=fi, dest=hy, text=UNIVERSITY OF Jyväskylä

The ֆակուլտետ - ֆակուլտետ Department - Department
Հումանիտար ֆակուլտետի արվեստաբանության բաժնի եւ մշակույթի հետազոտությունների

Ի - Հեղինակ:
Pertti Juhani Pyhtilä

Կոչում ծրագիր - Title
Ինքնուս նկարիչ - Case Study: Paavo Pyhtilä, 80v

Թեմա - Թեմա տեսակը - Level
Գեղարվեստական ​​կրթության մագիստրոսական թեզ

Time - ամիսը եւ տարին Էջերի թիվը - Էջերի քանակը
2008-ի մայիսին 136 + 5 = 178 էջերը հավելվածներով

Վերացական - վերացական: ինքնուս նկարիչ փոխհատուցում բացակայության մասնագիտական ​​արվեստի կրթության աշակերտի
բուժումը poly-ինքնուրույն վերապատրաստված համեմատ իրենց գործընկերների հետ: Նա կասկածում է հմտություններ եւ
հետեւաբար, ծանոթանալ տեխնիկայի ուշադիր, նրանք առա

<b> Finally, save the translation.</b>

In [25]:
print('Saving ' + fname.split('.jpg')[0] + " as a translation.")
# to save as a .txt file
with open(output_dir+filename.split(input_dir)[1][:-4]+'.docx', 'w+', encoding='utf-8') as transcript:

# to save as a .docx file 
# with open(output_dir+filename.split(input_dir)[1][:-4]+'.txt', 'w+', encoding='utf-8') as transcript:
    for i in im: 
        transcript.write(str(i))
print(fname.split('.jpg')[0] + " has been saved!")

Saving URN_NBN_fi_jyu-20081112871-99 as a translation.
URN_NBN_fi_jyu-20081112871-99 has been saved!
