# Tesseract OCR

This notebook is provided by Sara Budts to convert images to text. This was used to do an analysis of the different themes in popular productions after the Second World War (1946-1963).

In [1]:
!pip install Image
!pip install pytesseract



In [2]:
try:
    import Image
except ImportError:
    from PIL import Image
import pytesseract


In [3]:
pytesseract.pytesseract.tesseract_cmd = "/opt/homebrew/bin/tesseract"


In [4]:
# Looking at language options
print(pytesseract.get_languages(config=''))


['afr', 'amh', 'ara', 'asm', 'aze', 'aze_cyrl', 'bel', 'ben', 'bod', 'bos', 'bre', 'bul', 'cat', 'ceb', 'ces', 'chi_sim', 'chi_sim_vert', 'chi_tra', 'chi_tra_vert', 'chr', 'cos', 'cym', 'dan', 'deu', 'div', 'dzo', 'ell', 'eng', 'enm', 'epo', 'equ', 'est', 'eus', 'fao', 'fas', 'fil', 'fin', 'fra', 'frk', 'frm', 'fry', 'gla', 'gle', 'glg', 'grc', 'guj', 'hat', 'heb', 'hin', 'hrv', 'hun', 'hye', 'iku', 'ind', 'isl', 'ita', 'ita_old', 'jav', 'jpn', 'jpn_vert', 'kan', 'kat', 'kat_old', 'kaz', 'khm', 'kir', 'kmr', 'kor', 'kor_vert', 'lao', 'lat', 'lav', 'lit', 'ltz', 'mal', 'mar', 'mkd', 'mlt', 'mon', 'mri', 'msa', 'mya', 'nep', 'nld', 'nor', 'oci', 'ori', 'osd', 'pan', 'pol', 'por', 'pus', 'que', 'ron', 'rus', 'san', 'sin', 'slk', 'slv', 'snd', 'snum', 'spa', 'spa_old', 'sqi', 'srp', 'srp_latn', 'sun', 'swa', 'swe', 'syr', 'tam', 'tat', 'tel', 'tgk', 'tha', 'tir', 'ton', 'tur', 'uig', 'ukr', 'urd', 'uzb', 'uzb_cyrl', 'vie', 'yid', 'yor']


In [5]:
# Checking to make sure it processes, example
print(pytesseract.image_to_string(Image.open("scans/aida.jpg"),lang="nld"))

INHOUDSOPGAVE

Eerste tafereel. — De Hogepriester Ramfis deelt Radames mede
dat de verslagen Ethiopiërs opnieuw bedreigen. Radames hoopt
dat hij als aanvoerder tegen de invallers zal mogen optrekken, wat
hem moet mogelijk maken nieuwe lauweren te vergaren, ze aan
de voeten van zijn aangebeden Aïda te leggen en haar hand te
vragen, alhoewel zij de slavin is van Amneris, de koningsdochter.
Amneris is jaloers, maar veinst genegenheid voor Aïda. De hof-
houding komt samen om de beslissing van de goden te horen en
em te vernemen dat Radames het leger zal leiden.

Tweede tafereel. — De tempel van Vulcanus te Memtfis. Bij
gezang en rituele dansen ontvangt Radames de gewijde wapens uit
de handen van de priesters.

| _@ Derde tafereel. — Radames trekt ten strijde tegen de Ethiopiers.
Tijdens zijn afwezigheid wist de jaloerse Amneris door een list het
geheim van Aïda uit te lokken. Om haar mededingster te verne-
deren verplicht zij haar, als slavin, naar het zegefeest te volgen. De
zegevierende 

In [39]:
import os

input_folder = "scans"
output_folder = "theme"

os.makedirs(output_folder, exist_ok=True)  # create output folder if it doesn't exist

for filename in os.listdir(input_folder):
    if filename.lower().endswith((".jpg")):
        image_path = os.path.join(input_folder, filename)
        text = pytesseract.image_to_string(Image.open(image_path))

        base_name = os.path.splitext(filename)[0]
        output_path = os.path.join(output_folder, base_name + ".txt")

        with open(output_path, "w", encoding="utf-8") as f:
            f.write(text)

        print(f"Processed {filename} -> {base_name}.txt")


Processed vertellingen2.jpg -> vertellingen2.txt
Processed lohengrin1.jpg -> lohengrin1.txt
Processed driemeisjeshuis1.jpg -> driemeisjeshuis1.txt
Processed vledermuis.jpg -> vledermuis.txt
Processed viooltjes.jpg -> viooltjes.txt
Processed lohengrin2.jpg -> lohengrin2.txt
Processed vertellingen1.jpg -> vertellingen1.txt
Processed driemeisjeshuis2.jpg -> driemeisjeshuis2.txt
Processed othello.jpg -> othello.txt
Processed tannhauser.jpg -> tannhauser.txt
Processed aida.jpg -> aida.txt
Processed traviata.jpg -> traviata.txt
Processed rozenkavalier1.jpg -> rozenkavalier1.txt
Processed rozenkavalier2.jpg -> rozenkavalier2.txt
Processed zigeunerbaron1.jpg -> zigeunerbaron1.txt
Processed barbier.jpg -> barbier.txt
Processed butterfly.jpg -> butterfly.txt
Processed zigeunerbaron2.jpg -> zigeunerbaron2.txt
Processed parsifal1.jpg -> parsifal1.txt
Processed toverfluit2.jpg -> toverfluit2.txt
Processed parsifal2.jpg -> parsifal2.txt
Processed toverfluit1.jpg -> toverfluit1.txt
Processed glimlach