# OCR evaluation prototype 

In [None]:
#!pip install pytesseract
#!pip install pillow

In [1]:
import pytesseract

In [2]:
from PIL import Image

### Evaluate OCR

Sample image part for evaluation(source: [Deutsche Zeitung, Ausgaben am Montag, 23.12.1918](https://zefys.staatsbibliothek-berlin.de/kalender/auswahl/date/1918-12-23/30744015/)):
![sample.jpg](sample.jpg)

OCR it:

In [3]:
ocr_output = pytesseract.image_to_string(Image.open('sample.jpg'), lang='frk')

In [4]:
print(ocr_output)

Die Lage anfdemKohlenmarkte gibt zu “en ſhlimm-
ſten Befürc<tungen Anlaß. Für Sachſen fehlten im Nov»mber
30 000 Wagen zu je 10 Tonnen und für Tezembex wird mit no<
größeren Ausfällen gere<net werden. E3 iſt mit einem völligen
Stillſtand der Induſtrie innerhalb vierzehn Tagen zu red<hnen,
wenn nicht eine erhebliche Steigerung der Belenſ<aften der Kot:en-
bergwerke oder ihrer Zah! geiingt. Weiter ſteht eine weſentliche
Erhöhung der Kohlenpreije bevor.



### Manually post correct

In [5]:
ground_truth = input('Please insert corrected string: ')

Please insert corrected string: Die Lage an dem Kohlenmarkte gibt zu den ſchlimm- ſten Befürchtungen Anlaß. Für Sachſen fehlten im November 30 000 Wagen zu je 10 Tonnen und für Dezember wird mit noch größeren Ausfällen gerechnet werden. Es iſt mit einem völligen Stillſtand der Induſtrie innerhalb vierzehn Tagen zu rechnen, wenn nicht eine erhebliche Steigerung der Belegſchaften der Kohlen- bergwerke oder ihrer Zahl gelingt. Weiter ſteht eine weſentliche Erhöhung der Kohlenpreiſe bevor.


In [6]:
print(ground_truth)

Die Lage an dem Kohlenmarkte gibt zu den ſchlimm- ſten Befürchtungen Anlaß. Für Sachſen fehlten im November 30 000 Wagen zu je 10 Tonnen und für Dezember wird mit noch größeren Ausfällen gerechnet werden. Es iſt mit einem völligen Stillſtand der Induſtrie innerhalb vierzehn Tagen zu rechnen, wenn nicht eine erhebliche Steigerung der Belegſchaften der Kohlen- bergwerke oder ihrer Zahl gelingt. Weiter ſteht eine weſentliche Erhöhung der Kohlenpreiſe bevor.


### Measure OCR precision, recall and F-measure

In [7]:
import Levenshtein as lev

In [8]:
def measure_quality(ocr_output, ground_truth):
    """
    Calculates precision, recall, and F1-score
    using the Levenshtein distance to align text from OCR with the ground truth data.

    :param ocr_output: A string containing the raw OCR results.
    :param ground_truth: A string containing the verified ground truth text.
    """

    matching_parts = lev.matching_blocks(lev.editops(ocr_output, ground_truth), ocr_output, ground_truth)
    true_pos = len(''.join([ocr_output[x[0]:x[0]+x[2]] for x in matching_parts]))

    precision = true_pos / len(ground_truth)
    recall = true_pos / len(ocr_output)
    f_score = 2 * ((precision * recall) / (precision + recall))

    return precision, recall, f_score

In [9]:
precision, recall, f_score = measure_quality(ocr_output, ground_truth)

In [10]:
print(f'Precision: {round(precision, 4)}\nRecall: {round(recall, 4)}\nF1-score: {round(f_score, 4)}')

Precision: 0.9367
Recall: 0.9429
F1-score: 0.9398
