# OCR postprocessing

The last stage of the OCR process is post-processing the result. Some of it is done internally by the OCR engine. Other improvement can be applied separately afterwards. 

## Rule-based OCR postprocessing

After doing OCR, one can often notice regular errors , e.g. letter `с` turning to `<` or letter `l` becoming a `!`. 

In [2]:
import pytesseract
from PIL import Image
from aux.measure_ocr_quality import measure_ocr_quality

<img src="grippe.jpeg" width=700>

In [3]:
ocr_output = pytesseract.image_to_string(Image.open('grippe.jpeg'), lang='frk')

In [6]:
print(ocr_output)

Zie Grippe wüfel weiter

Zunahme der f<weren Fälle in Berlin.

Die Zahl der Grippefälle iſt in den leßten
beider Tagen auch in Groß-Berlin noH
erf>liS zeitiegen. Die Worenhäuſer und ſon-
Haen aroßen GeſhHäfte, die Krirgs- unh die prie
n Betriebe lagen, daß übermäig viele An«

* fich hcben rex? melden müſſen,-und an<
; “ Loft und 5ei der Straßenbahn iſt der
ſoz der Grippelranken bedeuten) g&

MeB R 2 8 1



In many cases we can fix it with some regular search-and replace patterns (e.g. take each `<` not surrounded by spaces and convert into `c`)

The standard way to express & implement such patterns on a computer would be regular expressions. 

In [5]:
import re

For example, here is a regular expression that does the aforementioned context-aware transformation of `<` to `c`.

In [None]:
ocr_output_corr = re.sub('(\w)<(\w)', '\\1c\\2', ocr_output)

Let us see how the whole thing changed: 

In [None]:
ocr_output_corr

So, the '<' is gone now in most cases (but not in all, since we have an additional condition in place). You can learn more about regular expressions [here](https://www.w3schools.com/python/python_regex.asp).

Let us see hot that affected the OCR quality

In [None]:
ground_truth = 'Die Lage auf dem Kohlenmarkte gibt zu den schlimmsten Befürchtungen Anlass. Für Sachsen fehlten im November 30.000 Wagen zu je 10 Tonnen und für Dezember wird mit noch größeren Ausfällen gerechnet werden. Es ist mit einem völligen Stillstand der Industrie innerhalb vierzehn Tagen zu rechnen, wenn nicht eine erhebliche Steigerung der Belastungen der Kohlenbergwerke oder ihrer Zahl gelingt. Weiter steht eine wesentliche Erhöhung der Kohlenpreise bevor.'

In [None]:
precision, recall, f_score = measure_ocr_quality(ocr_output_corr, ground_truth)

In [None]:
print(f'Precision: {round(precision, 4)}\nRecall: {round(recall, 4)}\nF1-score: {round(f_score, 4)}')

So, our F-measure increased a bit, good!

## OCR postprocessing with large language models (LLMs)

* Here we intend to use Llama3, which is quite good for OCR postcorrection of the german text

Now let's use all the data for processing and analysis (next notebook)