# Data Input and Homogenisation

## 1. Types of input data for text corpora

Textual data might come in different forms. 

1. It could be **plain text**:

```
Die Grippe wütet weiter
Zunahme der schweren Fälle in Berlin. Die Zahl der Grippefälle ist in den letzten beiden Tagen auch in Groß-Berlin noch deutlich gestiegen. Die Warenhäuser und sonstigen Geschäfte, die Kriegs- und die privaten Betriebe klagen, dass übermäßig viele Angestellte krank melden müssen, und auch bei der Post und bei der Straßenbahn ist die Zahl der Grippekranken bedeutend gestiegen.
```

2. It could be **images** (pdf, jpg, etc):

<img src="grippe1.png" width=700>

(source: Berliner Morgenpost, October 15, 1918)

3. It could be some **structured markup** (XML/HTML):

```
<text>
    <head>
        Die Grippe wütet weiter
    </head>
    <p>
        <s>Zunahme der schweren Fälle in Berlin.</s> 
        <s>Die Zahl der Grippefälle ist in den letzten beiden Tagen auch in Groß-Berlin noch deutlich gestiegen.</s>
        <s>Die Warenhäuser und sonstigen Geschäfte, die Kriegs- und die privaten Betriebe klagen, dass übermäßig viele Angestellte krank melden müssen, und auch bei der Post und bei der Straßenbahn ist die Zahl der Grippekranken bedeutend gestiegen.</s>
    </p>
</text>
```

#### We have to be able to use all these formats and homogenise different sources into a unified corpus 

## 2.  images into digial text. OCR

To process images into digital text we need an **Optical Character Recognition (OCR)** tool. There are some commercial ones (like FineReader), we'll use an open & free tool in Python. 

In [None]:
#!pip install pytesseract
#!pip install pillow

In [3]:
import pytesseract

In [4]:
from PIL import Image

### 2.1. Evaluate OCR engine quality

Sample image part for evaluation(source: [Deutsche Zeitung, Ausgaben am Montag, 23.12.1918](https://zefys.staatsbibliothek-berlin.de/kalender/auswahl/date/1918-12-23/30744015/)):
![sample.jpg](sample.jpg)

OCR it:

In [5]:
ocr_output = pytesseract.image_to_string(Image.open('sample.jpg'), lang='frk')  # using German fraktur OCR model

In [6]:
print(ocr_output)

Die Lage anfdemKohlenmarkte gibt zu “en ſhlimm-
ſten Befürc<tungen Anlaß. Für Sachſen fehlten im Nov»mber
30 000 Wagen zu je 10 Tonnen und für Tezembex wird mit no<
größeren Ausfällen gere<net werden. E3 iſt mit einem völligen
Stillſtand der Induſtrie innerhalb vierzehn Tagen zu red<hnen,
wenn nicht eine erhebliche Steigerung der Belenſ<aften der Kot:en-
bergwerke oder ihrer Zah! geiingt. Weiter ſteht eine weſentliche
Erhöhung der Kohlenpreije bevor.



#### 2.1.1 Manually create  the 'ground truth' to evaluate against

In [7]:
ground_truth = input('Please insert corrected string: ')

Please insert corrected string: Die Lage an dem Kohlenmarkte gibt zu den ſhlimmſten Befürchtungen Anlaß. Für Sachſen fehlten im November 30 000 Wagen zu je 10 Tonnen und für Dezember wird mit noch größeren Ausfällen gerechnet werden. Es iſt mit einem völligen Stillſtand der Induſtrie innerhalb vierzehn Tagen zu rechnen, wenn nicht eine erhebliche Steigerung der Belenſchaften der Kohlenbergwerke oder ihrer Zahl gelingt. Weiter ſteht eine weſentliche Erhöhung der Kohlenpreſie bevor.


In [8]:
print(ground_truth)

Die Lage an dem Kohlenmarkte gibt zu den ſhlimmſten Befürchtungen Anlaß. Für Sachſen fehlten im November 30 000 Wagen zu je 10 Tonnen und für Dezember wird mit noch größeren Ausfällen gerechnet werden. Es iſt mit einem völligen Stillſtand der Induſtrie innerhalb vierzehn Tagen zu rechnen, wenn nicht eine erhebliche Steigerung der Belenſchaften der Kohlenbergwerke oder ihrer Zahl gelingt. Weiter ſteht eine weſentliche Erhöhung der Kohlenpreſie bevor.


#### 2.1.2 Measure OCR precision, recall and F-measure

In [9]:
import Levenshtein as lev

In [10]:
def measure_quality(ocr_output, ground_truth):
    """
    Calculates precision, recall, and F1-score
    using the Levenshtein distance to align text from OCR with the ground truth data.

    :param ocr_output: A string containing the raw OCR results.
    :param ground_truth: A string containing the verified ground truth text.
    """

    matching_parts = lev.matching_blocks(lev.editops(ocr_output, ground_truth), ocr_output, ground_truth)
    true_pos = len(''.join([ocr_output[x[0]:x[0]+x[2]] for x in matching_parts]))

    precision = true_pos / len(ground_truth)
    recall = true_pos / len(ocr_output)
    f_score = 2 * ((precision * recall) / (precision + recall))

    return precision, recall, f_score

In [11]:
precision, recall, f_score = measure_quality(ocr_output, ground_truth)

In [12]:
print(f'Precision: {round(precision, 4)}\nRecall: {round(recall, 4)}\nF1-score: {round(f_score, 4)}')

Precision: 0.9448
Recall: 0.9407
F1-score: 0.9427


### 2.2 Process the whole corpus of PDF-s with the same OCR engine

In [13]:
from tqdm import tqdm
from pdf2image import convert_from_path

In [14]:
pathpdf = '../../PDF'

In [None]:
for filename in tqdm(os.listdir(pathpdf)):
    if '.pdf' in filename:
        thispath = os.path.join(pathpdf, filename)
        converted_pdf = convert_from_path(thispath, use_cropbox=True)
        with open(thispath.replace('.pdf', '.txt'), 'w') as output_txt:
            for image in converted_pdf:
                recognized = pytesseract.image_to_string(image, 
                                                         lang='frk') # fraktur OCR model
                output_txt.write(recognized)

#### After running this we have all our PDF-s in plain txt form

## 3.  getting digial text from the structured markup (XML)