### Script for comparing different workflow processes
#### Goal: a comparable value in order to evaluate the benefits of different text recognition approaches

**Step 1:** Read in data sets -gt.txt and -out.txt

**Step 2:** Fill dict according to lines

**Step 3:** Check dict lines for the similarity to ground truth lines (Sequence Matcher)

**Step 4:** Perform for all text files within certain folder 

**Step 5:** Check the total percentage of similarity for each workflow

### Workflow: BLACKLIST
**Before:** Using the best language and font models from Tesseract on .jpg files to generate text output and adding special characters to the blacklist by using -c tessedit_char_blacklist="*, @, ©, ®, $" configurations

In [1]:
# import OS module to use operating system dependent functionalities
import os
os.path

<module 'posixpath' from '/usr/lib/python3.10/posixpath.py'>

In [2]:
# create list of all files in ./Stichprobe_*
file_list = os.listdir("./Stichprobe_BLACKLIST")
# create separated list for -gt.txt and -out.txt files
file_list_gt=[]
file_list_out=[]
for file in file_list:
    if file.endswith("-gt.txt"):
        file_list_gt.append(file)
    else:
        file_list_out.append(file)

In [3]:
# check output files list
file_list_out

['KaUf_73_1_0002.tif-sat0.tif',
 'KaUf_73_1_0003.tif-sat0.tif',
 'KaUf_73_1_0004.tif-sat0.tif',
 'KaUf_73_1_0005.tif-sat0.tif',
 'KaUf_74_1_0019.tif-sat0.tif',
 'KaUf_74_1_0020.tif-sat0.tif',
 'KaUf_74_1_0021.tif-sat0.tif',
 'KaUf_74_1_0022.tif-sat0.tif',
 'KaUf_74_2_0004.tif-sat0.tif',
 'KaUf_74_2_0005.tif-sat0.tif',
 'KaUf_74_2_0006.tif-sat0.tif',
 'KaUf_74_2_0007.tif-sat0.tif',
 'KaUf_75_1_0004.tif-sat0.tif',
 'KaUf_75_1_0006.tif-sat0.tif',
 'KaUf_75_1_0008.tif-sat0.tif',
 'KaUf_75_1_0010.tif-sat0.tif',
 'KaUf_76_1_0004.tif-sat0.tif',
 'KaUf_76_1_0005.tif-sat0.tif',
 'KaUf_76_1_0006.tif-sat0.tif',
 'KaUf_76_1_0008.tif-sat0.tif',
 'KaUf_76_2_0052.tif-sat0.tif',
 'KaUf_76_2_0053.tif-sat0.tif',
 'KaUf_76_2_0054.tif-sat0.tif',
 'KaUf_76_2_0055.tif-sat0.tif',
 'KaUf_77_1_0002.tif-sat0.tif',
 'KaUf_77_1_0003.tif-sat0.tif',
 'KaUf_77_1_0004.tif-sat0.tif',
 'KaUf_77_1_0005.tif-sat0.tif',
 'KaUf_77_2_0004.tif-sat0.tif',
 'KaUf_77_2_0006.tif-sat0.tif',
 'KaUf_77_2_0007.tif-sat0.tif',
 'KaUf_7

In [4]:
# check groundtruth files list
file_list_gt

['KaUf_73_1_0002-gt.txt',
 'KaUf_73_1_0003-gt.txt',
 'KaUf_73_1_0004-gt.txt',
 'KaUf_73_1_0005-gt.txt',
 'KaUf_74_1_0019-gt.txt',
 'KaUf_74_1_0020-gt.txt',
 'KaUf_74_1_0021-gt.txt',
 'KaUf_74_1_0022-gt.txt',
 'KaUf_74_2_0004-gt.txt',
 'KaUf_74_2_0005-gt.txt',
 'KaUf_74_2_0006-gt.txt',
 'KaUf_74_2_0007-gt.txt',
 'KaUf_75_1_0004-gt.txt',
 'KaUf_75_1_0006-gt.txt',
 'KaUf_75_1_0008-gt.txt',
 'KaUf_75_1_0010-gt.txt',
 'KaUf_76_1_0004-gt.txt',
 'KaUf_76_1_0005-gt.txt',
 'KaUf_76_1_0006-gt.txt',
 'KaUf_76_1_0008-gt.txt',
 'KaUf_76_2_0052-gt.txt',
 'KaUf_76_2_0053-gt.txt',
 'KaUf_76_2_0054-gt.txt',
 'KaUf_76_2_0055-gt.txt',
 'KaUf_77_1_0002-gt.txt',
 'KaUf_77_1_0003-gt.txt',
 'KaUf_77_1_0004-gt.txt',
 'KaUf_77_1_0005-gt.txt',
 'KaUf_77_2_0004-gt.txt',
 'KaUf_77_2_0006-gt.txt',
 'KaUf_77_2_0007-gt.txt',
 'KaUf_77_2_0008-gt.txt',
 'KaUf_78_1_0004-gt.txt',
 'KaUf_78_1_0005-gt.txt',
 'KaUf_78_1_0006-gt.txt',
 'KaUf_78_1_0007-gt.txt',
 'KaUf_79_1_0003-gt.txt',
 'KaUf_79_1_0004-gt.txt',
 'KaUf_79_1_

In [5]:
# prepare dict with filename as key and lines as values (ground truth)
file_dict_gt= {}
for file_name in file_list_gt:
    file_dict_gt[file_name] = []

# for each file in list oft gt.txt files
for file_name in file_list_gt:    
    # open file
    file = open(f'./Stichprobe_BLACKLIST/{file_name}',"r",encoding='utf-8') # FILLOUT
    # for each line in opened file
    for line in file:
        # remove \n
        line = line.strip("\n")
        if len(line) != 0:
            # add line to value of dict key of that file
            file_dict_gt[file_name].append(line)
    file.close()

print(file_dict_gt)

{'KaUf_73_1_0002-gt.txt': ['HAUPTSACHE FERIEN', 'Musik: Heinz Kiessling', 'Regie: Peter Weck', 'Darsteller: Peter Alexander, Christiane', 'Hörbiger, Theo Lingen, Martin Held', 'u. v. a.', 'Art: LUSTSPIEL', '418-1 ca. 120 m - S 8 - Color - Tonfilm', '418-3 ca. 120 m - S 8 - S/W - Tonfilm', 'Lehrer und Schüler haben am letzten Schultag', 'nur einen Gedanken: Hauptsache Ferien! Für', 'Studienrat Dr. Peter Markus und seine Toch-', 'ter Gaby bedeuten sie Sommer, Sonne, Cam-', 'ping! Für Corinna, Gabys Klassenkameradin, ', 'allerdings bringt der letzte Schultag nur die', 'Gewißheit: Sitzengeblieben! Corinna sieht al-', 'lerdings noch eine Möglichkeit: ihr reicher', 'Papa muß mit Geld den Weg zum Abitur', 'pflastern. Er soll Dr. Markus bestechen. Dieser', 'aber lehnt die Versetzung ab. Darum greift ihr', 'Vater zu einem letzte Mittel.', 'Ufa-Exclusiv-Serie', 'Hauptsache Ferien', 'Best.-Nr. 418, 419, 420 compl.', '= ca. 360 Meter - 60 Min.', 'PETER DER GROSSE', 'Musik: Heinz Kiessling', 'Regie

In [17]:
# prepare dict with filename as key and lines as values (output)
file_dict_out= {}
for file_name in file_list_out:
    file_dict_out[file_name] = []

# for each file in list oft text.txt files
for file_name in file_list_out:    
    # open file
    file = open(f'./Stichprobe_BLACKLIST/{file_name}',"r", encoding='latin1')
    # for each line in file
    for line in file:
        # remove \n
        line = line.strip("\n")
        if len(line) != 0:
            # add line to value of dict key of that file
            file_dict_out[file_name].append(line)
    file.close()
print(file_dict_out)

In [10]:
print(file_dict_out)

{'KaUf_73_1_0002.tif-sat0.tif': [], 'KaUf_73_1_0003.tif-sat0.tif': [], 'KaUf_73_1_0004.tif-sat0.tif': [], 'KaUf_73_1_0005.tif-sat0.tif': [], 'KaUf_74_1_0019.tif-sat0.tif': [], 'KaUf_74_1_0020.tif-sat0.tif': [], 'KaUf_74_1_0021.tif-sat0.tif': [], 'KaUf_74_1_0022.tif-sat0.tif': [], 'KaUf_74_2_0004.tif-sat0.tif': [], 'KaUf_74_2_0005.tif-sat0.tif': [], 'KaUf_74_2_0006.tif-sat0.tif': [], 'KaUf_74_2_0007.tif-sat0.tif': [], 'KaUf_75_1_0004.tif-sat0.tif': [], 'KaUf_75_1_0006.tif-sat0.tif': [], 'KaUf_75_1_0008.tif-sat0.tif': [], 'KaUf_75_1_0010.tif-sat0.tif': [], 'KaUf_76_1_0004.tif-sat0.tif': [], 'KaUf_76_1_0005.tif-sat0.tif': [], 'KaUf_76_1_0006.tif-sat0.tif': [], 'KaUf_76_1_0008.tif-sat0.tif': [], 'KaUf_76_2_0052.tif-sat0.tif': [], 'KaUf_76_2_0053.tif-sat0.tif': [], 'KaUf_76_2_0054.tif-sat0.tif': [], 'KaUf_76_2_0055.tif-sat0.tif': [], 'KaUf_77_1_0002.tif-sat0.tif': [], 'KaUf_77_1_0003.tif-sat0.tif': [], 'KaUf_77_1_0004.tif-sat0.tif': [], 'KaUf_77_1_0005.tif-sat0.tif': [], 'KaUf_77_2_0004.tif

In [9]:
# create finished dict
result_dict = {}
for file_name in file_list_gt:
    result_dict[file_name.replace("-gt.txt", "")] = []
# check finished dict
result_dict

{'tesseract': []}

In [12]:
# SequenceMatcher: compare similarity of two strings by their ratio
from difflib import SequenceMatcher as SM

# iterate over keys in out.txt dict
for key in file_dict_gt:
    gt_value = file_dict_gt[key]
    # get beginning of file name and use it to extract value of out.txt dict
    out_value = file_dict_out[key.replace("gt", ".tif-sat0.tif-out")]
    # for each pair of value compute distance measure 
    for string_gt in gt_value:
        print("*********************************************************")
        print("This is gt value:")
        print(string_gt)     
        best_ratio = 0
        for string_out in out_value:
            print("--------------------------------")
            print("Try fitting with this out value:")
            print(string_out)
            similarity_ratio = SM(None, string_gt, string_out).ratio()
            print(f'The score is: {similarity_ratio}')
            if similarity_ratio >= best_ratio:
                best_ratio = similarity_ratio
                best_string_out = string_out
        result_dict[key.replace("-gt.txt", "")].append({
            'groundtruth_line':string_gt,
            'output_line': best_string_out,
            'similarity_ratio': best_ratio })

        

*****************
This is gt value:
Diese Textdatei enthält 5 Absätze, die Tesseract aus den Katalogen hätte herauslesen sollen.
--------------------------------
Try fitting with this out value:
Diese Textdatei enthält KEINE Absätze, die Tesseract aus den Katalogen hätte herauslesen sollen.
The score is: 0.9680851063829787
--------------------------------
Try fitting with this out value:
Erster Name, zweiter Name und Name drei.
The score is: 0.22727272727272727
--------------------------------
Try fitting with this out value:
Wenn alles korrekt erkannt wird, wäre das super.
The score is: 0.2
--------------------------------
Try fitting with this out value:
Best.-Nr. 000 Das hier könnte ein Titel sein. Super 8 Schwarz/Weiß 
The score is: 0.1761006289308176
--------------------------------
Try fitting with this out value:
Genre
The score is: 0.061855670103092786
*****************
This is gt value:
Erster Name, zweiter Name und Name drei.
--------------------------------
Try fitting with 

In [13]:
result_dict

{'tesseract': [{'groundtruth_line': 'Diese Textdatei enthält 5 Absätze, die Tesseract aus den Katalogen hätte herauslesen sollen.',
   'output_line': 'Diese Textdatei enthält KEINE Absätze, die Tesseract aus den Katalogen hätte herauslesen sollen.',
   'similarity_ratio': 0.9680851063829787},
  {'groundtruth_line': 'Erster Name, zweiter Name und Name drei.',
   'output_line': 'Erster Name, zweiter Name und Name drei.',
   'similarity_ratio': 1.0},
  {'groundtruth_line': 'Wenn alles korrekt erkannt wird, wäre das super.',
   'output_line': 'Wenn alles korrekt erkannt wird, wäre das super.',
   'similarity_ratio': 1.0},
  {'groundtruth_line': 'Best.-Nr. 000 Das hier könnte ein Titel sein. Super 8 Schwarz/Weiß was weiß ich (:D)',
   'output_line': 'Best.-Nr. 000 Das hier könnte ein Titel sein. Super 8 Schwarz/Weiß ',
   'similarity_ratio': 0.8874172185430463},
  {'groundtruth_line': 'Genre',
   'output_line': 'Genre',
   'similarity_ratio': 1.0}]}

In [14]:
average_page_dict= {}
for file_name in file_list_gt:
    average_page_dict[file_name.replace("-gt.txt", "")] = None

sum = 0
counter = 0
for key in average_page_dict:
    # entry is the list value of each page key
    for entry in result_dict[key]:
        #print(entry['similarity_ratio'])
        sum = sum + entry['similarity_ratio']
        counter = counter+1
    average_page_dict[key] = sum/counter

In [15]:
average_page_dict

{'tesseract': 0.9711004649852051}