# Check printed text

Find the expected printed text in a certificate

In [None]:
import os
import pandas as pd
import re
import regex
import sys
from spacy import displacy
sys.path.append(os.getcwd() + '/..')
from scripts import read_transkribus_files, utils

In [None]:
def render_text(text, entities):
    displacy.render({ "text": re.sub("\\n", " ", text), 
                      "ents": entities }, 
                      options = { "colors": { "fuzzy_match": "yellow"} }, style = "ent", manual = True)

## 1. Printed text formats

In [None]:
PRINTED_TEXT = {}

PRINTED_TEXT[1831] = [
    "No",
    "Verbeteringen",
    "Heden den",
    "Compareerden voor mij",
    "van den Burgerlijken stand op dit eiland.",
    "De personen van",
    "van competenten ouderdom en alhier woonachtig.",
    "Dewelke aangifte hebben gedaan dat",
    "op den",
    "te",
    "ure des",
    "overleden is:",
    "Oud",
    "Geboren",
    "op den"
    "zijnde"
    "laatstelijk gewoond",
    "En is deze behoorlijk geteekend",
    "op Curacao dato utsupra.",
    "F",
    "Aanteekeningen"
]

PRINTED_TEXT[1842] = [
    "No",
    "Verbeteringen",
    "Heden den",
    "Compareerden voor mij",
    "van den Burgerlijken stand op dit eiland.",
    "De personen van",
    "van competenten ouderdom en alhier woonachtig.",
    "Dewelke aangifte hebben gedaan dat",
    "op den",
    "te",
    "ure des",
    "overleden is:",
    "Oud",
    "Geboren",
    "op den",
    "laatstelijk gewoond",
    "En is deze behoorlijk geteekend",
    "op Curacao dato utsupra.",
    "F",
    "Aanteekeningen"
]

PRINTED_TEXT[1842] = [
    "No",
    "Verbeteringen",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "Compareerden voor mij",
    "van den Burgerlijken stand op dit eiland.",
    "De personen van",
    "van competenten ouderdom en alhier woonachtig, dewelke aangifte hebben gedaan dat",
    "op den",
    "des Jaars Een duizend acht honderd en",
    "te",
    "ure des",
    "overleden is:",
    "Oud",
    "Geboren",
    "op den",
    "laatstelijk gewoond",
    "En is deze behoorlijk geteekend",
    "op Curacao dato utsupra.",
    "F",
    "Aanteekeningen"
]

PRINTED_TEXT[1869] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "Compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "wonende",
    "en",
    "van beroep",
    "oud",
    "wonende"
    "dewelke aangifte hebben gedaan",
    "op den",
    "des Jaars Een duizend acht honderd en",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij",
    "ambtenaar",
    "voormeld is ondertekendteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1873] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "Compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "wonende",
    "en",
    "van beroep",
    "oud",
    "wonende"
    "dewelke aangifte hebben gedaan",
    "op den",
    "des Jaars Een duizend acht honderd en",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voormeld",
    "is onderteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1885] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "Compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "wonende",
    "en",
    "van beroep",
    "oud",
    "wonende"
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend acht honderd en",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voormeld",
    "is ondertekeend",
    "op Curacao dato utsupra.",
]


PRINTED_TEXT[1892] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "en negentig",
    "Compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend acht honderd en",
    "en negentig",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voor-",
    "meld is onderteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1894] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "en negentig",
    "compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend acht honderd en",
    "en negentig",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voor-",
    "meld is onderteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1895] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "en negentig",
    "compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend acht honderd en",
    "en negentig",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voor-",
    "meld is onderteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1900] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend negen honderd",
    "compareerde voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands ten mijnen bureele:",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend negen honderd",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan acte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voor-",
    "meld is onderteekend op Curacao dato utsupra.",
]

PRINTED_TEXT[1907] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend negen honderd",
    "compareerden",
    "voor mij ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands ten mijnen bureele:",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend negen honderd",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan acte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voormeld",
    "is onderteekend op Curacao dato utsupra.",
]

PRINTED_TEXT[1909] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend negen honderd",
    "compareerden",
    "voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands ten mijnen bureele:",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend negen honderd",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan acte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar",
    "voormeld is onderteekend op Curacao dato utsupra.",
]

PRINTED_TEXT[1925] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend negen honderd",
    "compareerden",
    "voor mij hulpambtenaar van den Burgerlijken stand in het",
    "district dezes eilands ten mijnen bureele:",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier in het ",
    "district",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier in het",
    "district",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend negen honderd",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan acte opgemaakt, welke, na voorlezing door de",
    "en mij hulpambtenaar",
    "voormeld is onderteekend op Curacao dato utsupra.",
]

PRINTED_TEXT[1935] = [
    "Folio",
    "No",
    "Heden den",
    "negentienhonderd",
    "verscheen voor mij, hulpambtenaar van den Burgerlijken Stand",
    "in het",
    "district op Curaçao:",
    "oud",
    "jaren, van beroep",
    "wonende in het",
    "district alhier die op grond van eigen wetenschap verklaarde dat in het",
    "dis-"
    "trict alhier op den",
    "negentienhonderd",
    "ten",
    "ure des",
    "middags",
    "overleden is:",
    "in den ouderdom van",
    "Waarvan akte, welke is voorgelezen.",
]

PRINTED_TEXT[1937] = [
    "Folio",
    "No",
    "Heden den",
    "negentienhonderd",
    "verscheen voor mij, hulpambtenaar van den Burgerlijken Stand",
    "in het",
    "district op Curaçao:",
    "oud",
    "jaren, van beroep",
    "wonende in het",
    "district alhier die op grond van eigen wetenschap verklaarde dat in het",
    "district alhier op den",
    "negentienhonderd",
    "ten",
    "ure",
    "des",
    "middags overleden is:",
    "in den ouderdom van",
    "Waarvan akte, welke is voorgelezen.",
]

PRINTED_TEXT[1938] = [
    "No",
    "Folio",
    "Heden den",
    "negentienhonderd",
    "verscheen voor mij", 
    "hulpambtenaar van den Burgerlijken Stand",
    "oud",
    "jaren,",
    "beroep,",
    "wonende in het",
    "district op",
    "die op grond van eigen wetenschap verklaarde",
    "dat in het",
    "district op",
    "op den",
    "negentienhonderd",
    "ten",
    "ure des",
    "middags overleden is:",
    "in den ouderdom van",
    "Waarvan akte, welke is voorgelezen.",
]

PRINTED_TEXT[1939] = [
    "Nr.",
    "1939",
    "Blad nummer",
    "Heden",
    "negentienhonderd negen en dertig verscheen voor mij, hulpambtenaar van",
    "den Burgerlijken Stand op Curaçao",
    "oud",
    "jaren,",
    "wonende alhier, die verklaarde, daarvan uit eigen wetenschap kennis",
    "dragende, dat op",
    "dezes jaars",
    "middags te",
    "uur, alhier is overleden",
    "Waarvan akte, welke is voorgelezen.",
]

#### 1940 and late: to be checked

## 2. Find missed printed text

In [None]:
data_dir = "../../data/Overlijden/x-samples/three-columns-100/page"

texts, metadata, textregions = read_transkribus_files.read_files(data_dir)

In [None]:
def get_printed_text_year(text_id):
    text_year = int(text_id[:4])
    printed_text_year = list(PRINTED_TEXT.keys())[0]
    for year in sorted(PRINTED_TEXT.keys()):
        if year > printed_text_year and text_year >= year:
            printed_text_year = year
    return printed_text_year

In [None]:
def find_phrases_in_text(text, phrases):
    entities = []
    for phrase in phrases:
        positions = utils.find_text_patterns(phrase, text)
        if len(positions) == 1:
            positions[0]["label"] = phrase
            entities.append(positions[0])
        elif len(positions) == 0:
            character_errors = 0
            while len(positions) == 0 and character_errors < 3:
                character_errors += 1
                query = f"({phrase.lower()})"+"{"+f"e<={character_errors}"+"}"
                positions = [ match for match in regex.finditer(query, text.lower()) ]
            if len(positions) == 1:
                entities.append({"start": positions[0].start(),
                                 "end": positions[0].end(),
                                 "label": "fuzzy_match",
                                 "correct_phrase": phrase })
    return entities

In [None]:
def correct_text(text_in, entities):
    text_out = text_in
    for entity in entities:
        if entity["label"] == "fuzzy_match":
            text_out = text_out[:entity["start"]] + entity["correct_phrase"] + text_out[entity["end"]:]
    return text_out

In [None]:
corrected_text = {}
for text_id in sorted(texts.keys()):
    printed_text_year = get_printed_text_year(text_id)
    entities = find_phrases_in_text(texts[text_id], PRINTED_TEXT[printed_text_year])
    corrected_text[text_id] = correct_text(texts[text_id], entities)

In [None]:
pd.DataFrame.from_dict(corrected_text, orient="index").to_csv("three_columns_100_corrected.csv")