# Evaluate Hand-written Text Recognition

In [None]:
from Levenshtein import distance
import os
import re
import sys
sys.path.append(os.getcwd() + '/..')
from scripts import read_transkribus_files

In [None]:
def print_with_color(string, color_code=1):
    print(f"\x1b[3{color_code}m{string}\x1b[m", end="")

## 1. Estimate HTR accuracy by exmanining printed text

In [None]:
PRINTED_TEXT = {}

PRINTED_TEXT[1831] = [
    "No",
    "Verbeteringen",
    "Heden den",
    "Compareerden voor mij",
    "van den Burgerlijken stand op dit eiland.",
    "De personen van",
    "van competenten ouderdom en alhier woonachtig.",
    "Dewelke aangifte hebben gedaan dat",
    "op den",
    "te",
    "ure des",
    "overleden is:",
    "Oud",
    "Geboren",
    "op den"
    "zijnde"
    "laatstelijk gewoond",
    "En is deze behoorlijk geteekend",
    "op Curacao dato utsupra.",
    "F",
    "Aanteekeningen"
]

PRINTED_TEXT[1842] = [
    "No",
    "Verbeteringen",
    "Heden den",
    "Compareerden voor mij",
    "van den Burgerlijken stand op dit eiland.",
    "De personen van",
    "van competenten ouderdom en alhier woonachtig.",
    "Dewelke aangifte hebben gedaan dat",
    "op den",
    "te",
    "ure des",
    "overleden is:",
    "Oud",
    "Geboren",
    "op den",
    "laatstelijk gewoond",
    "En is deze behoorlijk geteekend",
    "op Curacao dato utsupra.",
    "F",
    "Aanteekeningen"
]

PRINTED_TEXT[1842] = [
    "No",
    "Verbeteringen",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "Compareerden voor mij",
    "van den Burgerlijken stand op dit eiland.",
    "De personen van",
    "van competenten ouderdom en alhier woonachtig, dewelke aangifte hebben gedaan dat",
    "op den",
    "des Jaars Een duizend acht honderd en",
    "te",
    "ure des",
    "overleden is:",
    "Oud",
    "Geboren",
    "op den",
    "laatstelijk gewoond",
    "En is deze behoorlijk geteekend",
    "op Curacao dato utsupra.",
    "F",
    "Aanteekeningen"
]

PRINTED_TEXT[1869] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "Compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "wonende",
    "en",
    "van beroep",
    "oud",
    "wonende"
    "dewelke aangifte hebben gedaan",
    "op den",
    "des Jaars Een duizend acht honderd en",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij",
    "ambtenaar",
    "voormeld is ondertekendteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1873] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "Compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "wonende",
    "en",
    "van beroep",
    "oud",
    "wonende"
    "dewelke aangifte hebben gedaan",
    "op den",
    "des Jaars Een duizend acht honderd en",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voormeld",
    "is onderteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1885] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "Compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "wonende",
    "en",
    "van beroep",
    "oud",
    "wonende"
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend acht honderd en",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voormeld",
    "is ondertekeend",
    "op Curacao dato utsupra.",
]


PRINTED_TEXT[1892] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "en negentig",
    "Compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend acht honderd en",
    "en negentig",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voor-",
    "meld is onderteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1894] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "en negentig",
    "compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend acht honderd en",
    "en negentig",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voor-",
    "meld is onderteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1895] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend acht honderd en",
    "en negentig",
    "compareerden ten burele voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands.",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend acht honderd en",
    "en negentig",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan akte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voor-",
    "meld is onderteekend",
    "op Curacao dato utsupra.",
]

PRINTED_TEXT[1900] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend negen honderd",
    "compareerde voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands ten mijnen bureele:",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend negen honderd",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan acte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voor-",
    "meld is onderteekend op Curacao dato utsupra.",
]

PRINTED_TEXT[1907] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend negen honderd",
    "compareerden",
    "voor mij ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands ten mijnen bureele:",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend negen honderd",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan acte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar voormeld",
    "is onderteekend op Curacao dato utsupra.",
]

PRINTED_TEXT[1909] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend negen honderd",
    "compareerden",
    "voor mij",
    "ambtenaar van den Burgerlijken stand in het",
    "district dezes eilands ten mijnen bureele:",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend negen honderd",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan acte opgemaakt, welke na voorlezing door de",
    "en mij ambtenaar",
    "voormeld is onderteekend op Curacao dato utsupra.",
]

PRINTED_TEXT[1925] = [
    "Folio",
    "No",
    "Heden den",
    "des Jaars",
    "Een duizend negen honderd",
    "compareerden",
    "voor mij hulpambtenaar van den Burgerlijken stand in het",
    "district dezes eilands ten mijnen bureele:",
    "De personen van",
    "van beroep",
    "oud",
    "jaren,",
    "wonende alhier in het ",
    "district",
    "en",
    "van beroep",
    "oud"
    "jaren,",
    "wonende alhier in het",
    "district",
    "dewelke aangifte hebben gedaan dat in het",
    "district alhier op den",
    "des Jaars Een duizend negen honderd",
    "te",
    "ure des",
    "overleden is:",
    "in den ouderdom van",
    "jaren,",
    "van",
    "zijnde geboren",
    "En is hiervan acte opgemaakt, welke, na voorlezing door de",
    "en mij hulpambtenaar",
    "voormeld is onderteekend op Curacao dato utsupra.",
]

PRINTED_TEXT[1935] = [
    "Folio",
    "No",
    "Heden den",
    "negentienhonderd",
    "verscheen voor mij, hulpambtenaar van den Burgerlijken Stand",
    "in het",
    "district op Curaçao:",
    "oud",
    "jaren, van beroep",
    "wonende in het",
    "district alhier die op grond van eigen wetenschap verklaarde dat in het",
    "dis-"
    "trict alhier op den",
    "negentienhonderd",
    "ten",
    "ure des",
    "middags",
    "overleden is:",
    "in den ouderdom van",
    "Waarvan akte, welke is voorgelezen.",
]

PRINTED_TEXT[1937] = [
    "Folio",
    "No",
    "Heden den",
    "negentienhonderd",
    "verscheen voor mij, hulpambtenaar van den Burgerlijken Stand",
    "in het",
    "district op Curaçao:",
    "oud",
    "jaren, van beroep",
    "wonende in het",
    "district alhier die op grond van eigen wetenschap verklaarde dat in het",
    "district alhier op den",
    "negentienhonderd",
    "ten",
    "ure",
    "des",
    "middags overleden is:",
    "in den ouderdom van",
    "Waarvan akte, welke is voorgelezen.",
]

PRINTED_TEXT[1938] = [
    "No",
    "Folio",
    "Heden den",
    "negentienhonderd",
    "verscheen voor mij", 
    "hulpambtenaar van den Burgerlijken Stand",
    "oud",
    "jaren,",
    "beroep,",
    "wonende in het",
    "district op",
    "die op grond van eigen wetenschap verklaarde",
    "dat in het",
    "district op",
    "op den",
    "negentienhonderd",
    "ten",
    "ure des",
    "middags overleden is:",
    "in den ouderdom van",
    "Waarvan akte, welke is voorgelezen.",
]

PRINTED_TEXT[1939] = [
    "Nr.",
    "1939",
    "Blad nummer",
    "Heden",
    "negentienhonderd negen en dertig verscheen voor mij, hulpambtenaar van",
    "den Burgerlijken Stand op Curaçao",
    "oud",
    "jaren,",
    "wonende alhier, die verklaarde, daarvan uit eigen wetenschap kennis",
    "dragende, dat op",
    "dezes jaars",
    "middags te",
    "uur, alhier is overleden",
    "Waarvan akte, welke is voorgelezen.",
]

#### 1940 and late: to be checked

In [None]:
data_dir = "../../data/Overlijden/x-samples/three-columns-100/page"

texts, metadata, textregions = read_transkribus_files.read_files(data_dir)

In [None]:
def cleanup_text(text):
    return " ".join(text.strip().split())

In [None]:
for key in sorted(texts.keys()):
    year, district, folio_nbr = key.split("-")
    print(re.sub("\n", " ", texts[key]))
    #print(cleanup_text(texts[key]), end=" ")
    #print(f"Jaar {year}, district {district}, folionummer {re.sub('^0+', '', folio_nbr)}")

In [None]:
def compare_strings(string1, text):
    clean_string = re.sub("[^a-z0-9]", "", re.sub("ç", "c", string.lower()))
    clean_text = re.sub("[^a-z0-9]", "", re.sub("ç", "c", text.lower()))
    return clean_string in clean_text

In [None]:
def get_template_id(PRINTED_TEXT, year):
    template_id = 0
    for key in PRINTED_TEXT.keys():
        if key > template_id and key <= int(year):
            template_id = key
    return template_id

In [None]:
scores = {}
for key in sorted(texts.keys()):
    year, district, folio_nbr = key.split("-")
    template_id = get_template_id(PRINTED_TEXT, year)
    correct_text = ""
    missed_text = ""
    for string in PRINTED_TEXT[template_id]:
        if compare_strings(string, texts[key]):
            correct_text += string
        else:
            missed_text += string
    scores[key] = len(correct_text)/len(correct_text + missed_text)
[(key[1], key[0]) for key in sorted(scores.items() ,key=lambda item: item[1])][-5:]

## 2. Compare names with gold data

In [None]:
import pandas as pd

In [None]:
def fix_year(text_id, date_in):
    print(text_id, date_in)
    target_year = int(text_id[:4])
    guessed_year = int(date_in[-4:])
    if guessed_year != target_year and guessed_year != target_year-1:
        print_with_color(f"changing year {guessed_year} to {target_year}!\n")
        date_out = date_in[0:-4] + str(target_year)
    else:
        date_out = date_in
    return date_out

In [None]:
GOLD_DATA = "../../data/Overlijden/x-samples/three-columns-100.csv"

In [None]:
gold_data = pd.read_csv(GOLD_DATA)

In [None]:
GOLD_DATA = "../../data/Overlijden/x-samples/three-columns-100.csv"
gold_data = pd.read_csv(GOLD_DATA)
names = {}
for key in gold_data.index:
    names_key = read_transkribus_files.make_file_id(gold_data["scans"][key])
    if isinstance(gold_data["first_names"][key], str):
        if isinstance(gold_data["last_name"][key], str):
            name = str(gold_data["first_names"][key]) + " " + str(gold_data["last_name"][key])
        else:
            name = str(gold_data["first_names"][key])
    elif isinstance(gold_data["last_name"][key], str):
        name = str(gold_data["last_name"][key])
    if names_key in names:
        names[names_key].append(name)
    else:
        names[names_key] = [name]

In [None]:
chatgpt4_death_names = [
    "Elisabeth Louisenne Laguna",
    "Bernard",
    "Mathia Albertus",
    "Petronella Margartha Calia",
    "Lucas Martis",
    "Maria Dolor",
    "Francisco Nicolaas",
    "Maria Antonita",
    "Anna Maria",
    "Louis Martis",
    "Christina Jacoba Marin",
    "Jan Maria Fransa Sarfette",
    "Martina Ignaais",
    "Johannes Francisto",
    "Cathalina Faneke",
    "Johannes Pieter Henriquez",
    "Johanna Harins",
    "Lucas Paur",
    "Maria Conception Miranda",
    "Adelaida Colina",
    "Anna Theodon Decartis",
    "Partha Sophia Koober",
    "Joseph Bleuw",
    "Belfaars Calafet",
    "Maria Felies",
    "Maria Martha",
    "Leidewich Christint Boe",
    "Hendrina Eliana van Brando",
    "Maria Mersele",
    "Elisabeth Petstus",
    "Jan Marcius",
    "Cicilia Magdalena",
    "Antornette Guillemin",
    "Martina Baret",
    "Thelipi Martis",
    "Maria Meresa",
    "Juan Garino",
    "Ivalla Bernadina",
    "Roselfen Lorginia",
    "Maria Gerarda",
    "Maria Sabina",
    "Catharina Henrietta Asto",
    "Theodorus Pouwer",
    "Constantien Oos",
    "Mered Oreal",
    "William Vemage",
    "Pieter Kuit",
    "Romano Mad",
    "Jose Poeteno",
    "Hiroma Martis",
    "Balentien Valentijn",
    "Mariet Hansen",
    "Martina",
    "Caresa Bonard",
    "Wilhelmina Cleana",
    "Dominga Curiel",
    "Matheo Miquel Casper",
    "Cuaria Isenia",
    "Aalia Brigilia",
    "Cathalina Isenia Leon",
    "Carolus Passen",
    "Maria Wilhelmina",
    "Aetta Elisabeth Daal",
    "Jacobus Philippus Lekeur",
    "Josep Theodouis",
    "Anna Geertruida Viander",
    "Mammina Gijsbertha Veeris",
    "Jose Louis Maron",
    "Achter Ricardo",
    "Maria Claria",
    "Joannes Henriquez",
    "Geertidade Jongh",
    "Andrus Baptist",
    "Nicolaas Johannes",
    "Eresilia Cleonora",
    "Anthonia Petsell",
    "Gurge aam Corna",
    "Nicolaas Vercueil van der Dijs",
    "William George Maarten Elis",
    "Jacob Frederik Columba",
    "Cornelia Nessilia",
    "Anna Maria Soerkoe",
    "Maria Pracia",
    "Bartolomeur Apostel",
    "Maria Apolonia",
    "Cornelis Sille",
    "Lvelina Soriel",
    "Aniceto Clemente Gepes",
    "Lucas Martis",
    "Alen Mertes Jansen",
    "Johannes Balentinus",
    "Juana Francisca",
    "Stephanus Mercelino",
    "Domingo Singker",
    "Simon Martes",
    "Anna Wilhelmina",
    "Klarisse Roduma",
    "Juan Simon alsio Juante Aland",
    "Genes Eduardo Paust",
    "Thomas Pedro"
]

In [None]:
len(chatgpt_death_names)

In [None]:
counter = 0
names_correct = 0
name_distances = {}
for key in sorted(texts.keys()):
    name_correct = False
    levenshtein_minimum = 999999
    for name in names[key]:
        if not name_correct:
            name_correct = (chatgpt_death_names[counter].lower() == name.lower())
        levenshtein_distance = distance(chatgpt_death_names[counter].lower(), name.lower())
        if levenshtein_distance < levenshtein_minimum:
            levenshtein_minimum  = levenshtein_distance
    counter += 1
    if name_correct:
        names_correct += 1
    if levenshtein_minimum not in name_distances:
        name_distances[levenshtein_minimum] = 1
    else:
        name_distances[levenshtein_minimum] += 1
names_correct, name_distances

In [None]:
chatgpt4_death_dates = [
    "09-03-1831",
    "30-09-1831",
    "30-09-1831",
    "17-05-1832",
    "22-12-1832",
    "20-03-1833",
    "14-09-1833",
    "19-12-1833",
    "30-07-1833",
    "03-04-1834",
    "05-03-1834",
    "24-03-1834",
    "11-11-1834",
    "25-03-1834",
    "06-07-1836",
    "26-07-1836",
    "29-10-1836",
    "26-11-1836",
    "20-12-1836",
    "26-12-1836",
    "10-11-1837",
    "16-07-1839",
    "27-07-1840",
    "09-05-1841",
    "03-06-1841",
    "16-10-1841",
    "08-11-1841",
    "16-01-1842",
    "19-07-1842",
    "05-06-1845",
    "21-09-1845",
    "19-03-1848",
    "31-08-1848",
    "01-07-1849",
    "30-09-1849",
    "27-09-1850",
    "07-12-1850",
    "04-11-1850",
    "22-03-1851",
    "19-06-1851",
    "27-09-1851",
    "26-04-1852",
    "23-06-1852",
    "19-07-1852",
    "02-10-1852",
    "24-01-1853",
    "27-02-1853",
    "28-02-1853",
    "01-04-1853",
    "15-09-1853",
    "17-11-1853",
    "14-12-1853",
    "15-06-1853",
    "16-10-1854",
    "19-11-1854",
    "31-01-1856",
    "23-11-1856",
    "16-10-1857",
    "27-08-1859",
    "29-11-1859",
    "31-12-1859",
    "02-07-1830",
    "09-08-1830",
    "27-08-1860",
    "03-02-1832",
    "13-02-1862",
    "19-02-1862",
    "07-05-1862",
    "04-07-1862",
    "05-08-1862",
    "12-06-1863",
    "02-10-1863",
    "30-12-1863",
    "23-05-1863",
    "23-10-1863",
    "05-12-1863",
    "22-01-1860",
    "23-01-1864",
    "27-03-1864",
    "18-05-1864",
    "23-08-1864",
    "28-12-1864",
    "29-02-1864",
    "13-10-1864",
    "10-01-1865",
    "08-03-1865",
    "27-03-1865",
    "12-10-1865",
    "12-05-1865",
    "06-05-1865",
    "23-05-1865",
    "22-02-1866",
    "19-08-1866",
    "01-01-1937",
    "18-03-1867",
    "13-09-1866",
    "15-10-1867",
    "15-06-1867",
    "12-11-1868",
    "24-03-1868"
]

In [None]:
len(chatgpt_death_dates)

In [None]:
date_of_death_gold = {}
for key in gold_data.index:
    date_of_death_gold_key = read_transkribus_files.make_file_id(gold_data["scans"][key])
    if isinstance(gold_data["date_of_death"][key], str):
        date_of_death_gold_value = gold_data["date_of_death"][key]
        if date_of_death_gold_key in date_of_death_gold:
            date_of_death_gold[date_of_death_gold_key].append(date_of_death_gold_value)
        else:
            date_of_death_gold[date_of_death_gold_key] = [date_of_death_gold_value]

In [None]:
counter = 0
correct_death_date_found_count = 0
for text_id in sorted(texts.keys()):
    try:
        chatgpt_death_dates[counter] = fix_year(text_id, chatgpt_death_dates[counter])
        date_correct = chatgpt_death_dates[counter] == date_of_death_gold[text_id][0]
        print(counter, chatgpt_death_dates[counter], date_of_death_gold[text_id][0], date_correct)
        if date_correct:
            correct_death_date_found_count += 1 
    except:
        print_with_color(f"error for text id {text_id}!\n")
    counter += 1
    if counter >= len(chatgpt_death_dates):
        break
correct_death_date_found_count

to do: check for missing gold data