# Step 2. Find the specific corrections with the LLM responses

In [1]:
import difflib
import nltk
nltk.download('punkt')
from nltk.tokenize import wordpunct_tokenize as encode
import re
import pandas as pd
import json

[nltk_data] Downloading package punkt to /home/historynlp/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### A first look to the original vs corrected response

In [2]:
RESPONSES_FILE = "./responsesLatam.json"
CORRECTIONS_FILE = "./correctionsLatam.json"

df = pd.read_parquet("../data/cleaned-latam-xix.parquet")
with open(RESPONSES_FILE, "r") as f:
    r = json.load(f)

In [3]:
r['data'][0]

{'text': 'cualquier cosa, pues solo se hizo circular en hoja suelta: pero lo haremos conocer próximamente, AREQUIPA MARZO 5 DB 1884. pues tenemos el propósito de no omitir : esfuerzo hasta conseguirla. Mientras tanto, como reminiscencias que de ella se conservan en la memoria, insertamos uno de sus fragmentos, que poco mas ó menos dice a "Casas sin techo, Rio sin agua, Arboles sin hojas, Muchacho malcriado ...... Todo esto era el Perú A la muerte del General Castilla.“ Si hay alguna alteracion en esta parte, el autor por interes propio debe exhibir la Oda para rectificarla, previniendose que aun cuando parezca exagerado, este fragmento es de los menos malos. Y a proposito. ¿ Que daño pudo haberle hecho a este pedante el ilustre General Castilia, que con tanto desden miraba a los pequeños, para que intentase escarnecer y poner en rídiculo su respetada memoria? Nos esplicamos el motivo del encono que abriga el Redactor de "El Peru" para el país de su nacimiento, pero .... la saña que rev

As observed, some specific kind of OCR errors are easy to detect, when the corrected text is basically the same as the original, but with some characters in the middle (spaces or punctuation). For example:
`se mana` → `semana`

## 1. Define the diff algorithm

In [4]:
WORDS_OF_CONTEXT = 5

def get_indexes(text, idxs, gold):
    text = text.replace("\n", " ").replace("\r", " ")
    tok = encode(text)
    wordstill = ""

    for tk in tok[:idxs[0]]:
        wordstill += tk
        assert text.startswith(wordstill), f"ERROR. Expected:\n{text}\nto start with\n{wordstill}"
        match = re.match(r'[\s]*', text[len(wordstill):])
        spaces = match.group(0) if match else ""
        wordstill += spaces

    firstidx = len(wordstill)

    for tk in tok[idxs[0]:idxs[1]+1]:
        wordstill += tk
        assert text.startswith(wordstill), f"ERROR. Expected:\n{text}\nto start with\n{wordstill}"
        match = re.match(r'[\s]*', text[len(wordstill):])
        spaces = match.group(0) if match else ""
        wordstill += spaces

    cut = wordstill[firstidx:len(wordstill)].rstrip() # this is the piece of text
    lastidx = len(cut)+firstidx
    assert cut.replace(" ", "") == gold.replace(" ", ""), f"ERROR. Indexing not correct! expected {gold} but got {cut}"
    return cut, firstidx, lastidx

def diff(text1, text2):
    sm = difflib.SequenceMatcher(None, encode(text1), encode(text2))
    added = []
    removed = []
    modified = []
    for opcode, a0, a1, b0, b1 in sm.get_opcodes():
        sa = ' '.join(sm.a[a0:a1])
        sb = ' '.join(sm.b[b0:b1])
        if opcode == 'insert':
            added.append(sb)
        elif opcode == 'delete':
            removed.append(sa)
        elif opcode == 'replace':
            context = ' '.join(sm.a[max(0,a0-WORDS_OF_CONTEXT):min(a1+WORDS_OF_CONTEXT, len(sm.a))])
            sa, start, end = get_indexes(text1, (a0, a1-1), sa)
            sb, _, _ = get_indexes(text2, (b0, b1-1), sb)
            modified.append((sa,sb,context,start,end))
        elif opcode == 'equal':
            pass
        else:
            raise RuntimeError(f"Unknown opcode {opcode}")
    return added, removed, modified

def remove_special(string):
    return re.sub(r'[^\w]', '', string)

def ocr_error(p, m):
    pws = remove_special(p).lower()
    mws = remove_special(m).lower()
    return pws == mws

def printred(text, word):
    index = 0
    while index < len(text):
        if text[index:index+len(word)] == word:
            print('\033[91m' + text[index:index+len(word)] + '\033[0m', end='')
            index += len(word)
        else:
            print(text[index], end='')
            index += 1

Usage example:

In [5]:
prv = """10 CONQUISTA sinti\u00f3 Cort\u00e9s como uno de los mayores contra- tiempos que se le podian ofrecer. Hizole retirar \u00e1 su quarto, y acudi\u00f3 con nueva irritaci\u00f3n ala de- fensa del quartel; pero se hall\u00f3 sin enemigos en quien tomar satisfacci\u00f3n de su enojo : porque al mismo instante que vieron caer \u00e1 su Rey, \u00f3 pu- dieron conocer que iba herido, se asombraron de su misma culpa, y huyendo sin saber de quien, 6 creyendo que llevaban \u00e1 las espaldas la ira de sus Dioses, corrieron \u00e1 esconderse del Cielo con aquel g\u00e9nero de confusi\u00f3n, \u00f3 fealdad espantosa que sue len dexar en el \u00e1nimo al acabarse de cometer los enormes delitos. Pas\u00f3 luego Hern\u00e1n Cort\u00e9s al quarto de Motezu ma, que volvi\u00f3 en si dentro de breve rato ; pero tan impaciente y despechado, que fu\u00e9 necesario detenerle para que no se quitase la vida. No era posible curarle, porque desviaba los medicamen tos : prorumpia en amenazas, que terminaban en gemidos : esforz\u00e1base la ira, y declinaba en pusi lanimidad : la persuasi\u00f3n le ofendia, y los consue los le irritaban : cobr\u00f3 el sentido para perder el entendimiento; y pareci\u00f3 conveniente dexarle por un rato, y dar alg\u00fan tiempo \u00e1 la consideraci\u00f3n, pa ra que se desembarazase de las primeras disonan cias de la ofensa. Qued\u00f3 encargado \u00e1 su familia, y en miserable congoja, batallando con las violen cias de su natural, y el abatimiento de su esp\u00edritu, sin aliento para intentar el castigo de los traydores"""
mod = """Dado el texto entre ```, retorna \u00fanicamente el texto corrigiendo los errores ortogr\u00e1ficos:\n\n```10 CONQUISTA sinti\u00f3 Cort\u00e9s como uno de los mayores contratiempos que se le pod\u00edan ofrecer. H\u00edzole retirar \u00e1 su cuarto, y acudi\u00f3 con nueva irritaci\u00f3n a la defensa del cuartel; pero se hall\u00f3 sin enemigos en quien tomar satisfacci\u00f3n de su enojo: porque al mismo instante que vieron caer \u00e1 su Rey, \u00f3 pudieron conocer que iba herido, se asombraron de su misma culpa, y huyendo sin saber de quien, 6 creyendo que llevaban \u00e1 las espaldas la ira de sus Dioses, corrieron \u00e1 esconderse del Cielo con aquel g\u00e9nero de confusi\u00f3n, \u00f3 fealdad espantosa que suelen dejar en el \u00e1nimo al acabarse de cometer los enormes delitos. Pas\u00f3 luego Hern\u00e1n Cort\u00e9s al cuarto de Moctezuma, que volvi\u00f3 en s\u00ed dentro de breve rato; pero tan impaciente y despechado, que fue necesario detenerle para que no se quitase la vida. No era posible curarle, porque desviaba los medicamentos: prorrump\u00eda en amenazas, que terminaban en gemidos: esforz\u00e1base la ira, y declinaba en pusilanimidad: la persuasi\u00f3n le ofend\u00eda, y los consuelos le irritaban: cobr\u00f3 el sentido para perder el entendimiento; y pareci\u00f3 conveniente dejarle por un rato, y dar alg\u00fan tiempo a la consideraci\u00f3n, para que se desembarazase de las primeras disonancias de la ofensa. Qued\u00f3 encargado a su familia, y en miserable congoja, batallando con las violencias de su natural, y el abatimiento de su esp\u00edritu, sin aliento para intentar el castigo de los traidores"""

added, removed, modified = diff(prv, mod)

for p,m,context,_,_ in modified:
    print(f"\033[91m{p}\033[0m → \033[94m{m}\033[0m", end='')
    print(f" [{'OCR error' if ocr_error(p,m) else '¿Surface form?'}]", end='')
    printred(f"\t{context}", p)
    print()

[91mcontra- tiempos[0m → [94mcontratiempos[0m [OCR error]	como uno de los mayores contra - tiempos que se le podian ofrecer
[91mpodian[0m → [94mpodían[0m [¿Surface form?]	- tiempos que se le [91mpodian[0m ofrecer . Hizole retirar á
[91mHizole[0m → [94mHízole[0m [¿Surface form?]	se le podian ofrecer . [91mHizole[0m retirar á su quarto ,
[91mquarto[0m → [94mcuarto[0m [¿Surface form?]	. Hizole retirar á su [91mquarto[0m , y acudió con nueva
[91mala de- fensa[0m → [94ma la defensa[0m [OCR error]	y acudió con nueva irritación ala de - fensa del quartel ; pero se
[91mquartel[0m → [94mcuartel[0m [¿Surface form?]	ala de - fensa del [91mquartel[0m ; pero se halló sin
[91mpu- dieron[0m → [94mpudieron[0m [OCR error]	á su Rey , ó pu - dieron conocer que iba herido ,
[91msue len dexar[0m → [94msuelen dejar[0m [¿Surface form?]	, ó fealdad espantosa que [91msue len dexar[0m en el ánimo al acabarse
[91mquarto de Motezu ma[0m → [94mcuarto de Moctezuma[0m [¿

## 2. Correct the simple OCR errors found in the whole dataset

Previous:

In [6]:
r['data'][0]["text"]

'cualquier cosa, pues solo se hizo circular en hoja suelta: pero lo haremos conocer próximamente, AREQUIPA MARZO 5 DB 1884. pues tenemos el propósito de no omitir : esfuerzo hasta conseguirla. Mientras tanto, como reminiscencias que de ella se conservan en la memoria, insertamos uno de sus fragmentos, que poco mas ó menos dice a "Casas sin techo, Rio sin agua, Arboles sin hojas, Muchacho malcriado ...... Todo esto era el Perú A la muerte del General Castilla.“ Si hay alguna alteracion en esta parte, el autor por interes propio debe exhibir la Oda para rectificarla, previniendose que aun cuando parezca exagerado, este fragmento es de los menos malos. Y a proposito. ¿ Que daño pudo haberle hecho a este pedante el ilustre General Castilia, que con tanto desden miraba a los pequeños, para que intentase escarnecer y poner en rídiculo su respetada memoria? Nos esplicamos el motivo del encono que abriga el Redactor de "El Peru" para el país de su nacimiento, pero .... la saña que revela no so

In [None]:
it=0
while True:
    ocrcount = 0
    errors = []

    for i,d in enumerate(r['data']):
        prv = d["text"]
        mod = d["resp"]
        try:
            added, removed, modified = diff(prv, mod)
        except AssertionError as e:
            print(f"Error at {i}:\n{prv}\n{mod}")
            raise e

        er = list()
        for p,m,context,idx1,idx2 in modified:
            tup = (p,m)
            isocr = ocr_error(p,m)
            if isocr:
                er.append({"prv":p, "mod":m, "idx1": idx1, "idx2":idx2, "ctx":context})
                ocrcount += 1
        errors.append(er)

    if ocrcount == 0: break
    assert len(errors) == len(df)

    for i,e in enumerate(errors):
        text = r['data'][i]['text']
        chdif = 0
        for v in e:
            p = v['prv']
            m = v['mod']
            ctx = v['ctx']
            idx1 = v['idx1'] - chdif
            idx2 = v['idx2'] - chdif
            text = text[:idx1] + m + text[idx2:]
            chdif += len(p) - len(m)
        df.loc[i, "text"] = text
        r['data'][i]['text'] = text
    
    it+=1
    print(f"Iteration {it} completed! ({ocrcount} OCR errors found)")
print("Finished")

Iteration 1 completed! (319153 OCR errors found)


In [None]:
print(f"Number of iterations: {it}")

After update of only OCR non-letter errors:

In [None]:
r['data'][0]["text"]

Save a first version of the corrected dataset:

In [None]:
df.to_csv("../data/pre-corrected-latam-xix.tsv", sep="\t", index=False)
df.to_parquet('../data/pre-corrected-latam-xix.parquet')

## 3. Save the rest of the corrections to classify

The rest of the corrections can be classified between:
- An OCR error with letter errors
- Surface forms
- None of the above (LLM hallucinations)

In [None]:
fixes = dict()

for i,d in enumerate(r['data']):
    prv = d["text"]
    mod = d["resp"]
    try:
        added, removed, modified = diff(prv, mod)
    except AssertionError as e:
        print(f"Error at {i}:\n{prv}\n{mod}")
        raise e

    for p,m,context,idx1,idx2 in modified:
        tup = (p,m)
        assert not ocr_error(p,m), f"ERROR at {i}. OCR error detected: {p} -> {m} ({context})"
        fixes[tup] = fixes.get(tup, {'usages':[], 'freq':0})
        fixes[tup]['usages'].append((i,idx1,idx2,context))
        fixes[tup]['freq'] += 1

fixes = dict(sorted(fixes.items(), key=lambda x: x[1]['freq'], reverse=True))

fixes_list = []
for k,v in fixes.items():
    v['change'] = list(k)
    fixes_list.append(v)

In [15]:
fixes_list[0]['change'], fixes_list[0]['freq']

(['á', 'a'], 52104)

Save the corrections to a file:

In [None]:
with open(CORRECTIONS_FILE, 'w') as outfile:
    json.dump(fixes_list, outfile, indent=2)