# MNLP Homework 2 - OCRed text cleaning

In [1]:
import google.generativeai as genai
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import torch
import json
import re
import os


from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from huggingface_hub import login
from dotenv import load_dotenv
from rouge import Rouge


### Environment setting

In [2]:
device = torch.device("cuda")
print(torch.cuda.get_device_name(0))
print("Supports float16:", torch.cuda.is_available())
print("Supports bfloat16:", torch.cuda.is_bf16_supported())

NVIDIA GeForce RTX 3050
Supports float16: True
Supports bfloat16: True


Be sure to either set a .env file or put here the keys for gemini and hugging face 

In [3]:
%cd Desktop/MNLP-Homework2/

C:\Users\fede6\Desktop\MNLP-Homework2


In [None]:
if '.env' in os.listdir(os.getcwd()):
    load_dotenv()
    CACHE_SUBPATH = os.environ['CACHE_PATH']
    TEXTS_SUBPATH = os.environ['DATA_PATH']
    OUTPUT_SUBPATH = os.environ['OUTPUT_PATH']
    HF_TOKEN = os.environ['HF_TOKEN']
    GEMINI_KEY = os.environ['GEMINI_KEY']
    
else:
    CACHE_SUBPATH = 'cache'
    TEXTS_SUBPATH = 'data\ita'
    OUTPUT_SUBPATH = 'cleaned'
    HF_TOKEN = ''
    GEMINI_KEY = ''

os.environ["ACCELERATE_USE_TORCH_DEVICE"] = "true"

TEXTS_PATH = os.path.join(os.getcwd(), TEXTS_SUBPATH)
OUTPUT_PATH =os.path.join(os.getcwd(), OUTPUT_SUBPATH)
CACHE_PATH = os.path.join(os.getcwd(), CACHE_SUBPATH)

os.makedirs(TEXTS_PATH, exist_ok=True)
os.makedirs(OUTPUT_PATH, exist_ok=True)
os.makedirs(CACHE_PATH, exist_ok=True)

os.environ['HF_HOME'] = CACHE_PATH

FILE_LIST = ["original_ocr.json", "cleaned.json"]
OUTPUT_PREFIX = "Pizza_Language_&_Mandolino-hw2_ocr"

assert HF_TOKEN != '', "No key for hugging face"
login(token=HF_TOKEN)
assert GEMINI_KEY != '', "No key for gemini"
genai.configure(api_key=GEMINI_KEY) 

### Retrieval texts

In [5]:
datasetRaw = {}

for name in FILE_LIST:
    if name not in os.listdir(TEXTS_PATH):
        print(f"File [{name}] not Found in directory [{TEXTS_PATH}]")

    file_path = os.path.join(TEXTS_PATH, name)
    with open(file_path, 'r') as file:
        datasetRaw[name.split('.')[0]] = json.load(file)
        file.close()

### Utils functions definition

In [6]:
def smart_split_paragraphs(text:str)->list[str]:
    text = re.sub(r'\s+', ' ', text.strip())

    text = re.sub(r'\.{2,}', lambda m: f"<DOTS{len(m.group(0))}>", text)

    fragments = re.split(r'(?<!\.)\.(?!\.)(?=\s|$)', text)

    result = []
    for frag in fragments:
        frag = frag.strip()
        if not frag:
            continue
        frag = re.sub(r'<DOTS(\d+)>', lambda m: '.' * int(m.group(1)), frag)
        result.append(frag + ". ")

    return result

In [7]:
def merge_hyphenated_words(text:str)->str:
    text = re.sub(r'(\w+)-\s+(\w+)', r'\1\2', text)
    return text

##### Preprocessing example

In [8]:
sample = datasetRaw['original_ocr']['1']
sentences = smart_split_paragraphs(sample)

for i in range(len(sentences)):
    sentences[i] = merge_hyphenated_words(sentences[i])

for i, s in enumerate(sentences, 1):
    print(f"{s}")

I. 
Como andò che Maestro Ciliegia, Megnamc trovò un pezzo di legno che piangeva e rideva come un bambino. 
— C'era una volta.... — Un re! -diranno subito i miei piccoli lettori. 
— Ko, ragazzi, avete sbagliato. 
C'era una volta un pezzo di legno. 
Kon era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d' inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze. 
Non so come andasse, ma il fatto gli è che un bel giorno' questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr' Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del sentì nna vocina sottile sottile. 
SUO naso, che era sempre lustra e paonazza, come una ciliegia matura. 
Appena maestro Ciliegia ebbe visto quel pezzo di legno, si rallegrò tutto; e dandosi una fregatina di mani per la contentezza, borbottò a mezza voce: — Questo legno è capitato a tempo; voglio servirmene per fare una gamba di tavolino.

In [9]:
def correct_text(texts: list[str], model_obj: dict)-> list[dict]:
    results = []
    for text in texts:        
        prompt = model_obj['prompt_gen'](text)
        
        output = model_obj['generator'](
            prompt,
            max_new_tokens=len(model_obj['tokenizer'].encode(text)) - 2,
            do_sample=False,
            top_p=1.0,
            num_beams=4,
            repetition_penalty=1.1,
        )[0]["generated_text"]

        cleaned = output.split("Testo corretto:")[-1].strip().split("\n")[0]

        print(f"Input:  {text}")
        print(f"Output: {cleaned}\n")
        
        results.append({"input": text, "output": cleaned})

    return results

In [10]:
def execute_experiment(model_obj:dict) -> None:
    print(model_obj['name'])
    for chapter, sample in datasetRaw['original_ocr'].items():
        print(f"Chapter {chapter}")
        sentences = smart_split_paragraphs(sample)
        for i in range(len(sentences)):
            sentences[i] = merge_hyphenated_words(sentences[i])
        corrected_data = correct_text(sentences, model_obj)

        with open(os.path.join(OUTPUT_PATH,model_obj['name'], f"Chapter_{chapter}.json"), "w+", encoding="utf-8") as file:
            json.dump(corrected_data, file, ensure_ascii=False)
    return

In [11]:
def reformat_output(model_name:str, prefix:str=OUTPUT_PREFIX)->None:
    cleaned_txt = {}
    dest_path = os.path.join(OUTPUT_PATH, model_name)
    for i, file_name in enumerate(os.listdir(dest_path)):
        with open(os.path.join(dest_path,file_name), 'r', encoding='utf-8') as file:
            data = json.load(file)
            text = ' '.join(item['output'] for item in data)
            cleaned_txt[str(i+1)] = text
            file.close()

    fname = f"{prefix}-{model_name}.json"
    with open(os.path.join(OUTPUT_PATH, fname), 'w', encoding='utf-8') as f_out:
        json.dump(cleaned_txt, f_out, ensure_ascii=False, indent=2)
        f_out.close()

## Minerva

In [14]:
MINERVA_VERSION = "sapienzanlp/Minerva-3B-base-v1.0"
minerva_tok = AutoTokenizer.from_pretrained(MINERVA_VERSION, trust_remote_code=True)
minerva_model = AutoModelForCausalLM.from_pretrained(MINERVA_VERSION, 
                                            trust_remote_code=True, 
                                            device_map=device, 
                                            torch_dtype=torch.float16
                                            )

minerva_gen = pipeline("text-generation", 
                        model=minerva_model, 
                        tokenizer=minerva_tok, 
                        pad_token_id=minerva_tok.eos_token_id
                    )

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cuda


In [16]:
minerva_obj = {
    "model":minerva_model,
    "generator": minerva_gen,
    "tokenizer":minerva_tok,
    "name":"Minerva",
    "prompt_gen": lambda x: (
            f"Sei un generatore di eBooks. "
            f"Correggi TUTTI gli errori OCR nel testo che ti verrà fornito. "
            f"Non aggiungere, togliere o cambiare parole. "
            f"Non modificare la punteggiatura esistente. "
            f"Non interpretare, riassumere o riscrivere il testo. "
            f"Mantieni esattamente lo stesso numero di parole e l'ordine delle parole. "
            f"Il testo corretto deve conservare il significato originale inalterato. "
            f"La tua unica funzione è la correzione di errori OCR: lettere errate, parole spezzate, ed errori di capitalizzazioni. "
            f"Rendi maiuscole le iniziali di frase e i nomi propri. Rendi minuscole le parole che non sono nomi propri o inizi di frase ma sono in maiuscolo. "
            f"Di seguito sono forniti esempi di input OCR e il corrispondente output corretto. Apprendi da questi esempi per svolgere il tuo compito.\n"
            f"Esempi di correzione OCR (inclusa capitalizzazione):\n"
            f"Input:  'qvesto è un testo. sembra ocr.'\n"
            f"Output: 'Questo è un testo. Sembra OCR.'\n"
            f"Input:  'l'aquila vola alta. il cieto è blù.'\n"
            f"Output: 'L'aquila vola alta. Il cielo è blu.'\n"
            f"Input: 'la matita è rota. c'è del tem po.'\n"
            f"Output: 'La matita è rotta. C'è del tempo.'\n"
            f"Input: 'i1 libro è su1 tavolo. LA STAMPA è chiara.'\n"
            f"Output: 'Il libro è sul tavolo. La stampa è chiara.'\n"
            f"Input: 'abbiam o un gTande paeco. la vitta è bella.'\n"
            f"Output: 'Abbiamo un grande pacco. La vita è bella.'\n"
            f"Testo OCR: {x} "
            f"Testo corretto:"
        )
}

In [14]:
execute_experiment(minerva_obj)
reformat_output(minerva_obj['name'])

Minerva
Chapter 1


KeyboardInterrupt: 

### Llama

In [17]:
LLAMA_VERSION = "meta-llama/Llama-3.2-3B"

llama_tok = AutoTokenizer.from_pretrained(LLAMA_VERSION)

llama_model = AutoModelForCausalLM.from_pretrained(
    LLAMA_VERSION,
    device_map="auto", 
    torch_dtype="auto"
)

llama_gen = pipeline(
    "text-generation",
    model=llama_model,
    tokenizer=llama_tok,
    pad_token_id=llama_tok.eos_token_id
)



Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Device set to use cpu


In [18]:
llama_obj = {
    "model":llama_model,
    "generator":llama_gen,
    "tokenizer":llama_tok,
    "name":"Llama",
    "prompt_gen": lambda x: (
            f"Sei un Grillo Parlante! "
            f"Correggi TUTTI gli errori OCR nel testo che ti verrà fornito. "
            f"Non aggiungere, togliere o cambiare parole. "
            f"Non modificare la punteggiatura esistente. "
            f"Non interpretare, riassumere o riscrivere il testo. "
            f"Mantieni esattamente lo stesso numero di parole e l'ordine delle parole. "
            f"Il testo corretto deve conservare il significato originale inalterato. "
            f"La tua unica funzione è la correzione di errori OCR: lettere errate, parole spezzate, ed errori di capitalizzazioni. "
            f"Rendi maiuscole le iniziali di frase e i nomi propri. Rendi minuscole le parole che non sono nomi propri o inizi di frase ma sono in maiuscolo. "
            f"Di seguito sono forniti esempi di input OCR e il corrispondente output corretto. Apprendi da questi esempi per svolgere il tuo compito.\n"
            f"Esempi di correzione OCR (inclusa capitalizzazione):\n"
            f"Input: 'qvesto è un testo. sembra ocr.'\n"
            f"Output: 'Questo è un testo. Sembra OCR.'\n"
            f"Input: 'l'aquila vola alta. il cieto è blù.'\n"
            f"Output: 'L'aquila vola alta. Il cielo è blu.'\n"
            f"Input: 'la matita è rota. c'è del tem po.'\n"
            f"Output: 'La matita è rotta. C'è del tempo.'\n"
            f"Input: 'i1 libro è su1 tavolo. LA STAMPA è chiara.'\n"
            f"Output: 'Il libro è sul tavolo. La stampa è chiara.'\n"
            f"Input: 'abbiam o un gTande paeco. la vitta è bella.'\n"
            f"Output: 'Abbiamo un grande pacco. La vita è bella.'\n"
            f"Input: 'rn'\n"
            f"Output: 'm'\n"
            f"Input: 'Ko'\n"
            f"Output: 'No'\n"
            f"Input: '1ibro'\n"  
            f"Output: 'libro'\n"
            f"Input: '0cchio'\n" 
            f"Output: 'occhio'\n"
            f"Input: 'cl'\n" 
            f"Output: 'd'\n"
            f"Input: 'e, '\n"
            f"Output: 'e '\n"
            f"Testo OCR: {x} "
            f"Testo corretto:"
        )
}

In [18]:
execute_experiment(llama_obj)
reformat_output(llama_obj['name'])

Llama
Chapter 1
Input:  I. 
Output: I.



KeyboardInterrupt: 

### Evaluation

In [30]:
GEMINI_VERSION = "gemini-1.5-flash"

def segment_wrapper(segment_ocred, segment_clean):
    return f"""
        ### Task: Il primo testo è una versione del secondo estratto con oc-Red, ed è stata processata per ridurre gli errori, valuta con un punteggio tra 1 e 100 tenendo conto di correttezza, comprensibilità e somiglianza
        ### Testo da valutare: {segment_ocred}.
        ### Testo di confronto: {segment_clean}.
        ### Requisiti:
            - Scrivi il risultato in formato <criterio>:<punteggio>.
            - Non usare altri numeri interi o fai altri commenti
        ### Risultato:
    """

In [31]:
rouge_eval = {}
gemini_eval = {}
rouge_baseline = {}
gemini_baseline = {}


for name in [llama_obj['name'], minerva_obj['name']]:
    model_scorer = Rouge()
    gemini = genai.GenerativeModel(model_name=GEMINI_VERSION)
    filename = os.path.join(OUTPUT_PATH, f"{OUTPUT_PREFIX}-{name}.json")
    gemini_eval[name] = [] 
    
    baseline_set = []
    reference_set = []
    produced_set = []
    
    with open(filename, "r", encoding='utf-8') as file_desc:
        output_log = json.load(file_desc)
        file_desc.close()
    
    for k,v in output_log.items():
        produced_set.append(v)
        reference_set.append(datasetRaw['cleaned'][f"{k}"])
        if len(baseline_set) >= int(k)-1:
            baseline_set.append(datasetRaw['original_ocr'][f"{k}"])
    
        gemini_input_eval = segment_wrapper(v, datasetRaw['cleaned'][f"{k}"])
        evaluation_gemini = gemini.generate_content(gemini_input_eval)
        gemini_eval[name].append(evaluation_gemini.text)
        
    rouge_eval[name] = model_scorer.get_scores(produced_set,reference_set)
    rouge_baseline[name] = model_scorer.get_scores(baseline_set, reference_set)
    
print(f"{'-'*20}")
print(rouge_eval)
print(rouge_baseline)
print(f"{'-'*20}")

--------------------
{'Llama': [{'rouge-1': {'r': 0.912568306010929, 'p': 0.9027027027027027, 'f': 0.9076086906523217}, 'rouge-2': {'r': 0.867862969004894, 'p': 0.8594507269789984, 'f': 0.8636363586364824}, 'rouge-l': {'r': 0.912568306010929, 'p': 0.9027027027027027, 'f': 0.9076086906523217}}, {'rouge-1': {'r': 0.901685393258427, 'p': 0.8916666666666667, 'f': 0.8966480396928935}, 'rouge-2': {'r': 0.8731466227347611, 'p': 0.8520900321543409, 'f': 0.8624898241301184}, 'rouge-l': {'r': 0.901685393258427, 'p': 0.8916666666666667, 'f': 0.8966480396928935}}, {'rouge-1': {'r': 0.9134438305709024, 'p': 0.9001814882032668, 'f': 0.9067641631903953}, 'rouge-2': {'r': 0.8772455089820359, 'p': 0.8694362017804155, 'f': 0.8733233929136619}, 'rouge-l': {'r': 0.9134438305709024, 'p': 0.9001814882032668, 'f': 0.9067641631903953}}, {'rouge-1': {'r': 0.8983516483516484, 'p': 0.8582677165354331, 'f': 0.8778523439958921}, 'rouge-2': {'r': 0.8470394736842105, 'p': 0.8253205128205128, 'f': 0.8360389560398043}

In [32]:
def rouge_formatter(eval_list:list):
    res = {}
    for n, score in enumerate(eval_list):
        res[f"{n+1}"] = {
            "rouge-1": score['rouge-1']['f'],
            "rouge-2": score['rouge-2']['f'],
            "rouge-l": score['rouge-l']['f'],
        }
    return res

def gemini_formatter(eval_list:list):
    res = {}
    for n, sentence in enumerate(eval_list):
        scores = sentence.strip().split('\n')
        entry = {}
        for s in scores:
            s = s.split(":")
            entry[f"{s[0]}"] = int(s[1])/100
        res[f"{n+1}"] = entry
    return res

In [33]:
CATEGORIES_GEMINI = ["Correttezza", "Comprensibilità", "Somiglianza"]

llama_gemini = gemini_formatter(gemini_eval[llama_obj['name']])
minerva_gemini = gemini_formatter(gemini_eval[minerva_obj['name']])

for k in CATEGORIES_GEMINI:
    collective_gemini_obj = {}
    for n, under_exam in zip([llama_obj['name'], minerva_obj['name']], [llama_gemini, minerva_gemini]):
        model_eval_obj = {i:v[k] for i,v in under_exam.items()}
        collective_gemini_obj[n] = model_eval_obj
    with open(os.path.join(OUTPUT_PATH, f"{OUTPUT_PREFIX}-gemini_{k}.json"),"w") as file:
        json.dump(collective_gemini_obj, file)
        file.close() 

In [28]:
CATEGORIES_ROUGE = ["rouge-1", "rouge-2", "rouge-l"]

llama_rouge = rouge_formatter(rouge_eval[llama_obj['name']])
minerva_rouge = rouge_formatter(rouge_eval[minerva_obj['name']])

for k in CATEGORIES_ROUGE:
    collective_rouge_obj = {}
    for n, under_exam in zip([llama_obj['name'], minerva_obj['name']], [llama_rouge, minerva_rouge]):
        model_eval_obj = {i:v[k] for i,v in under_exam.items()}
        collective_rouge_obj[n] = model_eval_obj
    with open(os.path.join(OUTPUT_PATH, f"{OUTPUT_PREFIX}-{k}_f.json"),"w") as file:
        json.dump(collective_rouge_obj, file)
        file.close()

### Prometeus evaluation

In [12]:
PROMETHEUS_VERSION = "Unbabel/M-Prometheus-7B"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype="float16"
)

tokenizer = AutoTokenizer.from_pretrained(PROMETHEUS_VERSION)
model = AutoModelForCausalLM.from_pretrained(
    PROMETHEUS_VERSION,
    quantization_config=bnb_config,
    device_map="auto"
)

pipe = pipeline("text-generation", model=model, tokenizer=tokenizer,
    do_sample=True,
    temperature=0.1
)

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Device set to use cuda:0


In [39]:
outRaw = {}

for model_name in [llama_obj['name'], minerva_obj['name']]:
    file_name = f"{OUTPUT_PREFIX}-{model_name}.json"
    if  file_name not in os.listdir(OUTPUT_PATH):
        print(f"ERROR 404 ! File {i} not Found...")

    file_path = os.path.join(OUTPUT_PATH, file_name)
    with open(file_path, 'r', encoding='utf-8') as file:
        outRaw[model_name.split('.')[0]] = json.load(file)
        file.close()

In [47]:
scores_dict = {
    'Llama': {
                "paragraphs": [],
                "scores": []
            },
    'Minerva': {
                "paragraphs": [],
                "scores": []
            }
}

In [None]:
for model_name in [llama_obj['name'], minerva_obj['name']]:
    print(model_name)
    for index, paragraph in outRaw[f'{model_name}'].items():
        prompt = f"""
            Valuta il testo ripulito da errori OCR generato dal modello rispetto alla corrispondente versione corretta, tenendo conto di correttezza, comprensibilità e somiglianza.
            Segui il seguente metro di valutazione:
            - 1: Pulizia completamente inaccettabile: Il testo non è stato ripulito e gli errori OCR persistono.
            - 2: Gravi errori semantici, omissioni o aggiunte sostanziali al testo originale.
            - 3: Pulizia parzialmente sbagliata, l'output ottenuto è superficiale. Contiene ancora errori, ma sono per lo più errori da un punto di vista semantico.
            - 4: Buona pulizia. L'outpt del testo è in gran parte corretta e fedele al testo, ma contiene ancora qualche errore minore da un punto di vista semantico. Il testo risulta fluente e comprensibile.
            - 5: Pulizia perfetta. Il testo è stato ripulito correttamente da errori OCR.

            Versione corretta: {datasetRaw['cleaned'][index]}
            Versione {model_name}: {paragraph}

            Rispondi solamente con il voto, seguendo il seguente formato per la risposta. 
            Valutazione: 
        """
        
        prometheus_output = pipe(prompt)[0]["generated_text"]
        prometheus_output = prometheus_output.split("Valutazione: ")[-1].strip().split("\n")[0]
        scores_dict[model_name]['paragraphs'].append(index)
        scores_dict[model_name]['scores'].append(prometheus_output)
        print(f"{index}: {prometheus_output}")

Llama
2
1: 2


In [None]:
def prometheus_formatter(scores_received):
    res = {}
    for name, content in scores_received.items():
        res[name] = []
        for index, score in zip(content['paragraphs'], content['scores']):
            res[name].append(f"paragraph {index} : score {score}")
    return res


formatted_data = prometheus_formatter(scores_dict)

fname = f"{OUTPUT_PREFIX}-prometheus.json"
with open(os.path.join(OUTPUT_PATH, fname), 'w', encoding='utf-8') as f:
    json.dump(formatted_data, f, indent=4)