In [None]:
import matplotlib.pyplot as plt
import transformers
import pandas as pd
import numpy as np
import torch
import json
import sys
import os

from dotenv import load_dotenv
from huggingface_hub import login


In [None]:
load_dotenv()
path = os.environ['DATA_PATH']
os.environ["ACCELERATE_USE_TORCH_DEVICE"] = "true"
login(token=os.environ['HF_TOKEN'])
cleaned_fn = "cleaned.json"
ocred_fn = "original_ocr.json"

Note: Environment variable`HF_TOKEN` is set and is the current active token independently from the token you've just configured.


In [4]:
device = torch.device("cuda")
print(torch.cuda.get_device_name(0))
print("Supports float16:", torch.cuda.is_available())
print("Supports bfloat16:", torch.cuda.is_bf16_supported())

NVIDIA GeForce RTX 4060 Laptop GPU
Supports float16: True
Supports bfloat16: True


In [5]:
minervaId = "sapienzanlp/Minerva-1B-base-v1.0"

minervaPipeline = transformers.pipeline(
    "text-generation",
    model=minervaId,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
    trust_remote_code=True
)

config.json:   0%|          | 0.00/593 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development





model.safetensors:   0%|          | 0.00/2.01G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/904 [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/795k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.12M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

Device set to use cuda:0


In [14]:
inputSentence = 'Rome is located in '

outputSentence = minervaPipeline(inputSentence, max_new_tokens=512)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


In [None]:
print(outputSentence[0]['generated_text'])

{'generated_text': 'Rome is located in 14th district of Rome, it is the capital of Italy. Rome is the main city of Italy. There are several ancient Roman ruins, but the most interesting ruins are the ancient Roman aqueduct, the famous Colosseum, and the Vatican City.\nRead more\nBasilica di San Pietro in Vaticano\nSituated in the Vatican City, this beautiful basilica is one of the most visited attractions in the world. It has a history going back as far as the second century BC. The church was built in the 16th century and is the oldest church in Rome.\nRead more\nPalazzo di Montecitorio\nThe famous Palazzo di Montecitorio, is a great palace in Rome. It is one of the most important buildings of the European Parliament. It was built in 1797, and is the oldest building in Rome. It is considered to be a very important symbol of the Italian Republic.\nRead more\nPiazza del Plebiscito\nThe Piazza del Plebiscito is the most prominent square in the city of Rome. It is one of the most importan

In [7]:
datasetRaw = {}

for i in [ocred_fn, cleaned_fn]:
    if i not in os.listdir(path):
        print(f"ERROR 404 ! File {i} not Found...")

    file_path = os.path.join(path, i)
    with open(file_path, 'r') as f:
        datasetRaw[i.split('.')[0]] = json.load(f)
        f.close()

In [21]:
sample = datasetRaw['original_ocr']['1']
questionText = f"Questo paragrafo, contentuto tra i due simboli '<666>', Ã¨ dannegiato, ricostruiscilo: <666>{sample}<666>"
print(sample)

I. 
Como  andÃ²  che  Maestro  Ciliegia,  Megnamc 
trovÃ²  un  pezzo  di  legno  che  piangeva  e  rideva  come  un  bambino. 
â€”  C'era  una  volta.... 
â€”  Un  re!  -diranno  subito  i  miei  piccoli  lettori. 
â€”  Ko,  ragazzi,  avete  sbagliato.  C'era  una  volta 
un  pezzo  di  legno. 
Kon  era  un  legno  di  lusso,  ma  un  semplice 
pezzo  da  catasta,  di  quelli  che  d' inverno  si  met- 
tono nelle  stufe  e  nei  caminetti  per  accendere 
il  fuoco  e  per  riscaldare  le  stanze. 

Non  so  come  andasse,  ma  il  fatto  gli  Ã¨  che  un 
bel  giorno' questo  pezzo  di  legno  capitÃ²  nella  bot- 
tega di  un  vecchio  falegname,  il  quale  aveva 
nome  mastr' Antonio,  se  non  che  tutti  lo  chia- 
mavano maestro  Ciliegia,  per  via  della  punta  del 

sentÃ¬  nna  vocina  sottile  sottile. 

SUO  naso,  che  era  sempre  lustra  e  paonazza,  come 
una  ciliegia  matura. 
Appena  maestro  Ciliegia  ebbe  visto  quel  pezzo 
di  legno,  si  rallegrÃ²  tutto;  

In [None]:
response = minervaPipeline(questionText, max_new_tokens=512)
print(response[0]['generated_text'])

Questo paragrafo, contentuto tra i due simboli '<666>', Ã¨ dannegiato, ricostruiscilo: <666>I. 
Como  andÃ²  che  Maestro  Ciliegia,  Megnamc 
trovÃ²  un  pezzo  di  legno  che  piangeva  e  rideva  come  un  bambino. 
â€”  C'era  una  volta.... 
â€”  Un  re!  -diranno  subito  i  miei  piccoli  lettori. 
â€”  Ko,  ragazzi,  avete  sbagliato.  C'era  una  volta 
un  pezzo  di  legno. 
Kon  era  un  legno  di  lusso,  ma  un  semplice 
pezzo  da  catasta,  di  quelli  che  d' inverno  si  met- 
tono nelle  stufe  e  nei  caminetti  per  accendere 
il  fuoco  e  per  riscaldare  le  stanze. 

Non  so  come  andasse,  ma  il  fatto  gli  Ã¨  che  un 
bel  giorno' questo  pezzo  di  legno  capitÃ²  nella  bot- 
tega di  un  vecchio  falegname,  il  quale  aveva 
nome  mastr' Antonio,  se  non  che  tutti  lo  chia- 
mavano maestro  Ciliegia,  per  via  della  punta  del 

sentÃ¬  nna  vocina  sottile  sottile. 

SUO  naso,  che  era  sempre  lustra  e  paonazza,  come 
una  ciliegia  matur

In [22]:
print(datasetRaw['cleaned']['1'])

I.

Come andÃ² che Maestro Ciliegia, falegname
trovÃ² un pezzo di legno che piangeva e rideva come un bambino.

â€” Câ€™era una volta....
â€” Un re! â€” diranno subito i miei piccoli lettori.
â€” No, ragazzi, avete sbagliato. Câ€™era una volta un pezzo di legno.
Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che dâ€™inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze.
Non so come andasse, ma il fatto gli Ã¨ che un bel giorno questo pezzo di legno capitÃ² nella bottega di un vecchio falegname, il quale aveva nome mastrâ€™Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del <img description>.... sentÃ¬ una vocina sottile sottile. suo naso, che era sempre lustra e paonazza, come una ciliegia matura.
Appena maestro Ciliegia ebbe visto quel pezzo di legno, si rallegrÃ² tutto; e dandosi una fregatina di mani per la contentezza, borbottÃ² a mezza voce:
â€” Questo legno Ã¨ capitato a tempo; voglio 

## Test

In [2]:
def number_words(sentence):
    sentence = sentence.split()
    return len(sentence)

In [11]:
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
import torch

# === 1. Carica modello Minerva ===
model_name = "sapienzanlp/Minerva-1B-base-v1.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map='cuda', torch_dtype=torch.float16)

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, pad_token_id=tokenizer.eos_token_id)

# === 3. Funzione corretta per OCR fixing ===
def correct_with_minerva(texts):
    results = []
    for text in texts:
        prompt = (
            f"Correggi gli errori OCR senza cambiare la struttura del testo. "
            f"Non riscrivere. Correggi solo lettere errate. "
            f"Testo OCR: {text} "
            f"Testo corretto:"
        )
        output = generator(prompt, max_new_tokens=number_words(prompt) + number_words(text), do_sample=False)[0]["generated_text"]
        
        # Estrai solo il contenuto generato dopo "Testo corretto:"
        cleaned = output.split("Testo corretto:")[-1].strip()
        
        # Stop eventuale se modello prolunga troppo
        if "\n" in cleaned:
            cleaned = cleaned.split("\n")[0]
        
        results.append({"input": text, "output": cleaned})
    return results

# === 4. Test ===
ocr_text = "Qvando il sole sorge, le ombrre svannos noel silenzio del matino."
corrected_data = correct_with_minerva([ocr_text])

# === 5. Stampa risultato ===
for clean in corrected_data:
    print(f"Input:  {clean['input']}")
    print(f"Output: {clean['output']}")

Device set to use cuda


Input:  Qvando il sole sorge, le ombrre svannos noel silenzio del matino.
Output: Il sole sorge


Non so perchÃ¨ ma su un'altro notebook, stesse settings e prompt stampava:

===========================================================================

Device set to use cuda  
Input:  Qvando il sole sorge, le ombrre svannos noel silenzio del matino.  
Output: Il sole sorge, le ombre svaniscono.

===========================================================================

In [4]:
# === 1. Setup modello ===
model_name = "sapienzanlp/Minerva-1B-base-v1.0"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name, device_map='cuda', torch_dtype=torch.float16
)

generator = pipeline("text-generation", model=model, tokenizer=tokenizer, pad_token_id=tokenizer.eos_token_id)

# === 2. Token matching check ===
# def token_match_ratio(input_text, output_text):
#     in_words = input_text.lower().split()
#     out_words = output_text.lower().split()
#     matches = sum(1 for w in out_words if w in in_words)
#     return matches / max(len(in_words), len(out_words))
import difflib

def token_match_ratio(input_text, output_text):
    in_words = input_text.lower().split()
    out_words = output_text.lower().split()

    matches = sum(1 for w in out_words if w in in_words)
    base_ratio = matches / max(len(in_words), len(out_words))

    # Verifica che ci sia almeno una parola diversa
    is_modified = any(i != o for i, o in zip(in_words, out_words)) or len(in_words) != len(out_words)

    return base_ratio, is_modified


# def regenerate_until_fidelity(text, generator, attempts=5, fidelity_threshold=0.7):
#     prompt = (
#         f"Correggi solo gli errori OCR senza cambiare la struttura. "
#         f"Testo OCR: {text}\nTesto corretto:"
#     )
# 
#     # Genera piÃ¹ output in parallelo
#     outputs = generator(
#         prompt,
#         max_new_tokens=len(text.split()) + 10,
#         do_sample=True,
#         top_k=50,
#         temperature=0.7,
#         num_return_sequences=attempts
#     )
# 
#     best_result = None
#     best_ratio = 0.0
# 
#     for o in outputs:
#         generated = o["generated_text"].split("Testo corretto:")[-1].strip().split("\n")[0]
#         ratio = token_match_ratio(text, generated)
# 
#         if ratio > best_ratio:
#             best_result = generated
#             best_ratio = ratio
# 
#         if ratio >= fidelity_threshold:
#             break  # early stop se giÃ  buono
# 
#     return {
#         "input": text,
#         "output": best_result,
#         "fidelity": round(best_ratio, 2),
#         "ok": best_ratio >= fidelity_threshold
#     }

def regenerate_until_fidelity(text, generator, attempts=5, fidelity_threshold=0.7):
    prompt = (
        f"Correggi solo gli errori OCR senza cambiare la struttura. "
        f"Testo OCR: {text}\nTesto corretto:"
    )

    outputs = generator(
        prompt,
        max_new_tokens=len(text.split()) + 10,
        do_sample=False
    )

    best_result = None
    best_ratio = 0.0

    for o in outputs:
        generated = o["generated_text"].split("Testo corretto:")[-1].strip().split("\n")[0]
        ratio, modified = token_match_ratio(text, generated)

        # Deve essere sia sufficientemente simile sia modificato
        if ratio > best_ratio and modified:
            best_result = generated
            best_ratio = ratio

        if ratio >= fidelity_threshold and modified:
            break  # early stop su buon output

    return {
        "input": text,
        "output": best_result if best_result else text,
        "fidelity": round(best_ratio, 2),
        "ok": best_ratio >= fidelity_threshold and best_result != text
    }


# === 3. Funzione principale con controllo fedeltÃ 
def correct_with_minerva_and_check(texts, fidelity_threshold=0.6):
    results = []
    for text in texts:
        #prompt = (
        #    f"Correggi solo gli errori OCR senza cambiare la struttura. "
        #    f"Testo OCR: {text}\nTesto corretto:"
        #)
        #output = generator(prompt, max_new_tokens=len(text.split()) + 10, do_sample=False)[0]["generated_text"]
        #corrected = output.split("Testo corretto:")[-1].strip().split("\n")[0]

        #ratio = token_match_ratio(text, corrected)

        #results.append({
        #    "input": text,
        #    "output": corrected,
        #    "fidelity": round(ratio, 2),
        #    "ok": ratio >= fidelity_threshold
        #})
        result = regenerate_until_fidelity(text, generator, attempts=5)
        results.append(result)
    return results

# === 4. Esempio
ocr_text = "Qvando il sole sorge, le ombrre svannos noel silenzio del matino."
results = correct_with_minerva_and_check([ocr_text])

# === 5. Stampa con feedback
for r in results:
    print("Input:  ", r["input"])
    print("Output: ", r["output"])
    print("Fidelity ratio:", r["fidelity"])
    print("ðŸŸ¢ Accettato" if r["ok"] else "ðŸ”´ Da rigenerare")

Device set to use cuda


Input:   Qvando il sole sorge, le ombrre svannos noel silenzio del matino.
Output:  Ogni volta che il sole sorge, le ombre svaniscono.
Fidelity ratio: 0.36
ðŸ”´ Da rigenerare
