In [2]:
import matplotlib.pyplot as plt
import transformers
import pandas as pd
import numpy as np
import torch
import json
import sys
import os

from dotenv import load_dotenv
from huggingface_hub import login


In [3]:
load_dotenv()
path = os.environ['DATA_PATH']
os.environ["ACCELERATE_USE_TORCH_DEVICE"] = "true"
login(token=os.environ['HF_TOKEN'])
cleaned_fn = "cleaned.json"
ocred_fn = "original_ocr.json"

Note: Environment variable`HF_TOKEN` is set and is the current active token independently from the token you've just configured.


In [4]:
device = torch.device("cuda")
print(torch.cuda.get_device_name(0))
print("Supports float16:", torch.cuda.is_available())
print("Supports bfloat16:", torch.cuda.is_bf16_supported())

NVIDIA GeForce RTX 4060 Laptop GPU
Supports float16: True
Supports bfloat16: True


In [5]:
minervaId = "sapienzanlp/Minerva-1B-base-v1.0"

minervaPipeline = transformers.pipeline(
    "text-generation",
    model=minervaId,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
    trust_remote_code=True
)

config.json:   0%|          | 0.00/593 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development





model.safetensors:   0%|          | 0.00/2.01G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/111 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/904 [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/795k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.12M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

Device set to use cuda:0


In [14]:
inputSentence = 'Rome is located in '

outputSentence = minervaPipeline(inputSentence, max_new_tokens=512)

Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


In [None]:
print(outputSentence[0]['generated_text'])

{'generated_text': 'Rome is located in 14th district of Rome, it is the capital of Italy. Rome is the main city of Italy. There are several ancient Roman ruins, but the most interesting ruins are the ancient Roman aqueduct, the famous Colosseum, and the Vatican City.\nRead more\nBasilica di San Pietro in Vaticano\nSituated in the Vatican City, this beautiful basilica is one of the most visited attractions in the world. It has a history going back as far as the second century BC. The church was built in the 16th century and is the oldest church in Rome.\nRead more\nPalazzo di Montecitorio\nThe famous Palazzo di Montecitorio, is a great palace in Rome. It is one of the most important buildings of the European Parliament. It was built in 1797, and is the oldest building in Rome. It is considered to be a very important symbol of the Italian Republic.\nRead more\nPiazza del Plebiscito\nThe Piazza del Plebiscito is the most prominent square in the city of Rome. It is one of the most importan

In [7]:
datasetRaw = {}

for i in [ocred_fn, cleaned_fn]:
    if i not in os.listdir(path):
        print(f"ERROR 404 ! File {i} not Found...")

    file_path = os.path.join(path, i)
    with open(file_path, 'r') as f:
        datasetRaw[i.split('.')[0]] = json.load(f)
        f.close()

In [21]:
sample = datasetRaw['original_ocr']['1']
questionText = f"Questo paragrafo, contentuto tra i due simboli '<666>', è dannegiato, ricostruiscilo: <666>{sample}<666>"
print(sample)

I. 
Como  andò  che  Maestro  Ciliegia,  Megnamc 
trovò  un  pezzo  di  legno  che  piangeva  e  rideva  come  un  bambino. 
—  C'era  una  volta.... 
—  Un  re!  -diranno  subito  i  miei  piccoli  lettori. 
—  Ko,  ragazzi,  avete  sbagliato.  C'era  una  volta 
un  pezzo  di  legno. 
Kon  era  un  legno  di  lusso,  ma  un  semplice 
pezzo  da  catasta,  di  quelli  che  d' inverno  si  met- 
tono nelle  stufe  e  nei  caminetti  per  accendere 
il  fuoco  e  per  riscaldare  le  stanze. 

Non  so  come  andasse,  ma  il  fatto  gli  è  che  un 
bel  giorno' questo  pezzo  di  legno  capitò  nella  bot- 
tega di  un  vecchio  falegname,  il  quale  aveva 
nome  mastr' Antonio,  se  non  che  tutti  lo  chia- 
mavano maestro  Ciliegia,  per  via  della  punta  del 

sentì  nna  vocina  sottile  sottile. 

SUO  naso,  che  era  sempre  lustra  e  paonazza,  come 
una  ciliegia  matura. 
Appena  maestro  Ciliegia  ebbe  visto  quel  pezzo 
di  legno,  si  rallegrò  tutto;  e  dandosi  

In [None]:
response = minervaPipeline(questionText, max_new_tokens=512)
print(response[0]['generated_text'])

Questo paragrafo, contentuto tra i due simboli '<666>', è dannegiato, ricostruiscilo: <666>I. 
Como  andò  che  Maestro  Ciliegia,  Megnamc 
trovò  un  pezzo  di  legno  che  piangeva  e  rideva  come  un  bambino. 
—  C'era  una  volta.... 
—  Un  re!  -diranno  subito  i  miei  piccoli  lettori. 
—  Ko,  ragazzi,  avete  sbagliato.  C'era  una  volta 
un  pezzo  di  legno. 
Kon  era  un  legno  di  lusso,  ma  un  semplice 
pezzo  da  catasta,  di  quelli  che  d' inverno  si  met- 
tono nelle  stufe  e  nei  caminetti  per  accendere 
il  fuoco  e  per  riscaldare  le  stanze. 

Non  so  come  andasse,  ma  il  fatto  gli  è  che  un 
bel  giorno' questo  pezzo  di  legno  capitò  nella  bot- 
tega di  un  vecchio  falegname,  il  quale  aveva 
nome  mastr' Antonio,  se  non  che  tutti  lo  chia- 
mavano maestro  Ciliegia,  per  via  della  punta  del 

sentì  nna  vocina  sottile  sottile. 

SUO  naso,  che  era  sempre  lustra  e  paonazza,  come 
una  ciliegia  matura. 
Appena  

In [22]:
print(datasetRaw['cleaned']['1'])

I.

Come andò che Maestro Ciliegia, falegname
trovò un pezzo di legno che piangeva e rideva come un bambino.

— C’era una volta....
— Un re! — diranno subito i miei piccoli lettori.
— No, ragazzi, avete sbagliato. C’era una volta un pezzo di legno.
Non era un legno di lusso, ma un semplice pezzo da catasta, di quelli che d’inverno si mettono nelle stufe e nei caminetti per accendere il fuoco e per riscaldare le stanze.
Non so come andasse, ma il fatto gli è che un bel giorno questo pezzo di legno capitò nella bottega di un vecchio falegname, il quale aveva nome mastr’Antonio, se non che tutti lo chiamavano maestro Ciliegia, per via della punta del <img description>.... sentì una vocina sottile sottile. suo naso, che era sempre lustra e paonazza, come una ciliegia matura.
Appena maestro Ciliegia ebbe visto quel pezzo di legno, si rallegrò tutto; e dandosi una fregatina di mani per la contentezza, borbottò a mezza voce:
— Questo legno è capitato a tempo; voglio servirmene per fare una ga