# Archaic to Modern Italian with Context Learning

In [1]:
# Import Datases to work with Transformers by Hugging-Face
import torch
# Imports for Transformers
from transformers import AutoTokenizer  # Datasets
from datasets import Dataset, load_dataset
from datasets.features import Value, Features
from utils import StandardPrompt, PromptModel, GeminiJudge, OpusPrompt

## Globals

# Promposed Models
* google/flan-t5-large (text2text model) 
* google/gemma-3-1b-it (LLM) 🚀
* sapienzanlp/Minerva-1B-base-v1.0 🇮🇹 (LMM)
* Helsinki-NLP/opus-mt-itc-itc (Machine Translation) 🏆 - use OpusPrompt 
* FacebookAI/xlm-roberta-base (fill-mask)

In [2]:
DATASET = "dataset.csv"
FEATURES = Features(
    {
        "Author": Value(dtype="string"),
        "Date": Value(dtype="string"),
        "Region": Value(dtype="string"),
        "Sentence": Value(dtype="string")
    }
)
network = "Helsinki-NLP/opus-mt-itc-itc"
device = ('cuda' if torch.cuda.is_available() else "cpu")

## Import the Dataset and Tokenize


In [3]:
hf = Dataset.from_csv(DATASET, features=FEATURES).shuffle(seed=42).train_test_split(test_size=0.05, seed=42)
print(hf["train"].take(5)[:5])

{'Author': ['Giovanni da San Miniato', "Fatti de' Romani (H+R)", 'Filippo da Santa Croce', "Fatti de' Romani (H+R)", 'Bono Giamboni'], 'Date': ['1415', '1313', '1323', '1313', '1292'], 'Region': ['tosc.', 'fior.', 'tosc.', 'fior.', 'fior.'], 'Sentence': ['colui che ancora non sa amare il prossimo come sé medesimo già cominci a temere i giudicii di Dio. ', 'Santo Agostino fece u· libro ch\'avea nome "Agostino Della Città di Dio".', "quello che sopra tutti gli altri perdonasse a' cittadini, e a cui più sicuramente possiate credere; poi ch'egli fu vostro comandatore.", "Allora che il navilio si fue impinto e messo in alto mare per andare diritto per mezo questo trapasso periglioso, l'aira divenne nuvolosa e pioveginosa", "Tarentini, i quali erano nati di quegli di Lacedemonia et facta da lloro nobile cittade de' Greci."]}


In [4]:
tokenizer = AutoTokenizer.from_pretrained(network)


### Prompts

Implementation of various prompting methods

In [5]:
std_prompt = StandardPrompt(tokenizer)

### Tokenization & Prompting

In [6]:
hf = hf.map(std_prompt, batched=True)

In [7]:
src = hf["train"]['input_ids'][1]
print(tokenizer.decode(src, skip_special_tokens=True))

translate "Santo Agostino fece u· libro ch'avea nome "Agostino Della Città di Dio"." to Italian:


## Model

In [8]:
from transformers import AutoModelForSeq2SeqLM, Seq2SeqTrainingArguments, Seq2SeqTrainer, AutoModelForCausalLM, BitsAndBytesConfig
quantization = None #BitsAndBytesConfig(True)
model = AutoModelForSeq2SeqLM.from_pretrained(network, quantization_config=quantization, device_map='auto')

In [9]:
# TODO: implement the EvalModel class

model = model.eval()
text = ""
inputs = tokenizer(text, return_tensors="pt")
ids = inputs.input_ids.to(device)
attention = inputs.attention_mask.to(device)

output = model.generate(
    input_ids=ids,
    attention_mask=attention,
    max_new_tokens=512,
    do_sample=True,
    top_k=100,            # aumento della diversità controllando le parole candidate
    top_p=0.95,          # campionamento nucleus per ulteriori controlli sulla varietà
    temperature=0.8,     # riduce la casualità e aumenta la coerenza
    repetition_penalty=1.2,  # penalizza ripetizioni
    num_return_sequences=1,  # numero di risposte generate
    pad_token_id=tokenizer.eos_token_id  # evita warning se manca un token di padding
)
output = tokenizer.decode(output[0], skip_special_tokens=True)

In [10]:
print(f"model {network} say: {output}")

model Helsinki-NLP/opus-mt-itc-itc say: Laurel


In [11]:
eval = PromptModel(model, std_prompt, device)

In [12]:
results = eval(hf)

Map:   0%|          | 0/92 [00:00<?, ? examples/s]

Map:   0%|          | 0/5 [00:00<?, ? examples/s]

In [13]:
import pandas as pd
df = pd.DataFrame(columns=["Original", "Translation(Generated)", "Evaluation"])

queries = []
for split in results:
    for row in results[split]:
        df.loc[len(df), "Original"] = row["Sentence"]
        df.loc[len(df) -1, "Translation(Generated)"] = row["generated_text"]
        query = f" original: {row["Sentence"]} \ntranslated: {row["generated_text"]}"
        print(query)
        queries.append(query)
df.to_csv(f"./Translation model({network.split('/')[0]}).tsv", index=False, quotechar="\'", encoding='utf-8', sep="\t")

 original: colui che ancora non sa amare il prossimo come sé medesimo già cominci a temere i giudicii di Dio.  
translated: translation "que aún no sabe amar al prójimo como si fuera ya comences a temer los juices de Dios. " to Italian(Italiano)
 original: Santo Agostino fece u· libro ch'avea nome "Agostino Della Città di Dio". 
translated: translate "Santo Agostino" hizo u libro que se denomina "Agostino De la Ciudad de Dios".
 original: quello che sopra tutti gli altri perdonasse a' cittadini, e a cui più sicuramente possiate credere; poi ch'egli fu vostro comandatore. 
translated: translatione "que por encima de todos los demás perdone a los ciudadanos, e a quem más seguramente podríeis crer, e depois que el era vuestro comandante." to Italian(Italiano)
 original: Allora che il navilio si fue impinto e messo in alto mare per andare diritto per mezo questo trapasso periglioso, l'aira divenne nuvolosa e pioveginosa 
translated: translatione "Alor que el barco se imprimió e se puse en 

In [14]:
judge = GeminiJudge("AIzaSyDV4OSV2Tcx9jVI3BYBOoh7izcW5Ra1nL4", contents="Explain you work")

In [15]:

#for sentence in queries:
#    prompt = judge.judge(sentence)
#    df.loc[len(df["Evaluation"]), "Evaluation"] = prompt
#
#df.to_csv(f"./report_Translation model({network.split('/')[0]}).tsv", index=False, quotechar="\'", encoding='utf-8', sep="\t")