# Archaic to Modern Italian with Context Learning

In [1]:
# Import Datases to work with Transformers by Hugging-Face
import torch
# Imports for Transformers
from transformers import AutoTokenizer  # Datasets
from datasets import Dataset, load_dataset
from datasets.features import Value, Features
from utils import StandardPrompt, PromptModel, GeminiJudge, OpusPrompt

## Globals

# Promposed Models
* google/flan-t5-base (text2text model) 
* google/gemma-3-1b-it (LLM) 🚀
* sapienzanlp/Minerva-1B-base-v1.0 🇮🇹 (LMM)
* Helsinki-NLP/opus-mt-itc-itc (Machine Translation) 🏆 - use OpusPrompt 
* FacebookAI/xlm-roberta-base (fill-mask)

In [2]:
DATASET = "dataset.csv"
FEATURES = Features(
    {
        "Author": Value(dtype="string"),
        "Date": Value(dtype="string"),
        "Region": Value(dtype="string"),
        "Sentence": Value(dtype="string")
    }
)
network = "Helsinki-NLP/opus-mt-itc-itc"
device = ('cuda' if torch.cuda.is_available() else "cpu")

## Import the Dataset and Tokenize


In [3]:
hf = Dataset.from_csv(DATASET, features=FEATURES).shuffle(seed=42).train_test_split(test_size=0.05, seed=42)
print(hf["train"].take(5)[:5])

{'Author': ['Giovanni da San Miniato', "Fatti de' Romani (H+R)", 'Filippo da Santa Croce', "Fatti de' Romani (H+R)", 'Bono Giamboni'], 'Date': ['1415', '1313', '1323', '1313', '1292'], 'Region': ['tosc.', 'fior.', 'tosc.', 'fior.', 'fior.'], 'Sentence': ['colui che ancora non sa amare il prossimo come sé medesimo già cominci a temere i giudicii di Dio. ', 'Santo Agostino fece u· libro ch\'avea nome "Agostino Della Città di Dio".', "quello che sopra tutti gli altri perdonasse a' cittadini, e a cui più sicuramente possiate credere; poi ch'egli fu vostro comandatore.", "Allora che il navilio si fue impinto e messo in alto mare per andare diritto per mezo questo trapasso periglioso, l'aira divenne nuvolosa e pioveginosa", "Tarentini, i quali erano nati di quegli di Lacedemonia et facta da lloro nobile cittade de' Greci."]}


In [4]:
tokenizer = AutoTokenizer.from_pretrained(network)


### Prompts

Implementation of various prompting methods

In [5]:
std_prompt = OpusPrompt(tokenizer)

### Tokenization & Prompting

In [6]:
standard_token = hf.map(std_prompt, batched=True)

In [7]:
src = standard_token["train"]['input_ids'][1]
print(tokenizer.decode(src, skip_special_tokens=True))

>>ita<< Santo Agostino fece u· libro ch'avea nome "Agostino Della Città di Dio".


## Model

In [8]:
from transformers import AutoModelForSeq2SeqLM, Seq2SeqTrainingArguments, Seq2SeqTrainer, AutoModelForCausalLM, BitsAndBytesConfig
quantization = None #BitsAndBytesConfig(True)
model = AutoModelForSeq2SeqLM.from_pretrained(network, quantization_config=quantization, device_map='auto')

In [16]:
# TODO: implement the EvalModel class

model = model.eval()
text = "Il habla como un boxeo"
inputs = tokenizer(text, return_tensors="pt")
ids = inputs.input_ids.to(device)
attention = inputs.attention_mask.to(device)

output = model.generate(
    input_ids=ids,
    attention_mask=attention,
    max_new_tokens=512,
    do_sample=True,
    top_k=100,            # aumento della diversità controllando le parole candidate
    top_p=0.90,          # campionamento nucleus per ulteriori controlli sulla varietà
    temperature=0.8,     # riduce la casualità e aumenta la coerenza
    repetition_penalty=1.2,  # penalizza ripetizioni
    num_return_sequences=1,  # numero di risposte generate
    pad_token_id=tokenizer.eos_token_id  # evita warning se manca un token di padding
)
output = tokenizer.decode(output[0], skip_special_tokens=True)

In [17]:
print(f"model {network} say: {output}")

model Helsinki-NLP/opus-mt-itc-itc say: Il habla como un boxeo.


In [18]:
eval = PromptModel(model, std_prompt, device)

In [19]:
results = eval(hf)

In [None]:
import pandas as pd
df = pd.DataFrame(columns=["Original", "Translation(Generated)", "Evaluation"])

queries = []
for split in results:
    for row in results[split]:
        df.loc[len(df), "Original"] = row["Sentence"]
        df.loc[len(df) -1, "Translation(Generated)"] = row["generated_text"]
        query = f" original: {row["Sentence"]} \ntranslated: {row["generated_text"]}"
        print(query)
        queries.append(query)
df.to_csv(f"./Translation model({network.split('/')[0]}).tsv", index=False, quotechar="\'", encoding='utf-8', sep="\t")

 original: colui che ancora non sa amare il prossimo come sé medesimo già cominci a temere i giudicii di Dio.  
translated: Chi non sa ancora amare il prossimo come se stesso comincia a temere i giudici di Dio.
 original: Santo Agostino fece u· libro ch'avea nome "Agostino Della Città di Dio". 
translated: Santo Augustino ha fatto un libro che si chiamava "Agostino della Città di Dio".
 original: quello che sopra tutti gli altri perdonasse a' cittadini, e a cui più sicuramente possiate credere; poi ch'egli fu vostro comandatore. 
translated: quello che prima di tutti gli altri perdonava ai cittadini, a cui sicuramente potete credere; poi egli fu il vostro comandante.
 original: Allora che il navilio si fue impinto e messo in alto mare per andare diritto per mezo questo trapasso periglioso, l'aira divenne nuvolosa e pioveginosa 
translated: Allora, mentre la nave si impiccava e si mise in alto per andare a destra per me questo trappola pericoloso, l'ira divenne nuvolosa e pioveggiante
 

In [21]:
judge = GeminiJudge("AIzaSyDV4OSV2Tcx9jVI3BYBOoh7izcW5Ra1nL4", contents="Explain you work")

In [None]:

for sentence in queries:
    prompt = judge.judge(sentence)
    df.loc[len(df["Evaluation"]), "Evaluation"] = prompt

df.to_csv(f"./report_Translation model({network.split('/')[0]}).tsv", index=False, quotechar="\'", encoding='utf-8', sep="\t")

ClientError: 429 RESOURCE_EXHAUSTED. {'error': {'code': 429, 'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits.', 'status': 'RESOURCE_EXHAUSTED', 'details': [{'@type': 'type.googleapis.com/google.rpc.QuotaFailure', 'violations': [{'quotaMetric': 'generativelanguage.googleapis.com/generate_content_free_tier_requests', 'quotaId': 'GenerateRequestsPerMinutePerProjectPerModel-FreeTier', 'quotaDimensions': {'location': 'global', 'model': 'gemini-2.0-flash'}, 'quotaValue': '15'}]}, {'@type': 'type.googleapis.com/google.rpc.Help', 'links': [{'description': 'Learn more about Gemini API quotas', 'url': 'https://ai.google.dev/gemini-api/docs/rate-limits'}]}, {'@type': 'type.googleapis.com/google.rpc.RetryInfo', 'retryDelay': '29s'}]}}