# Archaic to Modern Italian with Context Learning

In [1]:
# Import Datases to work with Transformers by Hugging-Face
import torch
# Imports for Transformers
from transformers import AutoTokenizer  # Datasets
from datasets import Dataset, load_dataset
from datasets.features import Value, Features
from utils import StandardPrompt, PromptModel, GeminiJudge

## Globals

# Promposed Models
* google/byt5-small (text2text model)
* google/gemma-3-1b-it (LLM)

In [2]:
DATASET = "dataset.csv"
FEATURES = Features(
    {
        "Author": Value(dtype="string"),
        "Date": Value(dtype="string"),
        "Region": Value(dtype="string"),
        "Sentence": Value(dtype="string")
    }
)
network = "google/gemma-3-1b-it"
device = ('cuda' if torch.cuda.is_available() else "cpu")

## Import the Dataset and Tokenize


In [3]:
hf = Dataset.from_csv(DATASET, features=FEATURES).shuffle(seed=42).train_test_split(test_size=0.05, seed=42)
print(hf["train"].take(5)[:5])

{'Author': ['Giovanni da San Miniato', "Fatti de' Romani (H+R)", 'Filippo da Santa Croce', "Fatti de' Romani (H+R)", 'Bono Giamboni'], 'Date': ['1415', '1313', '1323', '1313', '1292'], 'Region': ['tosc.', 'fior.', 'tosc.', 'fior.', 'fior.'], 'Sentence': ['colui che ancora non sa amare il prossimo come sé medesimo già cominci a temere i giudicii di Dio. ', 'Santo Agostino fece u· libro ch\'avea nome "Agostino Della Città di Dio".', "quello che sopra tutti gli altri perdonasse a' cittadini, e a cui più sicuramente possiate credere; poi ch'egli fu vostro comandatore.", "Allora che il navilio si fue impinto e messo in alto mare per andare diritto per mezo questo trapasso periglioso, l'aira divenne nuvolosa e pioveginosa", "Tarentini, i quali erano nati di quegli di Lacedemonia et facta da lloro nobile cittade de' Greci."]}


In [4]:
tokenizer = AutoTokenizer.from_pretrained(network)

### Prompts

Implementation of various prompting methods

In [5]:
std_prompt = StandardPrompt(tokenizer)

### Tokenization & Prompting

In [6]:
standard_token = hf.map(std_prompt, batched=True)

In [7]:
src = standard_token["train"]['input_ids'][1]
print(tokenizer.decode(src, skip_special_tokens=True))

translate "Santo Agostino fece u· libro ch'avea nome "Agostino Della Città di Dio"." to Italian: 


## Model

In [9]:
from transformers import AutoModelForSeq2SeqLM, Seq2SeqTrainingArguments, Seq2SeqTrainer, AutoModelForCausalLM, BitsAndBytesConfig
quantization = BitsAndBytesConfig(True)
model = AutoModelForCausalLM.from_pretrained(network, quantization_config=quantization)

In [18]:
# TODO: implement the EvalModel class

model = model.eval()
text = standard_token['test'][3]["Sentence"]
inputs = tokenizer(text, return_tensors="pt")
ids = inputs.input_ids.to(device)
attention = inputs.attention_mask.to(device)

output = model.generate(
    input_ids=ids,
    attention_mask=attention,
   # max_new_tokens=60,
    do_sample=True,
    top_k=100,            # aumento della diversità controllando le parole candidate
    top_p=0.90,          # campionamento nucleus per ulteriori controlli sulla varietà
    temperature=0.8,     # riduce la casualità e aumenta la coerenza
    repetition_penalty=1.2,  # penalizza ripetizioni
    num_return_sequences=1,  # numero di risposte generate
    pad_token_id=tokenizer.eos_token_id  # evita warning se manca un token di padding
)
output = tokenizer.decode(output[0], skip_special_tokens=True)

In [19]:
eval = PromptModel(model, std_prompt, device)

In [20]:
print(f"Original Sentence:\n {text}")
print(f"Translated Sentence:\n {output}")

Original Sentence:
 Officio di questa arte pare che sia dicere appostatamente per fare credere, fine è far credere per lo dire.
Translated Sentence:
 Officio di questa arte pare che sia dicere appostatamente per fare credere, fine è far credere per lo dire.

Questa frase si trova in un poema della *Poetica* di Marco Aurelio, e la


In [None]:
results = eval(hf)

Map:   0%|          | 0/5 [00:00<?, ? examples/s]

In [None]:
queries = []
for split in results:
    for row in results[split]:
        query = f" original: {row["Sentence"]} \n translated: {row["generated_text"]}"
        print(query)
        queries.append(queries)

 original: colui che ancora non sa amare il prossimo come sé medesimo già cominci a temere i giudicii di Dio.  
 translated: en ciel che ancora non sa amare il prossimo
"Colui che ancora non sa amare il prossimo" di Giuseppe Corbetto: "
Colui c
 original: Santo Agostino fece u· libro ch'avea nome "Agostino Della Città di Dio". 
 translated:  partori santo stesso in partic. Santo Agostino fece u· libro ch'avea nome "Agostino Della Città della Città della C
 original: quello che sopra tutti gli altri perdonasse a' cittadini, e a cui più sicuramente possiate credere; poi ch'egli fu vostro comandatore. 
 translated:  i in uso cerca di: "Quando i in uso che sopra tutti gli altri perdonasse a' cittadini, e a' cui i in uso c'este sans d
 original: Allora che il navilio si fue impinto e messo in alto mare per andare diritto per mezo questo trapasso periglioso, l'aira divenne nuvolosa e pioveginosa 
 translated: e lo piovegno in porcomento che l'aira divenne nuvolosa e piovegno divenne nuvolosa

In [None]:

judge = GeminiJudge("AIzaSyDV4OSV2Tcx9jVI3BYBOoh7izcW5Ra1nL4", contents="explain to me what your task is at the moment")