# AMT - AUTOMATIC MACHINE TRANSLATION

@alessioborgi

### 0: IMPORTING LIBRARIES

In [1]:
!pip install -U datasets bitsandbytes accelerate
!pip install huggingface-hub pandas transformers tiktoken protobuf sentencepiece tqdm

Collecting datasets
  Downloading datasets-3.6.0-py3-none-any.whl.metadata (19 kB)
Collecting bitsandbytes
  Downloading bitsandbytes-0.45.5-py3-none-manylinux_2_24_x86_64.whl.metadata (5.0 kB)
Collecting accelerate
  Downloading accelerate-1.7.0-py3-none-any.whl.metadata (19 kB)
Collecting fsspec<=2025.3.0,>=2023.1.0 (from fsspec[http]<=2025.3.0,>=2023.1.0->datasets)
  Downloading fsspec-2025.3.0-py3-none-any.whl.metadata (11 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==

In [2]:
# Importing libraries for step 1).
import os
import time
import torch
import random
import pandas as pd
from tqdm.auto import tqdm
from huggingface_hub import login
from datasets import load_dataset
from huggingface_hub import hf_hub_download


# Importing libraries for step 2).
from transformers import MBartForConditionalGeneration, MBart50Tokenizer, AutoTokenizer, AutoModelForSeq2SeqLM, BitsAndBytesConfig, pipeline, AutoModelForCausalLM

### 1: LOADING THE DATASET

#### 1.1: PUSH THE DATASET TO HUGGING-FACE

In [None]:
def upload_to_hf_dataset(
    hf_token: str,
    data_file_path: str,
    repo_name: str,
    file_format: str = "csv",
    split_name: str = "test",
):
    """
    Uploads a local file as a Hugging Face Dataset.

    Args:
        hf_token: Your Hugging Face access token.
        data_file_path: Path to the local data file.
        repo_name: The target repo on HF (e.g. "username/my-dataset").
        file_format: One of "csv", "json", "tsv", etc. Default "csv".
        split_name: Name of the dataset split (e.g. "train", "test"). Default "test".
    """
    # 1) Authenticate to HuggingFace.
    login(token=hf_token)

    # 2) Load local file.
    data_files = { split_name: data_file_path }
    dataset = load_dataset(file_format, data_files=data_files)

    # 3) Push to Hub.
    dataset.push_to_hub(repo_name, token=hf_token)
    print(f"Dataset available at https://huggingface.co/datasets/{repo_name}")

In [None]:
hf_token = "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"
local_path = "/Users/alessioborgi/GitHub/AMT-AutomaticMachineTranslation/test_data/dataset_cleaned.csv"
repo_name  = "Alessio-Borgi/archaic-italian-cleaned-test"

upload_to_hf_dataset(
    hf_token=hf_token,
    data_file_path=local_path,
    repo_name=repo_name,
    file_format="csv",
    split_name="test",
)

#### 1.2: LOADING DATASET FROM HUGGING-FACE

In [3]:
ds = load_dataset("Alessio-Borgi/archaic-italian-cleaned-test")

README.md:   0%|          | 0.00/370 [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/11.8k [00:00<?, ?B/s]

Generating test split:   0%|          | 0/97 [00:00<?, ? examples/s]

In [4]:
ds

DatasetDict({
    test: Dataset({
        features: ['Author', 'Date', 'Region', 'Sentence'],
        num_rows: 97
    })
})

#### 1.3: EXPLORING THE TEST DATASET

In [None]:
def explore_dataset(dataset_name):
    ''' Function to explore a dataset. '''

    # Loading the dataset.
    ds = load_dataset(dataset_name)
    df = pd.DataFrame(ds["test"])

    # 1) Number of examples.
    print("Number of examples:", len(df))

    # 2) Preview first 5 examples.
    print("First 5 examples:")
    print(df.head(5), "\n")

    # 3) Sentence-length statistics.
    df["length_tokens"] = df["Sentence"].apply(lambda x: len(x.split()))
    print("Sentence length (tokens) stats:")
    print(df["length_tokens"].describe(), "\n")

    # 4 Take out the column names.
    print("Column names:", df.columns.tolist(), "\n")

In [None]:
# Explore the dataset.
explore_dataset(dataset_name="Alessio-Borgi/archaic-italian-cleaned-test")

Number of examples: 97
First 5 examples:
                        Author     Date Region  \
0              Brunetto Latini  1260-61  fior.   
1                Bono Giamboni     1292  fior.   
2     Valerio Massimo (red. V1     1336  fior.   
3  Lucano volg. (ed. Marinoni)  1330/40  prat.   
4              Brunetto Latini  1260-61  fior.   

                                            Sentence  
0  quella guerra ben fatta l' opera perché etc. E...  
1  crudele, e di tutte le colpe pigli vendetta, c...  
2  Non d' altra forza d' animo fue ornato Ponzio ...  
3  Se questo piace a tutti e se 'l tempo hae biso...  
4  Officio di questa arte pare che sia dicere app...   

Sentence length (tokens) stats:
count    97.000000
mean     20.041237
std       5.996384
min       6.000000
25%      16.000000
50%      20.000000
75%      24.000000
max      31.000000
Name: length_tokens, dtype: float64 

Column names: ['Author', 'Date', 'Region', 'Sentence', 'length_tokens'] 



### 2: AMT - TRANSFORMER-BASED

#### 2.1: mBART (MULTILINGUAL BART)

**ARCHITECTURE & SIZE**
This Transformer-based solution consists in 12-layer encoder + 12-layer decoder Transformer (≈610 M parameters).

**DESCRIPTION**
- **Pretraining**: It has been pretrained via Denoising auto-encoding on monolingual corpora in 50 languages (mBART-50).
- **Multilingual MT**: It has been fine-tuned on many-to-many bitext and supports direct “it→it” by forcing Italian as both source & target.

**REFERENCE INFORMATION**
- Hugging-Face Reference page: https://huggingface.co/docs/transformers/model_doc/mbart
- Paper: https://arxiv.org/abs/2001.08210
- Specific Model employed: *facebook/mbart-large-50-many-to-many-mmt*


In [None]:
# 1) Loading mBART-50 Model & Tokenizer.
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")
model_name = "facebook/mbart-large-50-many-to-many-mmt"
mBART_tokenizer = MBart50Tokenizer.from_pretrained(model_name)
mBART_model = MBartForConditionalGeneration.from_pretrained(model_name).to(device)
mBART_tokenizer.src_lang = "it_IT"
mBART_tokenizer.model_max_length = 512


# 2) Updated batched translation with device placement
def modernize_mbart(sentences, batch_size=8):
    """
    Translate sentences using mBART on GPU (if available),
    showing a tqdm progress bar.
    """
    translations = []
    total_batches = (len(sentences) + batch_size - 1) // batch_size

    for i in tqdm(
        range(0, len(sentences), batch_size),
        total=total_batches,
        desc="mBART Translation",
        unit="batch",
        leave=True
    ):
        batch = sentences[i : i + batch_size]

        # Tokenization.
        inputs = mBART_tokenizer(batch, return_tensors="pt", padding=True, truncation=True)
        inputs = { name: tensor.to(device) for name, tensor in inputs.items() }

        # Generation of the Translations.
        with torch.no_grad():
            gen = mBART_model.generate(
                **inputs,
                forced_bos_token_id=mBART_tokenizer.lang_code_to_id["it_IT"],
                max_length=512,
            )
        # Decoding the extensions from tokenizer and add the translations to the list.
        translations.extend(mBART_tokenizer.batch_decode(gen, skip_special_tokens=True))
    return translations

# 3) Run on the test split.
arch_sentences = ds["test"]["Sentence"]
mbart_outputs = modernize_mbart(arch_sentences)

# 4) Attach back to the dataset the translations.
ds = ds["test"].add_column("mbart_translation", mbart_outputs)

# 5) Save the dataset with the mBART Translations.
df = ds.to_pandas()
output_path = "dataset_with_mbart_translations.csv"
df.to_csv(output_path, index=False)


Using device: cuda


tokenizer_config.json:   0%|          | 0.00/529 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/649 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.43k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/2.44G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/261 [00:00<?, ?B/s]

mBART Translation:   0%|          | 0/13 [00:00<?, ?batch/s]

In [None]:
ds["mbart_translation"]

["E poi, Aiaces, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi.",
 'Crudele, e per tutte le colpe vendetta, come dice la legge, e per tutte le colpe vendetta, come dice la legge, e per tutte le colpe vendetta.',
 "Non c'è altra forza d' animosità che è stato venerato il Ponzio dell'Umiliare, un romano cavaliere.",
 'Se questo piace a tutti e se il tempo ha bisogno di Pompei per ridere e non per compagno, non riterrò più fati.',
 "L'offiziere di questo arte sembra essere solo per far credere, fine, per far credere.",
 "E' un' larghezza di vento, e' un' larghezza di nebbia, e' un' la

In [None]:
# 1) Sample 10 random indices
indices = random.sample(range(len(ds)), 10)

# 2) Print the pairs
for idx in indices:
    print(f"Archaic Sentence: {ds[idx]['Sentence']}")
    print(f"mBART Translation: {ds[idx]['mbart_translation']}\n")


Archaic Sentence: Io spero in messer Iesù di mandare tosto a voi Timoteo, acciocché io sia d'animo buono
mBART Translation: Io spero, in Messier Iesù, di mandare un tosto a Timoteo, perche' io abbia un buon umore.

Archaic Sentence: l'armi et insieme con loro passaseno tra li nimici, perçò se alcuno non avesse ardire de questo et sì avevano questo animo.
mBART Translation: l'armi e con loro passavano tra i nullai, quindi se non c'era un'armi e non c'era un'armi, loro passavano tra i nullai, quindi se non c'era un'armi e non c'era un'armi.

Archaic Sentence: Corbio nipote d' Ortensio menò sua vita più bassa e più viziosa
mBART Translation: Corbio, nephew of Ortensio, ha fatto la vita più bassa e più visiva.

Archaic Sentence: quello che sopra tutti gli altri perdonasse a' cittadini, e a cui più sicuramente possiate credere; poi ch'egli fu vostro comandatore.
mBART Translation: Quello che perdono per i cittadini, e che most di sicuro voi possiate credere; e poi lui fu il vostro capo.

Ar

#### 2.2: NLLB (No Language Left Behind)

**ARCHITECTURE & SIZE**
This Transformer-based solution comes from the Meta family. It's a many-to-many multilingual Seq2Seq that can be used as a rewriting model for Italian→Italian..

**DESCRIPTION**
- **High Capacity/Quality**: The flagship nllb-200-3.3B has shown state-of-the-art BLEU/COMET on many low-resource ↔ high-resource pairs, and handles morphological/orthographic variation robustly.
- **Multilingual MT**: It supports 200 languages and has full support for ita_Latn (Italian in Latin script).

**REFERENCE INFORMATION**
- Hugging-Face Reference page: https://huggingface.co/docs/transformers/en/model_doc/nllb
- Paper: https://arxiv.org/abs/2207.04672
- Specific Model employed: *facebook/nllb-200-3.3B*

In [None]:
# Set up the 8-bit quantized NLLB pipeline for Italian→Italian.
# 1) Set up the device specifics.
device = 0 if torch.cuda.is_available() else -1
print("Using device:", "cuda" if device == 0 else "cpu")

# 2) 8-bit + offload config.
bnb = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0,
    llm_int8_enable_fp32_cpu_offload=True
)

# 3) Load model in 8-bit.
model_name = "facebook/nllb-200-3.3B"
model = AutoModelForSeq2SeqLM.from_pretrained(
    model_name,
    quantization_config=bnb,
    device_map="auto"
)

# 4) Load tokenizer with src/tgt languages set.
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    src_lang="ita_Latn",
    tgt_lang="ita_Latn"
)

# 5) Build the translation pipeline.
translator = pipeline(
    "translation",
    model=model,
    tokenizer=tokenizer,
    src_lang="ita_Latn",
    tgt_lang="ita_Latn",
)

# 6) Taking the sentences to translate and translate in batches.
arch = ds["Sentence"]
results = translator(arch, batch_size=8)

# 7) Extract the Italian text.
italian_translations = [r["translation_text"] for r in results]

# 8) Attach & save to csv file.
ds = ds.add_column("nllb_translation", italian_translations)
df = ds.to_pandas()
#df.to_csv("dataset_with_nllb_italian_translations.csv", index=False)
df.to_csv("dataset_with_mBART_NLLB_translations.csv", index=False)


Using device: cuda


config.json:   0%|          | 0.00/808 [00:00<?, ?B/s]

pytorch_model.bin.index.json:   0%|          | 0.00/90.0k [00:00<?, ?B/s]

Fetching 3 files:   0%|          | 0/3 [00:00<?, ?it/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


(…)cf3e5af37956607f4c667d891ec069aa276be0be:   0%|          | 0.00/8.55G [00:00<?, ?B/s]

(…)18c1b46dc95be6e106c36df87d13175418b3972c:   0%|          | 0.00/6.93G [00:00<?, ?B/s]

(…)4436d65cf94380c5ddd8f524cb878e090b27bb50:   0%|          | 0.00/2.10G [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/94.1k [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/189 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/564 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


(…)6cea38b9e3d5efcdcb9c251d6b40538e1aab555a:   0%|          | 0.00/4.85M [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


tokenizer.json:   0%|          | 0.00/17.3M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/3.55k [00:00<?, ?B/s]

Device set to use cuda:0


In [None]:
ds["nllb_translation"]

["E d'altra parte Aiaces era un cavaliere franco e prodigioso alle armi, di grande guisa, ma non era pieno di grande senno",
 'crudele, e per ogni colpa prendi vendetta, come dice la legge, e a nessun cavaliere perdona i peccati.',
 "Non per altra forza d'animo fu decorato Ponzio Aufidiano, cavaliere romano.",
 'Se a tutti piace e se il tempo ha bisogno di Pompei come cavaliere e non come compagno, non ritengo più i destini.',
 "L'obiettivo di questa arte sembra essere quello di dire in modo insidioso per far credere, il fine è far credere per dirlo.",
 'Ecco, i venti venti larghi scaricano nubi risolute, e potresti credere che il cielo intero cadesse nel mare.',
 'Ma chi spera che io possa avere questa speranza, questi che non credono ancora in Cristo, vedono già con noi, e non potendo negarlo, grideranno i denti.',
 'La vendita dei morti e la presa dei vivi fecero la frode di un re feroce.',
 'Perché lui, che ora per le sue grandi regalità è feroce e onorevole, lui di ogni male affli

In [None]:
# 1) Sample 10 random indices
indices = random.sample(range(len(ds)), 10)

# 2) Print the pairs
for idx in indices:
    print(f"Archaic Sentence: {ds[idx]['Sentence']}")
    print(f"NLLB Translation: {ds[idx]['nllb_translation']}\n")


Archaic Sentence: Altressì uno amante chiamando merzé alla sua donna dice parole e ragioni molte, et ella si difende in suo dire.
NLLB Translation: Altro amante chiama Merzé alla sua donna dice parole e ragioni molte, ed ella si difende nel suo dire.

Archaic Sentence: Gorgone, e ho questa proprietà che io volo per l'aire sì come uno ucello".
NLLB Translation: Gorgone, e ho questa proprietà che volo per aria sì come un uccello".

Archaic Sentence: Non voglio, che insuperbischi per lo santo proposito, e voto della verginità vedendo le sue laudi
NLLB Translation: Non voglio che insuperbischi per il santo proposito, e voto della verginità vedendo le sue lodi

Archaic Sentence: Quando li serpenti invellenava di giorno alcuno Romano, allora iera la maraviglia a vedere come li Psille si combattevano al veleno, ché elli imolavano tutto inazzi della loro salive
NLLB Translation: Quando i serpenti venivano avvelenati di giorno da un romano, allora era una meraviglia vedere come i Psille si comb

### 3: AMT - LLM-BASED

In [5]:
hf_token = "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"

#### 3.1: LLAMA-2-7b-chat-hf

**Hugging-Face Reference Page:** https://huggingface.co/meta-llama/Llama-2-7b-chat-hf

**#Params:** 7B

**GPU-RAM:** 12.9GB

**TOTAL TIME-TO-RUN:** 276.91 seconds

**AVG-per-SENTENCE TIME:** 2.85 seconds

In [7]:
device = 0 if torch.cuda.is_available() else -1
print("Using device:", "cuda" if device == 0 else "cpu")
# 1) Load LLAMA 3.1-8B model & tokenizer.
llama_checkpoint = "meta-llama/Llama-2-7b-chat-hf"
llama_tokenizer = AutoTokenizer.from_pretrained(llama_checkpoint, device_map="auto", torch_dtype="auto", hf_token=hf_token)
llama_model = AutoModelForCausalLM.from_pretrained(
    llama_checkpoint,
    device_map="auto",
    torch_dtype="auto",
    trust_remote_code=True
)
# 2) Taking the sentences to translate and translate in batches.
sentences = ds["test"]["Sentence"]

Using device: cuda


tokenizer_config.json:   0%|          | 0.00/1.62k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.84M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/414 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/614 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/26.8k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`
Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model-00001-of-00002.safetensors:   0%|          | 0.00/9.98G [00:00<?, ?B/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/3.50G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/188 [00:00<?, ?B/s]

##### 3.1.1: ZERO-SHOT TRANSLATION

In [9]:
# 3) Set pad token for batching.
if llama_tokenizer.pad_token is None:
    llama_tokenizer.padding_side = "left"

# 4) Build translation pipeline.
llama_translator = pipeline(
    "text-generation",
    model=llama_model,
    tokenizer=llama_tokenizer,
    max_new_tokens=256,
    do_sample=False,
)

# 5) Starting the batched translation.
batch_size = 8
n = len(sentences)
llama_outputs = []

total_start = time.time()
for start in tqdm(range(0, n, batch_size), desc="Translating with Llama"):
    # Format prompts in each batch
    batch_sentences = sentences[start:start+batch_size]
    batch_prompts = [f"Traduci la seguente frase dall'italiano arcaico all'italiano moderno. Solo la traduzione, senza spiegazioni:\n{s}\nRisposta:"
    for s in batch_sentences
]

    batch_results = llama_translator(batch_prompts)
    for i, r in enumerate(batch_results):
        # Remove prompt prefix from output.
        completion = r[0]["generated_text"]
        result = completion.replace(batch_prompts[i], "").strip()
        llama_outputs.append(result)
total_end = time.time()
print(f"\nTotal time: {total_end - total_start:.2f} seconds")
print(f"Average per sentence: {(total_end - total_start)/n:.2f} seconds")

# 6) Save translations.
ds = ds["test"].add_column("llama_translation", llama_outputs)
ds.to_pandas().to_csv("llama_translations.csv", index=False)

Device set to use cuda:0


Translating with Llama:   0%|          | 0/13 [00:00<?, ?it/s]

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset



Total time: 276.91 seconds
Average per sentence: 2.85 seconds


In [10]:
ds["llama_translation"]

["Quella guerra bene fatta l'opera perché etc. Et dall'altra parte Aiaces era un cavaliere franco e prode nell'arma, di gran guisa, ma non era pieno di gran senno.",
 'crudelissimo, e di tutte le colpe prendo vendetta, come dice la legge, e nessuno cavalier si perdona che peccasse.',
 "Non d'altra forza d'animo fu ornato Ponzio Aufidiano, romano cavaliere.",
 'Se questo piace a tutti e se il tempo ha bisogno di avere Pompeo come cavaliere e non come accompagnatore, non riterrò più i fati.',
 "L'ufficio di questa arte consiste nell'affermare falsamente per far credere, fine è dire cose false per nascondere il vero.",
 "Ecco e larghi vent'anni di nebbie; e potresti credere che tutto il cielo cadesse nel mare.",
 'Ma che or chi spererebbe che quelli che non vogliono ancora credere in Cristo, già veggiono con noi, e perché non possono negare, stridono colli denti.',
 'Il re fece frode ai morti e pressione ai vivi.',
 'Quegli che attualmente è feroce e onorevole a causa delle sue grandi azi

In [11]:
# 1) Sample 10 random indices
indices = random.sample(range(len(ds)), 10)

# 2) Print the pairs
for idx in indices:
    print(f"Archaic Sentence: {ds[idx]['Sentence']}")
    print(f"Llama Translation: {ds[idx]['llama_translation']}\n")


Archaic Sentence: Marco Cornelio ch'era de' dieci compagni, studiosamente  si riservò di parlare all'ultimo.
Llama Translation: Marco Cornelio che era uno dei dieci compagni, si riservò di parlare all'ultimo.

Archaic Sentence: che prendessero la paga dal camarlingo per loro dispensa et immantenente andassero alla presenzia di messer lo papa per contradiare il passamento de' cavalieri che veniano di Cecilia in Toscana
Llama Translation: che prendevano la paga dal camarlingo per loro dispensa e immediate andavano alla presenza di monsignorlo papa per contrastare il passamento dei cavalieri che venivano da Cecina in Toscana.

Archaic Sentence: la moltitudine de' quali tu ài potuto vedere e riguardare lo studio e poco dinanzi udire le voci, e lle cui mani e lance apena posso ritenere.
Llama Translation: la moltitudine di quelli che tu hai potuto vedere e riguardare lo studio e poco dinanzi udire le voci, e le mani e le lance che penso di poter ritenere.

Archaic Sentence: Verbigrazia: Mer

##### 3.1.2: FEW-SHOT TRANSLATION

##### 3.1.3: CHAIN-OF-THOUGHT TRANSLATION

#### 3.2: PHI-3-MINI-4k-Instruct

**Hugging-Face Reference Page:** https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3

**#Params:** 3.8B

**GPU-RAM:** 7.4GB

**TOTAL TIME-TO-RUN:**

**AVG-per-SENTENCE TIME:**

In [6]:
# 1) Load PHI-3-mini-4k-Instruct model & tokenizer.
phi_checkpoint = "microsoft/phi-3-mini-4k-instruct"
phi_tokenizer = AutoTokenizer.from_pretrained(phi_checkpoint, trust_remote_code=True)
phi_model = AutoModelForCausalLM.from_pretrained(
    phi_checkpoint,
    device_map="auto",
    torch_dtype="auto",
    trust_remote_code=True
)
# 2) Taking the sentences to translate and translate in batches.
sentences = ds["test"]["Sentence"]

tokenizer_config.json:   0%|          | 0.00/3.44k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.94M [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/599 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/967 [00:00<?, ?B/s]

configuration_phi3.py:   0%|          | 0.00/11.2k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/microsoft/phi-3-mini-4k-instruct:
- configuration_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling_phi3.py:   0%|          | 0.00/73.2k [00:00<?, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/microsoft/phi-3-mini-4k-instruct:
- modeling_phi3.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors.index.json:   0%|          | 0.00/16.5k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/2.67G [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/181 [00:00<?, ?B/s]

##### 3.2.1: ZERO-SHOT TRANSLATION

In [None]:
# 3) Ensure pad token and left padding for batching.
if phi_tokenizer.pad_token is None:
    phi_tokenizer.pad_token = phi_tokenizer.eos_token
phi_tokenizer.padding_side = "left"

# 4) Build text-generation pipeline for causal LM.
phi_translator = pipeline(
    "text-generation",
    model=phi_model,
    tokenizer=phi_tokenizer,
    max_new_tokens=256,
    do_sample=False
)

# 5) Generate translations one at a time to avoid Phi-3 DynamicCache bug.
mistral_outputs = []
n = len(sentences)
total_start = time.time()

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
phi_model = phi_model.to(device)

phi_tokenizer.padding_side = "left"
if phi_tokenizer.pad_token is None:
    phi_tokenizer.pad_token = phi_tokenizer.eos_token

batch_size = 1  # Phi-3 can't batch with current HF bug, must do one by one!
outputs = []
for s in tqdm(sentences, desc="Translating with Phi-3"):
    # More minimal, direct prompt
    prompt = f"Traduci questa frase dall'italiano arcaico all'italiano moderno.\n{s}\nTraduzione:"
    inputs = phi_tokenizer(prompt, return_tensors="pt").to(device)
    output_ids = phi_model.generate(
        **inputs,
        max_new_tokens=256,
        do_sample=False,
        pad_token_id=phi_tokenizer.eos_token_id,
        eos_token_id=phi_tokenizer.eos_token_id,
        use_cache=False  # workaround for Phi-3 bug
    )
    generated = phi_tokenizer.decode(output_ids[0], skip_special_tokens=True)
    # Only take content after "Traduzione:"
    if "Traduzione:" in generated:
        translation = generated.split("Traduzione:")[-1].strip()
    else:
        translation = generated.replace(prompt, '').strip()
    outputs.append(translation)

# 5.5) Compute time complexity.
total_end = time.time()
print(f"\nTotal time: {total_end - total_start:.2f} seconds")
print(f"Average per sentence: {(total_end - total_start)/n:.2f} seconds")

# 6) Save results.
ds["test"] = ds["test"].add_column("phi_translation", outputs)
ds["test"].to_pandas().to_csv("phi_translations.csv", index=False)

Device set to use cuda:0


Translating with Phi-3:   0%|          | 0/97 [00:00<?, ?it/s]

In [None]:
ds["test"]["phi_translation"]

In [None]:
split = "test"
n_samples = min(2, len(ds[split]))
indices = random.sample(range(len(ds[split])), n_samples)

for idx in indices:
    print(f"Archaic Sentence: {ds[split][idx]['Sentence']}")
    print(f"Phi Translation: {ds[split][idx]['phi_translation']}\n")

##### 3.2.2: FEW-SHOT TRANSLATION

##### 3.2.3: CHAIN-OF-THOUGHT TRANSLATION

#### 3.3: GEMMA 2B-Instruct

**Hugging-Face Reference Page:** https://huggingface.co/google/gemma-2b-it

**#Params:** 2B

**GPU-RAM:** 5.8GB

**TOTAL TIME-TO-RUN:** 105.27 seconds

**AVG-per-SENTENCE TIME:** 1.09 seconds

In [5]:
# 1) Load model & tokenizer.
gemma_checkpoint = "google/gemma-2b-it"
gemma_tokenizer = AutoTokenizer.from_pretrained(gemma_checkpoint, trust_remote_code=True)
gemma_model     = AutoModelForCausalLM.from_pretrained(
    gemma_checkpoint,
    device_map="auto",
    torch_dtype="auto",
    trust_remote_code=True
)
# 2) Taking the sentences to translate and translate in batches.
sentences = ds["test"]["Sentence"]

tokenizer_config.json:   0%|          | 0.00/34.2k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/4.24M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.5M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/636 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/627 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/13.5k [00:00<?, ?B/s]

Fetching 2 files:   0%|          | 0/2 [00:00<?, ?it/s]

model-00002-of-00002.safetensors:   0%|          | 0.00/67.1M [00:00<?, ?B/s]

model-00001-of-00002.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/137 [00:00<?, ?B/s]

##### 3.3.1: ZERO-SHOT TRANSLATION

In [6]:
# 3) Set pad token for batching.
if gemma_tokenizer.pad_token is None:
    gemma_tokenizer.pad_token = gemma_tokenizer.eos_token
gemma_tokenizer.padding_side = "left"

# 4) Use "text-generation" pipeline.
falcon_translator = pipeline(
    "text-generation",
    model=gemma_model,
    tokenizer=gemma_tokenizer,
    trust_remote_code=True,
    device_map="auto",
    max_new_tokens=256,
    do_sample=False,
)

# 5) Prepare translation prompts.
prompts = [f"Traduci la seguente frase dall'italiano arcaico all'italiano moderno. Solo la traduzione, senza spiegazioni:\n{s}\nRisposta:" for s in sentences]

# 5) Batched generation.
batch_size = 8
n = len(sentences)
total_start = time.time()
falcon_outputs = []
for start in tqdm(range(0, len(prompts), batch_size), desc="Translating with Gemma"):
    batch_prompts = prompts[start:start+batch_size]
    batch_results = falcon_translator(batch_prompts)
    for i, r in enumerate(batch_results):
        # Remove prompt from output
        gen = r[0]["generated_text"]
        translation = gen.replace(batch_prompts[i], "").strip()
        falcon_outputs.append(translation)

# 5.5) Compute time complexity.
total_end = time.time()
print(f"\nTotal time: {total_end - total_start:.2f} seconds")
print(f"Average per sentence: {(total_end - total_start)/n:.2f} seconds")

# 6) Save or attach as usual.
ds = ds["test"].add_column("gemma_translation", falcon_outputs)
ds.to_pandas().to_csv("gemma_translations.csv", index=False)

Device set to use cuda:0


Translating with Gemma:   0%|          | 0/13 [00:00<?, ?it/s]

You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset



Total time: 105.27 seconds
Average per sentence: 1.09 seconds


In [7]:
ds["gemma_translation"]

["Questa guerra ben fatto l'opera perché... E dall'altra parte Aiaces era un cavaliere franco e prode all'arme, di gran guisa, ma non era pieno di grande senno.",
 'La frase originale è un parlamento che descrive un comportamento doloso e senza speranza.',
 "Un uomo di valore e d'impegno, Ponzio Aufidiano, era un uomo di valore e d'impegno.",
 'Se questo piace a tutti e se il tempo ha bisogno di Pompeo per i cavali, non riterrò più i fatti.',
 "L'ufficio di questa arte pare che vada a dichiarare che è stata detta.",
 'I ventipiovoli caggiano delle risolute nebbie, e potresti anche immaginare che tutto il cielo cadesse nel mare.',
 'Però che ora chi spererebbe quello che èziandio questi che non vogliono ancora crederci in Cristo, già veggono con noi, e perché non possono negare, stridono colli denti.',
 'I miei vendimenti di morti e le loro presure sui vivi fecero la frode di un feroce re.',
 "Gli occhi che quel, ora per le sue grandi reità, sono ferosi e onorevoli, hanno d'impatto e di

In [8]:
# 1) Sample 10 random indices
indices = random.sample(range(len(ds)), 10)

# 2) Print the pairs
for idx in indices:
    print(f"Archaic Sentence: {ds[idx]['Sentence']}")
    print(f"Gemma Translation: {ds[idx]['gemma_translation']}\n")


Archaic Sentence: da' monti de' Romani si feciero nuovi nemici; contra i quali è conbactuto cum diversa ventura: perké nela primaia battaglia, essendo consolo Valerio, MMMD ne moriro de' Romani;
Gemma Translation: In questo contesto, il potere era concentrato sul MMD, che era il principale strumento di controllo e di pressione.

Archaic Sentence: Nella quale battaglia, certo io ebbi sempre ardire di ragionare di pace e sempre mi dolfi che non solamente la pace era schifata,
Gemma Translation: In quella battaglia, ho sempre cercato di convincere gli altri a non combattere.

Archaic Sentence: E lamentavansi dell'iniquità d'Appio, e ripiagnevano la malavventurata beltà della pulcella e la necessità del padre.
Gemma Translation: E lamentavano dell'iniquità di Appio, e ripetevano la malavventura della beltà della pulcella e la necessità del padre.

Archaic Sentence: pregollo che lo liberasse di quella obbligazione, in che egli l' aveva lasciato ubbligato. El gentile uomo assentì, e liberoll

##### 3.3.2: FEW-SHOT TRANSLATION

##### 3.3.3: CHAIN-OF-THOUGHT TRANSLATION

#### 3.3: MISTRAL-4B-INSTRUCT-V0.1

**Hugging-Face Reference Page:** https://huggingface.co/google/gemma-2b-it

**#Params:** 4B

**GPU-RAM:** X.XGB

**TOTAL TIME-TO-RUN:** XXX.XX seconds

**AVG-per-SENTENCE TIME:** X.XX seconds


In [None]:
# Load Vicuna-13B model & tokenizer
vicuna_checkpoint = "mistralai/Mistral-4B-Instruct-v0.1"
vicuna_tokenizer = AutoTokenizer.from_pretrained(vicuna_checkpoint, trust_remote_code=True)
vicuna_model = AutoModelForCausalLM.from_pretrained(
    vicuna_checkpoint,
    device_map="auto",
    torch_dtype="auto",
    trust_remote_code=True
)

##### 3.4.1: ZERO-SHOT TRANSLATION

In [None]:
# Instantiating the model pipeline.
translator = pipeline(
    "text-generation",
    model=vicuna_model,
    tokenizer=vicuna_tokenizer,
    trust_remote_code=True,
    device_map="auto"
)

# Generate translations
prompts = [f"Translate this archaic Italian sentence to modern Italian: {s}" for s in sentences]
results = translator(prompts, batch_size=8)
vicuna_outputs = [r["generated_text"] for r in results]

# Attach and save
translated_ds = ds.add_column("vicuna_translation", vicuna_outputs)
translated_ds.to_pandas().to_csv("vicuna_translations.csv", index=False)

##### 3.4.2: FEW-SHOT TRANSLATION

##### 3.4.3: CHAIN-OF-THOUGHT TRANSLATION

# TO-DO:: PROMPTING TECHNIQUES
- Role-Playing Prompt
- Meta-Prompting / Self-Consistency
-ReAct