# AMT - AUTOMATIC MACHINE TRANSLATION

@alessioborgi

### 0: IMPORTING LIBRARIES

In [1]:
!pip install -U datasets bitsandbytes accelerate
!pip install huggingface-hub pandas transformers tiktoken protobuf sentencepiece tqdm

Collecting datasets
  Downloading datasets-3.6.0-py3-none-any.whl.metadata (19 kB)
Collecting bitsandbytes
  Downloading bitsandbytes-0.45.5-py3-none-manylinux_2_24_x86_64.whl.metadata (5.0 kB)
Collecting accelerate
  Downloading accelerate-1.7.0-py3-none-any.whl.metadata (19 kB)
Collecting fsspec<=2025.3.0,>=2023.1.0 (from fsspec[http]<=2025.3.0,>=2023.1.0->datasets)
  Downloading fsspec-2025.3.0-py3-none-any.whl.metadata (11 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch<3,>=2.0->bitsandbytes)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==

In [2]:
# Importing libraries for step 1).
import os
import torch
import random
import pandas as pd
from tqdm.auto import tqdm
from huggingface_hub import login
from datasets import load_dataset
from huggingface_hub import hf_hub_download


# Importing libraries for step 2).
from transformers import MBartForConditionalGeneration, MBart50Tokenizer, AutoTokenizer, AutoModelForSeq2SeqLM, BitsAndBytesConfig, pipeline


### 1: LOADING THE DATASET

#### 1.1: PUSH THE DATASET TO HUGGING-FACE

In [None]:
def upload_to_hf_dataset(
    hf_token: str,
    data_file_path: str,
    repo_name: str,
    file_format: str = "csv",
    split_name: str = "test",
):
    """
    Uploads a local file as a Hugging Face Dataset.

    Args:
        hf_token: Your Hugging Face access token.
        data_file_path: Path to the local data file.
        repo_name: The target repo on HF (e.g. "username/my-dataset").
        file_format: One of "csv", "json", "tsv", etc. Default "csv".
        split_name: Name of the dataset split (e.g. "train", "test"). Default "test".
    """
    # 1) Authenticate to HuggingFace.
    login(token=hf_token)

    # 2) Load local file.
    data_files = { split_name: data_file_path }
    dataset = load_dataset(file_format, data_files=data_files)

    # 3) Push to Hub.
    dataset.push_to_hub(repo_name, token=hf_token)
    print(f"Dataset available at https://huggingface.co/datasets/{repo_name}")

In [None]:
hf_token = "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"
local_path = "/Users/alessioborgi/GitHub/AMT-AutomaticMachineTranslation/test_data/dataset_cleaned.csv"
repo_name  = "Alessio-Borgi/archaic-italian-cleaned-test"

upload_to_hf_dataset(
    hf_token=hf_token,
    data_file_path=local_path,
    repo_name=repo_name,
    file_format="csv",
    split_name="test",
)

#### 1.2: LOADING DATASET FROM HUGGING-FACE

In [3]:
ds = load_dataset("Alessio-Borgi/archaic-italian-cleaned-test")

README.md:   0%|          | 0.00/370 [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/11.8k [00:00<?, ?B/s]

Generating test split:   0%|          | 0/97 [00:00<?, ? examples/s]

In [4]:
ds

DatasetDict({
    test: Dataset({
        features: ['Author', 'Date', 'Region', 'Sentence'],
        num_rows: 97
    })
})

#### 1.3: EXPLORING THE TEST DATASET

In [5]:
def explore_dataset(dataset_name):
    ''' Function to explore a dataset. '''

    # Loading the dataset.
    ds = load_dataset(dataset_name)
    df = pd.DataFrame(ds["test"])

    # 1) Number of examples.
    print("Number of examples:", len(df))

    # 2) Preview first 5 examples.
    print("First 5 examples:")
    print(df.head(5), "\n")

    # 3) Sentence-length statistics.
    df["length_tokens"] = df["Sentence"].apply(lambda x: len(x.split()))
    print("Sentence length (tokens) stats:")
    print(df["length_tokens"].describe(), "\n")

    # 4 Take out the column names.
    print("Column names:", df.columns.tolist(), "\n")

In [6]:
# Explore the dataset.
explore_dataset(dataset_name="Alessio-Borgi/archaic-italian-cleaned-test")

Number of examples: 97
First 5 examples:
                        Author     Date Region  \
0              Brunetto Latini  1260-61  fior.   
1                Bono Giamboni     1292  fior.   
2     Valerio Massimo (red. V1     1336  fior.   
3  Lucano volg. (ed. Marinoni)  1330/40  prat.   
4              Brunetto Latini  1260-61  fior.   

                                            Sentence  
0  quella guerra ben fatta l' opera perché etc. E...  
1  crudele, e di tutte le colpe pigli vendetta, c...  
2  Non d' altra forza d' animo fue ornato Ponzio ...  
3  Se questo piace a tutti e se 'l tempo hae biso...  
4  Officio di questa arte pare che sia dicere app...   

Sentence length (tokens) stats:
count    97.000000
mean     20.041237
std       5.996384
min       6.000000
25%      16.000000
50%      20.000000
75%      24.000000
max      31.000000
Name: length_tokens, dtype: float64 

Column names: ['Author', 'Date', 'Region', 'Sentence', 'length_tokens'] 



### 2: AMT - TRANSFORMER-BASED

#### 2.1: mBART (MULTILINGUAL BART)

**ARCHITECTURE & SIZE**
This Transformer-based solution consists in 12-layer encoder + 12-layer decoder Transformer (≈610 M parameters).

**DESCRIPTION**
- **Pretraining**: It has been pretrained via Denoising auto-encoding on monolingual corpora in 50 languages (mBART-50).
- **Multilingual MT**: It has been fine-tuned on many-to-many bitext and supports direct “it→it” by forcing Italian as both source & target.

**REFERENCE INFORMATION**
- Hugging-Face Reference page: https://huggingface.co/docs/transformers/model_doc/mbart
- Paper: https://arxiv.org/abs/2001.08210
- Specific Model employed: *facebook/mbart-large-50-many-to-many-mmt*


In [7]:
# 1) Loading mBART-50 Model & Tokenizer.
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")
model_name = "facebook/mbart-large-50-many-to-many-mmt"
mBART_tokenizer = MBart50Tokenizer.from_pretrained(model_name)
mBART_model = MBartForConditionalGeneration.from_pretrained(model_name).to(device)
mBART_tokenizer.src_lang = "it_IT"
mBART_tokenizer.model_max_length = 512


# 2) Updated batched translation with device placement
def modernize_mbart(sentences, batch_size=8):
    """
    Translate sentences using mBART on GPU (if available),
    showing a tqdm progress bar.
    """
    translations = []
    total_batches = (len(sentences) + batch_size - 1) // batch_size

    for i in tqdm(
        range(0, len(sentences), batch_size),
        total=total_batches,
        desc="mBART Translation",
        unit="batch",
        leave=True
    ):
        batch = sentences[i : i + batch_size]

        # Tokenization.
        inputs = mBART_tokenizer(batch, return_tensors="pt", padding=True, truncation=True)
        inputs = { name: tensor.to(device) for name, tensor in inputs.items() }

        # Generation of the Translations.
        with torch.no_grad():
            gen = mBART_model.generate(
                **inputs,
                forced_bos_token_id=mBART_tokenizer.lang_code_to_id["it_IT"],
                max_length=512,
            )
        # Decoding the extensions from tokenizer and add the translations to the list.
        translations.extend(mBART_tokenizer.batch_decode(gen, skip_special_tokens=True))
    return translations

# 3) Run on the test split.
arch_sentences = ds["test"]["Sentence"]
mbart_outputs = modernize_mbart(arch_sentences)

# 4) Attach back to the dataset the translations.
ds = ds["test"].add_column("mbart_translation", mbart_outputs)

# 5) Save the dataset with the mBART Translations.
df = ds.to_pandas()
output_path = "dataset_with_mbart_translations.csv"
df.to_csv(output_path, index=False)


Using device: cuda


tokenizer_config.json:   0%|          | 0.00/529 [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/649 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.43k [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/2.44G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/261 [00:00<?, ?B/s]

mBART Translation:   0%|          | 0/13 [00:00<?, ?batch/s]

In [8]:
ds["mbart_translation"]

["E poi, Aiaces, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi, un po' di soldi.",
 'Crudele, e per tutte le colpe vendetta, come dice la legge, e per tutte le colpe vendetta, come dice la legge, e per tutte le colpe vendetta.',
 "Non c'è altra forza d' animosità che è stato venerato il Ponzio dell'Umiliare, un romano cavaliere.",
 'Se questo piace a tutti e se il tempo ha bisogno di Pompei per ridere e non per compagno, non riterrò più fati.',
 "L'offiziere di questo arte sembra essere solo per far credere, fine, per far credere.",
 "E' un' larghezza di vento, e' un' larghezza di nebbia, e' un' la

In [9]:
# 1) Sample 10 random indices
indices = random.sample(range(len(ds)), 10)

# 2) Print the pairs
for idx in indices:
    print(f"Archaic Sentence: {ds[idx]['Sentence']}")
    print(f"mBART Translation: {ds[idx]['mbart_translation']}\n")


Archaic Sentence: Il re entrò in uno giardino dietro al suo albergo, quasi come s'egli andasse pensando alla risposta.
mBART Translation: Il re entrò in un giardino dietro al suo hotel, quasi mentre pensava alla risposta.

Archaic Sentence: la moltitudine de' quali tu ài potuto vedere e riguardare lo studio e poco dinanzi udire le voci, e lle cui mani e lance apena posso ritenere.
mBART Translation: La grandezza che hai visto e che riguarda lo studio, e che, poco fa, hai sentito le voci, e che, poco fa, hai sentito le voci, e che, poco fa, hai sentito le voci.

Archaic Sentence: Non lo volle cognoscere per nimico. Qesta è quella, la quale diede ardire al profeta Natan a riprendere con grande autoritade quello re, il quale avea peccato.
mBART Translation: Non voleva sapere per niente. Questa è la persona che ha chiesto al profeta Natan di riprendere con grande autorità il re che aveva peccato.

Archaic Sentence: l' anima muta la sua forza per la propietade di quello corpo a cui ella si 

#### 2.2: NLLB (No Language Left Behind)

**ARCHITECTURE & SIZE**
This Transformer-based solution comes from the Meta family. It's a many-to-many multilingual Seq2Seq that can be used as a rewriting model for Italian→Italian..

**DESCRIPTION**
- **High Capacity/Quality**: The flagship nllb-200-3.3B has shown state-of-the-art BLEU/COMET on many low-resource ↔ high-resource pairs, and handles morphological/orthographic variation robustly.
- **Multilingual MT**: It supports 200 languages and has full support for ita_Latn (Italian in Latin script).

**REFERENCE INFORMATION**
- Hugging-Face Reference page: https://huggingface.co/docs/transformers/en/model_doc/nllb
- Paper: https://arxiv.org/abs/2207.04672
- Specific Model employed: *facebook/nllb-200-3.3B*

In [6]:
# Set up the 8-bit quantized NLLB pipeline for Italian→Italian.
# 1) Set up the device specifics.
device = 0 if torch.cuda.is_available() else -1
print("Using device:", "cuda" if device == 0 else "cpu")

# 2) 8-bit + offload config.
bnb = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0,
    llm_int8_enable_fp32_cpu_offload=True
)

# 3) Load model in 8-bit.
model_name = "facebook/nllb-200-3.3B"
model = AutoModelForSeq2SeqLM.from_pretrained(
    model_name,
    quantization_config=bnb,
    device_map="auto"
)

# 4) Load tokenizer with src/tgt languages set.
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    src_lang="ita_Latn",
    tgt_lang="ita_Latn"
)

# 5) Build the translation pipeline.
translator = pipeline(
    "translation",
    model=model,
    tokenizer=tokenizer,
    src_lang="ita_Latn",
    tgt_lang="ita_Latn",
)

# 6) Taking the sentences to translate and translate in batches.
arch = ds["Sentence"]
results = translator(arch, batch_size=8)

# 3) Extract the Italian text.
italian_translations = [r["translation_text"] for r in results]

# 4) Attach & save to csv file.
ds = ds.add_column("nllb_translation", italian_translations)
df = ds.to_pandas()
#df.to_csv("dataset_with_nllb_italian_translations.csv", index=False)
df.to_csv("dataset_with_mBART_NLLB_translations.csv", index=False)


Using device: cuda


Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

Device set to use cuda:0


In [8]:
ds["nllb_translation"]

["E d'altra parte Aiaces era un cavaliere franco e prodigioso alle armi, di grande guisa, ma non era pieno di grande senno",
 'crudele, e per ogni colpa prendi vendetta, come dice la legge, e a nessun cavaliere perdona i peccati.',
 "Non per altra forza d'animo fu decorato Ponzio Aufidiano, cavaliere romano.",
 'Se a tutti piace e se il tempo ha bisogno di Pompei come cavaliere e non come compagno, non ritengo più i destini.',
 "L'obiettivo di questa arte sembra essere quello di dire in modo insidioso per far credere, il fine è far credere per dirlo.",
 'Ecco, i venti venti larghi scaricano nubi risolute, e potresti credere che il cielo intero cadesse nel mare.',
 'Ma chi spera che io possa avere questa speranza, questi che non credono ancora in Cristo, vedono già con noi, e non potendo negarlo, grideranno i denti.',
 'La vendita dei morti e la presa dei vivi fecero la frode di un re feroce.',
 'Perché lui, che ora per le sue grandi regalità è feroce e onorevole, lui di ogni male affli

In [9]:
# 1) Sample 10 random indices
indices = random.sample(range(len(ds)), 10)

# 2) Print the pairs
for idx in indices:
    print(f"Archaic Sentence: {ds[idx]['Sentence']}")
    print(f"NLLB Translation: {ds[idx]['nllb_translation']}\n")


Archaic Sentence: Gli uomini spessamente a stare fermi nella bugia incontra la verità.
NLLB Translation: Gli uomini spesso si fissano nella menzogna che incontra la verità.

Archaic Sentence: Sappiate veramente, che se noi non ci fossimo sì affrettati del fuggire, noi saremmo tutti morti.
NLLB Translation: Sappiate bene che se non avessimo avuto fretta di fuggire, saremmo stati tutti uccisi.

Archaic Sentence: Io mi ricordo (ch. 347) che essendo adirato scapigliai la mia donna. Ohi, quanti dì questa ira mi tolse!
NLLB Translation: Io ricordo (c. 347) che essendo arrabbiato ho scapolato la mia donna.

Archaic Sentence: colui che ancora non sa amare il prossimo come sé medesimo già cominci a temere i giudicii di Dio. 
NLLB Translation: Chi ancora non sa amare il prossimo come se stesso già comincia a temere il giudizio di Dio.

Archaic Sentence: molto di maggiore memoria saranno faccendole al re, perciò che nella nostra cittade sempre fue santo e glorioso il nome reale, e sse furono comp

### 3: AMT - LLM-BASED

#### 3.1:

#### 3.2: