In [None]:
import pandas as pd
from datasets import Dataset
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, pipeline

# MODELLI DA PROVARE

#  HuggingFaceH4/zephyr-7b-beta
#  teknium/OpenHermes-2.5-Mistral-7B	
#  NousResearch/Hermes-2-Pro-Mistral-7B

# MODELLO DA PROVARE PER LA VALUTAZIONE DELLE TRADUZIONI

# Prometheus 2: An Open Source Language Model Specialized in Evaluating Other Language Models

In [None]:
class OldItalianDataset(Dataset):
    
    def __init__(self, path):
        self.path=path
        self.dataset = pd.read_csv(path)  

    def __len__(self):
        return len(self.dataset)

    def __getitem__(self, idx):
        self.idx=idx
        row = self.dataset.iloc[idx]
        return row["Sentence"]
    
    def __iter__(self):
        for i in range(len(self)):
            yield self[i]

dataset = OldItalianDataset("/home/filippo/Documents/Visual Studio Code/Homework2_MNLP/HW2_MNLP_NonModernIt2ModernIt/cleaned_dataset.csv")  
text=[]
count=0
for sentence in dataset:
    count+=1
    text.append(sentence)
    print(f"Sentence {count}: {sentence}")

In [None]:
# FLAN-T5-BASE

model_name = "google/flan-t5-base"  
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

pipe = pipeline("text2text-generation", model=model, tokenizer=tokenizer)

def translate_with_flan(sentence, idx):
    sentence=text[idx]

    prompt = f"""Translate from old italian to modern italian: 

    - old italian: Nella quale battaglia, certo io ebbi sempre ardire di ragionare di pace e sempre mi dolfi che non solamente la pace era schifata,

    - modern italian: Nella battaglia, in verità, ho sempre avuto il coraggio di parlare di pace, e mi sono sempre rammaricato che non solo la pace fosse evitata

    - old italian: la seconda suole talora per la grande provedenzia fare timoroso, e la prima per l'ardire rendere altrui matto.
    - modern italian: La seconda (forza, virtù, opzione...) talvolta, per eccessiva prudenza, rende timorosi; mentre la prima, per troppa audacia, rende gli altri temerari

    - old italian: Andò nel campo de' Cartaginesi e tutta la legione trasse seco.
    - modern italian: Si recò nell'accampamento dei Cartaginesi e portò con sé l'intera legione.
    
    - old italian {sentence}
    - modern italian:
    """

    return pipe(prompt, max_new_tokens=100)[0]['generated_text']

In [None]:
for i in range(10):
    print(f"Original sentence number {i+1}: {text[i]}")
    print("---------------------")
    print(f"Translated sentence number {i+1}: {translate_with_flan(text[i],i)}")
    print("---------------------")

In [None]:
# MISTRAL-INSTRUCT

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "mistralai/Mistral-7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

In [None]:
def translate_with_mistralai(sentence, idx):

    sentence = text[idx]
    
    prompt = f"""<s>[INST] Translate the following sentences from Old Italian to Modern Italian:

    Old: Nella quale battaglia, certo io ebbi sempre ardire di ragionare di pace e sempre mi dolfi che non solamente la pace era schifata.
    Modern: Nella battaglia, in verità, ho sempre avuto il coraggio di parlare di pace, e mi sono sempre rammaricato che non solo la pace fosse evitata.

    Old: la seconda suole talora per la grande provedenzia fare timoroso, e la prima per l'ardire rendere altrui matto.
    Modern: La seconda (forza, virtù, opzione...) talvolta, per eccessiva prudenza, rende timorosi; mentre la prima, per troppa audacia, rende gli altri temerari.

    Old: Andò nel campo de' Cartaginesi e tutta la legione trasse seco.
    Modern: Si recò nell'accampamento dei Cartaginesi e portò con sé l'intera legione.

    Old: cose ch'io sapeva che erano fatte in Italia
    Modern: Cose che sapevo essere accadute in Italia

    Old: Corbio nipote d' Ortensio menò sua vita più bassa e più viziosa
    Modern: Corbio, nipote di Ortensio, condusse una vita più misera e viziosa

    Old: colui del quale tu tti solevi dolere ch' era amante della tua donna
    Modern: Colui per cui ti lamentavi, perché era l'amante della tua donna

    Old: Ulecois, ebe un uomo rico e nobile: Orgentore fue chiamato per nome
    Modern: A Ulecois, ci fu un uomo ricco e nobile: era chiamato Orgentore

    Old: {sentence}
    Modern:[/INST]
    """

    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    outputs = model.generate(
    **inputs,
    max_new_tokens=100,
    do_sample=False,
    temperature=0.95,
    repetition_penalty=1.1,
    eos_token_id=tokenizer.eos_token_id,
    )
    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
    translated = decoded.split("Modern:")[-1].strip()
    return translated


In [None]:
for i in range(10):
    print(f"Original sentence number {i+1}: {text[i]}")
    print("---------------------")
    print(f"Translated sentence number {i+1}: {translate_with_mistralai(text[i],i)}")
    print("---------------------")

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM
import pandas as pd
import torch

In [None]:
model_name = "mistralai/Mistral-7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto", torch_dtype=torch.float16)

In [None]:
df = pd.read_csv("/home/filippo/Documents/Visual Studio Code/Homework2_MNLP/HW2_MNLP_NonModernIt2ModernIt/cleaned_dataset.csv")

# Check column names
print("Columns:", df.columns)

# Assume the column is named 'Sentence'
text_samples = df["Sentence"].dropna().tolist()[:10]  # Limit to first 10


In [None]:
FEW_SHOT_EXAMPLES = """
Old: Nella quale battaglia, certo io ebbi sempre ardire di ragionare di pace e sempre mi dolfi che non solamente la pace era schifata.
Modern: Nella battaglia, in verità, ho sempre avuto il coraggio di parlare di pace, e mi sono sempre rammaricato che non solo la pace fosse evitata.

Old: la seconda suole talora per la grande provedenzia fare timoroso, e la prima per l'ardire rendere altrui matto.
Modern: La seconda talvolta, per eccessiva prudenza, rende timorosi; la prima, per troppa audacia, rende gli altri temerari.

Old: Andò nel campo de' Cartaginesi e tutta la legione trasse seco.
Modern: Si recò nell'accampamento dei Cartaginesi e portò con sé l'intera legione.
"""


In [None]:
def translate_with_mistral(old_sentence):
    prompt = f"""<s>[INST] Translate the following sentences from Old Italian to Modern Italian:

{FEW_SHOT_EXAMPLES}

Old: {old_sentence}
Modern:[/INST]"""

    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    output = model.generate(
        **inputs,
        max_new_tokens=100,
        do_sample=False,
        temperature=0.3,
        repetition_penalty=1.1,
        eos_token_id=tokenizer.eos_token_id,
    )
    
    decoded = tokenizer.decode(output[0], skip_special_tokens=True)
    if "Modern:" in decoded:
        translated = decoded.split("Modern:")[-1].strip()
    else:
        translated = decoded.strip()
    return translated


In [None]:
for i, old_sentence in enumerate(text_samples):
    print(f"Original sentence {i+1}: {old_sentence}")
    translation = translate_with_mistral(old_sentence)
    print(f"Translated sentence {i+1}: {translation}")
    print("-----------------------------")

In [1]:
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
from huggingface_hub import login

login(token="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")
model_id = "teknium/OpenHermes-2.5-Mistral-1.3B"
pipe = pipeline("text-generation", model="Qwen/Qwen2.5-1.5B-Instruct")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen2.5-1.5B-Instruct")

  from .autonotebook import tqdm as notebook_tqdm
Sliding Window Attention is enabled but not implemented for `sdpa`; unexpected results may be encountered.
Device set to use cpu


In [2]:
def translate_with_Qwen(text, idx, tokenizer, model):

    sentence = text[idx]

    prompt = f"""<s>[INST] Translate the following Old Italian sentence to Modern Italian.

    Old: Andò nel campo de' Cartaginesi e tutta la legione trasse seco.
    Modern: Si recò nell'accampamento dei Cartaginesi e portò con sé l'intera legione.

    Old: {sentence}
    Modern:[/INST]
  
    """
    # Tokenize and move to device
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

    # Generate output
    outputs = model.generate(
        **inputs,
        max_new_tokens=100,
        do_sample=False,
        repetition_penalty=1.0,
        eos_token_id=tokenizer.eos_token_id,
        pad_token_id=tokenizer.pad_token_id,
    )

    # Decode the model's response
    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)

    # Extract translation after "Modern:"
    if "Modern:" in decoded:
        translated = decoded.split("Modern:")[-1].strip()
    else:
        translated = decoded.strip()

    return translated

In [4]:
text=["E lamentavansi dell'iniquità d'Appio, e ripiagnevano la malavventurata beltà della pulcella e la necessità del padre","Nella quale battaglia, certo io ebbi sempre ardire di ragionare di pace e sempre mi dolfi che non solamente la pace era schifata",
"Non lo volle cognoscere per nimico. Qesta è quella, la quale diede ardire al profeta Natan a riprendere con grande autoritade quello re, il quale avea peccato","Unde ragionevolemente Iob è interpretato dolente",
"in vano si domanda chi questo Libro scrivesse, con ciò sia cosa che fedelmente si debba credere che l'Auttore di quello fusse lo Spirito santo",
"se non fosse usatissima, ciò parrebbe certo molto più incredibile: certo più agevolmente si può credere quello, posto che l'umano spirito al divino, ed il mutabile allo incommutabile",
"che prendessero la paga dal camarlingo per loro dispensa et immantenente andassero alla presenzia di messer lo papa per contradiare il passamento de' cavalieri che veniano di Cecilia in Toscana",
"Io spero in messer Iesù di mandare tosto a voi Timoteo, acciocché io sia d'animo buono",
"sanza fallo lo porco salvatico avanza l' uomo d' udire e 'l lupo cerviere del vedere",
"uno luogo si mandano lancioni;  la quale cosa i cavalieri l' appellano capo di porco",
"tenda le reti a li cerbi e sa bene in quali valle dimori il furioso porco cinghiare",
"Ora spaventerai li disidirosi cervi con varie e diverse paure, o lo porco cenghiare caggia in terra passato collo spiedo",
"tratta la natura delle cose incorporali le quali non conversano intra lle corpora, sì come Dio e le divine cose",
"Dio, per la quale si dispensano et iudicano tutte le cose"]

In [8]:
for i in range(10):
    print(f"Original sentence number {i+1}: {text[i]}")
    print("---------------------")
    print(f"Translated sentence number {i+1}: {translate_with_Qwen(text[i],i,tokenizer,model)}")
    print("---------------------")

Original sentence number 1: E lamentavansi dell'iniquità d'Appio, e ripiagnevano la malavventurata beltà della pulcella e la necessità del padre
---------------------




Translated sentence number 1: E
    [/INST]
  
    Old: E
---------------------
Original sentence number 2: Nella quale battaglia, certo io ebbi sempre ardire di ragionare di pace e sempre mi dolfi che non solamente la pace era schifata
---------------------
Translated sentence number 2: e
---------------------
Original sentence number 3: Non lo volle cognoscere per nimico. Qesta è quella, la quale diede ardire al profeta Natan a riprendere con grande autoritade quello re, il quale avea peccato
---------------------


KeyboardInterrupt: 