In [None]:
!pip install datasets

In [None]:
from datasets import load_dataset
from transformers import AutoModelForSeq2SeqLM
from transformers import AutoTokenizer
from transformers import GenerationConfig

In [None]:
model_name='facebook/mbart-large-50-many-to-many-mmt'
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

In [None]:
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
tokenizer.tgt_lang = "fa_IR"  # زبان خروجی: فارسی

In [None]:
dialogue = """
علی: سلام، داداش! چطوری؟
محمد: سلام علی! خوبم، تو چطوری؟
علی: منم خوبم. این هفته قراره بریم فوتبال؟
محمد: آره، می‌خوام برم. ساعت چند؟
علی: ساعت ۵ تو پارک محل. بیا با هم بریم.
محمد: اوکی، منتظرت می‌مونم.
علی: بعد بازی می‌خوای بریم بستنی؟
محمد: آره، خیلی خوب میشه!
علی: پس شنبه همدیگه رو می‌بینیم.
محمد: حتماً، خداحافظ!
"""

In [None]:
prompt = f"""
Summarize the following Persian conversation in Persian:
{dialogue}
Summary:
"""

In [None]:

model.config.forced_bos_token_id = tokenizer.lang_code_to_id["fa_IR"]

# Input constructed prompt instead of the dialogue.
inputs = tokenizer(prompt, return_tensors='pt')
output = tokenizer.decode(
    model.generate(
        inputs["input_ids"],
        max_new_tokens=200,
    )[0],
    skip_special_tokens=True
)

print(f'MODEL GENERATION - ZERO SHOT:\n{output}\n')

# translate Farsi to English

In [None]:
tokenizer = AutoTokenizer.from_pretrained(model_name, src_lang="fa_IR", use_fast=True)
model.config.forced_bos_token_id = tokenizer.lang_code_to_id["en_XX"]

In [None]:
prompt = f"""
Translate the following Persian conversation to English:
{dialogue}

"""

In [None]:
inputs = tokenizer(prompt, return_tensors='pt')
output = tokenizer.decode(
    model.generate(
        inputs["input_ids"],
        max_new_tokens=200,
    )[0],
    skip_special_tokens=True
)

print(f'MODEL GENERATION - ZERO SHOT:\n{output}\n')