In [1]:
from transformers import MarianMTModel, MarianTokenizer, AutoTokenizer, AutoModelForSeq2SeqLM

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
input_text = "As part of Canada’s second Action Plan on Open Government, the Government of Canada has committed to the disclosure of contracting data via a centralized, machine-readable database available to the public. This commitment reinforces the proactive publication of contracts, which reflects broader government commitments to transparency and strengthened accountability within the public sector originally announced in Budget 2004."

In [10]:
def format_params(n):
    if n >= 1e9:
        return f"{n / 1e9:.2f}B"
    elif n >= 1e6:
        return f"{n / 1e6:.2f}M"
    elif n >= 1e3:
        return f"{n / 1e3:.2f}K"
    else:
        return str(n)

In [11]:
model_name = "Helsinki-NLP/opus-mt-en-fr"
tokenizer = MarianTokenizer.from_pretrained(model_name)
model = MarianMTModel.from_pretrained(model_name)
total_params = sum(p.numel() for p in model.parameters())
trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)

print(f"Total parameters: {format_params(total_params)}")
print(f"Trainable parameters: {format_params(trainable_params)}")
print(f"Max input length (tokenizer): {tokenizer.model_max_length}")
print(f"Model's max position embeddings: {model.config.max_position_embeddings}")

Total parameters: 75.13M
Trainable parameters: 75.13M
Max input length (tokenizer): 512
Model's max position embeddings: 512


In [4]:
input_tokens = tokenizer.encode(input_text, return_tensors="pt")
translated_tokens = model.generate(input_tokens, max_length=6000)
output_text = tokenizer.decode(translated_tokens[0], skip_special_tokens=True)

In [5]:
model_name2 = "rajbhirud/eng-to-fra-model"
tokenizer2 = MarianTokenizer.from_pretrained(model_name2)
model2 = MarianMTModel.from_pretrained(model_name2)

In [6]:
input_tokens2 = tokenizer2.encode(input_text, return_tensors="pt")
translated_tokens2 = model2.generate(input_tokens2, max_length=6000)
output_text2 = tokenizer2.decode(translated_tokens2[0], skip_special_tokens=True)

In [7]:
print(model_name, output_text)
print(model_name2, output_text2)

Helsinki-NLP/opus-mt-en-fr Dans le cadre du deuxième Plan d'action du Canada pour un gouvernement ouvert, le gouvernement du Canada s'est engagé à communiquer des données sur les marchés au moyen d'une base de données centralisée et lisible par machine à la disposition du public, ce qui renforce la publication proactive des marchés, ce qui reflète l'engagement plus large du gouvernement à l'égard de la transparence et du renforcement de la responsabilisation au sein du secteur public annoncé initialement dans le budget de 2004.
rajbhirud/eng-to-fra-model Dans le cadre du deuxième Plan d'action du Canada pour un gouvernement ouvert, le gouvernement du Canada s'est engagé à communiquer des données sous-traitées via une base de données centralisée, lisible par la machine, accessible au public. Cet objectif renforce la publication proactive des marchés, qui reflète l'ensemble des promesses gouvernementales en matière de transparence et de redevabilité au sein du secteur public initialement