In [1]:
from transformers import T5Tokenizer, T5ForConditionalGeneration

# Path to the saved model
model_dir = "../models/final_model"

# Load tokenizer and model
tokenizer = T5Tokenizer.from_pretrained(model_dir)
model = T5ForConditionalGeneration.from_pretrained(model_dir)

print("Model and tokenizer loaded successfully!")

  from .autonotebook import tqdm as notebook_tqdm


Model and tokenizer loaded successfully!


In [2]:
# Define a sample input
input_text = "guess word: Это животное живет в Арктике и питается рыбой"

In [3]:
# Tokenize the input
inputs = tokenizer(input_text, return_tensors="pt", max_length=64, truncation=True, padding=True)

print("Tokenized input:", inputs)

Tokenized input: {'input_ids': tensor([[    8, 10434,  9539,     8, 25486,    23,   129,  9754,  2845,     6,
             8, 24165,    13,     5,  3904,   216,  2766,    60,     2]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}


In [11]:
# Generate prediction
outputs = model.generate(
    **inputs,
    max_length=8,            # Limit output length
    num_beams=5,             # Beam search with 5 beams
    num_return_sequences=5,  # Return top-5 sequences
    early_stopping=True      # Stop beams when all finish
)

# Decode all predictions
predictions = [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]
print("Top-5 Predictions:")
for i, pred in enumerate(predictions, 1):
    print(f"{i}: {pred}")

Top-5 Predictions:
1: пингвин
2: лосось
3: лемминго
4: леммингов
5: лемминг


In [13]:
# Define multiple test inputs
test_inputs = [
    "guess word: Это животное живет в лесу и ест мед",
    "guess word: Самая высокая гора на Земле",
    "guess word: Это транспортное средство, движущееся по рельсам",
    "guess word: Это город, известный как столица Франции",
    "guess word: Это орган, который перекачивает кровь по всему телу",
    "guess word: Самая длинная река в мире",
    "guess word: Национальное блюдо Италии, сделанное из теста и сыра",
    "guess word: Это устройство, которое позволяет делать фотографии"
]

# Iterate over test inputs
for input_text in test_inputs:
    # Tokenize input
    inputs = tokenizer(input_text, return_tensors="pt", max_length=64, truncation=True, padding=True)

    # Generate top-5 outputs
    outputs = model.generate(
        **inputs,
        max_length=8,
        num_beams=5,
        num_return_sequences=5,
        early_stopping=True
    )

    # Decode predictions
    predictions = [tokenizer.decode(output, skip_special_tokens=True) for output in outputs]

    # Print results
    print(f'Input: {input_text.replace("guess word: ","")}')
    print("Top-5 Predictions:", *predictions, sep="; ", end="\n\n")


Input: Это животное живет в лесу и ест мед
Top-5 Predictions:; медовуха; медонос; медовник; пчела; медовик

Input: Самая высокая гора на Земле
Top-5 Predictions:; гора; вершина; саван; сопка; вулкан

Input: Это транспортное средство, движущееся по рельсам
Top-5 Predictions:; рельса; рельсоход; поезд; рельс; вагон

Input: Это город, известный как столица Франции
Top-5 Predictions:; Париж; город; франко; Франция; франк

Input: Это орган, который перекачивает кровь по всему телу
Top-5 Predictions:; сердечник; перекачка; лимфа; лимфоток; лимфатика

Input: Самая длинная река в мире
Top-5 Predictions:; река; Волга; речка; река; риф

Input: Национальное блюдо Италии, сделанное из теста и сыра
Top-5 Predictions:; пицца; итальянское блюдо; соус; итальянский пирог; блюдо

Input: Это устройство, которое позволяет делать фотографии
Top-5 Predictions:; фотоаппарат; фотограф; фотоаппарат; фотография; фотографа

