In [2]:
import os
from transformers import MarianMTModel, MarianTokenizer

# Пути к локальным моделям
local_path_ru_en = "./models/ru_en"  # Русский -> Английский
local_path_en_ru = "./models/en_ru"  # Английский -> Русский

In [3]:
# Функция для загрузки модели и токенизатора
def load_model_and_tokenizer(model_path):
    tokenizer = MarianTokenizer.from_pretrained(model_path)
    model = MarianMTModel.from_pretrained(model_path)
    return tokenizer, model

In [4]:
# Функция для перевода текста
def translate_text(text, tokenizer, model):
    # Токенизация текста
    tokens = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
    # Перевод текста
    translated_tokens = model.generate(**tokens)
    # Декодирование переведённого текста
    translated_text = tokenizer.decode(translated_tokens[0], skip_special_tokens=True)
    return translated_text

In [5]:
# Обработка файла text.txt
def process_txt_file(input_path, output_path, tokenizer, model):
    # Чтение исходного текста
    with open(input_path, "r", encoding="utf-8") as file:
        text = file.read()
    
    # Перевод текста
    translated_text = translate_text(text, tokenizer, model)
    
    # Сохранение перевода
    with open(output_path, "w", encoding="utf-8") as file:
        file.write(translated_text)
    print(f"Переведённый текст сохранён в {output_path}")

In [6]:
# Обработка файла test.json
import json

def process_json_file(input_path, output_path, tokenizer, model):
    # Чтение исходного JSON
    with open(input_path, "r", encoding="utf-8") as file:
        test_data = json.load(file)
    
    # Перевод вопросов и вариантов ответов
    for question in test_data["questions"]:
        question["question"] = translate_text(question["question"], tokenizer, model)
        question["options"] = [translate_text(option, tokenizer, model) for option in question["options"]]
    
    # Сохранение переведённого JSON
    with open(output_path, "w", encoding="utf-8") as file:
        json.dump(test_data, file, ensure_ascii=False, indent=4)
    print(f"Переведённый тест сохранён в {output_path}")

In [None]:
# Основной код
if __name__ == "__main__":
    # Пути к файлам
    text_input_path = "text.txt"
    text_output_path = "text_eng.txt"
    json_input_path = "test.json"
    json_output_path = "test_ru.json"

    # Загрузка моделей
    print("Загрузка моделей и токенизаторов...")
    ru_en_tokenizer, ru_en_model = load_model_and_tokenizer(local_path_ru_en)  # Русский -> Английский
    en_ru_tokenizer, en_ru_model = load_model_and_tokenizer(local_path_en_ru)  # Английский -> Русский
    
    # Перевод text.txt на английский
    print("Перевод файла text.txt...")
    process_txt_file(text_input_path, text_output_path, ru_en_tokenizer, ru_en_model)

    # Перевод test.json на русский
    print("Перевод файла test.json...")
    process_json_file(json_input_path, json_output_path, en_ru_tokenizer, en_ru_model)

Загрузка моделей и токенизаторов...
Перевод файла text.txt...
Переведённый текст сохранён в text_eng.txt
Перевод файла test.json...
Переведённый тест сохранён в test_ru.json


: 