# Statistical translation

In [1]:
import numpy as np
from collections import defaultdict

# Игрушечный корпус для англо-русского перевода (просто для примера)
# Предположим, что у нас есть пары фраз на английском и русском языках
english_sentences = ["I like cats", "She is a student"]
russian_sentences = ["Мне нравятся кошки", "Она студентка"]

# Разделение фраз на токены (просто разделение по пробелам)
english_tokens = [sentence.split() for sentence in english_sentences]
russian_tokens = [sentence.split() for sentence in russian_sentences]

# Создание словарей для английских и русских слов
english_vocab = {word: index for index, word in enumerate(set(word for sentence in english_tokens for word in sentence))}
russian_vocab = {word: index for index, word in enumerate(set(word for sentence in russian_tokens for word in sentence))}

# Инициализация матрицы перевода случайными значениями
num_english_words = len(english_vocab)
num_russian_words = len(russian_vocab)
translation_matrix = np.random.rand(num_english_words, num_russian_words)

# Обучение модели (простой пример с использованием EM-алгоритма)
num_iterations = 1000
for iteration in range(num_iterations):
    # E-шаг: вычисление вероятности выравниваний
    alignment_probabilities = np.zeros((len(english_tokens), len(russian_tokens)))
    for i, english_sentence in enumerate(english_tokens):
        for j, russian_sentence in enumerate(russian_tokens):
            alignment_probabilities[i, j] = sum(
                translation_matrix[english_vocab[english_word], russian_vocab[russian_word]]
                for english_word in english_sentence for russian_word in russian_sentence
            )

    # M-шаг: обновление матрицы перевода на основе вероятностей выравниваний
    translation_matrix_new = np.zeros((num_english_words, num_russian_words))
    for i, english_word in enumerate(english_vocab):
        for j, russian_word in enumerate(russian_vocab):
            for k in range(len(english_tokens)):
                for l in range(len(russian_tokens)):
                    if english_word in english_tokens[k] and russian_word in russian_tokens[l]:
                        translation_matrix_new[i, j] += alignment_probabilities[k, l] / alignment_probabilities.sum(axis=1)[k]

    # Нормализация матрицы перевода
    translation_matrix = translation_matrix_new / translation_matrix_new.sum(axis=1)[:, np.newaxis]

# Пример: перевод предложения "I like cats" на русский
input_sentence = "I like cats".split()
output_sentence = []
for english_word in input_sentence:
    if english_word in english_vocab:
        english_index = english_vocab[english_word]
        russian_index = np.argmax(translation_matrix[english_index])
        if russian_index < len(russian_vocab):
            output_sentence.append(list(russian_vocab.keys())[russian_index])
    else:
        output_sentence.append(english_word)  # Если слово не встречалось в обучающих данных, оставляем его неизменным

print(" ".join(output_sentence))


кошки кошки кошки
