## Что такое SMT? 
### Пайплайн и формальное определение задачи 
Формально задача SMT определяется в рамках теории вероятности. 
Обученная модель предсказывает вероятность токена на целевом языке (**target language**) исходя из данного токена на языке источника (**source language**).  
В виде математической нотации задача SMT может быть записана следующим образом:  

<math xmlns="http://www.w3.org/1998/Math/MathML">
  <msup>
    <mi>y</mi>
    <mrow data-mjx-texclass="ORD">
      <mo>&#x2217;</mo>
    </mrow>
  </msup>
  <mo>=</mo>
  <mi>arg</mi>
  <mo data-mjx-texclass="NONE">&#x2061;</mo>
  <munder>
    <mo data-mjx-texclass="OP">max</mo>
    <mrow data-mjx-texclass="ORD">
      <mi>y</mi>
    </mrow>
  </munder>
  <mi>p</mi>
  <mo stretchy="false">(</mo>
  <mi>y</mi>
  <mrow data-mjx-texclass="ORD">
    <mo stretchy="false">|</mo>
  </mrow>
  <mi>x</mi>
  <mo stretchy="false">)</mo>
  <mo>.</mo>
</math> 

## Базовая статистика для SMT   

### Нормальное распределение и закон Зипфа

Нормальное (или Гауссово) распределение необходимо для построения эффективных моделей. Большинство явлений в природе подчиняется нормальному распределению. 

<img src="attachment:ef3bb51d-a011-4d2a-a6d8-68fca886a30a.png" width="400px">

Однако в естественном языке все устроено немножко не так -- об этом закон закон Зипфа (*Zipf's law*), который позволяет определить соотношение между рангом слова и его частотностью в корпусе как **константу**. 

<img src="attachment:abf36456-5401-4e5e-bde8-588fad653702.png" width="500px">

### Байесова вероятность  

<img src="attachment:4e6ae8d8-3ac7-4da6-93e3-ca109d3fdfb9.png" width="500px"> 

На Байесовой вероятности основано моделирование n-грам.

<img src="attachment:cf7bdf1b-a1d1-4852-8f4f-9086890f672a.png" width="500px"> 


### Компоненты SMT 
##### 1. Препроцессинг и подготовка данных   
##### Первый этап при работе с SMT -- это препроцессинг и очистка данных, на которых мы будем обучать нашу модель статистического машинного перевода.  
#### Данный этап включает в себя стандартные для задач NLP техники: 
- парсинг данных (основный тип ресурса для задач SMT -- параллельные корпуса; для высокоресурсных языков существуют уже готовые решения, котрые можно скачать с [OPUS Corpora](https://opus.nlpl.eu/), [Huggingface](https://huggingface.co/datasets?task_categories=task_categories:translation&sort=trending) или [Kaggle](https://www.kaggle.com/datasets/devicharith/language-translation-englishfrench); )
- токенизация, приведение к определенному регистру, составление синтаксических композитов и очистка данных (tokenization, lowercasing/truecasing, compounding, data cleaning)
##### 2. Обучение модели SMT  
2.1. Выбор архитектуры модели 
- IBM 1 Expectation-Maximization (t-model)
- Биграммная модель

3. Оценка результатов (Evaluation)

## Имплементация простой модели SMT (fr - en)

In [None]:
import pandas as pd  
import nltk  
import string
from sklearn.model_selection import train_test_split

from collections import Counter, defaultdict
import random

In [None]:
# скачиваем датасет 
df = pd.read_csv('/Users/mac/Downloads/eng_-french.csv')
df.tail()

### Работа с выравненным датасетом (syntax alignment) 
Как мы видим, мы работаем со структурированным датасетом, который выравнен по предложениям. Поэтому мы будем токенизировать каждое предложение отдельно, а не объединять предложения в одну строку, чтобы избежать ошибки несовпадения количества сэмплов при передаче данных в обучающую функцию

In [None]:
# сепарируем датасет 
eng = df['English words/sentences'] 
fr = df['French words/sentences']

In [None]:
# токенизация и очистка от пунктационных знаков 

tokenizer = nltk.tokenize.WordPunctTokenizer() 
eng_data = [
    ' '.join([
        token 
        for token in tokenizer.tokenize(sentence.lower()) 
        if not all(c in punctuation for c in token)
    ])
    for sentence in eng  # eng должен быть списком предложений
]

fr_data = [
    ' '.join([
        token 
        for token in tokenizer.tokenize(sentence.lower()) 
        if not all(c in punctuation for c in token)
    ])
    for sentence in fr  # fr должен быть списком предложений
]

# проверяем, параллельны ли данные
assert len(eng_data) == len(fr_data), "Данные не параллельны!"

In [None]:
print('Данные английского языка:', eng_data[:20])
print('Данные французского языка:', fr_data[:20])

In [None]:
X_train, X_test, y_train, y_test = train_test_split(eng_data, fr_data)

print('Обучающая выборка:')
for text, label in list(zip(X_train, y_train))[:10]:
    print(f"\nТекст на французском: {label}\n Его перевод на английский: {text}\n")

print("> Тестовая выборка:")
for text, label in list(zip(X_test, y_test))[:10]:
    print(f"\nТекст на французском: {label}\n Его перевод на английский: {text}\n")

### Подготовка данных и обучение модели IBM 1 Expectation-Maximization (t-model)

In [None]:
def tokenize(sentences):
  # функция возвращает списки слов
  return [sentence.split() for sentence in sentences]

# токенизируем каждую выборку
X_train_tokens, X_test_tokens, y_train_tokens, y_test_tokens = tokenize(X_train), tokenize(X_test), tokenize(y_train), tokenize(y_test)

print('Образец токенизированного текста:', X_train_tokens[:10])

In [None]:
x_vocab = Counter(' '.join(fr).split()).keys()
y_vocab = Counter(' '.join(eng).split()).keys()

print(f"Словарь немецких словоформ: {list(x_vocab)[:10]}\n Всего {len(x_vocab)} словоформ")
print(f"\nCловарь английских словоформ: {list(y_vocab)[:10]}\n Всего {len(y_vocab)} словоформ")

In [None]:
# вероятность того, что случайное слово x_vocab соответсвует случайному слову y_vocab
uniform = 1 / (len(x_vocab) * len(y_vocab))

uniform

In [None]:
# t-model
t = {}

for i in range(len(X_train)):
  # начинаем итерацию по обучающей выборке
  for word_x in X_train_tokens[i]:
    for word_y in y_train_tokens[i]:
      # создаем t-table
      t[(word_x, word_y)] = uniform

# t-table 
i = 100
for i, elem in enumerate(t):
    print("Соответствие |", elem[0], "  ->  ", elem[1], "| Вероятность:", t[elem]) 
    i -= 1

In [None]:
epochs = 10 

In [None]:
for epoch in range(epochs):
  # начинаем обучение

  # шаг 0. создаем слоты для подсчета статистики
  count = {} # P(x|y)
  total = {} # P(y)

  for i in range(len(X_train)):
    # начинаем итерацию по обучающей выборке
    for word_x in X_train_tokens[i]:
      for word_y in y_train_tokens[i]:
        # создаем слоты для подсчета условной вероятности совпадений в корпусе
        count[(word_x, word_y)] = 0
        # и слоты для статистической языковой модели y
        total[word_y] = 0

  # шаг 1. Expectation
  for i in range(len(X_train)):
    # начинаем итерацию по обучающей выборке
    total_stat = {} # статистика x

    # собираем предварительную статистику на основе данных x
    for word_x in X_train_tokens[i]:
      total_stat[word_x] = 0 # создаем слоты для подсчета статистики по каждому токену x
      for word_y in y_train_tokens[i]:
        # обновляем данные из t-table; увеличиваем значения при обнаружении совместной встречаемости
        total_stat[word_x] += t[(word_x, word_y)]

    # обновляем данные для P(x|y) и P(y)
    for word_x in X_train_tokens[i]:
      for word_y in y_train_tokens[i]:
        # подсчет условной вероятности совпадений в корпусе: равномерное распределение / частотность x
        count[(word_x, word_y)] += t[(word_x, word_y)] / total_stat[word_x]
        # подсчет статистической информации y: равномерное распределение / частотность x
        total[word_y] += t[(word_x, word_y)] / total_stat[word_x]

  # шаг 2. Maximization
  for i in range(len(X_train)):
    # начинаем итерацию по обучающей выборке
    for word_x in X_train_tokens[i]:
      for word_y in y_train_tokens[i]:
        # обновляем t-table: вероятность совпадения в корпусе / вероятность информации y
        t[(word_x, word_y)] = count[(word_x, word_y)] / total[word_y]
  i = 100
for i, elem in enumerate(t): 
    if i > 0: 
        print("Соответствие |", elem[0], "  ->  ", elem[1], "| Вероятность:", round(t[elem], 3)) 
        i -= 1

### Оценка результатов

In [None]:
# сортировка t-table по убыванию правдоподобия
sorted_t = sorted(t.items(), key = lambda k:(k[1], k[0]), reverse = True)

def translate(token):
  for element in sorted_t:
    if element[0][1] == token:
      # поиск совпадений в t-table
      return element[0][0]

for sentence in y_test_tokens:
  print("Оригинальное предложение:", ' '.join(sentence))
  translation = []
  for token in sentence:
    translation.append(translate(token))
  print("Перевод:", ' '.join(translation))

In [None]:
assert len(y_test_tokens) == len(X_test_tokens), "Данные не параллельны!"

In [None]:
references = [
    [X_test_tokens[i]]  # Каждый эталон — список списков (для поддержки нескольких вариантов)
    for i in range(len(X_test_tokens))
]

candidates = [
    translate(sentence)  # Функция перевода, возвращает список токенов (например, ["bonjour", "le", "monde"])
    for sentence in y_test_tokens
]

# 3. Расчёт BLEU
bleu_score = corpus_bleu(references, candidates)
print("BLEU Score:", bleu_score)