Конспект про SMT (Statistical Machine Translation):

(Несколько сокращений в конспекте: ИЯ - исходный язык, ПЯ - переводящий язык).

Помимо **RBMT** (Rule-Based Machine Translation), одной из разновидностей машинного перевода является еще **SMT** (Statistical Machine Translation).
Перевод с помощью SMT генерируется на основе статистических моделей, параметры которых являются производными от анализа двуязычных корпусов текста (text corpora). Таким образом, эта разновидность перевода использует статистическую модель, основанную ну анализе корпуса, для генерации текста на ПЯ. Такая система перевода строится на основе сравнения большого количества данных параллельных корпусов.

**Пример** SMT -  Google Translate.

**Плюсы** SMT:
- приемлемое качество переводов текстов специальной
тематики,
- «живой» перевод,
- наличие достаточно объемного корпуса ускоряет и улучшает работу программы, не требуя дополнительных действий.

**Минусы**:
- отсутствие возможности предсказать конечный результат перевода,
- требовательны к мощному аппаратному обеспечению,
- жесткая привязка к корпусу и отсутствие в нем эквивалента не дает возможности вносить изменения и улучшать качество переводимого текста
- отсутствие работы «по правилам».

Некоторые полезные термины SMT:

1) Language Model - модель, которая оценивает вероятность последовательностей слов в целевом языке Y (ПЯ). Использует n-граммы для определения вероятности появления слова на основе предыдущих слов.

2) N-грамма (n-gram) - последовательность из N слов или символов, используемая для оценки вероятности появления слов в языковой модели.

3) Декодер (decoder) - алгоритм, который ищет наиболее подходящую грамматику с лексикой, чтобы перевод звучал адекватно и правильно.

4) BLEU-метрика (Bilingual Evaluation Understudy) - это выявление различий между машинным переводом и переводами того же предложения,которые сделали люди.

5) Распределение вероятностей (Probobility distribution) - теория о том, что что элемент на целевом языке Y (например, английском) является переводом элемента X на исходном языке (например, французском).

6) Параллельный корпус (Parallel corpus) - это коллекция текстов на двух или, может быть, более языках, где каждый текст на одном языке соответствует переводу на другой язык.


**Как работает (этапы):**

*Сбор данных*

Первый шагом является сбор большого количества двуязычных текстов. Например, параллельные корпуса, переводная литература и др.

*Фразовый или n-граммный перевод*

На этом этапе исходные предложения/конструкции разбиваются на более мелкие составляющие - фразы/слова.

*Подсчет вероятностей* (с использованием t-model)

Потом вычисляется вероятность того, что фраза на одном языке будет переведена определенным образом на другом.

*Языковое моделирование*

Затем происходит языковое моделирование получившегося текста — оценка вероятности последовательности слов в исходном и переводящем языках.

*Декодирование*

На этом этапе ищем наиболее подходящий перевод для каждой исходной фразы.

*Оценка*

Далее человек может оценить правдоподобность перевода. Возможно, привнести какие-то улучшения в обучающую модель.







In [None]:
import tarfile

from sklearn.model_selection import train_test_split

from collections import Counter, defaultdict
import random

In [None]:
with tarfile.open('fr-en.tiny.tgz', 'r:gz') as tar:
  tar.extractall()

In [None]:

!ls

fr-en.tiny.en  fr-en.tiny.fr  fr-en.tiny.tgz  sample_data


In [None]:
with open('fr-en.tiny.en', 'r') as f:
  english = f.read().split('\n')[:-1]

with open('fr-en.tiny.fr', 'r') as f:
  french = f.read().split('\n')[:-1]

print("Данные языка X:\n", english)
print("Данные языка Y:\n", french)

Данные языка X:
Данные языка Y:
 ['Reprise de la session', 'Je vous invite à vous lever pour cette minute de silence .', '( Le Parlement , debout , observe une minute de silence )', "Madame la Présidente , c' est une motion de procédure .", "Si l' Assemblée en est d' accord , je ferai comme M. Evans l' a suggéré .", "Madame la Présidente , c' est une motion de procédure .", "Je voudrais vous demander un conseil au sujet de l' article 143 , qui concerne l' irrecevabilité .", 'Il précise que cela devrait être fait malgré le principe de stabilité relative .', 'Et tout ceci dans le respect des principes que nous avons toujours soutenus .', 'Merci , Monsieur Segni , je le ferai bien volontiers .', "C' est en effet tout à fait dans la ligne des positions que notre Parlement a toujours adoptées .", "Il s' agit du cas d' Alexandre Nikitin .", "Toutefois , Madame la Présidente , ce que j' avais demandé n' a pas été réalisé .", "Je vous demande donc à nouveau de faire le nécessaire pour que nous

In [None]:
X_train, X_test, y_train, y_test = train_test_split(french, english)

print("> Обучающая выборка:")
for text, label in zip(X_train, y_train):
    print(f"\nТекст на немецком: {label}\n Его перевод на английский: {text}\n")

print("> Тестовая выборка:")
for text, label in zip(X_test, y_test):
    print(f"\nТекст на английском: {label}\n Его перевод на французский: {text}\n")

> Обучающая выборка:

Текст на немецком: What we are doing today is essentially a nuisance .
 Его перевод на английский: Dans le fond , ce que nous faisons est contrariant .


Текст на немецком: We must give them this opportunity .
 Его перевод на английский: Nous devons leur en donner la possibilité .


Текст на немецком: The most remote regions , still hard hit by catastrophic unemployment rates , offer one example of this .
 Его перевод на английский: Un exemple en est donné par les régions ultrapériphériques , encore frappées durement par des taux de chômage dramatiques .


Текст на немецком: Small and medium-sized businesses , above all , need to take part in the distribution of these funds .
 Его перевод на английский: Il faut surtout que les patrons des petites et moyennes entreprises prennent part à la distribution de ces fonds .


Текст на немецком: Indeed , it is quite in keeping with the positions this House has always adopted .
 Его перевод на английский: C' est en effet to

In [None]:
def tokenize(sentences):

  return [sentence.split() for sentence in sentences]


X_train_tokens, X_test_tokens, y_train_tokens, y_test_tokens = tokenize(X_train), tokenize(X_test), tokenize(y_train), tokenize(y_test)

print('Образец токенизированного текста:', X_train_tokens)

Образец токенизированного текста: [['Dans', 'le', 'fond', ',', 'ce', 'que', 'nous', 'faisons', 'est', 'contrariant', '.'], ['Nous', 'devons', 'leur', 'en', 'donner', 'la', 'possibilité', '.'], ['Un', 'exemple', 'en', 'est', 'donné', 'par', 'les', 'régions', 'ultrapériphériques', ',', 'encore', 'frappées', 'durement', 'par', 'des', 'taux', 'de', 'chômage', 'dramatiques', '.'], ['Il', 'faut', 'surtout', 'que', 'les', 'patrons', 'des', 'petites', 'et', 'moyennes', 'entreprises', 'prennent', 'part', 'à', 'la', 'distribution', 'de', 'ces', 'fonds', '.'], ["C'", 'est', 'en', 'effet', 'tout', 'à', 'fait', 'dans', 'la', 'ligne', 'des', 'positions', 'que', 'notre', 'Parlement', 'a', 'toujours', 'adoptées', '.'], ['Monsieur', 'le', 'Président', ',', 'le', 'fait', 'd', "'", 'imprimer', 'une', 'certaine', 'souplesse', 'à', 'cette', 'réglementation', 'est', 'positif', '.'], ['Nous', ',', 'socialistes', 'européens', ',', 'sommes', 'en', 'faveur', "d'", 'une', 'économie', 'de', 'marché', 'à', 'finali

In [None]:
x_vocab = Counter(' '.join(english).split()).keys()
y_vocab = Counter(' '.join(french).split()).keys()

print(f"Словарь английских словоформ: {x_vocab}\n Всего {len(x_vocab)} словоформ")
print(f"\nCловарь французских словоформ: {y_vocab}\n Всего {len(y_vocab)} словоформ")


 Всего 1065 словоформ

Cловарь французских словоформ: dict_keys(['Reprise', 'de', 'la', 'session', 'Je', 'vous', 'invite', 'à', 'lever', 'pour', 'cette', 'minute', 'silence', '.', '(', 'Le', 'Parlement', ',', 'debout', 'observe', 'une', ')', 'Madame', 'Présidente', "c'", 'est', 'motion', 'procédure', 'Si', "l'", 'Assemblée', 'en', "d'", 'accord', 'je', 'ferai', 'comme', 'M.', 'Evans', 'a', 'suggéré', 'voudrais', 'demander', 'un', 'conseil', 'au', 'sujet', 'article', '143', 'qui', 'concerne', 'irrecevabilité', 'Il', 'précise', 'que', 'cela', 'devrait', 'être', 'fait', 'malgré', 'le', 'principe', 'stabilité', 'relative', 'Et', 'tout', 'ceci', 'dans', 'respect', 'des', 'principes', 'nous', 'avons', 'toujours', 'soutenus', 'Merci', 'Monsieur', 'Segni', 'bien', 'volontiers', "C'", 'effet', 'ligne', 'positions', 'notre', 'adoptées', "s'", 'agit', 'du', 'cas', 'Alexandre', 'Nikitin', 'Toutefois', 'ce', "j'", 'avais', 'demandé', "n'", 'pas', 'été', 'réalisé', 'demande', 'donc', 'nouveau', 'fai

In [None]:

uniform = 1 / (len(x_vocab) * len(y_vocab))

round(uniform, 3)

0.0

In [None]:
# t-model
t = {}

for i in range(len(X_train)):

  for word_x in X_train_tokens[i]:
    for word_y in y_train_tokens[i]:

      t[(word_x, word_y)] = uniform


for elem in t:
  print("Соответствие |", elem[0], "  ->  ", elem[1], "| Вероятность:", round(t[elem], 3))

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
Соответствие | faire   ->   not | Вероятность: 0.0
Соответствие | faire   ->   enough | Вероятность: 0.0
Соответствие | faire   ->   development | Вероятность: 0.0
Соответствие | faire   ->   when | Вероятность: 0.0
Соответствие | faire   ->   infrastructure | Вероятность: 0.0
Соответствие | faire   ->   public | Вероятность: 0.0
Соответствие | faire   ->   services | Вероятность: 0.0
Соответствие | faire   ->   lacking | Вероятность: 0.0
Соответствие | du   ->   Subsidies | Вероятность: 0.0
Соответствие | du   ->   enough | Вероятность: 0.0
Соответствие | du   ->   ensure | Вероятность: 0.0
Соответствие | du   ->   development | Вероятность: 0.0
Соответствие | du   ->   when | Вероятность: 0.0
Соответствие | du   ->   infrastructure | Вероятность: 0.0
Соответствие | du   ->   public | Вероятность: 0.0
Соответствие | du   ->   services | Вероятность: 0.0
Соответствие | du   ->   lacking | Вероятность: 0.0

In [None]:


epochs = 7

In [None]:
for epoch in range(epochs):


  # шаг 0. создаем слоты для подсчета статистики
  count = {} # P(x|y)
  total = {} # P(y)

  for i in range(len(X_train)):

    for word_x in X_train_tokens[i]:
      for word_y in y_train_tokens[i]:

        count[(word_x, word_y)] = 0

        total[word_y] = 0

  # шаг 1. Expectation
  for i in range(len(X_train)):

    total_stat = {}


    for word_x in X_train_tokens[i]:
      total_stat[word_x] = 0
      for word_y in y_train_tokens[i]:

        total_stat[word_x] += t[(word_x, word_y)]


    for word_x in X_train_tokens[i]:
      for word_y in y_train_tokens[i]:

        count[(word_x, word_y)] += t[(word_x, word_y)] / total_stat[word_x]

        total[word_y] += t[(word_x, word_y)] / total_stat[word_x]

  # шаг 2. Maximization
  for i in range(len(X_train)):

    for word_x in X_train_tokens[i]:
      for word_y in y_train_tokens[i]:

        t[(word_x, word_y)] = count[(word_x, word_y)] / total[word_y]

for elem in t:
  print("Соответствие |", elem[0], "  ->  ", elem[1], "| Вероятность:", round(t[elem], 3))


[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
Соответствие | faire   ->   not | Вероятность: 0.0
Соответствие | faire   ->   enough | Вероятность: 0.046
Соответствие | faire   ->   development | Вероятность: 0.005
Соответствие | faire   ->   when | Вероятность: 0.046
Соответствие | faire   ->   infrastructure | Вероятность: 0.046
Соответствие | faire   ->   public | Вероятность: 0.012
Соответствие | faire   ->   services | Вероятность: 0.046
Соответствие | faire   ->   lacking | Вероятность: 0.046
Соответствие | du   ->   Subsidies | Вероятность: 0.002
Соответствие | du   ->   enough | Вероятность: 0.08
Соответствие | du   ->   ensure | Вероятность: 0.0
Соответствие | du   ->   development | Вероятность: 0.008
Соответствие | du   ->   when | Вероятность: 0.08
Соответствие | du   ->   infrastructure | Вероятность: 0.08
Соответствие | du   ->   public | Вероятность: 0.021
Соответствие | du   ->   services | Вероятность: 0.08
Соответствие | du   ->   la

In [None]:

tokens = ' '.join(english).split()


bigram_model = defaultdict(list)


for i in range(len(tokens)-1):
    current_word = tokens[i]
    next_word = tokens[i + 1]
    bigram_model[current_word].append(next_word)

print(bigram_model)

def decoder(model, steps=5):

  current_word = random.choice(tokens)
  generated_sentence = current_word

  for step in range(steps):

    print('Шаг', step+1)
    next_word_options = model[current_word]
    print(f'Правдоподобные варианты продолжения для токена {current_word}:', next_word_options)

    current_word = random.choice(next_word_options)
    generated_sentence += ' '
    generated_sentence += current_word
    print('Промежуточный результат:', generated_sentence)
    print()
  print('Результат:', generated_sentence)

decoder(bigram_model)

Шаг 1
Правдоподобные варианты продолжения для токена It: ['says', 'is', 'will', 'seems', 'is', 'is', 'is', 'was', 'is', 'is', 'is', 'is', 'is', 'is', 'only', 'should', 'therefore', 'is', 'should', 'is', 'would', 'was']
Промежуточный результат: It seems

Шаг 2
Правдоподобные варианты продолжения для токена seems: ['absolutely', 'to', 'to']
Промежуточный результат: It seems to

Шаг 3
Правдоподобные варианты продолжения для токена to: ['ensure', 'it', 'be', 'ensure', 'refuse', 'renew', 'Monday', 'Wednesday', 'its', 'do', 'speak', 'propose', 'point', 'ask', 'me', 'be', 'you', 'the', 'be', 'endorse', 'ensure', 'safety', 'improve', 'do', 'make', 'mention', 'deal', 'make', 'repeat', 'all', 'the', 'take', '-40ºC', 'keep', 'this', 'have', 'another', 'accept', 'the', 'deal', 'additionality', 'the', 'ensure', 'Wales', 'depend', 'the', 'take', 'both', 'focus', 'identify', 'get', 'be', 'be', 'build', 'reiterate', 'ensure', 'each', 'redistribute', 'want', 'apply', 'this', 'vote', 'congratulate', 'ex

In [None]:
sorted_t = sorted(t.items(), key = lambda k:(k[1], k[0]), reverse = True)

def translate(token):
  for element in sorted_t:
    if element[0][1] == token:
      # поиск совпадений в t-table
      return element[0][0]
  return ''  # Возвращаем пустую строку, если перевод не найден

for sentence in y_test_tokens:
  print("Оригинальное предложение:", ' '.join(sentence))
  translation = []
  for token in sentence:
    translation.append(translate(token))
  print("Перевод:", ' '.join(translation))

Оригинальное предложение: It is irresponsible of EU Member States to refuse to renew the embargo .
Перевод: Il est  de européenne membres membres .  .  .  .
Оригинальное предложение: The report shows that growth has been uneven , despite all our efforts .
Перевод: Le rapport  que croissance a été  , stabilité . notre ses .
Оригинальное предложение: Competition is an instrument and does not always produce ideal solutions .
Перевод: La est le  et réalisable pas toujours sérieux   .
Оригинальное предложение: Effective competition pushes prices down and raises standards of living .
Перевод:  concurrence   traquer et  septentrionales de  .
Оригинальное предложение: I agree with your analysis .
Перевод: Je  des l'  .
Оригинальное предложение: Personally , I at least am totally in favour of the guidelines .
Перевод:  , Je les  rappeler  . pour de .  .
Оригинальное предложение: Why are no-smoking areas not enforced ?
Перевод: se .   pas  ?
Оригинальное предложение: But optimum efficiency does 

In [None]:
from nltk.translate.bleu_score import corpus_bleu

reference = [X_test_tokens[0]]  # Или любое другое предложение

candidate = [translate(token) for token in y_test_tokens[0]]

bleu_score = corpus_bleu([reference], [candidate])

print("BLEU Score:", bleu_score)

BLEU Score: 1.1540791471212467e-231


In [None]:
reference


[['En',
  'refusant',
  'de',
  'prolonger',
  "l'",
  'embargo',
  ',',
  'les',
  'États',
  'membres',
  'font',
  'preuve',
  "d'",
  'irresponsabilité',
  '.']]

In [None]:
candidate

['Il',
 'est',
 '',
 'de',
 'européenne',
 'membres',
 'membres',
 '.',
 '',
 '.',
 '',
 '.',
 '',
 '.']