In [None]:
import tarfile

from sklearn.model_selection import train_test_split

from collections import Counter, defaultdict
import random

In [None]:
with tarfile.open('/fr-en.tiny.tgz', 'r:gz') as tar:
  tar.extractall()

In [None]:
!ls

fr-en.tiny.en  fr-en.tiny.fr  sample_data


In [None]:
with open('fr-en.tiny.fr', 'r', encoding='utf-8') as f:
  french = f.read().split('\n')[:-1]

with open('fr-en.tiny.en', 'r', encoding='utf-8') as f:
  english = f.read().split('\n')[:-1]

  print("Данные языка X:\n", french)
  print("Данные языка Y:\n", english)

Данные языка X:
 ['Reprise de la session', 'Je vous invite à vous lever pour cette minute de silence .', '( Le Parlement , debout , observe une minute de silence )', "Madame la Présidente , c' est une motion de procédure .", "Si l' Assemblée en est d' accord , je ferai comme M. Evans l' a suggéré .", "Madame la Présidente , c' est une motion de procédure .", "Je voudrais vous demander un conseil au sujet de l' article 143 , qui concerne l' irrecevabilité .", 'Il précise que cela devrait être fait malgré le principe de stabilité relative .', 'Et tout ceci dans le respect des principes que nous avons toujours soutenus .', 'Merci , Monsieur Segni , je le ferai bien volontiers .', "C' est en effet tout à fait dans la ligne des positions que notre Parlement a toujours adoptées .", "Il s' agit du cas d' Alexandre Nikitin .", "Toutefois , Madame la Présidente , ce que j' avais demandé n' a pas été réalisé .", "Je vous demande donc à nouveau de faire le nécessaire pour que nous puissions dispo

In [None]:

# Разделяем данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(english, french)

# Печать обучающей выборки
print("> Обучающая выборка:")
for text, label in zip(X_train[:5], y_train[:5]):  # Печатаем первые 5 примеров
    print(f"\nТекст на французском: {label}\nЕго перевод на английский: {text}\n")

# Печать тестовой выборки
print("> Тестовая выборка:")
for text, label in zip(X_test[:5], y_test[:5]):  # Печатаем первые 5 примеров
    print(f"\nТекст на французском: {label}\nЕго перевод на английский: {text}\n")

> Обучающая выборка:

Текст на французском: Merci beaucoup , Monsieur le Commissaire .
Его перевод на английский: Thank you very much , Commissioner .


Текст на французском: Dans le passé , le Parlement a envisagé l' économie sociale comme un fournisseur potentiel important d' emplois .
Его перевод на английский: In the past , this Parliament has viewed the social economy as an important potential provider of employment .


Текст на французском: Comment se fait-il que le comité de santé et d' hygiène ne se soit plus réuni depuis 1998 ?
Его перевод на английский: Why has there been no Health and Safety Committee meeting since 1998 ?


Текст на французском: Je le félicite de son excellent rapport .
Его перевод на английский: I congratulate him on his excellent report .


Текст на французском: Il y a une leçon fondamentale que je voudrais que nous tirions .
Его перевод на английский: There is one basic lesson I would like us to learn from this .

> Тестовая выборка:

Текст на французском

In [None]:
def tokenize(sentences):
  # функция возвращает списки слов
  return [sentence.split() for sentence in sentences]


X_train_tokens = tokenize(X_train)
X_test_tokens = tokenize(X_test)
y_train_tokens = tokenize(y_train)
y_test_tokens = tokenize(y_test)

# Печать примера токенизированного текста
print('Образец токенизированного текста:', X_train_tokens[:5])

Образец токенизированного текста: [['Thank', 'you', 'very', 'much', ',', 'Commissioner', '.'], ['In', 'the', 'past', ',', 'this', 'Parliament', 'has', 'viewed', 'the', 'social', 'economy', 'as', 'an', 'important', 'potential', 'provider', 'of', 'employment', '.'], ['Why', 'has', 'there', 'been', 'no', 'Health', 'and', 'Safety', 'Committee', 'meeting', 'since', '1998', '?'], ['I', 'congratulate', 'him', 'on', 'his', 'excellent', 'report', '.'], ['There', 'is', 'one', 'basic', 'lesson', 'I', 'would', 'like', 'us', 'to', 'learn', 'from', 'this', '.']]


In [None]:
# Создаем словарь уникальных словоформ
x_vocab = Counter(' '.join(french).split()).keys()
y_vocab = Counter(' '.join(english).split()).keys()

# Печать словарей
print(f"Словарь французских словоформ: {x_vocab}\nВсего {len(x_vocab)} словоформ")
print(f"\nCловарь английских словоформ: {y_vocab}\nВсего {len(y_vocab)} словоформ")

Словарь французских словоформ: dict_keys(['Reprise', 'de', 'la', 'session', 'Je', 'vous', 'invite', 'à', 'lever', 'pour', 'cette', 'minute', 'silence', '.', '(', 'Le', 'Parlement', ',', 'debout', 'observe', 'une', ')', 'Madame', 'Présidente', "c'", 'est', 'motion', 'procédure', 'Si', "l'", 'Assemblée', 'en', "d'", 'accord', 'je', 'ferai', 'comme', 'M.', 'Evans', 'a', 'suggéré', 'voudrais', 'demander', 'un', 'conseil', 'au', 'sujet', 'article', '143', 'qui', 'concerne', 'irrecevabilité', 'Il', 'précise', 'que', 'cela', 'devrait', 'être', 'fait', 'malgré', 'le', 'principe', 'stabilité', 'relative', 'Et', 'tout', 'ceci', 'dans', 'respect', 'des', 'principes', 'nous', 'avons', 'toujours', 'soutenus', 'Merci', 'Monsieur', 'Segni', 'bien', 'volontiers', "C'", 'effet', 'ligne', 'positions', 'notre', 'adoptées', "s'", 'agit', 'du', 'cas', 'Alexandre', 'Nikitin', 'Toutefois', 'ce', "j'", 'avais', 'demandé', "n'", 'pas', 'été', 'réalisé', 'demande', 'donc', 'nouveau', 'faire', 'nécessaire', 'pui

In [None]:

uniform = 1 / (len(x_vocab) * len(y_vocab))
print(f"Начальная вероятность для соответствия слов: {round(uniform, 6)}")

Начальная вероятность для соответствия слов: 1e-06


In [None]:
# t-model
t = {}

for i in range(len(X_train)):
  # начинаем итерацию по обучающей выборке
  for word_x in X_train_tokens[i]:
    for word_y in y_train_tokens[i]:
      # создаем t-table
      t[(word_x, word_y)] = uniform

# t-table
for elem in t:
  print("Соответствие |", elem[0], "  ->  ", elem[1], "| Вероятность:", round(t[elem], 6))

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
Соответствие | creating   ->   devraient | Вероятность: 1e-06
Соответствие | creating   ->   éviter | Вероятность: 1e-06
Соответствие | creating   ->   de | Вероятность: 1e-06
Соответствие | creating   ->   créer | Вероятность: 1e-06
Соответствие | creating   ->   des | Вероятность: 1e-06
Соответствие | creating   ->   couches | Вероятность: 1e-06
Соответствие | creating   ->   supplémentaires | Вероятность: 1e-06
Соответствие | creating   ->   bureaucratie | Вероятность: 1e-06
Соответствие | creating   ->   et | Вероятность: 1e-06
Соответствие | creating   ->   paperasserie | Вероятность: 1e-06
Соответствие | creating   ->   . | Вероятность: 1e-06
Соответствие | additional   ->   Elles | Вероятность: 1e-06
Соответствие | additional   ->   devraient | Вероятность: 1e-06
Соответствие | additional   ->   éviter | Вероятность: 1e-06
Соответствие | additional   ->   de | Вероятность: 1e-06
Соответствие | addi

In [None]:
# количество итераций обучения
epochs = 7

In [None]:
for epoch in range(epochs):
  # начинаем обучение

  # шаг 0. создаем слоты для подсчета статистики
  count = {} # P(x|y)
  total = {} # P(y)

  for i in range(len(X_train)):
    # начинаем итерацию по обучающей выборке
    for word_x in X_train_tokens[i]:
      for word_y in y_train_tokens[i]:
        # создаем слоты для подсчета условной вероятности совпадений в корпусе
        count[(word_x, word_y)] = 0
        # и слоты для статистической языковой модели y
        total[word_y] = 0

 # шаг 1. Expectation
  for i in range(len(X_train)):
    # начинаем итерацию по обучающей выборке
    total_stat = {} # статистика x

    # собираем предварительную статистику на основе данных x
    for word_x in X_train_tokens[i]:
      total_stat[word_x] = 0 # создаем слоты для подсчета статистики по каждому токену x
      for word_y in y_train_tokens[i]:
        # обновляем данные из t-table; увеличиваем значения при обнаружении совместной встречаемости
        total_stat[word_x] += t[(word_x, word_y)]

    # обновляем данные для P(x|y) и P(y)
    for word_x in X_train_tokens[i]:
      for word_y in y_train_tokens[i]:
        # подсчет условной вероятности совпадений в корпусе: равномерное распределение / частотность x
        count[(word_x, word_y)] += t[(word_x, word_y)] / total_stat[word_x]
        # подсчет статистической информации y: равномерное распределение / частотность x
        total[word_y] += t[(word_x, word_y)] / total_stat[word_x]

  # шаг 2. Maximization
  for i in range(len(X_train)):
    # начинаем итерацию по обучающей выборке
    for word_x in X_train_tokens[i]:
      for word_y in y_train_tokens[i]:
        # обновляем t-table: вероятность совпадения в корпусе / вероятность информации y
        t[(word_x, word_y)] = count[(word_x, word_y)] / total[word_y]

for elem in t:
  print("Соответствие |", elem[0], "  ->  ", elem[1], "| Вероятность:", round(t[elem], 6))

[1;30;43mВыходные данные были обрезаны до нескольких последних строк (5000).[0m
Соответствие | creating   ->   devraient | Вероятность: 0.000523
Соответствие | creating   ->   éviter | Вероятность: 0.135481
Соответствие | creating   ->   de | Вероятность: 0.0
Соответствие | creating   ->   créer | Вероятность: 0.135481
Соответствие | creating   ->   des | Вероятность: 0.0
Соответствие | creating   ->   couches | Вероятность: 0.135481
Соответствие | creating   ->   supplémentaires | Вероятность: 0.135481
Соответствие | creating   ->   bureaucratie | Вероятность: 9.6e-05
Соответствие | creating   ->   et | Вероятность: 0.0
Соответствие | creating   ->   paperasserie | Вероятность: 0.135481
Соответствие | creating   ->   . | Вероятность: 0.0
Соответствие | additional   ->   Elles | Вероятность: 8.5e-05
Соответствие | additional   ->   devraient | Вероятность: 0.000523
Соответствие | additional   ->   éviter | Вероятность: 0.135481
Соответствие | additional   ->   de | Вероятность: 0.0
С

In [None]:
# для обучения модели объединим 2 выборки
tokens = ' '.join(french).split()

# хранилище для биграмм
bigram_model = defaultdict(list)

# собираем все попарные совпадения
for i in range(len(tokens)-1):
    current_word = tokens[i]
    next_word = tokens[i + 1]
    bigram_model[current_word].append(next_word)

print(bigram_model)

def decoder(model, steps=5):
  # инициализация случайного токена
  current_word = random.choice(tokens)
  generated_sentence = current_word

  for step in range(steps):
    # пошаговая генерация
    print('Шаг', step+1)
    next_word_options = model[current_word]
    print(f'Правдоподобные варианты продолжения для токена {current_word}:', next_word_options)

    current_word = random.choice(next_word_options)
    generated_sentence += ' '
    generated_sentence += current_word
    print('Промежуточный результат:', generated_sentence)
    print()
  print('Результат:', generated_sentence)

decoder(bigram_model)

defaultdict(<class 'list'>, {'Reprise': ['de'], 'de': ['la', 'silence', 'silence', 'procédure', 'procédure', "l'", 'stabilité', 'faire', 'santé', 'consignes', 'prolonger', 'coup', "l'", 'personnes', 'lundi', 'modifications', 'son', 'le', 'retirer', "l'", "l'", 'logique', 'M.', 'la', 'demain', 'toutes', 'marchandises', 'subsidiarité', 'manière', 'mon', 'faire', 'son', "l'", 'soulever', 'marchandises', 'transport', 'demain', 'nature', 'fonctionnement', 'cohésion', 'Galles', 'ce', 'Galles', 'la', "l'", "l'", 'ces', 'son', 'nos', 'la', 'créer', 'bureaucratie', 'paperasserie', 'faire', 'résultats', 'nous', 'la', 'la', 'manière', 'villes', 'redistribuer', 'le', 'redistribution', "l'", 'la', 'cohésion', "l'", 'la', 'versement', "l'", 'fixer', 'ces', 'la', 'votre', 'votre', 'l', 'la', 'mieux', 'postes', 'travail', 'la', 'ce', "l'", 'connaître', 'l', 'chômage', '37', 'la', 'la', 'la', "l'", "l'", "l'", "s'", 'ce', 'la', 'concurrence', "l'", 'modernisation', 'la', 'concurrence', 'même', 'moderni

In [None]:
def translate(token):
  for element in sorted_t:
    if element[0][1] == token:
      # поиск совпадений в t-table
      return element[0][0]
  return ''  # если не нашли совпадений, возвращаем пустую строку
for sentence in y_test_tokens:
  print("Оригинальное предложение:", ' '.join(sentence))
  translation = []
  for token in sentence:
    translation.append(translate(token))
  print("Перевод:", ' '.join(translation))

Оригинальное предложение: Monsieur le Président , je voudrais également féliciter le rapporteur pour son excellent travail .
Перевод: Mr the President , I like also  the rapporteur to his him work .
Оригинальное предложение: Bien entendu , le procès-verbal de la réunion de demain tiendra compte de toutes les explications complémentaires .
Перевод:   , the Minutes of the  of vote   of  the   .
Оригинальное предложение: Madame la Présidente , je voudrais d ' abord souligner le manque de logique de M. Poettering .
Перевод: Madam the President , I like we in   the  of  of Mr Poettering .
Оригинальное предложение: L' agriculture fournit seulement 5,5 % de l' emploi de l' Union .
Перевод: The   want  Reunion of the sustainable of the Union .
Оригинальное предложение: J' estime que nos propositions d' amendement introduites en première lecture ont été prises en considération de manière satisfaisante .
Перевод: thought  that our of of the  this priority  have been  this consideration of strate

In [None]:
from nltk.translate.bleu_score import corpus_bleu

reference = [X_test_tokens[0]]  # Или любое другое предложение

candidate = [translate(token) for token in y_test_tokens[0]]

bleu_score = corpus_bleu([reference], [candidate])

print("BLEU Score:", bleu_score)

BLEU Score: 3.9751862219037064e-78


The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


In [None]:
reference

[['Mr',
  'President',
  ',',
  'I',
  'too',
  'would',
  'like',
  'to',
  'congratulate',
  'the',
  'rapporteur',
  'on',
  'her',
  'excellent',
  'work',
  '.']]

In [None]:
candidate

['Mr',
 'the',
 'President',
 ',',
 'I',
 'like',
 'also',
 '',
 'the',
 'rapporteur',
 'to',
 'his',
 'him',
 'work',
 '.']