<a href="https://colab.research.google.com/github/lamdary/compling_hse/blob/main/SMT_summary_Malysheva.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# SMT

**Statistical Machine Translation (SMT)** — статистический машинный перевод, основанный на использовании статистических моделей для перевода текстов с одного языка на другой.

Принцип работы SMT основан на использовании статистической модели для определения наиболее вероятного перевода данного предложения. мМодель обучается на корпусе параллельных текстов, который содержит пары предложений на исходном и целевом языках. В процессе обучения модель запоминает статистику переводов и учится генерировать правильные переводы.

SMT имеет ряд преимуществ перед другими методами машинного перевода. Во-первых, он основан на большом объёме данных, что позволяет ему генерировать более точные и качественные переводы. Во-вторых, он учитывает контекст и структуру предложения, что позволяет избежать ошибок, связанных с неправильным переводом слов.

Однако SMT также имеет некоторые недостатки. Во-первых, он требует большого объёма данных для обучения модели. Во-вторых, он может быть менее эффективным при переводе сложных или неоднозначных предложений.

**Основные компоненты SMT:**

*   Корпус параллельных текстов: набор текстов, содержащих переводы между двумя языками. Используется для обучения модели и оценки качества перевода.
*   Модель перевода: математическая модель, которая описывает вероятность того, что данное предложение на одном языке будет переведено определённым образом на другой язык. Модель строится на основе корпуса параллельных текстов.
* Алгоритм декодирования: алгоритм, который использует модель перевода для генерации перевода входного текста. Алгоритм выбирает наиболее вероятный перевод на основе модели.
* Оценка качества перевода: метрики, которые используются для оценки качества перевода, такие как BLEU, NIST, METEOR и др. Метрики основаны на сравнении перевода с эталонными переводами из корпуса параллельных текстов.

**Метрики оценки качества перевода:**
* BLEU (Bilingual Evaluation Understudy) — метрика, которая измеряет качество машинного перевода путём сравнения сгенерированного текста с одним или несколькими эталонными переводами. BLEU учитывает совпадающие n-граммы в сгенерированном и эталонных текстах, а также их взвешенную частоту. Метрика позволяет оценить, насколько точно машинный перевод соответствует человеческим переводам.

* NIST (National Institute of Standards and Technology) — использует несколько методов для сравнения сгенерированных переводов с эталонными, включая сравнение n-грамм и учёт весов на основе частоты слов. Эта метрика также оценивает, насколько хорошо машинный перевод согласуется с человеческими переводами, но может быть более чувствительной к изменениям в порядке слов и структуре предложений.

* METEOR (Metric for Evaluation of Translation with Explicit Ordering) — это метрика, основанная на сравнении сгенерированного перевода с эталонным переводом. Она учитывает не только совпадение слов, но и их порядок, что делает её особенно полезной для языков с жёсткой структурой предложения. METEOR также учитывает синонимы и другие формы слов, что позволяет более точно оценить качество перевода.

**Терминология**

* Фраза (sentence) — последовательность слов, образующих смысловую единицу.
* Слово (word) — основная единица языка, имеющая определённое значение.
* Вероятность (probability) — мера того, насколько вероятно событие или результат. В контексте SMT вероятность используется для определения наиболее вероятного перевода.
* Корпус (corpus) — большой набор текстовых данных, используемых для обучения и тестирования моделей машинного обучения.
* Параллельные тексты (parallel texts) — тексты, содержащие переводы между двумя или более языками.
* Обучение (training) — процесс, в котором модель обучается на корпусе параллельных текстов, чтобы научиться генерировать правильные переводы.
* Декодирование (decoding) — процесс использования модели перевода для генерации перевода входного текста.
* Метрика (metric) — показатель, используемый для оценки качества перевода.
* Языковая модель (language model) — статистическая модель, используемая для предсказания вероятности появления определённых слов или фраз в языке.
* Модель перевода (translation model) — математическая модель, которая описывает вероятность того, что данное предложение на одном языке будет переведено определённым образом на другой язык.
* Гибридный машинный перевод (hybrid machine translation) — метод машинного перевода, который объединяет несколько подходов для улучшения качества перевода.

**Алгоритм программы для SMT**

1. Сбор данных:

* Сбор корпуса параллельных текстов, содержащих переводы между исходным и целевым языками.
* Предварительная обработка данных, включая токенизацию, удаление пунктуации и приведение слов к нижнему регистру.
2. Обучение модели:

* Применение статистических методов для анализа корпуса и выявления закономерностей в переводах.

* Обучение языковой модели для оценки вероятности появления определённых слов и фраз в целевом языке.
* Создание модели перевода, которая определяет вероятность перевода предложений на основе статистики из корпуса.
3. Декодирование:

* Преобразование входного текста на исходном языке в последовательность токенов.
* Использование модели перевода для генерации наиболее вероятного перевода на целевой язык.
* Постобработка полученного перевода для улучшения его читаемости и естественности.
4. Оценка качества:

* Сравнение сгенерированного перевода с эталонными переводами из корпуса для оценки качества.
* Расчёт метрик качества, таких как BLEU, NIST, METEOR, для количественной оценки эффективности перевода.
5. Итеративное улучшение:

* Повторение процесса обучения и декодирования с использованием обратной связи от метрик качества для улучшения модели.
* Добавление новых данных и корректировка параметров модели для повышения точности и качества перевода.