<a href="https://colab.research.google.com/github/valeriia-nekrasova/compling/blob/main/%D0%A7%D0%B5%D1%82%D0%B2%D1%91%D1%80%D1%82%D0%BE%D0%B5_%D0%B4%D0%BE%D0%BC%D0%B0%D1%88%D0%BD%D0%B5%D0%B5_%D0%B7%D0%B0%D0%B4%D0%B0%D0%BD%D0%B8%D0%B5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Что такое BLEU-Score**


BLEU ( BiLingual Evaluation Understudy ) — это метрика для автоматической оценки машинно переведенного текста. Оценка BLEU — это число от нуля до единицы, которое измеряет сходство машинно переведенного текста с набором справочных переводов. Значение 0 означает, что результат машинного перевода не пересекается с эталонным переводом (низкое качество), а значение 1 означает, что оно полностью совпадает с эталонными переводами (высокое качество).

В качестве приблизительного ориентира может оказаться полезной следующая интерпретация оценок BLEU.


| BLEU_Score 	| Интерпретация 	|
|------------	|---------------	|
| < 0.1        	|Почти бесполезно |
| 0.1 - 0.19      	|Трудно уловить суть          	|
|   0.2 - 0.29	         	|        Суть понятна, но есть существенные грамматические ошибки.       	|
|     0.3 - 0.4       	|        	Понятно, хорошие переводы       	|
|      0.4 - 0.5	      	|           Высококачественные переводы    	|
|        0.5 - 0.6    	|            Очень качественный, достоверный и беглый перевод.   	|
|        > 0.6    	|       Качество часто лучше человеческого перевода        	|

Кандидат относится к предложению, которое было сгенерировано системой машинного перевода. Референс - это предложение или предложения, которые являются эталонными переводами данного текста. При вычислениях с помощью BLEU-score кандидат сравнивается с референсами для оценки качества перевода.




Оценка BLEU основана на подсчете слов (unigrams) и словосочетаний (n‑grams) из кандидата, также встречающихся в референсе. Униграммы отвечают за достоверность (adequacy), а более длинные n-граммы — за беглость перевода (fluency). Перевод с использованием тех же слов (unigram), что и в референсе, имеет тенденцию соответствовать более достоверному переводу. Более длинные совпадения n-gram говорят о беглости перевода.

Системы машинного перевода могут в некоторых случаях генерировать слишком большое количество «нужных» слов (например, повтор артикля «the the the»), что приводит к большой точности. Во избежание данной проблемы подсчитывается максимальное число слов из перевода-кандидата, которые есть в одном из  переводов-референсов. Затем общее число слов каждого перевода-кандидата сводится к максимальному числу таких же (совпавших) слов в переводе-эталоне и делится на общее (неограниченное) число слов в переводе-кандидате
Такой подсчёт происходит и для n-грамм, в итоге получаем значение точности (precision). Пересечение n-грамм определяется путём перемножения всех точностей с последующим извлечением из произведения корня четвёртой степени – так получается среднее геометрическое.

Вторая составляющая метрики BLEU – это штраф за длину перевода или Brevity Penalty. Вычисление данного штрафа (BP) происходит следующим образом: ВР равно 1, если длина перевода-кандидата больше длины перевода-эталона. ВР меньше 1, если длина перевода-кандидата равна или меньше длины перевода-референса.


BLUE-score юольше подойдёт для подсчёта результатов работы системы на целом корпусе, так как метрика BLEU плохо работает для отдельных предложений. Например, оба предложения-примера получают очень низкие показатели по оценке BLEU-score, хотя они отражают большую часть смысла. Поскольку статистика n-грамм для отдельных предложений менее значима, BLEU по замыслу является метрикой, основанной на корпусе -  то есть при вычислении оценки статистика накапливается по всему корпусу.


Проанализировав результаты, можно выделеить следующие трудности, с которыми столкнулась модель.
1. Фразы, значение которых понятно только их контекста: например, "подводная и даже подлёдная разновидность" может быть сложной для автоматического перевода из-за нестандартной комбинации слов и неоднозначности перевода.

2. Устойчивые выражения: второе предложение может быть трудным для автоматической системы из-за специфичного значимого перевода этого выражения.

3. Лексические и грамматические структуры: в подсчётах оценки BLEU-score не учитывается синтаксис и порядок слов, но определяются более длинные совпадающие n-граммы.

Несмотря на это, BLEU-Score = 0.37 можно отнести к хорошему переводу, близкому к высококачественному.

Возможные ошибки вызваны ограничениями обучающих данных, сложностью передачи нюансов языка и недостаточной информацией о контексте в обучающем корпусе.




In [None]:
!pip install evaluate

In [None]:
import evaluate

predictions = [
    "In addition to the usual hockey, there is an underwater and even ice version of this game.", #  Помимо обычного хоккея, существует подводная и даже подлёдная разновидности этой игры.
    "You reap what you sow.", # Что посеешь - то и пожнешь.
    "Also, justice is how we distribute the small resources." # Также, справедливость - это и то, как мы распределяем малые ресурсы.
    ]

references = [
    ["In addition to conventional hockey, there is an underwater and even under-ice variety of this game."], #  Помимо обычного хоккея, существует подводная и даже подлёдная разновидности этой игры.
    ["What goes around comes around."], # Что посеешь - то и пожнешь.
    ["Fairness also has to do with how we distribute scarce resources."], # Также, справедливость - это и то, как мы распределяем малые ресурсы.
    ]

bleu = evaluate.load("bleu")
results = bleu.compute(predictions=predictions, references=references)

print(results)

Downloading builder script:   0%|          | 0.00/5.94k [00:00<?, ?B/s]

Downloading extra modules:   0%|          | 0.00/1.55k [00:00<?, ?B/s]

Downloading extra modules:   0%|          | 0.00/3.34k [00:00<?, ?B/s]

{'bleu': 0.374360558192794, 'precisions': [0.5833333333333334, 0.45454545454545453, 0.3333333333333333, 0.2222222222222222], 'brevity_penalty': 1.0, 'length_ratio': 1.0, 'translation_length': 36, 'reference_length': 36}
