## Projekt Indywidualny

Autor: <b>Daniel Ślusarczyk</b>

Opiekun projektu: <b>mgr inż. Mateusz Bartosiewicz<b>

## Spis Treści:
1. [Cel projektu](#CP)
2. [NLP](#NLP)
3. [Metryki](#M)
    1. [Powstanie metryk](#PM)
    2. [Wady metryk](#WM)
    3. [Zaburzanie dzialania metryk](#ZDM)
    4. [Wpływ na postrzeganie obrazu](#WNPO)
    5. [Translacja w Image Captioning](#TWIC)
4. [Sposoby porównywania tesktów](#SPT)
5. [Embeddings dla NLP](#EDN)
6. [Zbiór COCO](#ZC)
7. [Serwer ewauacyjny COCO](#SEC)
8. [Źródła](#Z)
<br>
<br>
<br>

### Cel projektu <br> <a name="W"></a>
Nadrzędnym celem projektu jest opracowanie teoretyczne narzędzi do analizy NLP.
<br>
<br>
<br>

### NLP - Przetwarzanie języka Naturalnego <a name="OP"></a>

NLP (z ang. Natural Leanguage Processing) jest to interdyscyplinarna dziedzina, oparta na podstawach sztucznej inteligencji i językoznawstwa.
Zajmuje się automatyzacją analizy, rozumienia, tłumaczenia i generowania języka naturalnego przez komputer.  Istnieją dwa fundamentalne kierunki przepływu informacji w NLP, które stanowią główną problematykę tej dziedziny . System, który zawiera informacje zapisane w bazie danych w sposób techniczny i zrozumiały wyłącznie dla osób zaznajomionych z sposobem zapisu przekształca się w informacje przedstawione w sposób zrozumiały dla wszystkich osób posługujących się danym językiem. Zaś system, który rozumie język naturalny modyfikuje go na formalne symbole możliwe do przetworzenia przez system komputerowy. W konsekwencji problematyka NLP dotyczy zarówno generacji i rozumienia języka.
<br>
<br>
<b>Problemy stojące przed NLP:</b> 
<br>
Ze względu na niezwykłe rozbudowanie i skomplikowanie języka naturalnego można wyróżnić wiele problemów, z którymi wiąże się dziedzina NLP:
<ul>
<li> Segmentacja sygnału mowy</li>
<li> Segmentacja tekstu</li>
<li> Wieloznaczność słów</li>
<li> Syntaktyczna niejednoznaczność</li>
<li> Nieprawidłowe, bądź nieregularne dane</li>
<li> Akt mowy i plan</li>
</ul>
<b> Przykładowe zadania NLP:</b>
<ul>
<li> Automatyczna sumaryzacja – program umożliwiający streszczenie dłuższego tekstu w krótszy o tym samym przesłaniu i najważniejszych informacjach</li>
<li> Synteza mowy – operacja polegająca na przetwarzaniu języka na mowę</li>
<li> Korekcja tekstu – analiza tekstu i wykrywanie błędów</li>
<li> Rozpoznawanie mowy – operacja polegająca na przetwarzaniu mowy na tekst </li>
</ul>
<br>
<br>

### Metryki 

Metryki są nieodłączonym elementem uczenia maszynowego. Służa do oceny spełnienia oczekiwań stawianych przed problemem, do którego używana jest dana metryka.

### GLUE

<b> General Language Understanding Evaluation </b>
<br>
Ogólna miara oceny zrozumienia języka w formie zbioru zestawów danych wykorzystywanych do szkolenia, oceny i analizy modeli NLP względem siebie. Zbiór składa sie z dziewięciu zróżniocowanych zestawów danych zadań przygotowanych w celu przetestowania zrozumienia języka przez model. Ma klucze znaczenie do oceny modeli uczenia transferowego, czyli takiego, w którym model wytrenowany w jednym zadaniu jest ponownie używany do drugiego zadania.

### Super GLUE

<b>Super General Language Understanding Evaluation</b>
<br>
Metryka oparta o metrykę GLUE i rozszerzona o sześć nowych zadań.

### BLEU

<b>BiLingual Evaluation Understudy</b>
<br>
Ewaluacja służąca do mierzenia jakości modeli tłumaczenia maszynowego. Zadaniem tej metryki jest ocena jak dobrze model tłumaczy tekst pomiędzy językami. W przypadku tej metryki "jakość" rozumiana jest jako korelacja pomiędzy danymi wyjściowymi a tekstem ludzkim - im tłumaczenie bardziej zbliżone do tłumaczenia ludzkiego, tym jest uzawane za lepsze. BLEU jest jedną z pierwszych metryk, której udało się uzyskać wyniki zbliżone z ludzkim osądem. W konsekwencji stała się najbardziej popularną metodą, pomimo pewnych wad.

<b>Działanie:</b><br>
Założeniem BLEU jest ocena dużych korposów. Nie znajduje zastosowania do oceny pojedynczych zdań. Algorytm porównuje n-gram tłumaczenia kandydata z n-gramem tłumaczenie wzorcowego w celu policzenia liczby wystąpień (miejsce wystąpienia nie ma znaczenia). Im większa liczba wystąpień n-gramu pomiędzy kandydatem i wzorcem tym tłumaczenie jest uznawane za lepsze. Wynikiem tej metryki jest liczba z zakresu 0-1. Metryka BLEU uwzględnia również różnice w długości pomiędzy tłumaczeniem wzorcowym, a kandydowanym za pomocą współczynnika BP.<br>
Dla c > r lub c = r:
$$
  BP = 1 
$$
Dla c < r:
$$
  BP = e^{1-\frac{r}{c}}
$$
r - liczba słów w wzorcowym tłumaczeniu<br>
c - liczba słów w kandydowanym tłumaczeniu<br>

Końcowa wartość metryki jest równa:
$$
  BLUE = BP * exp( \sum \limits_{n=1} ^{N} w_{n} log (p_{n}))
$$
N - liczba rozważanym n-gramów<br>
wn - waga danego n-gramu<br>
pn - stosunek wystąpień danego n-gramu do wszystkich n-gramów<br>
<br>
Problemy metryki:
* Udowodniono, że wzrost wartości BLEU nie musi mieć przełożenia na wzrost jakości tłumaczenia
* Istnieją przypadki, że wyniki BLEU znacząco odbiegają od ludzkiej oceny
* W przypadku użycia metryki BLEU do porównywania dwóch systemów oba systemy powinny być podobne

In [16]:
import  nltk.translate.bleu_score as bleu
import re

references = [
            'the cat is on the mat'.split(), 
            'the map is on a cat'.split()
            ]
candidate = 'the cat is on a table'.split()
print("BLEU Score: ", bleu.sentence_bleu(references, candidate, weights=(0.25, 0, 0, 0)))


# Maksymalna długość kandydata/wzorca
max_size = len(candidate)
for reference in references:
    if(max_size < len(reference)):
        max_size = len(reference)
        
# Liczba rozpatrywanych n-gramów
n = 2
# Liczba referencji
refNmb = len(references)
print (candidate)
unique_candidate = []
for x in candidate:
    if x not in unique_candidate:
        unique_candidate.append(x)
        
print(unique_candidate)
counter = 1
tabs='\t\t\t\t'
print("GRAM" + tabs + "\tRef1" + "\t" + "Ref2" + "\t" + "Max Ref Count" + "\t" + "Clip Count")
# Pętla po liczbie n (liczbie rozpatrywanych n-gramów)
for ngram in range(1, n + 1):
    # Liczba n-gramów:
    sumClipCount = 0
    nmbOfGrams = len(unique_candidate) - ngram + 1
    # Pętla po liczbie n-gramów zależna od rozpatrywanego n-gramu
    for idOfPattern in range(0, nmbOfGrams):
        gram = unique_candidate[idOfPattern]
        # Pętla po liczbie słów do dodania aby otrzymać n-gram
        for idToAdd in range(1, ngram):
            gram = gram + ' ' + unique_candidate[idOfPattern + idToAdd]
        
        # Sprawdzanie wystąpień n-gramu w referencjach
        print("{0:<8}".format(str(counter) + ")" + gram), end='')
        print(tabs, end='')
        counter = counter + 1
        maxRefCount = 0;
        count = 0
        strCWS=' '.join(map(str, candidate))
        count = re.findall("^" + gram + "$|^" + gram + " | " + gram + " |" + gram + "$" , strCWS)
        for reference in references:
            strWS=' '.join(map(str, reference))
            if(gram in strWS):
                nmb = re.findall("^" + gram + "$|^" + gram + " | " + gram + " |" + gram + "$" , strWS)
                print(str(len(nmb)) + '\t', end='')
                maxRefCount = max(maxRefCount, len(nmb))
            else:
                print("0" + '\t', end='')
                
        sumClipCount = sumClipCount + min(maxRefCount, len(count))
        print(str(maxRefCount) + '\t' + str(len(count)) + '\t' + str(min(maxRefCount, len(count))))
    print("SUMA dla " + str(ngram) + "-gramu : " + str(sumClipCount))


BLEU Score:  0.9554427922043668
['the', 'cat', 'is', 'on', 'a', 'table']
['the', 'cat', 'is', 'on', 'a', 'table']
GRAM					Ref1	Ref2	Max Ref Count	Clip Count
1)the   				2	1	2	1	1
2)cat   				1	1	1	1	1
3)is    				1	1	1	1	1
4)on    				1	1	1	1	1
5)a     				0	1	1	1	1
6)table 				0	0	0	1	0
SUMA dla 1-gramu : 5
7)the cat				1	0	1	1	1
8)cat is				1	0	1	1	1
9)is on 				1	1	1	1	1
10)on a 				0	1	1	1	1
11)a table				0	0	0	1	0
SUMA dla 2-gramu : 4


$$
  BLUE = 1 * (exp(0,25 * log(5/6) + 0,25 * log(4/5)) = 0,903602...
$$

### METEOR

**Metric for Evaluation of Translation with Explicit ORdering**

Metryka używana do oceny tłumaczenia maszynowego. Operta na średniej harmonicznej n-gramów precyzji i pokrycia z przyznaniem większej wagi dla pokrycia. Cechą charakterystyczną tej metryki jest dopasowywanie synonimów - akceptowanie wyrazów o podobnym znaczeniu. Powodem powstania tej metryki jest próba wyeliminowania błędów pojawiających się w metryce BLEU. Główna różnicą pomiędzy tymi metrykami jest poziom szukania korelacji. BLUE skupia się na poziomie całego korpusy, natomiast METEOR na poziomie zdań i segmentów.
<br><br>
**Działanie:**
METEOR w celu oszacowania jakości tłumaczenia maszynowego porównuje je z jednym/dwoma tłumaczeniami wzorcowymi. Wynik ewaluacji jest obliczany osobno dla każdego zdania w taki sposób, że każde zdanie z tłumaczenia maszynowego jest porównywane ze zdaniem z tłumaczenia wzorcowego, a następnie do dalszej analizy brana jest pod uwagę lepsza ocena. Metryka METEOR posługuje się dwoma modułami:
* Etap pierwszy: METEOR ALIGNER - tworzenie odwzorowania pomiędzymi tłumaczeniami
* Etap drugi: METEOR SCORER - obliczanie końcowego wyniku

Etap pierwszy:<br>
Etap pierwszy dzieli się na dwa zasadniczne kroki: zidentyfikowanie wszystkich odwzorowań pomiędzy tłumaczeniem ocenianym a wzorcowym i wyselekcjonowanie najlepszego odwzorowania. <br>

Identyfikacja odwzorowań: <br>
Odwzorowanień w metryce METEOR jest lista słów z tłumaczenia wzorcowego, które w jakiś spoób odpowiadają słowu z tłumaczenia maszynowego. Proces dopasowywania jest realizowany poprzez cztery moduły:
* exact - dopasowanie słów identycznych
* stem - dopasowanie słów o identycznym rdzeniu
* synonym - dopasowanie słów bliskoznacznych według bazy WorldNet
* paraphrase - dopasowanie fraz wymienionych jako parafrazy w tabeli parafrazowej

Przykład: <br>
Tłumaczenie maszynowe (T): Chłopak bajkę opowiadał bez ogródek <br>
Tłumaczenie wzorcowe (T): Chłopczyk opowiada historię bez owijania w bawełnę <br>

<p align="center">
  <img src="METEOR_schemat.png"/>
</p>

Wyselekcjonowanie najlepszego odwzorowania:
Krok ten polega na znalezieniu największego podzbioru dopasowań wśród dopasowań znalezionych w pierwszym etapie i spełniających kryteria:
* Każde słowo może należeć tylko do jednego dopasowania
* Dopasowywana jest możliwie największa liczba słów w obu tłumaczeniach
* W wyniku wybranych dopasowań występuje możliwie najmniejsza liczba fraz przylegających do siebie i występujących w tej samej kolejności w obu tłumaczeniach
* Pomiędzy pozycjami startowymi dopasowań wystąpi jak najmniejsza suma odstępów - faworyzowanie dopasowań na podobnych pozycjach w obu tłumaczeniach

Najlepsze dopasowanie:
<p align="center">
  <img src="METEOR_schemat2.png"/>
</p>

Etap drugi:<br>
Celem etapu drugiego jest obliczenie wyniku końcowego metryki na podstawie wyniku pierwszego etapu. Końcowy wynik oparty jest na kilku wartościach:
* Precyzja<br>
Stosunek dopasowań wyrazów w ocenianym tłumaczeniu do wszystkich wyrazów tłumaczenia.
$$
  P = \frac{\sum \limits_{i=1} ^{n} w_{i} * m_{i}(t)}{|t|}
$$
n - liczba modułów biorących udział w dopasowaniu<br>
wi - waga i-tego modułu<br>
mi(t) - liczb wyrazów dopasowanych przez i-ty moduł<br>
|t| - liczba wszystkich wyrazów w tłumaczeniu<br>

Przykład:
$$
  P = \frac{w_{exact} * m_{exact}(t) + w_{stem} * m_{stem}(t) + w_{synonym} * m_{synonym}(t) + w_{paraphrase} * m_{paraphrase}(t) }{6}
$$
<br>
$$
  P = \frac{w_{exact} * 1 + w_{stem} * 1 + w_{synonym} * 1 + w_{paraphrase} * 2 }{6}
$$
* Pokrycie <br>
Stosunek wyrazów w tłumaczeniu wzorcowym, które zostały dopasowane w tłumaczeniu maszynowym do wszystkich wyrazów tłumaczenia wzorcowego.
$$
  R = \frac{\sum \limits_{i=1} ^{n} w_{i} * m_{i}(r)}{|r|}
$$
mi(r) - liczba wyrazów dopasowanych w tłumaczeniu referencyjnym<br>
|r| - liczba wyrazów tłumaczenia wzorcowego <br>

Przykład:
$$
  P = \frac{w_{exact} * m_{exact}(r) + w_{stem} * m_{stem}(r) + w_{synonym} * m_{synonym}(r) + w_{paraphrase} * m_{paraphrase}(r) }{6}
$$
$$
  P = \frac{w_{exact} * 1 + w_{stem} * 1 + w_{synonym} * 1 + w_{paraphrase} * 2 }{6}
$$

BLEU:
* https://towardsdatascience.com/bleu-bilingual-evaluation-understudy-2b4eab9bcfd1
BLEU i METEOR:
* http://docplayer.pl/14218168-Ewaluacja-systemow-tlumaczenia-automatycznego.html