## Projekt Indywidualny

Autor: <b>Daniel Ślusarczyk</b>

Opiekun projektu: <b>mgr inż. Mateusz Bartosiewicz<b>

## Spis Treści:
1. [Cel projektu](#CP)
2. [NLP](#NLP)
3. [Metryki](#M)
    1. [Powstanie metryk](#PM)
    2. [Wady metryk](#WM)
    3. [Zaburzanie dzialania metryk](#ZDM)
    4. [Wpływ na postrzeganie obrazu](#WNPO)
    5. [Translacja w Image Captioning](#TWIC)
4. [Sposoby porównywania tesktów](#SPT)
5. [Embeddings dla NLP](#EDN)
6. [Zbiór COCO](#ZC)
7. [Serwer ewauacyjny COCO](#SEC)
8. [Źródła](#Z)
<br>
<br>
<br>

### Cel projektu <br> <a name="W"></a>
Nadrzędnym celem projektu jest opracowanie teoretyczne narzędzi do analizy NLP.
<br>
<br>
<br>

### NLP - Przetwarzanie języka Naturalnego <a name="OP"></a>

NLP (z ang. Natural Leanguage Processing) jest to interdyscyplinarna dziedzina, oparta na podstawach sztucznej inteligencji i językoznawstwa.
Zajmuje się automatyzacją analizy, rozumienia, tłumaczenia i generowania języka naturalnego przez komputer.  Istnieją dwa fundamentalne kierunki przepływu informacji w NLP, które stanowią główną problematykę tej dziedziny . System, który zawiera informacje zapisane w bazie danych w sposób techniczny i zrozumiały wyłącznie dla osób zaznajomionych z sposobem zapisu przekształca się w informacje przedstawione w sposób zrozumiały dla wszystkich osób posługujących się danym językiem. Zaś system, który rozumie język naturalny modyfikuje go na formalne symbole możliwe do przetworzenia przez system komputerowy. W konsekwencji problematyka NLP dotyczy zarówno generacji i rozumienia języka.
<br>
<br>
<b>Problemy stojące przed NLP:</b> 
<br>
Ze względu na niezwykłe rozbudowanie i skomplikowanie języka naturalnego można wyróżnić wiele problemów, z którymi wiąże się dziedzina NLP:
<ul>
<li> Segmentacja sygnału mowy</li>
<li> Segmentacja tekstu</li>
<li> Wieloznaczność słów</li>
<li> Syntaktyczna niejednoznaczność</li>
<li> Nieprawidłowe, bądź nieregularne dane</li>
<li> Akt mowy i plan</li>
</ul>
<b> Przykładowe zadania NLP:</b>
<ul>
<li> Automatyczna sumaryzacja – program umożliwiający streszczenie dłuższego tekstu w krótszy o tym samym przesłaniu i najważniejszych informacjach</li>
<li> Synteza mowy – operacja polegająca na przetwarzaniu języka na mowę</li>
<li> Korekcja tekstu – analiza tekstu i wykrywanie błędów</li>
<li> Rozpoznawanie mowy – operacja polegająca na przetwarzaniu mowy na tekst </li>
</ul>
<br>
<br>

### Metryki 

Metryki są nieodłączonym elementem uczenia maszynowego. Służa do oceny spełnienia oczekiwań stawianych przed problemem, do którego używana jest dana metryka.

### BLEU

<b><font color='red'>B</font>i<font color='red'>L</font>ingual <font color='red'>E</font>valuation <font color='red'>U</font>nderstudy</b>
<br>
Ewaluacja służąca do mierzenia jakości modeli tłumaczenia maszynowego. Zadaniem tej metryki jest ocena jak dobrze model tłumaczy tekst pomiędzy językami. W przypadku tej metryki "jakość" rozumiana jest jako korelacja pomiędzy danymi wyjściowymi a tekstem ludzkim - im tłumaczenie bardziej zbliżone do tłumaczenia ludzkiego, tym jest uzawane za lepsze. BLEU jest jedną z pierwszych metryk, której udało się uzyskać wyniki zbliżone z ludzkim osądem. W konsekwencji stała się najbardziej popularną metodą, pomimo pewnych wad.

<b>Działanie:</b><br>
Założeniem BLEU jest ocena dużych korposów. Nie znajduje zastosowania do oceny pojedynczych zdań. Algorytm porównuje n-gram tłumaczenia kandydata z n-gramem tłumaczenie wzorcowego w celu policzenia liczby wystąpień (miejsce wystąpienia nie ma znaczenia). Im większa liczba wystąpień n-gramu pomiędzy kandydatem i wzorcem tym tłumaczenie jest uznawane za lepsze. Wynikiem tej metryki jest liczba z zakresu 0-1. Metryka BLEU uwzględnia również różnice w długości pomiędzy tłumaczeniem wzorcowym, a kandydowanym za pomocą współczynnika BP.<br>
Dla c > r lub c = r:
$$
  BP = 1 
$$
Dla c < r:
$$
  BP = e^{1-\frac{r}{c}}
$$
r - liczba słów w wzorcowym tłumaczeniu<br>
c - liczba słów w kandydowanym tłumaczeniu<br>

Końcowa wartość metryki jest równa:
$$
  BLUE = BP * exp( \sum \limits_{n=1} ^{N} w_{n} log (p_{n}))
$$
N - liczba rozważanym n-gramów<br>
wn - waga danego n-gramu<br>
pn - stosunek wystąpień danego n-gramu do wszystkich n-gramów<br>
<br>
Problemy metryki:
* Udowodniono, że wzrost wartości BLEU nie musi mieć przełożenia na wzrost jakości tłumaczenia
* Istnieją przypadki, że wyniki BLEU znacząco odbiegają od ludzkiej oceny
* W przypadku użycia metryki BLEU do porównywania dwóch systemów oba systemy powinny być podobne

Import potrzebnych pakietów:

In [None]:
# Wzorcowa wartość BLEU:
import nltk.translate.bleu_score as bleu
# Wyrażenia regularne do wyszukiwania słów w tekście:
import re
# Obliczenia:
import math

Analizowane dane:

In [43]:
# Wagi przypisane do poszczególnych n-gramów:
# [Uwaga] Przypisanie 0 do wagi oznacza wykluczenie danego n-gramu z analizy
weights = (0.25, 0.25)

# Tłumaczenia referencyjne
references = [
            'It is guide to action that ensures that the miliatry will forever heed Party commands'.split(), 
            'It is the guide principle which guarantees the miliatry forces always being under the command of the Party'.split()
            ]

# Tłumaczenie kandydujące
candidate = 'It is a guide to action which ensures that the miliatry always obeys the commands of the party'.split()

Potwierdzenie danych:

In [50]:
# Ilość analizowanych n-gramów
n = getNumberOfnGram(weights)
print("{0:<50}".format("Liczba rozpatrywanych n-gramów: ") + str(n))

# Liczba referencji
refNmb = len(references)
print("{0:<50}".format("Liczba tłumaczeń referencyjnych (wzorcowych): ") + str(refNmb))

# Maksymalna długość kandydata/wzorca
max_size = getMaxLengthOflist(references)
print("{0:<50}".format("Maksymalna długość kandydata: ") + str(max_size))

# Unikalne słowa kandydata 
print("{0:<50}".format("Tłumaczenie kandydujące: ") + str(candidate))
unique_candidate = makeUniqueList(candidate)
print("{0:<50}".format("Tłumaczenie kandydujące bez powtórzeń: ") + str(unique_candidate))

Liczba rozpatrywanych n-gramów:                   2
Liczba tłumaczeń referencyjnych (wzorcowych):     2
Maksymalna długość kandydata:                     18
Tłumaczenie kandydujące:                          ['It', 'is', 'a', 'guide', 'to', 'action', 'which', 'ensures', 'that', 'the', 'miliatry', 'always', 'obeys', 'the', 'commands', 'of', 'the', 'party']
Tłumaczenie kandydujące bez powtórzeń:            ['It', 'is', 'a', 'guide', 'to', 'action', 'which', 'ensures', 'that', 'the', 'miliatry', 'always', 'obeys', 'commands', 'of', 'party']


Obliczenie wzorcowego BLEU:

In [51]:
print("Wzorcowe BLEU Score: ", bleu.sentence_bleu(references, candidate, weights))

Wzorcowe BLEU Score:  0.7653621274462215


Funkcje pomocnicze:

In [52]:
# Definiuje liczbę rozpatrywanych n-gramów zależnie od przypisanych wag
def getNumberOfnGram(weights):
    n = len(weights)
    result = 0
    for i in range(1, n):
        if( weights[i - 1] == 0 ):
            break
        else:
            result = i
    return result + 1

# Zwraca liczbę wystąpień pattern w text - wyrażenia regularne
def getNumberOfOccurance(pattern, text):
    # "pattern"
    number = re.findall("^" + pattern + "$", text)
    # "pattern "
    number = number + re.findall("^" + pattern + " ", text)
    # " pattern "
    number = number + re.findall(" " + pattern + " ", text)
    # " pattern"
    number = number + re.findall(" " + pattern + "$", text)
    return len(number)

# Tworzy z inputList listę bez duplikatów
def makeUniqueList(inputList):
    unique_list = []
    for element in inputList:
        if element not in unique_list:
            unique_list.append(element)
    return unique_list

# Zwraca z długość najdłuższej listy z listy
def getMaxLengthOflist(inputList):
    size = len (candidate)
    for element in inputList:
        if(size < len(element)):
            size = len(element)
    return size

# Oblicz karę za niedopasowanie długości
def lengthPenalty(refLength, canLength):
    result = math.exp(1-refLength/canLength)
    return result

# Oblicz końcową wartość wyniku i wyświetla na ekran
def calculateResult(listOfResults, listOfNmbOfGrams, bp):
    if(len(listOfResults) == len (listOfNmbOfGrams)):
        sumOfLog = 0
        print("\nBLUE = " + "{:.3f}".format(bp) + " exp( ", end ='')
        
        for con in range(0, len(listOfResults)):
            print( " ln( " + str(listOfResults[con]) + "/" + str(listOfNmbOfGrams[con]) + " )",end='')
            if(con != len(listOfResults) - 1):
                print(" +", end = '')
                
            sumOfLog = sumOfLog + weights[con] * math.log(listOfResults[con]/listOfNmbOfGrams[con])
        print(" ) = " + str(bp * math.exp(sumOfLog)))

Główna funkcja:

In [53]:
# Zmienne pomocnicze
counter = 1
tabs = '\t\t\t\t'
listOfnmbOfGrams = []
listOfResult = []

print("n-GRAM" + tabs + "\t\t\tRef1" + "\tRef2" + "\tMax Ref Count" + "\tClip Count" + "\tContribution")
# Pętla po liczbie n (liczbie rozpatrywanych n-gramów)
for ngram in range(1, n + 1):
    
    # Suma wszystkich clipCount jednego n-gramu
    sumClipCount = 0
    # Liczba n-gramów:
    if(ngram > 1):
        unique_candidate = candidate
    nmbOfGrams = len(unique_candidate) - ngram + 1
    
    # Pętla po liczbie n-gramów zależna od rozpatrywanego n-gramu
    for idOfPattern in range(0, nmbOfGrams):
        
        gram = unique_candidate[idOfPattern]
        # Pętla po liczbie słów do dodania aby otrzymać n-gram
        for idToAdd in range(1, ngram):
            gram = gram + ' ' + unique_candidate[idOfPattern + idToAdd]
        
        #Wypisanie początku wiersza tabeli
        print("{0:<30}".format(str(counter) + ")" + gram), end='')
        print(tabs, end='')
        
        #Zmienne dla konkretnego n-gramu:
        counter = counter + 1
        maxRefCount = 0
        count = 0
        candidateWithoSpace = ' '.join(map(str, candidate))
        count = getNumberOfOccurance(gram, candidateWithoSpace)
        
        # Sprawdzanie wystąpień n-gramu w referencjach
        for reference in references:
            referenceWithSpace = ' '.join(map(str, reference))
            # Sprawdzenie wystąpienia konkretnego n-gramu w danej referencji
            if(gram in referenceWithSpace):
                gramOccurrances = getNumberOfOccurance(gram, referenceWithSpace)
                print(str(gramOccurrances) + '\t', end='')
                maxRefCount = max(maxRefCount, gramOccurrances)
            else:
                print("0" + '\t', end='')
        
        # Obliczanie wartości sumClipCount
        sumClipCount = sumClipCount + min(maxRefCount, count)
        
        #Wypisywanie maxRefCount i Coun
        if(idOfPattern != nmbOfGrams - 1):
            print(str(maxRefCount) + '\t' + str(count) + '\t' + str(min(maxRefCount, count)))
        else:
            print(str(maxRefCount) + '\t' + str(count) + '\t' + str(min(maxRefCount, count)), end ='')
    
    #Zapisanie wkładu danego n-gramu do oceny
    listOfnmbOfGrams.append(nmbOfGrams)
    listOfResult.append(sumClipCount)
    print("\t\t" + str(sumClipCount) + "\\" + str(nmbOfGrams) + "\n")


# Kara stratności:
refLength = max_size
print("\nDługość tłumaczenia wzorcowego: " + str(refLength))
canLength = len(candidate)
print("Długość tłumaczenia kandydującego: " + str(canLength))
bp = lengthPenalty(refLength, canLength)

print("BP: " + str(bp))
calculateResult(listOfResult, listOfnmbOfGrams, bp)

n-GRAM							Ref1	Ref2	Max Ref Count	Clip Count	Contribution
1)It                          				1	1	1	1	1
2)is                          				1	1	1	1	1
3)a                           				0	0	0	1	0
4)guide                       				1	1	1	1	1
5)to                          				1	0	1	1	1
6)action                      				1	0	1	1	1
7)which                       				0	1	1	1	1
8)ensures                     				1	0	1	1	1
9)that                        				2	0	2	1	1
10)the                        				1	4	4	3	3
11)miliatry                   				1	1	1	1	1
12)always                     				0	1	1	1	1
13)obeys                      				0	0	0	1	0
14)commands                   				1	0	1	1	1
15)of                         				0	1	1	1	1
16)party                      				0	0	0	1	0		15\16

17)It is                      				1	1	1	1	1
18)is a                       				0	0	0	1	0
19)a guide                    				0	0	0	1	0
20)guide to                   				1	0	1	1	1
21)to action                  				1	0	1	1	1
22)acti

### METEOR

**Metric for Evaluation of Translation with Explicit ORdering**

Metryka używana do oceny tłumaczenia maszynowego. Operta na średniej harmonicznej n-gramów precyzji i pokrycia z przyznaniem większej wagi dla pokrycia. Cechą charakterystyczną tej metryki jest dopasowywanie synonimów - akceptowanie wyrazów o podobnym znaczeniu. Powodem powstania tej metryki jest próba wyeliminowania błędów pojawiających się w metryce BLEU. Główna różnicą pomiędzy tymi metrykami jest poziom szukania korelacji. BLUE skupia się na poziomie całego korpusy, natomiast METEOR na poziomie zdań i segmentów.
<br><br>
**Działanie:**
METEOR w celu oszacowania jakości tłumaczenia maszynowego porównuje je z jednym/dwoma tłumaczeniami wzorcowymi. Wynik ewaluacji jest obliczany osobno dla każdego zdania w taki sposób, że każde zdanie z tłumaczenia maszynowego jest porównywane ze zdaniem z tłumaczenia wzorcowego, a następnie do dalszej analizy brana jest pod uwagę lepsza ocena. Metryka METEOR posługuje się dwoma modułami:
* Etap pierwszy: METEOR ALIGNER - tworzenie odwzorowania pomiędzymi tłumaczeniami
* Etap drugi: METEOR SCORER - obliczanie końcowego wyniku

Etap pierwszy:<br>
Etap pierwszy dzieli się na dwa zasadniczne kroki: zidentyfikowanie wszystkich odwzorowań pomiędzy tłumaczeniem ocenianym a wzorcowym i wyselekcjonowanie najlepszego odwzorowania. <br>

Identyfikacja odwzorowań: <br>
Odwzorowanień w metryce METEOR jest lista słów z tłumaczenia wzorcowego, które w jakiś spoób odpowiadają słowu z tłumaczenia maszynowego. Proces dopasowywania jest realizowany poprzez cztery moduły:
* exact - dopasowanie słów identycznych
* stem - dopasowanie słów o identycznym rdzeniu
* synonym - dopasowanie słów bliskoznacznych według bazy WorldNet
* paraphrase - dopasowanie fraz wymienionych jako parafrazy w tabeli parafrazowej

Przykład: <br>
Tłumaczenie maszynowe (T): Chłopak bajkę opowiadał bez ogródek <br>
Tłumaczenie wzorcowe (T): Chłopczyk opowiada historię bez owijania w bawełnę <br>

<p align="center">
  <img src="METEOR_schemat.png"/>
</p>

Wyselekcjonowanie najlepszego odwzorowania:
Krok ten polega na znalezieniu największego podzbioru dopasowań wśród dopasowań znalezionych w pierwszym etapie i spełniających kryteria:
* Każde słowo może należeć tylko do jednego dopasowania
* Dopasowywana jest możliwie największa liczba słów w obu tłumaczeniach
* W wyniku wybranych dopasowań występuje możliwie najmniejsza liczba fraz przylegających do siebie i występujących w tej samej kolejności w obu tłumaczeniach
* Pomiędzy pozycjami startowymi dopasowań wystąpi jak najmniejsza suma odstępów - faworyzowanie dopasowań na podobnych pozycjach w obu tłumaczeniach

Najlepsze dopasowanie:
<p align="center">
  <img src="METEOR_schemat2.png"/>
</p>

Etap drugi:<br>
Celem etapu drugiego jest obliczenie wyniku końcowego metryki na podstawie wyniku pierwszego etapu. Końcowy wynik oparty jest na kilku wartościach:
* Precyzja<br>
Stosunek dopasowań wyrazów w ocenianym tłumaczeniu do wszystkich wyrazów tłumaczenia.
$$
  P = \frac{\sum \limits_{i=1} ^{n} w_{i} * m_{i}(t)}{|t|}
$$
n - liczba modułów biorących udział w dopasowaniu<br>
wi - waga i-tego modułu<br>
mi(t) - liczb wyrazów dopasowanych przez i-ty moduł<br>
|t| - liczba wszystkich wyrazów w tłumaczeniu<br>

Przykład:
$$
  P = \frac{w_{exact} * m_{exact}(t) + w_{stem} * m_{stem}(t) + w_{synonym} * m_{synonym}(t) + w_{paraphrase} * m_{paraphrase}(t) }{6}
$$
<br>
$$
  P = \frac{w_{exact} * 1 + w_{stem} * 1 + w_{synonym} * 1 + w_{paraphrase} * 2 }{6}
$$
* Pokrycie <br>
Stosunek wyrazów w tłumaczeniu wzorcowym, które zostały dopasowane w tłumaczeniu maszynowym do wszystkich wyrazów tłumaczenia wzorcowego.
$$
  R = \frac{\sum \limits_{i=1} ^{n} w_{i} * m_{i}(r)}{|r|}
$$
mi(r) - liczba wyrazów dopasowanych w tłumaczeniu referencyjnym<br>
|r| - liczba wyrazów tłumaczenia wzorcowego <br>

Przykład:
$$
  P = \frac{w_{exact} * m_{exact}(r) + w_{stem} * m_{stem}(r) + w_{synonym} * m_{synonym}(r) + w_{paraphrase} * m_{paraphrase}(r) }{6}
$$
$$
  P = \frac{w_{exact} * 1 + w_{stem} * 1 + w_{synonym} * 1 + w_{paraphrase} * 2 }{6}
$$

BLEU:
* https://towardsdatascience.com/bleu-bilingual-evaluation-understudy-2b4eab9bcfd1
BLEU i METEOR:
* http://docplayer.pl/14218168-Ewaluacja-systemow-tlumaczenia-automatycznego.html