## Projekt Indywidualny

Autor: <b>Daniel Ślusarczyk</b>

Opiekun projektu: <b>mgr inż. Mateusz Bartosiewicz<b>

## Spis Treści:
1. [Cel projektu](#CP)
2. [NLP](#NLP)
3. [Potrzebne instalacje](#PI)
4. [Metryki](#M)
    1. [BLEU](#BLEU)
        1. [Opis](#BLEU_O)
        2. [Działanie](#BLEU_D)
        3. [Problemy](#BLEU_P)
    2. [METOR](#METEOR)
        1. [Opis](#METEOR_O)
        2. [Działanie](#METEOR_D)
        2. [Problemy](#METEOR_P)
    3. [ROUGE](#ROUGE)
        1. [Opis](#ROUGE_O)
        2. [ROUGE-N](#ROUGE_N)
            1. [Działanie](#ROUGE_N_D)
        3. [ROUGE-L](#ROUGE_L)
            1. [Działanie](#ROUGE_L_D)
        3. [Problemy](#ROUGE_P)
    4. [WMD](#WMD)
        1. [Opis](#WMD_O)
        2. [Działanie](#WMD_D)
        3. [Problemy](#WMD_P)
    5. [CIDEr](#CIDER)
        1. [Opis](#CIDER_O)
        2. [Działanie](#CIDER_D)
        3. [CIDEr-D](#CIDER_D_D)
5. [Sposoby porównywania tesktów](#SPT)
6. [Embeddings dla NLP](#EDN)
7. [Zbiór COCO](#ZC)
8. [Serwer ewauacyjny COCO](#SEC)
9. [Źródła](#SOURCE)
<br>
<br>
<br>

<a name="CP"></a>
### Cel projektu
<p style='text-align: justify;'>
Celem projektu jest opracowanie teoretyczne narzędzi do analizy NLP. Projekt zakłada prezentację działania poszczególnych metryk i zagadnień związanych z ewaluacją napisów. Poruszanym aspektem są również opracowane narzędzia do ewaluacji i sposoby ich używania.
</p>

### Potrzebne instalacje
<a name="PI"></a>
<p style='text-align: justify;'>
W celu wizualizacji sposobu działania niektórych metryk niezbędna jest instalacja dodatkowych pakietów, które nie są dostępne w standardowym języku Pythonie. Niezainstalowanie tych pakietów wiąże się z niewłaściwym działaniem kodu znajdującego się w poniższych punktach.
</p>

Niezbędne instalacje:
* Metryka ROUGE - Python rouge library

In [None]:
# Pakiety do liczenia wzorcowego ROUGE
import sys
!{sys.executable} -m pip install rouge

* Metryka WMD - NTLK

In [5]:
# Pakiety do usuwania "przerywników"
from nltk.corpus import stopwords
from nltk import download
download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\danie\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

<a id ="NLP"></a>
### NLP - Przetwarzanie Języka Naturalnego

<p style='text-align: justify;'>
NLP (z ang. Natural Leanguage Processing) jest to interdyscyplinarna dziedzina, oparta na podstawach sztucznej inteligencji i językoznawstwa.
Zajmuje się automatyzacją analizy, rozumienia, tłumaczenia i generowania języka naturalnego przez komputer.  Istnieją dwa fundamentalne kierunki przepływu informacji w NLP, które stanowią główną problematykę tej dziedziny . System, który zawiera informacje zapisane w bazie danych w sposób techniczny i zrozumiały wyłącznie dla osób zaznajomionych ze sposobem zapisu przekształca się w informacje przedstawione w sposób zrozumiały dla wszystkich osób posługujących się danym językiem. Z drugiej strony system, który rozumie język naturalny modyfikuje go na formalne symbole możliwe do przetworzenia przez system komputerowy. W konsekwencji problematyka NLP dotyczy zarówno generacji i rozumienia języka.
</p>
<br>
<b>Problemy stojące przed NLP:</b> 
<br>
Ze względu na niezwykłe rozbudowanie i skomplikowanie języka naturalnego można wyróżnić wiele problemów, z którymi wiąże się dziedzina NLP:
<ul>
<li> Segmentacja sygnału mowy - stwierdzenie występowania w sygnale mowy przerwy pomiędzy kolejnymi znakami jest skomplikowanym zadaniem ze względu na wpływ szybkości mowy, semantyki i gramatyki charakterystycznej dla danego języka. </li>
<li> Segmentacja tekstu - istnieją języki, w których nie istnieją wyraźne granice pomiędzy wyrazami. </li>
<li> Wieloznaczność słów - znaczenie danego słowa może wymagać rozpatrywania go w kontekście większej ilości słów. Zadaniem NLP jest określenie takiego znaczenia. </li>
<li> Syntaktyczna niejednoznaczność - analiza języka naturalnego może prowadzić do gramatycznej dwuznaczności. NLP odpowiada za rozpatrzenie danego fragmentu w kontekście i stwierdzenie poprawnej wersji. </li>
<li> Nieprawidłowe i nieregularne dane - wykrywanie literówek i niepoprawnej składni w tekście pisanym lub błednej wymowy, regionalizmów, akcentów w sygnale mowy. </li>
<li> Akt mowy i plan - analiza sytuacji, w której występuje związek pomiędzy czynnością, a mową. </li>
</ul>
<b> Przykładowe zadania NLP:</b>
<ul>
<li> Automatyczna sumaryzacja – program umożliwiający streszczenie dłuższego tekstu w krótszy o tym samym przesłaniu i najważniejszych informacjach</li>
<li> Synteza mowy – operacja polegająca na przetwarzaniu języka na mowę</li>
<li> Korekcja tekstu – analiza tekstu i wykrywanie błędów</li>
<li> Rozpoznawanie mowy – operacja polegająca na przetwarzaniu mowy na tekst </li>
</ul>
<br>

## Metryki 
<a class="anchor" id ="M"></a>

<p style='text-align: justify;'>
Wzmożony rozwój NLP skutkuje zwiększoną potrzebą oceny jakosci powstających systemów automatycznego przetwarzania języka naturalnego. Metryki są nieodłączonym elementem uczenia maszynowego. Służą do oceny spełnienia oczekiwań stawianych przed rozwiązaniem problememu, do którego używany jest ewaluowany system.
</p>

### BLEU
<a class="anchor" id ="BLEU"></a>

<b><font color='red'>B</font>i<font color='red'>L</font>ingual <font color='red'>E</font>valuation <font color='red'>U</font>nderstudy</b>
<a class="anchor" id ="BLEU_O"></a>
<br>
<p style='text-align: justify;'>
Ewaluacja służąca do mierzenia jakości modeli tłumaczenia maszynowego kierująca się zasadą "im bliższe tłumaczenie automatyczne i profesjonalne ludzkie tłumaczenie, tym lepiej". Zadaniem tej metryki jest ocena jak dobrze model tłumaczy tekst pomiędzy językami. W przypadku tej metryki "jakość" rozumiana jest jako korelacja pomiędzy danymi wyjściowymi a tekstem ludzkim. Został przedstawiony w 2002 roku i opisany w raporcie firmy IBM. BLEU jest jedną z pierwszych metryk, której udało się uzyskać wyniki zbliżone z ludzkim osądem. W konsekwencji stała się najbardziej popularną metodą, pomimo pewnych wad.
</p>

<b>Działanie</b><br>
<a id ="BLEU_D"></a>
<p style='text-align: justify;'>
Działanie metryki zostanie przedstawione na podstawie kodu, który krok po kroku przeprowadza potrzebne operacje w celu obliczenia wartości metryki. Prezentowany kod ma charakter prezentacyjny i wizualizuje wiele informacji w celu łatwiejszego zrozumienia działania metryki. Wynik uzyskany przez kod jest możliwy do porównania ze wzorcowym wynikiem.
</p>

Import potrzebnych pakietów: <br>
<p style='text-align: justify;'>
Pakiet "nltk.translate.bleu_score" importowany jako alias "bleu" służy do uzyskania wzorcowego wyniku na końcu przykładu w celu porównania go z wynikiem uzyskanym przez
kod.
</p>

In [9]:
# Wzorcowa wartość BLEU:
import nltk.translate.bleu_score as bleu

Analizowane dane: <br>
<p style='text-align: justify;'>
Metryka BLEU opiera działanie na porównywaniu n-gramów tłumaczenia kandydata z n-gramami tłumaczeń wzorcowych (miejsce wystąpienia analizowanego n-gramu w tłumaczeniu kandydatującym i wzorcu nie ma znaczenia). Im większa liczba wspólnych n-gramów pomiędzy kandydatem i wzorcem tym tłumaczenie jest uznawane za lepsze. Metryka BLEU pozwala na dostosowanie wag poszczególnych n-gramów i przypisanie większej wartości n-gramom, które powinny być szczególnie uwzględniane. Wartość listy <b>weights</b> służy do podania wag dla poszczególnych n-gramów. Podanie wartości 0 jest jednoznaczne z wyzerowaniem wpływu danego n-gramu na wynik końcowy. Niepodanie żadnej wartości pozwala całkowicie wykluczyć ostatnie n-gramy z analizy. Lista <b>references</b> służy do podania wzorcowych tłumaczeń dla danego tłumaczenia kandydującego <b>candidate</b>. Sposób prawidłowego wpisania tych danych jest przedstawiony poniżej.<br>
</p>
Przykłady: <br>
weights = (0.25) - uwzględnienie w obliczeniach jedynie unigramów <br>
weights = (0, 0, 0.25) - uwzględnienie w wyniku jedynie trigramów. Przeprowadzenie analizy dla unigramów, bigramów i trigramów <br>
weights = (0.2, 0.3, 0.4, 0.5) - uwzględnienie w obliczeniach od unigramu do 4-gramu z przypisaniem kolejno wag: 0.2, 0.3, 0.4, 0.5 <br>
references = ['Recepcjonista poinformował o zamknięciu hotelu'.split(), 'Pracownik recepcji poinformował o zamknięciu hotelu'.split()] - zdefiniowanie dwóch tłumaczeń wzorcowych dla tłumaczenia kandydującego <br>
references = ['Recepcjonista poinformował o zamknięciu hotelu'.split()] - zdefiniowanie jednego tłumaczenia wzorcowego dla tłumaczenia kandydującego <br>
candidate = 'Pan pracujący na recepecji udzielił informacji o zamknięciu hotelu'.split() - zdefiniowanie ocenianego tłumaczenia (kandydata) 

In [3]:
from functions.BLEU_functions import *
# Wagi przypisane do poszczególnych n-gramów:
weights = [0.25, 0.25]

# Tłumaczenia referencyjne
references = [
            'It is a guide to action which ensures that the miliatry always obeys the commands of the party',
            'It is a guide to action which ensures that the miliatry always obeys the commands of the party',
            'It is a guide to action which ensures that the miliatry always obeys the commands of the party'
            ]
references = splitList(references)

# Tłumaczenie kandydujące
candidate = 'It is a guide to action which ensures that the miliatry always obeys the commands of the party'
candidate = candidate.split()

Potwierdzenie danych: <br>
Wykonanie poniższego kodu pozwala na potwierdzenie poprawności wprowadzonych danych. 

In [4]:
# Ilość analizowanych n-gramów
n = getNumberOfnGram(weights)
print("{0:<50}".format("Liczba rozpatrywanych n-gramów: ") + str(n))

# Liczba referencji
refNmb = len(references)
print("{0:<50}".format("Liczba tłumaczeń referencyjnych (wzorcowych): ") + str(refNmb))

# Maksymalna długość wzorca
refMaxLength = getMaxLengthOflist(references)
print("{0:<50}".format("Maksymalna długość wzorca: ") + str(refMaxLength))

# Długość kandydata
canLength = len(candidate)
print("{0:<50}".format("Maksymalna długość kandydata: ") + str(canLength))

# Unikalne słowa kandydata 
print("{0:<50}".format("Tłumaczenie kandydujące: ") + str(candidate))
unique_candidate = makeUniqueList(candidate)
print("{0:<50}".format("Tłumaczenie kandydujące bez powtórzeń: ") + str(unique_candidate))

Liczba rozpatrywanych n-gramów:                   2
Liczba tłumaczeń referencyjnych (wzorcowych):     3
Maksymalna długość wzorca:                        18
Maksymalna długość kandydata:                     18
Tłumaczenie kandydujące:                          ['It', 'is', 'a', 'guide', 'to', 'action', 'which', 'ensures', 'that', 'the', 'miliatry', 'always', 'obeys', 'the', 'commands', 'of', 'the', 'party']
Tłumaczenie kandydujące bez powtórzeń:            ['It', 'is', 'a', 'guide', 'to', 'action', 'which', 'ensures', 'that', 'the', 'miliatry', 'always', 'obeys', 'commands', 'of', 'party']


Wizuliacja i obliczenia BLEU: <br>
<p style='text-align: justify;'>
Obliczenie końcowej wartości metryki wymaga przeanalizowania podanej liczby n-gramów. Poszczególne, analizowane n-gramy utworzone z tłumaczenia ocenianego zawiera pierwsza kolumna tabeli oznaczona jako <b>n-GRAM</b> (warto zauważyć, że ilość unigramów może być mniejsza od bigramów, ponieważ ewaluowane tłumaczenie może zawierać powtarzające się słowa). Każdy n-gram jest wyszukiwany w tłumaczeniach referencyjnych. Kolumna <b>Ref</b> z numerem tłumaczenia zawiera informacje ile razy dany n-gram wystąpił w tym tłumaczeniu. Następująca kolumna <b>Max Ref</b> jest maksymalną liczbą wystąpień wśród wszystkich tłumaczeniach wzorcowych. Kolumna <b>Count</b> zawiera informacje o ilości wystąpień n-gramu w tłumaczeniu ocenianym, a kolumna <b>Clip Count</b> przechowuje minimalną wartość z Count i Max Ref. Najwiażniejsza kolumna <b>Contribution</b> wskazuje "wkład" danej grupy n-gramów do wyniku końcowego. Jest to stosunek sumy kolumny Clip Count do liczebności danej grupy n-gramów (uwzględniając powtórzenia). Wprowadzony mechanizm obliczania wartości w kolumnie Clip Count jest zmodyfikowaną precyzją n-gramu i pozwala na uniknięcie sytujacji, w której tłumaczenie otrzymuje nienaturalnie dużą wartość metryki poprzez podanie w tłumaczeniu kandydującym powtarzającego się słowa z tłumaczenia referencyjnego. 
<br>
Przykładowo dla tłumaczeń wzorcowych: "the cat is on the mat" i "there is a cat on the mat" oraz tłumaczenia ocenianego "the the the the the the the" wkład unigramu "the" wynosi 2/7 zamiast 7/7.
</p>

In [5]:
printTable(n, refNmb, candidate, references, canLength)

n-GRAM							Ref1	Ref2	Ref3	Max Ref Count	Clip Count	Contribution
1)  It                  				1	1	1	1	1	1
2)  is                  				1	1	1	1	1	1
3)  a                   				1	1	1	1	1	1
4)  guide               				1	1	1	1	1	1
5)  to                  				1	1	1	1	1	1
6)  action              				1	1	1	1	1	1
7)  which               				1	1	1	1	1	1
8)  ensures             				1	1	1	1	1	1
9)  that                				1	1	1	1	1	1
10) the                 				3	3	3	3	3	3
11) miliatry            				1	1	1	1	1	1
12) always              				1	1	1	1	1	1
13) obeys               				1	1	1	1	1	1
14) commands            				1	1	1	1	1	1
15) of                  				1	1	1	1	1	1
16) party               				1	1	1	1	1	1		18\18

1)  It is               				1	1	1	1	1	1
2)  is a                				1	1	1	1	1	1
3)  a guide             				1	1	1	1	1	1
4)  guide to            				1	1	1	1	1	1
5)  to action           				1	1	1	1	1	1
6)  action which        				1	1	1	1	1	1
7)  which ensures       				1	1	1	1	1	1
8)  en

Obliczenie kary za różnice długości: <br>
<p style='text-align: justify;'>
Metryka BLEU uwzględnia również różnice w długościach pomiędzy tłumaczeniem ocenianym, a referencyjnymi. Jest to przeprowadzane poprzez mnożenie metryki przez wartość <b>BP</b> (z ang. Brevity Penalty) liczoną zgodnie ze wzorem: <br>
</p>
Dla c > r lub c = r:
$$
  BP = 1 
$$
Dla c < r:
$$
  BP = e^{1-\frac{r}{c}}
$$
$r$ - liczba słów w wzorcowym tłumaczeniu<br>
$c$ - liczba słów w kandydowanym tłumaczeniu<br>
Otrzymana kara jest z przedziału 0 i 1.

In [6]:
# Kara stratności:
refLength = refMaxLength
print("\nMaksymalna długość tłumaczenia wzorcowego: " + str(refLength))
canLength = len(candidate)
print("Długość tłumaczenia kandydującego: " + str(canLength))
bp = lengthPenalty(refLength, canLength)
print("BP: " + str(bp))


Maksymalna długość tłumaczenia wzorcowego: 18
Długość tłumaczenia kandydującego: 18
BP: 1.0


Ostateczy wynik: <br>
Końcowa wartość metryki jest liczona zgodnie ze wzorem:
$$
  BLUE = BP * exp \Biggl ( \sum \limits_{n=1} ^{N} w_{n} log (p_{n}) \Biggr )
$$
$N$ - liczba rozważanym n-gramów (otrzymana na podstawie zadeklarowanych wag w liście "weights")<br>
$w_{n}$ - waga danego n-gramu (podana w liście "weights")<br>
$p_{n}$ - stosunek wystąpień danego n-gramu do wszystkich n-gramów (wartość odczytana z kolumny "Contribution" dla danego n-gramu)<br>
Końcowa wartość metryki powinna być z przedziału 0 i 1.

In [7]:
calculateResult(bp, weights)


BLUE [2] = 1.000 exp( 0.25 ln( 18/18 ) + 0.25 ln( 17/17 ) ) = 1.0


Obliczenie wzorcowego BLEU: <br>
Wartość metryki BLEU otrzymana przez gotowy pakiet.

In [10]:
print("Wzorcowe BLEU Score: ", bleu.sentence_bleu(references, candidate, weights))

Wzorcowe BLEU Score:  1.0


<b>Problemy metryki BLEU</b> <br>
<a class="anchor" id ="BLEU_P"></a>
Wiele badań potwierdziło korelację wartości metryki BLEU oceną ludzką. Zauważa się jednak pewne problemy tej metryki:
* Punkty dla słów posiadają taką samą wagę, więc zdania niekompletne nie są w żaden sposób niżej oceniane
* Synonimy i parafrazy są brane pod uwagę wyłącznie wtedy, gdy występują w zbiorze tłumaczeń referencyjnych
* Tłumaczenia otrzymujące podobne wartości metryki mogą uzyskać skrajne wartości w ocenie ludzkiej ze wględu na możliwości oszukania metryki (szczególnie wczesnych wersji metryki BLEU)
* Nie jest rozważana waga danych słów. W takim samym stopniu na wynik końcowy wpływa wystąpienie przyimków, jak zwrotów szczególnie ważnych dla tłumaczenia.
* W przypadku oparcia metryki BLEU na unigramach kolejność słów nie ma żadnego znaczenia.

### METEOR
<a id ="METEOR_O"></a>

**<font color='red'>M</font>etric for <font color='red'>E</font>valuation of <font color='red'>T</font>ranslation with <font color='red'>E</font>xplicit <font color='red'>OR</font>dering**

<p style='text-align: justify;'>
METEOR to metryka używana do oceny tłumaczenia maszynowego. Została opracowana i wydana w 2004 roku z przeznaczeniem osiągnięcia wysokiej korelacji z ludzkim osądem. Oparta jest na średniej harmonicznej n-gramów precyzji i pokrycia z przyznaniem większej wagi dla pokrycia. Cechą charakterystyczną tej metryki jest dopasowywanie synonimów - akceptowanie wyrazów o podobnym znaczeniu. Powodem powstania tej metryki jest próba wyeliminowania błędów pojawiających się w metryce BLEU. Główna różnicą pomiędzy tymi metrykami jest poziom szukania korelacji. BLUE skupia się na poziomie całego korpusu, natomiast METEOR na poziomie zdań i segmentów.
<\p>
<br><br>
<b>Działanie: </b> <br>
<a id ="METEOR_D"></a>
<p style='text-align: justify;'>
METEOR w celu oszacowania jakości tłumaczenia maszynowego porównuje je z jednym/dwoma tłumaczeniami wzorcowymi. Wynik ewaluacji jest obliczany osobno dla każdego zdania w taki sposób, że każde zdanie z tłumaczenia maszynowego jest porównywane ze zdaniem z tłumaczenia wzorcowego, a następnie do dalszej analizy brana jest pod uwagę lepsza ocena. 
<\p>
Metryka METEOR posługuje się dwoma etapami:

* Etap pierwszy: <br> METEOR ALIGNER - tworzenie odwzorowania pomiędzymi tłumaczeniami
* Etap drugi: <br> METEOR SCORER - obliczanie końcowego wyniku

    
Etap pierwszy:<br>
Etap pierwszy dzieli się na dwa zasadniczne kroki: zidentyfikowanie wszystkich odwzorowań pomiędzy tłumaczeniem ocenianym a wzorcowym i wyselekcjonowanie najlepszego odwzorowania. <br>

Identyfikacja odwzorowań: <br>
Odwzorowanień w metryce METEOR jest lista słów z tłumaczenia wzorcowego, które w jakiś spoób odpowiadają słowu z tłumaczenia maszynowego. Proces dopasowywania jest realizowany poprzez cztery moduły:
* exact - dopasowanie słów identycznych
* stem - dopasowanie słów o identycznym rdzeniu
* synonym - dopasowanie słów bliskoznacznych według bazy WorldNet
* paraphrase - dopasowanie fraz wymienionych jako parafrazy w tabeli parafrazowej

Przykład: <br>
Tłumaczenie maszynowe (T): Kot siedzi na ganku na złość <br>
Tłumaczenie wzorcowe (T): Kotek na przekór siedział na płocie <br>

<p align="center">
  <img src="teoria/METEOR_schemat.png"/>
</p>

Wyselekcjonowanie najlepszego odwzorowania:
Krok ten polega na znalezieniu największego podzbioru dopasowań wśród dopasowań znalezionych w pierwszym etapie i spełniających kryteria:
* Każde słowo może należeć tylko do jednego dopasowania
* Dopasowywana jest możliwie największa liczba słów w obu tłumaczeniach
* W wyniku wybranych dopasowań występuje możliwie najmniejsza liczba fraz przylegających do siebie i występujących w tej samej kolejności w obu tłumaczeniach
* Pomiędzy pozycjami startowymi dopasowań wystąpi jak najmniejsza suma odstępów - faworyzowanie dopasowań na podobnych pozycjach w obu tłumaczeniach

Najlepsze dopasowanie:
<p align="center">
  <img src="teoria/METEOR_schemat2.png"/>
</p>

Etap drugi:<br>
Celem etapu drugiego jest obliczenie wyniku końcowego metryki na podstawie wyniku pierwszego etapu. Końcowy wynik oparty jest na kilku wartościach:
* Precyzja<br>
Stosunek dopasowań wyrazów w ocenianym tłumaczeniu do wszystkich wyrazów tłumaczenia.
$$
  P = \frac{\sum \limits_{i=1} ^{n} w_{i} * m_{i}(t)}{|t|}
$$
$n$ - liczba modułów biorących udział w dopasowaniu<br>
$w_{i}$ - waga i-tego modułu<br>
$m_{i}(t)$ - liczb wyrazów dopasowanych przez i-ty moduł<br>
$|t|$ - liczba wszystkich wyrazów w tłumaczeniu<br>

Przykład:
$$
  P = \frac{w_{exact} * m_{exact}(t) + w_{stem} * m_{stem}(t) + w_{synonym} * m_{synonym}(t) + w_{paraphrase} * m_{paraphrase}(t) }{6}
$$
<br>
$$
  P = \frac{w_{exact} * 1 + w_{stem} * 1 + w_{synonym} * 1 + w_{paraphrase} * 2 }{6}
$$
* Pokrycie <br>
Stosunek wyrazów w tłumaczeniu wzorcowym, które zostały dopasowane w tłumaczeniu maszynowym do wszystkich wyrazów tłumaczenia wzorcowego.
$$
  R = \frac{\sum \limits_{i=1} ^{n} w_{i} * m_{i}(r)}{|r|}
$$
$m_{i}(r)$ - liczba wyrazów dopasowanych w tłumaczeniu referencyjnym<br>
$|r|$ - liczba wyrazów tłumaczenia wzorcowego <br>

Przykład:
$$
  P = \frac{w_{exact} * m_{exact}(r) + w_{stem} * m_{stem}(r) + w_{synonym} * m_{synonym}(r) + w_{paraphrase} * m_{paraphrase}(r) }{6}
$$
$$
  P = \frac{w_{exact} * 1 + w_{stem} * 1 + w_{synonym} * 1 + w_{paraphrase} * 2 }{6}
$$

<p style='text-align: justify;'>
W przeciwieństwiem do BLEU, METEOR korzysta nie tylko z miary precyzji (Precision), ale również Recall, która została potwierdzona przez inne metryki jako znacząca dla korelacji z ludzkim osądem. METEOR rozwiązuje również problem różnorodności tłumaczeń referencyjnych wykorzystując bardziej elastyczne dopasowanie słów, co pozwala na dopasowanie odpowiedników dla danych wariantów. Dodatkowo, składniki metryki METOR są sparametryzowane. Daje to możliwość dopasowania optymalnych parametrów dla danego języka, który może przywiązywać inną wartość do różnych części zdania.
<p>

<a id ="METEOR_P"></a>
<b>Problemy metryki METEOR</b>

Wiele problemów metryki BLEU rozwiązuje metryka METEOR, więc można powiedzieć, że udaje jej się osiągnąć swój cel. Niemniej jednak istnieją pewne wady tej metryki:
* Dużo większe skomplikowanie liczenia metryki
* Jakość tłumaczenia zależy od baz danych, które zostają użyte do ewaluacji - im lepsza baza danych, tym bardziej zaufana wartość metryki.

### ROUGE

**<font color='red'>R</font>ecall-<font color='red'>O</font>riented <font color='red'>U</font>nderstudy for <font color='red'>G</font>isting <font color='red'>E</font>valuation**
<a id ="ROGUE_O"></a>

<p style='text-align: justify;'>
ROUGE to zbiór metryk używanych do oceny automatycznego streszczania plików i tłumaczenia maszynowego. Jest to bardzo prosta teoretycznie metryka posługująca się podczas swojego działania miarami: "Recall", "Precision" i "F1 Score". 
</p>

Niemniej jednak, istnieje kilka różnych odmian metryki ROUGE:

* ROUGE-N: Analizuje wystąpujące n-gramy pomiędzy danymi referencyjnymi i ocenianym modelem
* ROUGE-L: Posługuje się najdłuższym wspólnym podciągiem pomiędzy danymi referencyjnymi i wzorcem
* ROUGE-W: Posługuje się najdłuższym wspólnym podciągiem i wagami.

Do najważniejszych z nich należy ROUGE-N i ROUGE-L.

<b> ROUGE-N </b> </br>
<a id ="ROUGE_N"></a>
<p style='text-align: justify;'>
Jest to jedna z podstawowych metryk zbioru metryk ROUGE. W swoim działaniu opiera się na mierzeniu licbzy pasujących n-gramu pomiedzy modelem (kandydatem), a danymi referencyjnymi (wzorcem). ROUGE-N może być rozpatrywany dla różnej, naturalnej wartości N. Jednakże, ROUGE-1, ROUGE-2 i ROUGE-3 to najczęściej spotykane szczególne przypadki metryki ROUGE-N. W praktyce oznacza to metryki ROUGE-N zorientowane kolejno na unigramach, bigramach i trigramach.
</p>
<b> Działanie: </b> </br>
<a id ="ROUGE_N_D"></a>
Metryka ROUGE-N posługuje się podczas działania miarami "Recall", "Precison" i "F1 Score" definiując ich wartości następująco:

<h5>Recall</h5>
<p style='text-align: justify;'>
Miara Recall to stosunek liczby wspólnych n-gramów występujących pomiędzy wzorcem i kandydatem do liczby wszystkich n-gramów we wzorcu. Miara ta jest najczęściej liczona w oparciu o różne wartości naturalne n. 
</p>
Przykładowo:

In [8]:
# Rozpatrywany N-gram
ngram = 1

# Tłumaczenie referencyjne
reference = 'the fox jumps'
reference = reference.split()

# Tłumaczenie kandydujące
candidate = 'the hello a cat dog fox jumps'
candidate = candidate.split()

In [11]:
from functions.ROUGE_functions import *

In [10]:
print("Miara recall: ", calculateRecall(ngram, reference, candidate))

1)  the                 				1
2)  fox                 				1
3)  jumps               				1
Miara recall:  1.0


<h5>Precision</h5>
<p style='text-align: justify;'>
Miare Precision jest miarą pozbawioną poważnej wady miary Recall, której wartość można zaburzyć poprzez wstawienie w miejsce modelu całego zbioru n-gramów. Takie podejście zagwarantuje, że każdy n-gram zostanie odnaleziony, a miara Recall zawsze będzie wynosić 1. W celu naprawy tego problemu Precision jest stosunekiem liczby wspólnych n-gramów występujących pomiędzy wzorcem i kandydatem do liczby n-gramów w kandydacie. Taka zmiana gwarantuje, że próba oszukania miary poprzez wstawienie wszystkich możliwości do badanego modelu spowoduje bardzo niskie wartości miary.
</p>
Przykładowo:

In [130]:
# Wyrażenia regularne do wyszukiwania słów w tekście:
import re

# Rozpatrywany N-gram
ngram = 1

# Tłumaczenie referencyjne
reference = 'the fox jumps'.split()

# Tłumaczenie kandydujące
candidate = 'the hello a cat dog fox jumps'
candidate = candidate.split()

In [131]:
# Definiuje liczbę rozpatrywanych n-gramów zależnie od przypisanych wag
def getNumberOfnGram(weights):
    n = len(weights)
    result = 0
    for i in range(1, n):
        if( weights[i - 1] == 0 ):
            break
        else:
            result = i
    return result + 1

# Zwraca liczbę wystąpień pattern w text - wyrażenia regularne
def getNumberOfOccurance(pattern, text):
    # "pattern"
    number = re.findall("^" + pattern + "$", text)
    # "pattern "
    number = number + re.findall("^" + pattern + " ", text)
    # " pattern "
    number = number + re.findall(" " + pattern + " ", text)
    # " pattern"
    number = number + re.findall(" " + pattern + "$", text)
    if(len(number) > 0):
        return 1
    return 0

# Tworzy z inputList listę bez duplikatów
def makeUniqueList(inputList):
    unique_list = []
    for element in inputList:
        if element not in unique_list:
            unique_list.append(element)
    return unique_list

In [132]:
# Zmienne pomocnicze
unique_reference = makeUniqueList(reference)
tabs = '\t\t\t\t'
sumOfGram = 0

# Liczba n-gramów:
if(ngram > 1):
    unique_reference = reference
nmbOfGrams = len(unique_reference) - ngram + 1
counter = 1
    
# Pętla po liczbie n-gramów zależna od rozpatrywanego n-gramu
for idOfPattern in range(0, nmbOfGrams):
        
    gram = unique_reference[idOfPattern]
        
    # Pętla po liczbie słów do dodania aby otrzymać n-gram
    for idToAdd in range(1, ngram):
        gram = gram + ' ' + unique_reference[idOfPattern + idToAdd]
        
    #Wypisanie początku wiersza tabeli
    print("{0:<4}".format(str(counter)+ ")"), end='')
    print("{0:<20}".format(gram), end='')
    print(tabs, end='')
        
    #Zmienne dla konkretnego n-gramu:
    counter = counter + 1
    candidateWithSpace = ' '.join(map(str, candidate))
        
    # Sprawdzenie wystąpienia konkretnego n-gramu w referencji
    gramOccurrances = getNumberOfOccurance(gram, candidateWithSpace)
    sumOfGram = sumOfGram + gramOccurrances
    print(str(gramOccurrances))
        
precision = sumOfGram/(len(makeUniqueList(candidate)) - ngram + 1)

print("Miara precision: ", precision)

1)  the                 				1
2)  fox                 				1
3)  jumps               				1
Miara recall:  0.42857142857142855


<h5>F1 Score</h5>
<p style='text-align: justify;'>
Miara F1 Score jest połączenie miary "Recall" i "Precision" zgodnie ze wzorem:

$$
F1_{Score} = 2 * \frac{precision * recall}{precision + recall}
$$
Wartość miary F1 daje nam wiarygodną informacje o jakości naszego modelu, która jest uzależniona nie tylko od skuteczności naszego modelu, która można zawyżyć używając wszystkich przypadków (recall), ale uwzględnia również nieistone n-gramy.
</p>
Przykładowo:

In [133]:
F1 = 2 * (recall * precision)/(precision + recall)
print("Miara F1: ", F1)

Miara F1:  0.6


<b> ROUGE-L </b> </br>
<a id ="ROUGE_L"></a>
<p style='text-align: justify;'>
Jest to również jedna z bazowych metryk ROUGE. Jej działanie opiera się na najdłuższym wspólnym podciągu znalezionym pomiedzy modelem i referencją. Najdłuższy wspólny podciąg jest rozumiany jako najdłuższy podciąg znaków, który występuje w tej samej kolejności w dwóch porównywalnych łańcuchach znaków. Elementy podciągów nie muszą przy tym leżeć obok siebie.
</p>
<b> Działanie: </b> </br>
<a id ="ROUGE_L_D"></a>
<p style='text-align: justify;'>
ROUGE-L posługuje się najdłuższym wspólnym podciągiem obu wyrazów, ale w operując na poziomie całych słów. Długość NWP oznacza ilość pełnych słów w danym znalezionym podciągu, a nie, jak standardowo, ilość znaków w podciągu.
</p>
<h5>Najdłuższy wspólny podciąg na poziomie słów:</h5>

In [3]:
# Wyrażenia regularne do wyszukiwania słów w tekście:
import re

# Rozpatrywany N-gram
ngram = 1

# Tłumaczenie referencyjne
reference = 'the fox jumps'.split()

# Tłumaczenie kandydujące
candidate = 'the hello a cat dog fox jumps'.split()

In [7]:
# Funkcja zwracająca długość najdłuższego wspólnego podłańcucha
def longestCommonSubsequence(text1 , text2):
    m = len(text1)
    n = len(text2)
    matrix = [[0]*(n+1) for i in range(m+1)] 
    for i in range(m+1):
        for j in range(n+1):
            if i==0 or j==0:
                matrix[i][j] = 0
            elif text1[i-1] == text2[j-1]:
                matrix[i][j] = 1 + matrix[i-1][j-1]
            else:
                matrix[i][j] = max(matrix[i-1][j] , matrix[i][j-1])
    return matrix[-1][-1]

In [14]:
length = longestCommonSubsequence(candidate, reference)
print("Długość najdłuższego wspólnego podłańcucha: ", length)

Długość najdłuższego wspólnego podłańcucha:  3


Kolejnym krokiem po znalezieniu NWP jest obliczenie wartości metryki ROUGE-L zgodnie ze wzorami:
$$
Recall = \frac{l}{n}
$$
$l$ - długość NWP <br>
$n$ - ilość unigramów w referencji <br>

$$
Precision = \frac{l}{m}
$$
$l$ - długość NWP <br>
$m$ - ilość unigramów w kandydacie <br>

$$
F1_{Score} = 2 * \frac{precision * recall}{precision + recall}
$$

In [15]:
recall = length/len(reference)
print("Recall: " + str(recall))
precision = length/len(candidate)
print("Precision: " + str(precision))
f1 = 2 * (recall * precision)/(precision + recall)
print("F1 Score: " + str(f1))

Recall: 1.0
Precision: 0.42857142857142855
F1 Score: 0.6


<a id ="ROUGE_P"></a>
<b> Problemy metryki ROUGE </b>
<br>
Metryka ROUGE jest bardzo często używana, jednakże nie jest pozbawiona pewnych wad. Wśród nich wymienia się:
* metryka nie analizuje podobieństwa różnych słów o tym samym znaczeniu - mierzy dopasowania syntaktyczne, a nie semantykę. Dwa zdania o tym samym znaczeniu zapisane za pomocą różnych słów mogą mieć zaniżoną wartość metryki ze względu na użycie synonimów.
* metryka ROUGE nie znajduje zastosowania do ewaluacji streszczeń, ponieważ częstym zabiegiem w takich procesach jest zastępowanie dłuższych zwrotów krótszymi synonimami, które metryka ROUGE uzna za błąd. Ponadto metryka ta nie ocenia czytelności i płynności generowanych podsumowań.


<b>Python Rouge Library</b>
<br>
"Python rouge library" jest dodatkową biblioteką umożliwiająca liczenie wartości metryki ROUGE. Domyślnie wynik jest podawamy dla ROUGE-1, ROUGE-2 i ROUGE-L z podziałem na wartość:
* "r" - Recall, 
* "p" - Precision, 
* "f" - "F1 Score". 

In [16]:
from rouge import Rouge
candidate = "the hello a cat dog fox jumps"

reference = "the fox jumps"

rouge = Rouge()

rouge.get_scores(candidate, reference)

[{'rouge-1': {'r': 1.0, 'p': 0.42857142857142855, 'f': 0.5999999958},
  'rouge-2': {'r': 0.5, 'p': 0.16666666666666666, 'f': 0.24999999625000005},
  'rouge-l': {'r': 1.0, 'p': 0.42857142857142855, 'f': 0.5999999958}}]

### WMD

**<font color='red'>W</font>ord <font color='red'>M</font>over's <font color='red'>D</font>instance**
<a id ="WMD_O"></a>

<p style='text-align: justify;'>
WMD to relatywnie nowe narzędzie funkcjonujące w oparciu o uczenie maszynowe używane jako metryka jakości podobieństwa dwóch dokumnetów. Najważniejszą cechą metryki WMD jest możliwość oceny dwóch tekstów o podobnym znaczeniu, ale używających różnych słów do wyrażenia tej samej idei. 
</p>

<b> Działanie: </b> </br>
<a id ="WMD_D"></a>
Celem WMD jest zmierzenie odległości semantycznej dwóch tekstów, która jest szacowana z uwzględnieniem możliwości występowania synonimów. Typowym przykładem przy omawianiu metryki WMD są zdania:

In [6]:
# Zdanie 1
reference = 'Obama speaks to the media in Illinois'.split()

# Zdanie 2
candidate = 'The president greets the press in Chicago'.split()

Oba zdania wyrażają bardzo podobną myśl przy użyciu całkowicie odmiennych słów. Spodziewana wartość metryki w takiej sytuacji jest dość wysoka.
<p align="center">
  <img src="WMD_schemat.png"/>
</p>
Powyższe zdjęcie przedstawia wizualizacje tych dwóch zdań stosująć wektorową reprezentację dokumentów "word2vec". Zasada jej działania polega na minimalizacji dystanu pomiędzy słowami, które często występują w swoim otoczeniu. Przykładowo słowo "kwiatek" i "łąka" powinny być bliżej siebie niż "kwiatek" i "pustynia".
<br>

Analiza omawianego przykładu zaczyna się od usunięcia tzw. "przerywników", które niepotrzebnie zwiększają złożoność algorytmu i prowadzą do błędów:

In [7]:
# Usunięcie wielkich liter i podział na listy słów
reference = [w.lower() for w in reference]
candidate = [w.lower() for w in candidate]

# Pobranie zbioru "przerywników" dla języka angielskiego
stopWords = stopwords.words('english')

# Usunięcie przerywników
reference = [w for w in reference if w not in stopWords]
candidate = [w for w in candidate if w not in stopWords]

print("Zdanie 1 po usunięciu przerywników: ", ' '.join(map(str, candidate)))
print("Zdanie 2 po usunięciu przerywników: ", ' '.join(map(str, reference)))

Zdanie 1 po usunięciu przerywników:  president greets press chicago
Zdanie 2 po usunięciu przerywników:  obama speaks media illinois


Następnie dla skróconych zdań jest liczony koszt zmiany każdego słowa pierwszego zdania na każdego słowo drugiego zdania i wybierany jest minimalny koszt. Jest to krok konieczny, ponieważ algorytm nie wie, że przykładowo najmniejszym kosztem będzie charakteryzować się zamiana "obama" na "president", ponieważ oba słowa często występują w swoim otoczeniu. Wynikiem metryki jest najmniejszy znaleziony dystans pomiędzy zdaniami.

<a id ="WMD_P"></a>
<b> Problemy metryki WMD </b>
<br>
Metryka WMD pomimo dość niedawnego powstania zmaga się z pewnymi problemami:
* Wartość metryki zależy od jakości baz danych użytych do ewaluacji. 
* Relatywnie skomplikowany proces liczenia, co przekłada się na długi czas oczekiwania na wartość metryki.
* Złożoność obliczeniowa $O(p^3log(p))$ w podstawowej wersji, gdzie p to liczba unikatowych słów
* Porównanie dokumentów, w których występują wspólne słowa występujące w innym kontekście może utrudnić porównanie - problem polisemii

<a id ="CIDER"></a>
### CIDER

**<font color='red'>C</font>onsensus-based <font color='red'>I</font>mage <font color='red'>D</font>escription <font color='red'>E</font>valuation**

<a id ="CIDER_O"></a>
<a id ="CIDER_D"></a>

<p style='text-align: justify;'>
Metryka CIDEr mierzy zgodność pomiędzy opisami dwóch obrazów w oparciu o metodę TF-IDF (ważenie częstością termów -metoda pozwalająca na obliczenie wagi słów w oparciu o liczbę wystąpień) liczoną dla każdego n-gramu. Liczba wystąpień n-gramu $w_k$ w zdaniu referencyjnym $s_{ij}$ jest oznaczona przez $h_{k}(s_{ij})$ lub $h_{k}(c_{i})$ dla zdania ocenianego (kandydującego) $c_i$. Metryka CIDEr przelicza wartość wagi TF-IDF $g_{k}(s_{ij})$ dla każdego n-gram $w_{k}$ zgodnie ze wzorem:
</p>
$$
g_{k}(s_{ij}) = \frac{h_{k}(s_{ij})}{\sum \limits_{w_l \in \Omega} h_{l}(s_{ij})} log \Biggl( \frac{|I|} {\sum \limits_{I_p \in I} min(1, \sum \limits_{q} h_k(s_{ij}))} \Biggr)
$$
gdzie: 
<br>
$ \Omega $ - słownictwo związane z każdym n-gramem <br>
$ I $ - zbiór wszystkich obrazów w zbiorze danych
<p style='text-align: justify;'>
Pierwsza część odpowiada za mierzenie TF każdego n-gramu $w_k$, a druga część mierzy rzadkość $w_k$ używając IDF. Zgodnie z intuicją TF przypisuje większą wagę do n-gramów, które często wystąpują w zdaniach referencyjnych opisujących obraz, a jednocześnie IDF zmniejsza wage n-gramów, które często występują we wszystkich opisach. W konsekwencji IDF odpowiada za zapewnienie zachowania istotności wyrazów poprzez zaniżanie wartości częstych słów, które mają małe prawdopodobieństwo na przechowywania ważnych informacji o opisywanym obrazie. IDF jest obliczany jako logarytm liczby obrazów w zbiorze |I| przez liczbę obrazów, dla których $w_k$ występuje w dowolnym z jego zdań referencyjnych.

Wartoś metryki CIDEr jest obliczona na podstawie wszystkich n-gramów o długości n używając średniego podobieństwa cosinusowego pomiędzy kandydatem i zdaniami referencyjnymi:
    
$$
CIDEr_n(c_i, S_i) = \frac{1}{m}{\sum \limits_{j} \frac{g^n(c_i) g^n(s_{ij})}{|g^n(c_i)||g^n(s_{ij})|}}
$$
gdzie: 
<br>
$ g^n(c_i) $ - wektor wartości $ g_k(c_i)$ odpowiadający wszystkim n-gramom długości n <br>
$ |g^n(c_i)| $ - rozmiar wektora $ g^n(c_i) $ <br>
    
Wyższe n-gramy (dla większego n) są używane do uchwycenia gramatycznych cech i bogatszej semantyki. Wyniki różnych n-gramów są ujednolicane zgodnie ze wzorem:
<br>
$$
CIDEr(c_i, S_i) = {\sum \limits_{n=1} ^{N} w_n CIDEr_n(c_i, S_i)}
$$
    
Najczęściej używa się $ w_n = \frac{1}{N}$ i $ N=4 $
    
<a id ="CIDER_D_D"></a>
<b> CIDEr-D </b>
<br>
<p style='text-align: justify;'>
CIDEr-D jest modyfikacją podstawowej wersji metryki CIDEr-D, której celem jest przeciwstawienie się problemowi tworzenia zdań, które poprzez znajomość sposobu liczenia metryki są wysoko oceniane przez CIDEr jednocześnie będąc niezgodne z ludzkim osądem. Jest to problem, który dotyczy wszystkich metryk. W celu zapobiegania temu zjawisko CIDEr-D stosuje kary dla oceny za różnice w długościach opartą o wartości krzywej Gaussa. Jest to mechanizm zapobiegający w dużym stopniu sztucznemu zawyżeniu oceny CIDEr.
</p>

### Wartości Shapleya

<p style='text-align: justify;'>
Teoretycznie każde zjawisko wystąpujące w świecie można zamodelować matematycznie. Szczególnym typem zjawisk związanych z wartościami Shapleya są takie, które w zależności od przyjętej kombinacji podmiotów biorących udział w danym zdarzeniu można odnieść różne korzyści. Przykładowo w zależności od wystawionej kadry piłkarkiej można uzyskać różny wynik meczu. W takim przypadku pojawia się również problem jak dany podmiot wpłynął na ostateczny wynik. Rozwiązaniem tego dylematu zajął się Lloyda Shapley w 1953 roku, który wprowadził pojęcie tzw. "wartości Shapleya".
</p>
<b>Teoria</b>
<br>
<p style='text-align: justify;'>
Sytuacji opisana powyżej jest modelowana poprzez grę koalicyjną, w której biorze udział zbiór graczy $N$ oraz funkcję, która przyporządkowuje każdemu podzbiorowi graczy liczbę stanowiącą wartość danego zespołu (funkcja koalicyjna/charakterystyczna):
$$
v: 2^N -> \mathbb{R}.
$$
Cechą gier koalicyjnych jest również syperaddytywność, która oznacza, że większa korzyść jest osiągalna przez łączenie się graczy w kolacji.Prowadzi do to następującego wniosku: największa korzyść jest osiągalna przez zaangażowanie wszystkich graczy (wielka kolicja). W takim przypadku wkład każdego gracza w kolację $S$ można obliczyć korzystając z wartości Shapleya dla danego gracza $i$. Niemniej jednak, żeby ją policzyć niezbędne jest uzyskanie wartości "wkładu marginalnego" danego gracza $i$ w kolację $S$ oznaczoną wartością: $v(S \cup \{i\}) - v(S)$. Wtedy wartość Shapleya dla gracza $i$ przyjmuje postać:
<br>
<br>
$$
{\sum \limits_{S \in N -\{ i\}} \frac{|S|!(n-|S|-1)!}{n!} (v(S\cup i) - v(S))} 
$$
W praktyce oznacza to, że uśrednia się wkład marginalny danego gracza i, licząc po wszystkich kolacjach, które nie zawierają danego gracza, z uwzględnieniem kolejności dołączania graczy do kolacji.
</p>
<b>Wartości Shapleya w ML</b>
<br>
<p style='text-align: justify;'>
W podstawowym modelu uczenia maszynowego gracze gry kooperacyjnej mogą zostać zastąpieni cechami modelu, a ostatecznym wynik poprzez sam wynik końcowy modelu. Jednakże proces liczenia wartości Shapleya dla danego atrybutu niezawsze jest możliwy do przeprowadzenia ze względu na brak możliwości wykluczenia danego atrybutu. W konsekwencji wykluczenie atrybutu w przypadku uczenia maszynowego jest symulowane poprzez próbkowanie empirycznego rozkładu wartości cech i uśrednianie próbek. Proces ten może być kosztowny obliczeniowo, dlatego większość metod obliczania wartości Shapleya dla modelu uczenia maszynowego generuje oszacowania prawdziwej wartości Shapleya. Algorytmami zajmującymi się tym procesem są stosunkowo nowe algorytmy SHAP i QII.
<br>
<b>Ograniczenia wartości Shapleya w ML</b>
</p>

* Obliczanie wartości Shapleya wymaga selekcji koalicji i podzbiorów atrybutów, których liczba rośnie ekspotencjalnie. W konsekwencji policzenie wartości Shapleya dla naprawdę dużych zbiór jest praktycznie niemożliwe. Problem ten jest rozwiązywany poprzez techniki aproksymacyjne i korzystanie ze szczególnych cech charakterystycznych dla danego modelu.
* Liczenie wartości Shapleya uwzględnia również koalicje, które są nierealne dla rozpatrywanego modelu. Przykładowo rozważając model, który dla danych atrybutów mieszkania przewiduje jego cenę, można sobie wyobrazić sytuację rozpatrywania mieszkania w centrum miasta z wiodkiem na morze. W takiej sytuacji rozpatrywanie wartości Shapleya nie ma większego szensu, ponieważ wyniki te są zaburzone poprzez nierealne dane.
    
    
Warto zauważyć, że liczenie wartości Shapleya wymaga jedynie dostępu do wyniku wartości modelu uczenia dla konkretnych danych wejściowych bez znajomości konkretnej mechaniki modelu. W konsekwencji jest to technika niezależna od modelu.


<b>Przykład</b>
<br>
<p style='text-align: justify;'>
Rozważmy sytuację, w której występuje n graczy w postaci liczb naturalnych. Funkcja koalicyjna przyporządkowuje sumę kwadratów graczy, którzy wzięli udział w rozważanej grze koalicyjnej. Problem jest wskazanie wpływu każdego z graczy na wynik.
</p>

In [5]:
from functions.SHAPLEY_functions import *
# Gracze
players = [1, 2, 3, 4]
player = 3

shapley(players, player)

TABELA DLA: 3
Nr:	 Kombinacja:			Bez gracza:		Z graczem:		Wkład marginalny:	Skalowany wkład marginalny:
1)       []                             0                       9                       9                       2.25                
2)       [4]                            16                      49                      33                      2.75                
3)       [2]                            4                       25                      21                      1.75                
4)       [1]                            1                       16                      15                      1.25                
5)       [2, 4]                         36                      81                      45                      3.75                
6)       [1, 4]                         25                      64                      39                      3.25                
7)       [1, 2]                         9                       36                      27        

<b>Przykład</b>

<a id ="SOURCE"></a>
### Źródła
BLEU:
* https://towardsdatascience.com/bleu-bilingual-evaluation-understudy-2b4eab9bcfd1
* https://towardsdatascience.com/foundations-of-nlp-explained-bleu-score-and-wer-metrics-1a5ba06d812b
* http://docplayer.pl/14218168-Ewaluacja-systemow-tlumaczenia-automatycznego.html
</br>

METEOR:
* http://docplayer.pl/14218168-Ewaluacja-systemow-tlumaczenia-automatycznego.html
* https://www.jstor.org/stable/40783462
</br>

ROUGE:
* https://towardsdatascience.com/the-ultimate-performance-metric-in-nlp-111df6c64460
* https://en.wikipedia.org/wiki/Automatic_summarization
* https://en.wikipedia.org/wiki/ROUGE_(metric)
* https://pl.wikipedia.org/wiki/Najdłuższy_wspólny_podciąg
* https://towardsdatascience.com/to-rouge-or-not-to-rouge-6a5f3552ea45
* https://ryanong.co.uk/2020/01/23/day-18-summarisation-evaluation-metrics/

WMD:
* https://towardsdatascience.com/word-distance-between-word-embeddings-cc3e9cf1d632
* https://ermlab.com/blog/technicznie/doc2vec-wektorowa-reprezentacja-dokumentow/
* https://medium.com/@nihitextra/word-movers-distance-for-text-similarity-7492aeca71b0
* https://towardsai.net/p/nlp/word-movers-distance-wmd-explained-an-effective-method-of-document-classification-89cb258401f4
* https://www.youtube.com/watch?v=nX1g_wPSYOI

CIDEr:
* https://arxiv.org/pdf/1504.00325.pdf
* https://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Vedantam_CIDEr_Consensus-Based_Image_2015_CVPR_paper.pdf

Wartości Shapleya:
* https://towardsdatascience.com/the-shapley-value-for-ml-models-f1100bff78d1
* https://christophm.github.io/interpretable-ml-book/shapley.html
* https://pl.wikipedia.org/wiki/Wartość_Shapleya
* https://towarzystwo.edu.pl/assets/prace_matematyczne/Dmigacz.pdf

<b> To-do: </b>
* Dodać coco-caption
* Dodać liczenie WMD
* Dodać drugi przykład w wartościach Shapleya
* Zredagować całość
* Przenieść kod metryki ROUGE do pliku