# Wprowadzenie do Uczenia Maszynowego

## Wstęp do Przetwarzania Języka Naturalnego

Na tym ćwiczeniu omawiane są podstawy NLP na przykładzie kilku prostych narzędzi i metod modelowania.

Na początku omówimy podstawowe metody analizy tekstu. Do tego zadania użyjemy biblioteki [spacy](https://spacy.io/). Nie jest ona jedynym narzędziem do tego celu, ale jest uznana za jedną z bardziej wydajnych. Inne przykłady to [NLTK](https://www.nltk.org/) (starsza i uważana za mniej nowoczesną) albo [AllenNLP](https://allenai.org/allennlp).


Najpierw zainstalujemy bardziej aktualną wersję spacy niż ta, która jest standardowo dostępna w Google Colab:

In [15]:
!pip install -U spacy

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Potem zainstalujemy model o nazwie `pl_core_news_lg` poleceniem z dokumentacji. Lista modeli jest dostępna [tutaj](https://spacy.io/usage/models):

In [16]:
!python -m spacy download pl_core_news_lg

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pl-core-news-lg==3.3.0
  Downloading https://github.com/explosion/spacy-models/releases/download/pl_core_news_lg-3.3.0/pl_core_news_lg-3.3.0-py3-none-any.whl (573.6 MB)
[K     |████████████████████████████████| 573.6 MB 3.8 kB/s 
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('pl_core_news_lg')


Teraz można zaimportować bibliotekę `spacy` i użyć metodę `load` żeby wczytać wyżej zainstalowany model. Metoda ta zwraca objekt który będziemy używać do analizy tekstu:

In [17]:
import spacy
nlp_model = spacy.load('pl_core_news_lg')

Tu wkleiłem kawałek transkrypcji z posiedzenia sejmowego ze stycznia 2022:

In [18]:
text_sample='Szanowny Panie Marszałku! Wysoka Izbo! Ustawa zapowiadana jako naprawa, chciałoby się rzec, głęboka korekta Nowego Ładu podatkowego poza rekompensatą strat, jeśli chodzi o zakłady pracy chronionej i zakłady aktywności zawodowej, to w gruncie rzeczy jakaś farsa. Tak naprawdę to jest zalegalizowanie rozporządzenia ministra finansów z 7 stycznia 2022 r., rozporządzenia wydanego z przekroczeniem delegacji ustawowych i naruszeniem konstytucji. Próbujecie uporządkować kawałek, ułameczek problemów, które w tym bublu prawnym, jakim jest Nowy Ład, wygenerowaliście. Po tygodniu obowiązywania ustawy okazało się, że ci, którzy mieli zyskiwać, tracą już dzisiaj, ich wypłaty są niższe, a miały być przecież wyższe. Do tego nikt nie wie, jaki zapłaci podatek. To już norma, jeśli chodzi o wasze działania - mniej znaczy więcej, jak u Orwella. To, co proponujecie, to jest zwykłe mydlenie oczu. W sprawie zaliczek: technicznie rzecz ujmując, płatnik będzie obliczał wysokość zaliczki według zasad z 2022 r., następnie według zasad z 2021 r. Jeśli będzie różnica taka, że zaliczka według zasad z 2022 r. będzie wyższa niż ta z 2021 r., to nie będzie pobierać tej różnicy, a definitywne rozliczenie nastąpi dopiero w zeznaniu rocznym. Taki mechanizm jest sposobem odroczenia płatności wyższej niż w 2021 r. zaliczki na podatek, ale nie jest zwolnieniem podatnika z obowiązku stosowania przepisów z 2022 r. W praktyce dla niektórych podatników może to oznaczać konieczność dopłaty podatku w grudniu 2022 r. albo w rozliczeniu rocznym. Podkreślam, te zmiany nie prowadzą do obniżenia podatków, a jedynie są modyfikacją obowiązków płatników i pracodawców, zleceniodawców i organów rentowych w zakresie poboru zaliczki na podatek dochodowy od osób fizycznych. To jest kolejne obciążenie administracyjne dla płatników, czyli polskich przedsiębiorców i ich księgowych. Projekt jest napisany na kolanie - mówiłem to w ramach pierwszego czytania - i to już jest jakaś tradycja. Czas wreszcie przejść z deklaracji do czynów. Ciągle, tak jak prezydent, mówicie, że się uczycie. A nie sztuka się uczyć, trzeba się nauczyć i wyciągać lekcje i wnioski z dotychczasowych działań. Biuro Legislacyjne po raz kolejny złożyło zastrzeżenie, że nie było w stanie przeanalizować zapisów ustawy, w praktyce - że nie ma pewności co do poprawności jej zapisów. Mało tego, w ustawie są zapisy, które są nie do zaakceptowania i nie do przyjęcia. To jest opinia Biura Legislacyjnego Sejmu. Ale wy oczywiście wszystko możecie przegłosować, dowiedliście tego wczoraj na posiedzeniu komisji. To, że narażacie podatników i płatników na nieprzewidywalne dziś konsekwencje, nie ma dla was w gruncie rzeczy znaczenia. Musi być tak, jak chcecie, i tyle. Wczoraj na posiedzeniu komisji finansów dowiedliście, że nie rozumiecie rzeczywistych skutków Nowego Ładu. Nie dociera do was np. to, że tak naprawdę zlikwidowaliście kwotę wolną. Ona była niska do tej pory, ale była. A dzisiaj kwota wolna wynosi zero, bo dochody do 30 tys. zł są opodatkowane stawką 9%, dochody między 30 a 120 tys. zł - stawką 26%, a dochody ponad 120 tys. zł - stawką 41%. Nie zapominajcie, że podatnicy jeszcze muszą zapłacić ZUS - 19,52%. Jakiś łoś was opętał, takie mam wrażenie. Nie dociera do was, że w Polsce przestało się już, praktycznie rzecz biorąc, opłacać pracować. Do tego te rozwiązania prowadzą. Nie ma rozwiązań, które zapowiadaliście, jeśli chodzi o korektę Nowego Ładu. Nie ma w dalszym ciągu ulgi dla klasy średniej, dla zleceniobiorców, dla świadczeń emerytalnych, rentowych. Nie ma żadnej propozycji co do rozliczania rodziców samotnie wychowujących dzieci, a taką deklarację też słyszeliśmy. Nie ma rekompensaty dla organizacji pozarządowych. Nie ma propozycji, o której mówił też premier: złotówka za złotówkę. I nie odnosicie się w ogóle do konsekwencji Nowego Ładu (Dzwonek) w działalności gospodarczej, a one są tu dramatyczne, dramatyczne. Czas albo dokonać głębokiej korekty, a najlepiej posłuchać tego, co mówiliśmy od samego początku i tę część dotyczącą przedsiębiorców po prostu zawiesić. Dziękuję bardzo. '

## Składnia tekstu

Teraz można użyć objektu wyżej żeby zanalizować tekst podając go jako arguemnt wywołania objektu zwróconego przez metodę `load` wyżej:

In [19]:
doc = nlp_model(text_sample)

W wyniku otrzymamy objekt reprezentujący cały dokument. Dokumetacja jest dostępna [tutaj](https://spacy.io/api/doc).

Zacznijmy od sprawdzenia jak sobie biblioteka poradziła z podziałem tekstu na zdania. Przeiteruj wszystkie elementy `sents` dokumentu i wypisz metodą print:

In [20]:
for sent in doc.sents:
  print(sent)

Szanowny Panie Marszałku!
Wysoka Izbo!
Ustawa zapowiadana jako naprawa, chciałoby się rzec, głęboka korekta Nowego Ładu podatkowego poza rekompensatą strat, jeśli chodzi o zakłady pracy chronionej i zakłady aktywności zawodowej, to w gruncie rzeczy jakaś farsa.
Tak naprawdę to jest zalegalizowanie rozporządzenia ministra finansów z 7 stycznia 2022 r., rozporządzenia wydanego z przekroczeniem delegacji ustawowych i naruszeniem konstytucji.
Próbujecie uporządkować kawałek, ułameczek problemów, które w tym bublu prawnym, jakim jest Nowy Ład, wygenerowaliście.
Po tygodniu obowiązywania ustawy okazało się, że ci, którzy mieli zyskiwać, tracą już dzisiaj, ich wypłaty są niższe, a miały być przecież wyższe.
Do tego nikt nie wie, jaki zapłaci podatek.
To już norma, jeśli chodzi o wasze działania - mniej znaczy więcej, jak u Orwella.
To, co proponujecie, to jest zwykłe mydlenie oczu.
W sprawie zaliczek: technicznie rzecz ujmując, płatnik będzie obliczał wysokość zaliczki według zasad z 2022 r.,

Kolejne zadania będą bardziej czytelne jeśli je uruchomimy na pojedynczym zdaniu zamiast całego tekstu. Zamień `sents` na listę i zapisz dowolny element tej listy w osobnej zmiennej `sent`.

Potem przeiteruj kolejne elementy tego zdania żeby odczytać poszczególne tokeny. Dokumentacja tokenu jest [tutaj](https://spacy.io/api/token). 

Dla każdego tokenu wypisz:
* `text`
* `tag_` - tekstowa postać tagu POS
* `pos_` - bardziej ogólny opis POS
* `dep_` - opis parsowania zależnościowego
* `lemma_` - lemat wyrazu
* `morp_` - szczegółowy opis morfologii wyrazu

In [21]:
sentences = [sent for sent in doc.sents]
sent = sentences[14]
print(sent)

Podkreślam, te zmiany nie prowadzą do obniżenia podatków, a jedynie są modyfikacją obowiązków płatników i pracodawców, zleceniodawców i organów rentowych w zakresie poboru zaliczki na podatek dochodowy od osób fizycznych.


In [22]:
def show_tokens(text):
  print('{:^15}| {:^8}| {:^8}| {:^17}| {:^15}| {:^15}'.format('text','tag_','pos_','dep_','lemma_','morph'))
  print('-------------------------------------------------------------------------------------------------------------------------------------------')
  for token in text:
      print(f'{token.text:{15}}| {token.tag_:{8}}| {token.pos_:{8}}| {token.dep_:{17}}| {token.lemma_:{15}}| {token.morph}')

In [23]:
show_tokens(sent)

     text      |   tag_  |   pos_  |       dep_       |     lemma_     |      morph     
-------------------------------------------------------------------------------------------------------------------------------------------
Podkreślam     | SUBST   | VERB    | parataxis:insert | podkreślać     | Aspect=Imp|Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin|Voice=Act
,              | INTERP  | PUNCT   | punct            | ,              | PunctType=Comm
te             | ADJ     | DET     | det              | ten            | Case=Acc|Gender=Fem|Number=Plur|PronType=Dem
zmiany         | SUBST   | NOUN    | obj              | zmiana         | Case=Nom|Gender=Fem|Number=Plur
nie            | QUB     | PART    | advmod:neg       | nie            | Polarity=Neg
prowadzą       | FIN     | VERB    | ROOT             | prowadzić      | Aspect=Imp|Mood=Ind|Number=Plur|Person=3|Tense=Pres|VerbForm=Fin|Voice=Act
do             | PREP    | ADP     | case             | do             | AdpTy

In [24]:
from spacy import displacy
displacy.render(sent, style="dep", jupyter=True)

Parsowanie zależnościowe opisuje związki między wyrazami w zdaniu. Żeby obejrzeć graf zależności można użyć załączonej biblioteki `displacy`. Zaimportuj moduł `displacy` z biblioteki `spacy` i użyj jego funkcji `render` żeby narysować obraz.

Pierwszy arguemnt metody `render` jest objekt jaki chcemy narysować - w naszym przypadku jest to powyższe zdanie. Argument `style` ustawiamy na rodzaj wykresu jaki chcemy narysować - w naszym wypadku ma to być `'dep'`. Dodatkowo musimy ustawić argument `jupyter` na `True` żeby się wykres wyświetlił w środowisku notebookowym:

## NER

Kolejnym ciekawym aspektem analizy jest rozpoznawanie encji - tzw. Named Entity Recognition. Dla całego przeiteruj atrybut `ents` i wypisz odpowiedznio `text` oraz `label_`:

In [25]:
def show_ents(doc):
  if doc.ents:
    print('{:^30}| {:^8}'.format('text','label_'))
    print('-----------------------------------------------')
    for ent in doc.ents:
      print(f'{ent.text:{30}}| {ent.label_}')
  else:
    print('No named entities found.')

In [26]:
show_ents(sent)

No named entities found.


In [27]:
show_ents(doc)

             text             |  label_ 
-----------------------------------------------
Wysoka Izbo                   | orgName
7 stycznia 2022 r.            | date
Orwella                       | persName
2022 r.                       | date
2021 r.                       | date
2022 r.                       | date
2021 r.                       | date
2021 r.                       | date
2022 r.                       | date
grudniu 2022 r.               | date
polskich                      | placeName
Biuro Legislacyjne            | orgName
Biura Legislacyjnego Sejmu    | orgName
komisji finansów dowiedliście | orgName
ZUS                           | orgName
Polsce                        | placeName


Displacy też wspiera podświetlanie NER. Dla powyższego zdania (tego samego którego użyliśmy do wykresu parsowania zależnościowego) narysuj wykres o stylu `'ent'`. Jeśli w twoim zdaniu nie ma żadnych nazw, to wybierz jakieś inne zdanie:

In [28]:
sent2 = sentences[3]
displacy.render(sent2, style='ent', jupyter=True)

colors = {'DATE': 'linear-gradient(90deg, #aa9cfc, #fc9ce7)'}
options = {'ents': ['DATE'], 'colors':colors}
displacy.render(sent2, style='ent', jupyter=True, options=options)

## word2vec

Kolejną ciekawą cechą to są wektory rzeczywiste opisujące poszczególne wyrazy.

Wypis następujące cechy dla poszczególnych tokenów wybranego zdania:
* `has_vector`
* `is_oov`
* `vector_norm`

No i oczywiście jest sam `vector`, ale jest on trochę długi żeby go wypisywać metodą `print` dla każdego wyrazu. Zamiast tego narysujemy wykres z położeniami wektorów w przestzeni.

Najpierw przepisz wszystkie wektory dla całego tekstu w słowniku mapującym tekstu wyrazu na jego wektor:

Niestety nie możemy rysować wszystkie 300 wynmiarów wektora, więc zastosujemy popularną metodę do rzutowania wszystkich wymiarów do 2. Zaimportuj model `TSNE` z modułu `sklearn.manifold` i skonstruuj jego objekt podając w metodzie inicującej argument `n_components` równy 2. Potem zastosuj metodę `fit_transform` nowego objektu na wszystkich wektorach (na `values()` słownika wyżej) i zrób nowy słownik z nowo uzyskanymi wekotrami 2-wymiarowymi:

Żeby zacząć rysować w środowisku notebookowym wystarczy uruchomić polecenie magiczne `%pylab inline`. Zaimportuje to automatycznie numpy, matplotlib i ustawi odpowiednio rysowanie wykresów:

Teraz stwórz nowy wykres poleceniem `figure` i ustaw w nim atrybut `figsize` na parę `(15,15)`. W następnej linii uruchom metodę `scatter` i podaj w niej kolejno pierwszą i drugą kolumnę wszystkich wektorów z tablicy wektorów 2D jaką stworzyliśmy wyżej:

Możesz dodatkowo użyć metody `gca()` żeby pobrać objekt `Axes` który udostępnia metodę `text`. Metoda ta bierze 3 argumenty: x, y i string. Możesz użyć tej metody żeby wpisać odpowiednie wyrazy w odpowiednich miejscach na wykresie iterując po kolei słownik wektorów 2D.

Ponieważ wykres jest z duży i nie widać wszystkich wyrazów razem, można użyć metod `xlim` i `ylim` żeby ograniczyć zakres tego co się wyświetla na ekranie. Niestety metody te nie mają wpływu na metodę `text`, więc w jej przypadku musisz samemu dokonać filtracji poleceniem `if`:

### Praca domowa 1

Narysuj wykres TSNE reprezentacji wektorowej jakiegoś dłuższego tekstu - powieści, artykułu zbioru poezji, ...

In [31]:
tekst = "Żył sobie niegdyś bardzo złośliwy czarodziej. Całą jego przyjemnością było dokuczać ludziom, czynić źle, ze wszystkiego się wyśmiewać i każdą rzecz przedstawiać z najgorszej strony. Wymyślił wreszcie i zrobił takie sztuczne zwierciadło, iż wszystkie rzeczy piękne i dobre wyglądały w nim szkaradnie, a nawet śmiesznie, ponieważ były wykrzywione, zamazane, niewyraźne — za to złe rzeczy widać w nim było doskonale. Tym sposobem cały świat w tym zwierciadle był brzydki i zły, a nic na nim nie było pięknego. Czarodziej klaskał w dłonie i śmiał się ze swego figla, a źli jego uczniowie porwali zwierciadło i biegali z nim wszędzie, podstawiając je ludziom znienacka przed oczy i cieszyli się, i śmiali, kiedy przerażony człowiek zasłaniał oczy ręką; a potem nieraz sam nie wiedział, który świat jest prawdziwy: czy ten, który ogląda co dzień, czy tamten, który ujrzał w zaklętym zwierciadle? I tacy ludzie byli bardzo nieszczęśliwi, a było ich coraz więcej. Cieszył się zły czarodziej, ale to mu nie wystarczało. Uczniowie jego postanowili zanieść zwierciadło aż do nieba. Niechże i aniołowie spojrzą w nie choć raz jeden. To byłaby uciecha! A może i sam Pan Bóg. I zaczęli lecieć do góry. Bardzo im było trudno, a jeszcze z tak ciężkim zwierciadłem — zaledwie mogli utrzymać je w rękach… O, daleko do nieba! Aż im pot okrył czoła, a ręce drżeć zaczęły. Wtem, trrrach! I ciężkie lustro z takiej wysokości brzdęk aż na ziemię! Naturalnie w mgnieniu oka rozprysnęło się na miliony, miliony drobnych szczątków, na nieskończoną ilość czarodziejskiego pyłku, który rozleciał się na wszystkie strony. Ale to właśnie było najgorsze nieszczęście! Zamiast jednego lustra, były ich teraz miliony; rozproszyły się wszędzie, a w każdym najmniejszym kawałeczku, choćby drobnym jak ziarnko piasku, widać było świat cały szkaradny, śmieszny, wykrzywiony. Jeżeli taki proszek wpadł komu do oka, to człowiek ten wszystko już widział zmienione i nie mógł dostrzec koło siebie nic dobrego, nic pięknego! Za to najgorsze rzeczy widział jasno i wyraźnie, więc wszystko złem było dla niego. Gorzej jeszcze, jeżeli okruszyna lustra wpadła komu do serca. Nieszczęśliwy tracił uczucie: serce jego stawało się kawałkiem lodu, nikogo kochać nie mógł, wszyscy byli dla niego obcy, obojętni. Z większych kawałków porobiono szyby, z innych szkła do okularów, a mnóstwo jeszcze krążyło w powietrzu — wiatr je roznosił wciąż dalej i dalej, i naturalnie coraz więcej ludzi stawało się nieszczęśliwymi kalekami. A niegodziwych pyłków ciągle jeszcze pełno i zobaczymy, co z tego wynikło."

docG = nlp(tekst)

NameError: ignored

In [None]:
sentencesG = [sent for sent in docG.sents]
sent111 = sentencesG[111]
print(sent111)

token_vect_dictG = {}
for sent in sentencesG:
  for token in sent:
    if token not in token_vect_dictG.keys():
      token_vect_dictG[token.text]=token.vector

len(token_vect_dictG['rumaki'])

print('Liczba kluczy w słowniku: ', len(token_vect_dictG.keys()))

GX = [value for value in token_vect_dictG.values()]
Gy = [key for key in token_vect_dictG.keys()]

tsneG = TSNE(n_components=2)
GX_embedded = tsneG.fit_transform(GX)

new_dictG = {}
for i in range(len(Gy)):
  new_dictG[Gy[i]] = GX_embedded[i]

len(new_dictG) 

plt.figure(figsize=(15,15))
sns.set_style('darkgrid')
plt.scatter(np.hsplit(GX_embedded,2)[0], np.hsplit(GX_embedded,2)[1])

## Dalsze rozważania na temat word2vec

Model word2vec opisany wyżej może być użyty do rozwiązywania wielu zadań takich jak klasyfikacja, clustering, czy liczenie podobieństwa. Jest tez ciekawe zastosowanie polegające na wyszukiwaniu (generowaniu?) wyrazów. Do tego celu nie możemy jednak użyć biblioteki spacy. Ściągnijmy najpierw model word2vec wytrenowany na polskich tekstach z tego adresu:

https://github.com/sdadas/polish-nlp-resources/releases/download/v1.0/word2vec.zip

Ściągnij i rozpakuj powyższy plik:

Zaimportuj klasę `KeyedVectors` z biblioteki `gensim.models` i użyj metody `load` żeby wczytać plik `*.bin` rozpakowany wyżej:

Wczytany model umożliwia wyszukanie wyrazów podobnych do podanego metodą `similar_by_word`. Użyj tej metody do wyszukania wyrazu `tata`:

Model word2vec jest często używany do przedstawiania operacji arytmetycznych jakie można wykonywać na tych wektorach. Na przykład, odejmując "mężczyzna" od "tata" i dodając do wyniku "kobieta" powinniśmy otrzymać "mama".

Do tego można użyć metody `most_similar` podając w argumencie `positive` listę `['kobieta','tata']` a w argumencie `negative` listę `['mężczyzna']`:

### Praca domowa 2

Wymyśl więcej przykłądów jak ten powyżej. Niektóre (większość) średnio działają (zależy to od rozmiaru i jakości modelu), ale niektóre mogą być ciekawe.

## Modelowanie języka

W tym zadaniu wytrenujemy prosty statystyczny model języka i sprawdzimy jego budowę i możliwości zastosowania.

Do budowania modelu użyjemy pakietu SRILM. Jak zwykle, nie jest on jedynym narzędziem do tego zastosowania, ale jest jednym z najstarszych i najbardziej cytowanych:

In [29]:
!wget -N http://users.pja.edu.pl/~danijel/zum/srilm-bin.tar.xz
!tar xf srilm-bin.tar.xz bin/i686-m64/ngram bin/i686-m64/ngram-count
%mv bin/i686-m64/* /usr/local/bin

--2022-07-01 21:24:56--  http://users.pja.edu.pl/~danijel/zum/srilm-bin.tar.xz
Resolving users.pja.edu.pl (users.pja.edu.pl)... 91.230.222.21, 2001:67c:23f4::ab00
Connecting to users.pja.edu.pl (users.pja.edu.pl)|91.230.222.21|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 37056672 (35M) [application/x-xz]
Saving to: ‘srilm-bin.tar.xz’


2022-07-01 21:24:58 (23.8 MB/s) - ‘srilm-bin.tar.xz’ saved [37056672/37056672]



Modele języka trenujemy na tzw. korpusach tekstów. Taki korpus to po prostu lista poprawnych zdań w wybranym języku - jedno zdanie na linię. Zróbmy taki miniaturowy przykładowy korpus zawierający 3 zdania:
```
ala ma kota
ala ma psa
jan ma kota
```

Zapisz te zdania do pliku `test.txt`:

Do utworzenia modelu języka użyjemy programu `ngram-count`. Program ten ma mnóstwo opcji, które można obejrzeć uruchamiając go z opcją `-help`. Nas będą interesować następujące ustawienia:

 * `-text test.txt` - tym ustawimy plik źródłowy z korpusem
 * `-order 3` - tym ustawimy to, że chcemy mieć model 3-gramowy
 * `-wbdiscount` - użyjemy metodę wygładzania Witten-Bell
 * `-lm out.arpa` - wynik zapiszemy do pliku `out.arpa`

Wypiszmy zawartość pliku `out.arpa`:

Format tego pliku jest dosyć prosty i czytelny. Składa się z nagłówka zaczynającego od tokenu `/data/` i zawierającego liczność poszczególnych n-gramów. Potem mamy kolejne sekcje, każda zawierająca listę poszczególnych n-gramów.

Każdy n-gram jest opisany dwoma lub trzema polami oddzielonymi znakami `\t`:
* prawdopodobieństwo danego n-gramu w skali logarytmicznej
* opis samego n-gramu (tokeny/słowa oddzielone spacją)
* opcjonalnie tzw. "*back-off weight*" też w skali log

Back-off jest metodą do określenia prawdopodobieństwa n-gramów wyższego stopnia użwyając n-gramów niższego. Z tego powodu, najwyższe n-gramy (w naszym przypadku 3-gramy) nie mają policzonych wag back-off. Algorytm liczenia prawdopodonieństwa n-gramu jest następujący:

* jeśli na liście jest dokładnie ten n-gram którego szukamy, bierzemy jego prawdopodobieństwo
* jeśli go nie ma liście, bierzemy prawdopodobieństwo według wzoru:

\begin{equation}
P( word_N | word_{N-1}, word_{N-2}, ...., word_1 ) = \\
P( word_N | word_{N-1}, word_{N-2}, ...., word_2 ) \cdot \text{backoff-weight}(  word_{N-1} | word_{N-2}, ...., word_1 )
\end{equation}

* jeśli brakuje prawdopodobieństwa n-gramu mniejszego stopnia, wtedy rekurencyjnie stosujemy ten sam wzór aż do unigramów (które wszystkie powinny być zdefiniowane)
* jeśli brakuje wagi back-off, zakładmy wartość 1 (czyli 0 w skali logarytmicznej)

Na przykład, prawdopodobieństwo n-gramu "*ala ma*" jest następujące:

\begin{equation}
P(ma|ala) = 10^{-0.1760913} = 0.6666666038148176
\end{equation}

A prawdopodobieństwo n-gramu "*jan ma psa*":


\begin{equation}
P(psa|jan,ma) = P(psa|ma)*bwt(ma|jan)=10^{(-0.69897+0)}=0.20000000199681048
\end{equation}

Użyjmy prostej biblioteki `arpa` żeby potwierdzić powyższe obliczenia. Dokumentacja do biblioteki jest [tutaj](https://pypi.org/project/arpa/). Bibliotekę trzeba najpierw zainstalować:

In [30]:
!pip install arpa

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting arpa
  Downloading arpa-0.1.0b4-py3-none-any.whl (9.6 kB)
Installing collected packages: arpa
Successfully installed arpa-0.1.0b4


Teaz zaimportuj całą bibliotekę `arpa` i użyj metody `loadf` żeby wczytać wyżej stworzony plik `out.arpa`. Metoda ta zwraca listę modeli, a nas oczywiście interesuje pierwszy (i jedyny) model.

Po wczytaniu modelu można użyć wiele różnych metod. Nas interesuje metoda `p` która wylicza prawdopodobieństwo n-gramu. Dla powyższych przykładów, w pierwszym przypadku należy podać jako argument `'ala ma'` a w drugim `'jan ma psa'`:

Jeśli wszystko poszło dobrze, wartości powinny być takie same jak wyżej. Dla zainteresowanych modelami ARPA polecam poczytać (niedługi i nieskomplikowany) kod źródłowy tej biblioteki.

Jedną z podstatowych miar jakości modelu języka to tzw. *perplexity*. Liczymy go stotując wytrenowany model języka na niezależnym zbiorze testowym. Zróbmy przykładowy zbiór zawierający jedno zdanie `ala ma osę` i zapiszmy w pliku `eval.txt`:

Do wyliczenia perplexity użyjemy programu `ngram` i użyjemy w nim opcję `-lm out.arpa` do wczytania pliku z modelem oraz `-ppl eval.txt` żeby policzyć perplexity na wybranym pliku:

Wyniki zawierają ilość zdań, słów i wyrazów spoza słownika (OOV - out-of-vocabulary). Zawiera też wyliczony logprob całego korpusu oraz perplexity wyczlione uwzględniając i nieuwzlgędniając sztucznie dodane tokeny `<s>` oraz `</s>`. Im mniejsza wartość PPL, tym model lepiej opisuje testowy zbiór tekstów.

Program `ngram` ma mnóstwo zastosowań, głównie związanych z edycją i manipulacją wytrenowanego modelu języka. Ma też opcję `-gen <N>` do wygenerowania losowych zdań z konkretnego modelu języka:

### Praca domowa 3

Zrób model języka z większego tekstu, np ściągniętego stąd:

http://users.pja.edu.pl/~danijel/zum/sejm-text.xz

Sprawdź perplexity na przykładowym tekście i wygeneruj jakiś losowy tekst.