# Modele językowe - n-gramy 

---

## 1. N-gramy słów w klasyfikacji
Poniżej stworzono kod, który przeprowadza klasyfikację dokumentów należących do 4 kategorii. W odróżnieniu do poprzednich zajęć - tu zaproponowano klasyfikator SVC (algorytm SVM, popularna alternatywa dla NaiveBayes), która również świetnie się spisuje w problemach klasyfikacji tekstu.

**<span style="color: red">Zadanie 1a (0.5 punktu)</span>** Uruchom kod, przyjrzyj się wygenerowanym wynikom (a najlepiej zachowaj je gdzieś, będą potrzebne). <br/>



Zapoznaj się z dokumentacją TfIdfVectorizer, odnajdź opcję uwzględnienia nie tylko pojedynczych słów jako cechy, ale także ich par i **zmodyfikuj poniższy kod tak, aby klasyfikacja uwzględniała zarówno pojedyncze słowa jak i pary (pozostaw parametr max_df=0.1 nienaruszony).** <span style="color: red"> Zmodyfikuj linię 30.</span><br/> <br/>
**<span style="color: red">Zadanie 1b (0.5 punktu)</span>** Jak zmieniła się liczba cech po uwzględnieniu tych par? Czy coś się zmieniło w raporcie z klasyfikacji? Uzupełnij odpowiedzi na pytania w komórce poniżej kodu.

In [16]:
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report
from sklearn.datasets import fetch_20newsgroups # zbiór danych zawarty w Sklearn, który zawiera dane z 20 grup newsowych
import numpy as np

# ------------------- WCZYTANIE DANYCH -----------

np.random.seed(0) # ustaw seed na 0, aby zapewnić powtarzalność eksperymentu

categories = ['sci.space', 'comp.graphics', 'talk.politics.misc', 'comp.sys.mac.hardware'] # kategorie do analizy

train = fetch_20newsgroups(subset='train',
                                   categories=categories,
                                   shuffle=True,
                                   random_state=42) # pobieramy zbiór uczący (na nim będziemy trenować) dla wybranych kategorii.
    

test = fetch_20newsgroups(subset='test',
                                  categories=categories,
                                  shuffle=True,
                                  random_state=42) # pobieramy zbiór testowy (na nim będziemy testować) dla wybranych kategorii



# ------------------- STWORZENIE PIPELINE'U -----------
    
pipeline = Pipeline([             # stwórzmy pipeline surowy tekst -> TFIDF vectorizer -> klasyfikator 
    ('tfidf', TfidfVectorizer(max_df=0.1, ngram_range=(1, 2))),
    ('clf', SVC(C=1.0, kernel='linear')),
])

# ------------------- TRANSFORMACJA I UCZENIE -----------

pipeline.fit(train.data, train.target) # zwektoryzujmy dane i wytrenujmy klasyfikator na zbiorze treningowym


print("W słowniku znajduje się {n} różnych cech".format(
    n=len(pipeline.named_steps['tfidf'].vocabulary_.keys())
))

# ------------------- OCENA KLASYFIKATORA -----------
print(classification_report(test.target, pipeline.predict(test.data))) # testowanie klasyfikatora - szerokie podsumowanie uwzględniające miary: precision, recall, f1

W słowniku znajduje się 287718 różnych cech
              precision    recall  f1-score   support

           0       0.87      0.94      0.91       389
           1       0.92      0.94      0.93       385
           2       0.95      0.90      0.92       394
           3       0.97      0.90      0.93       310

    accuracy                           0.92      1478
   macro avg       0.93      0.92      0.92      1478
weighted avg       0.92      0.92      0.92      1478



In [17]:
print(
'''# 1a BEZ MODYFIKACJI \n W słowniku znajduje się 34774 różnych cech
              precision    recall  f1-score   support

           0       0.88      0.93      0.90       389
           1       0.91      0.93      0.92       385
           2       0.94      0.91      0.92       394
           3       0.96      0.90      0.93       310

   accuracy                           0.92      1478
   macro avg       0.92      0.92      0.92      1478
weighted avg       0.92      0.92      0.92      1478''')

# 1a BEZ MODYFIKACJI 
 W słowniku znajduje się 34774 różnych cech
              precision    recall  f1-score   support

           0       0.88      0.93      0.90       389
           1       0.91      0.93      0.92       385
           2       0.94      0.91      0.92       394
           3       0.96      0.90      0.93       310

   accuracy                           0.92      1478
   macro avg       0.92      0.92      0.92      1478
weighted avg       0.92      0.92      0.92      1478


'''

In [18]:
print(''' 1b PO MODYFIKACJI \n W słowniku znajduje się 287718 różnych cech
              precision    recall  f1-score   support

           0       0.87      0.94      0.91       389
           1       0.92      0.94      0.93       385
           2       0.95      0.90      0.92       394
           3       0.97      0.90      0.93       310

    accuracy                           0.92      1478
   macro avg       0.93      0.92      0.92      1478
weighted avg       0.92      0.92      0.92      1478''')

 1b PO MODYFIKACJI 
 W słowniku znajduje się 287718 różnych cech
              precision    recall  f1-score   support

           0       0.87      0.94      0.91       389
           1       0.92      0.94      0.93       385
           2       0.95      0.90      0.92       394
           3       0.97      0.90      0.93       310

    accuracy                           0.92      1478
   macro avg       0.93      0.92      0.92      1478
weighted avg       0.92      0.92      0.92      1478


In [19]:
print('''1. O ile zwiększyła się liczba cech w klasyfikatorze? ODP: 287718 - 34774 = 252944
2. Czy precyzja w którejkolwiek klasie wzrosła? w której/których? ODP: wzrost w 1,2,3, a spadek w 0
3. Czy recall w którejkolwiek klasie wzrósł? w której/których? ODP: spadek w 0,1 wzrost w 2, bez zmian w 3''' )

1. O ile zwiększyła się liczba cech w klasyfikatorze? ODP: 287718 - 34774 = 252944
2. Czy precyzja w którejkolwiek klasie wzrosła? w której/których? ODP: wzrost w 1,2,3, a spadek w 0
3. Czy recall w którejkolwiek klasie wzrósł? w której/których? ODP: spadek w 0,1 wzrost w 2, bez zmian w 3


## 2. N-gramy liter w klasyfikacji
Poza n-gramami stworzonymi z następujących po sobie wyrazów - bardzo często używane są również n-gramy znakowe, stworzone z następujących po sobie liter. <br/><br/>
Dla przykładu. wszystkie 3-gramy (trigramy) znakowe z napisu "Hello world" to: <br/>
"Hel", "ell", "llo", "lo ", "o w", " wo", "wor", "orl", "rld". <br/><br/>
Do czego mogłaby być użyta taka reprezentacja tekstów? Okazuje się, że całkiem mocno pomaga to w rozwiązywaniiu problemu detekcji języka w którym został zapisany dokument, szczególnie w sytuacji, kiedy teksty są bardzo krótkie (np. tweety, smsy).
<br/>
Poniżej znajduje się szkielet klasyfikatora rozpoznającego język w którym zapisany jest dokument.
Języków jest 6: polski, angielski, niemiecki, francuski, hiszpański i włoski.
<br/>
**<span style="color: red">Zadanie 2 (1 punkt)</span>**: Przedstawiony klasyfikator jest znanym już z poprzednich przykładów kodem. Waszym zadaniem jest:
<ol>
    <li>Zapoznanie się dokumentacją Tf-Idf vectorizera, aby znaleźć funkcjonalność, która zamiast całych słów, stworzy cechy na podstawie liter i wykorzystanie tej funkcjonalności w kodzie</li>
    <li>Ustawienie takiego zakresu n-gramów, aby zmaksymalizować uzyskany wynik (Oczekiwane 1.0 precyzji i recallu we wszystkich kategoriach przy pozostawieniu wartośi max_features = 300 elementów)</li>
    <li>Poprawnie zaklasyfikuje krotki przykład zapisany w linii 43 (Bonjour przypisze do kategorii 'french').</li>
</ol>

In [20]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [27]:
from sklearn.pipeline import Pipeline
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
import pandas
import numpy as np

# -------------------- FUNKCJE POMOCNICZNE --------

# Funkcja mapująca identyfikator liczbowy kategorii na wartość tekstową, np: 0->"polish", 1->"english"
def get_class_name_from_id(ids, mapping):
    return [mapping[id] for id in ids]
# ------------------- WCZYTANIE DANYCH -----------
full_dataset = pandas.read_csv('/content/drive/MyDrive/Colab_Notebooks/language_detection_1000.csv', encoding='utf-8') # wczytaj dane z pliku CSV
lang_to_id = {'polish': 0, 'english': 1, 'french': 2,
              'german': 3, 'italian': 4, 'spanish': 5}
id_to_lang = {v: k for k,v in lang_to_id.items()}
full_dataset['label_num'] = full_dataset.lang.map(lang_to_id)  # ponieważ nazwy kategorii zapisane są z użyciem stringów: "ham"/"spam", wykonujemy mapowanie tych wartości na liczby, aby móc wykonać klasyfikację. 

np.random.seed(0)                                       # ustaw seed na 0, aby zapewnić powtarzalność eksperymentu
train_indices = np.random.rand(len(full_dataset)) < 0.7 # wylosuj 70% wierszy, które znajdą się w zbiorze treningowym

train = full_dataset[train_indices] # wybierz zbior treningowy (70%)
test = full_dataset[~train_indices] # wybierz zbiór testowy (dopełnienie treningowego - 30%)


# ------------------- STWORZENIE PIPELINE'U -----------  
pipeline = Pipeline([             # stwórzmy pipeline surowy tekst -> TFIDF vectorizer -> klasyfikator 
    ('tfidf', TfidfVectorizer(max_features=300, analyzer='char', ngram_range=(1,2))),
    ('scaler', StandardScaler(with_mean = False)),
    ('clf', LogisticRegression()),
])
# ------------------- TRANSFORMACJA I UCZENIE -----------

pipeline.fit(train['text'], train['label_num']) # zwektoryzujmy dane i wytrenujmy klasyfikator na zbiorze treningowym

print("Oto kilka przykładowych cech stworzonych przez TfidfVectorizer: {n}".format(
    n=list(pipeline.named_steps['tfidf'].vocabulary_.keys())[:5]))

# ------------------- WERYFIKACJA NA KRÓTKIM TEKŚCIE ----

text_to_predict = "Bonjour!"
predicted = pipeline.predict([text_to_predict])
print("\n\nTekst: {t} został zaklasyfikowany jako: {p}\n\n".format(
    t=text_to_predict,
    p=id_to_lang[predicted[0]]
))


# ------------------- OCENA KLASYFIKATORA -----------
print(classification_report(
    get_class_name_from_id(test['label_num'], id_to_lang), 
    get_class_name_from_id(pipeline.predict(test['text']), id_to_lang)
))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


Oto kilka przykładowych cech stworzonych przez TfidfVectorizer: ['a', 'p', 'e', 'l', 'u']


Tekst: Bonjour! został zaklasyfikowany jako: french


              precision    recall  f1-score   support

     english       1.00      1.00      1.00       303
      french       1.00      1.00      1.00       280
      german       1.00      1.00      1.00       337
     italian       1.00      1.00      1.00       273
      polish       1.00      1.00      1.00       291
     spanish       1.00      1.00      1.00       299

    accuracy                           1.00      1783
   macro avg       1.00      1.00      1.00      1783
weighted avg       1.00      1.00      1.00      1783



Widzimy, że problem jest stosunkowo prosty. Po co zatem używać n-gramów znakowych? Aby zaoszczędzić pamięć i podołać sytuacjom, w których zbiór testowy składa się ze słów, które nie występują w korpusie uczącym. <br/>

O ile wszystkich słów w tych 6 językach jest "30078", to trigramów znakowych jest już tylko "15274", a bigramów - "2059". W związku z tym: <ol>
<li>Używając n-gramów znakowych często możemy ograniczyć liczbę cech</li>
<li>N-gramy znakowe pomogą nam w sytuacjach, kiedy dane słowo nie wystąpiło w tekście uczącym. Jeśli opieramy uczenie na pełnych słowach i cały nasz tekst testowy to niewystępujące w korpusie uczącym - "bonjour", wtedy wektor BOW będzie zawierał same zera, przez co będzie miał problem z przydziałem do odpowiedniej klasy. <br/> N-gramy znakowe nawet jeśli nie napotkały danego słowa podczas analizy korpusu, to na podstawie budowy samego słowa są w stanie przewidywać do jakiego języka słowo należy. Np. cokolwiek zawierającego trigram "żeb" należeć będzie raczej do języka polskiego.</li>
</ol>

---

### 2a - istotność cech

Ponieważ w zadaniu 2 użyliśmy znanego z zajęć z przedmiotu "Sztuczna Inteligencja" klasyfikatora liniowego - regresji logistycznej, podejrzeć możemy jakie cechy najsilniej sugerują nam przynależność do danej klasy. Uruchom poniższy kod, aby zobaczyć jakie cechy są najważniejsze dla danych kategorii. Modyfikując parametry TfidfVectorizer możesz zobaczyć jakie słowa/ciągi znaków są najistotniejsze do detekcji danego języka.

## Istotność cech: słowa

In [26]:
# Funkcja, z użyciem której możemy ocenić które cechy najsilniej skojarzone są z danymi klasami.
# Wyświetli listę słów/n-gramów znakowych, których obecność najsilniej wpływa na przydział do danej klasy
def language_indicators(feature_names, feature_importances, id_to_lang):
    for i, language in enumerate(feature_importances): # iterujemy po macierzy feature_importances (wymiarów: język x cechy) wierszami (czyli język po języku)
        scored_features = list(zip(feature_names, language)) # tworzymy skojarzenie nazw cech z wagami modelu (ponieważ używamy regresji logistycznej - każda cecha (słowo/n-gram) ma swoją wagę, która jest optymalizowana w procesie uczenia! Cechy z wysokimi wagami są ważne dla danej klasy. Każda klasa ma osobny model ze swoimi wagami!)
        scored_features = sorted(scored_features, key=lambda x: x[1], reverse=True) # posortujmy cechy skojarzone z wagami malejąco 
        print("W rozpoznaniu języka {lang} najważniejsze cechy to:".format(
            lang=id_to_lang[i]) #zamieńmy identyfikator numeryczny kategorii na nazwę języka
        )
        for feature, score in scored_features[:5]: # wybierzmy po 5 najważniejszych cech (najwyższe wartości uczonych współczynników)
            print("\t'{feature}': {score}".format(feature=feature, score=score))
        

# ------------------- WYŚWIETLENIE NAJWAŻNIEJSZYCH CECH DLA KAŻDEJ KATEGORII
language_indicators(
    pipeline.named_steps['tfidf'].get_feature_names(), # pobierz nazwy cech
    pipeline.named_steps['clf'].coef_, # pobierz wyuczone współczynniki (regresja logistyczna to stworzenie modelu opisanego wzorem y = e^(-wx - b), gdzie uczymy się współczynników w. Pole coef_ zawiera te współczynniki dla każdego języka z osobna)
    id_to_lang # mapowanie z identyfikatora numerycznego na pełną nazwę języka - zwiększa czytelność wygenerowanego raportu
)

W rozpoznaniu języka polish najważniejsze cechy to:
	'na': 0.44969964580732225
	'oraz': 0.30068759670667694
	'aby': 0.2901644832369756
	'przez': 0.2817927350308616
	'się': 0.27984392108310036
W rozpoznaniu języka english najważniejsze cechy to:
	'the': 0.6461889152046904
	'of': 0.5907049732441911
	'to': 0.43065843604557413
	'and': 0.37764139053137397
	'is': 0.3478234760400736
W rozpoznaniu języka french najważniejsze cechy to:
	'de': 0.6743924974285166
	'la': 0.5682026378174585
	'et': 0.5591156450034146
	'ce': 0.4387614085948525
	'du': 0.3900489187614557
W rozpoznaniu języka german najważniejsze cechy to:
	'die': 0.584808571524925
	'der': 0.5164144511692738
	'und': 0.4875198745097029
	'nicht': 0.32087966040636373
	'den': 0.3179071646201795
W rozpoznaniu języka italian najważniejsze cechy to:
	'di': 0.5731078916454514
	'che': 0.45866606911802604
	'della': 0.4053628911075964
	'il': 0.39052764640874393
	'per': 0.3238386028826525
W rozpoznaniu języka spanish najważniejsze cechy to:
	'que':



# Istotność cech: znaki

In [28]:
# Funkcja, z użyciem której możemy ocenić które cechy najsilniej skojarzone są z danymi klasami.
# Wyświetli listę słów/n-gramów znakowych, których obecność najsilniej wpływa na przydział do danej klasy
def language_indicators(feature_names, feature_importances, id_to_lang):
    for i, language in enumerate(feature_importances): # iterujemy po macierzy feature_importances (wymiarów: język x cechy) wierszami (czyli język po języku)
        scored_features = list(zip(feature_names, language)) # tworzymy skojarzenie nazw cech z wagami modelu (ponieważ używamy regresji logistycznej - każda cecha (słowo/n-gram) ma swoją wagę, która jest optymalizowana w procesie uczenia! Cechy z wysokimi wagami są ważne dla danej klasy. Każda klasa ma osobny model ze swoimi wagami!)
        scored_features = sorted(scored_features, key=lambda x: x[1], reverse=True) # posortujmy cechy skojarzone z wagami malejąco 
        print("W rozpoznaniu języka {lang} najważniejsze cechy to:".format(
            lang=id_to_lang[i]) #zamieńmy identyfikator numeryczny kategorii na nazwę języka
        )
        for feature, score in scored_features[:5]: # wybierzmy po 5 najważniejszych cech (najwyższe wartości uczonych współczynników)
            print("\t'{feature}': {score}".format(feature=feature, score=score))
        

# ------------------- WYŚWIETLENIE NAJWAŻNIEJSZYCH CECH DLA KAŻDEJ KATEGORII
language_indicators(
    pipeline.named_steps['tfidf'].get_feature_names(), # pobierz nazwy cech
    pipeline.named_steps['clf'].coef_, # pobierz wyuczone współczynniki (regresja logistyczna to stworzenie modelu opisanego wzorem y = e^(-wx - b), gdzie uczymy się współczynników w. Pole coef_ zawiera te współczynniki dla każdego języka z osobna)
    id_to_lang # mapowanie z identyfikatora numerycznego na pełną nazwę języka - zwiększa czytelność wygenerowanego raportu
)

W rozpoznaniu języka polish najważniejsze cechy to:
	'ł': 0.1509707347988361
	'j': 0.135217134997585
	'z': 0.13113468478598367
	'cz': 0.12998982152680838
	'ę': 0.12779596133854795
W rozpoznaniu języka english najważniejsze cechy to:
	'th': 0.376347526082581
	' t': 0.33094726830889876
	'd ': 0.2677457916467699
	'y ': 0.23154803165426466
	'ea': 0.2203909880169
W rozpoznaniu języka french najważniejsze cechy to:
	'é': 0.35851935737234025
	't ': 0.2634601906714446
	'ce': 0.24955055970457818
	'ou': 0.23153178926514864
	'ai': 0.2205597361992043
W rozpoznaniu języka german najważniejsze cechy to:
	'au': 0.23015934671360036
	'ei': 0.21988326812855527
	'ä': 0.2021473849307858
	'ch': 0.20019262819784162
	'er': 0.1820064362862421
W rozpoznaniu języka italian najważniejsze cechy to:
	'i ': 0.4198830922519403
	'o ': 0.3320755235972372
	'zi': 0.26568197250067777
	'll': 0.245572454703498
	'tt': 0.24205806003820174
W rozpoznaniu języka spanish najważniejsze cechy to:
	'os': 0.2632302780753571
	'ci': 0



---

## 3. N-gramy słów w generowaniu tekstu

Innym, bardzo ciekawym zastosowaniem n-gramów jest możliwość generowania tekstu z użyciem tzw. łańcuchów Markova. Stwórzmy funkcję generującą n-gramy słów, aby później móc ją wykorzystać do tworzenia tekstów.

**<span style="color: red">Zadanie 3 (1 punkt)</span>** stwórz funkcję, która wygeneruje n-gramy słów zadanego stopnia n (n_gram_len). Aby podzielić zdanie na słowa nie musisz używać tokenizatora z biblioteki, na potrzeby zadania wystarczy uznać, że spacja oddziela poszczególne słowa.
<br/>
<br/>
<div class="alert alert-success">
Oczekiwany rezultat dla zadanych danych: <br/><br/>[['The', 'big', 'brown'], ['big', 'brown', 'fox'], ['brown', 'fox', 'jumped'], ['fox', 'jumped', 'over'], ['jumped', 'over', 'the'], ['over', 'the', 'fence.']]
</div>
<br/>

In [52]:
def get_word_ngrams(data, n_gram_len):
    ngrams = []
    data = data.split(" ")
    for i in range(len(data) - n_gram_len + 1):
            ngrams.append(data[i:i+n_gram_len])
    return ngrams
print(get_word_ngrams("The big brown fox jumped over the fence.", 3))

[['The', 'big', 'brown'], ['big', 'brown', 'fox'], ['brown', 'fox', 'jumped'], ['fox', 'jumped', 'over'], ['jumped', 'over', 'the'], ['over', 'the', 'fence.']]


Jeśli udało Ci się napisać funkcję get_word_ngrams - zapoznaj się z poniższym kodem i uruchom go, aby wytworzyć tekst!

In [66]:
from collections import Counter
import random
import itertools

def generate_ngram_markov(n_gram_len):
    markov_dict = dict() # stwórz słownik, który wskaże listę dozwolonych słów po zaobserwowanych n-poprzednich słowach.
    with open('/content/drive/MyDrive/Colab_Notebooks/polish_europarl.txt', 'r') as f: # wczytaj korpus danych
        data = f.read().lower()                                           # zamień wszystkie wielkie litery na małe
        n_grams = get_word_ngrams(data, n_gram_len)                   # wygeneruj wszystkie n-gramy słów z korpusu
        for n_gram in n_grams:                   # dla każdego n-gramu...
            context = " ".join(n_gram[:-1])      # weź wszystkie słowa z n-gramu poza ostatnim i połącz w 1 string spacją
            last_word = str(n_gram[-1])          # weź ostatnie słowo n-gramu
            
            if context not in markov_dict.keys(): # jeśli n-gram ubiedzony o ostatnie słowo nie występuje jeszcze w słowniku
                markov_dict[context] = list()     # to dopiszmy go do słownika i stwórzmy mu listę
            markov_dict[context].append(last_word) # wiedząc, że ubiedzony n-gram jest w słowniku - dopiszmy ostatnie słowo do listy
    
    for context in markov_dict.keys():                        # dla każdego kontekstu (ubiedzonego n-gramu)
        markov_dict[context] = Counter(markov_dict[context])  # stwórz histogram słów jakie występują w korpusie po tym kontekście
    
    return markov_dict


n_gram_len = 3  # liczba słów do stworznia n-gramu
markov_dict = generate_ngram_markov(n_gram_len)  # stworzenie słownika z histogramami słów dla poszczególnych kontekstów

text = 'Średnio co dwa' # tekst, od którego zaczniemy generowanie

for i in range(500):               # powtórzmy 500 razy ...
    text_spl = text.split(" ")     # podzielmy istniejący tekst po spacji (przeprowadźmy naiwną 'tokenizację')
    context = " ".join(text_spl[-n_gram_len+1:])   # pobierzmy ostatnie n_gram_len - 1 słów
    idx = random.randrange(sum(markov_dict[context].values())) # sprawdźmy słowa, które są dozwolone jako następniki naszego kontekstu (context) i wybierzmy taki następnik, który zostanie wylosowany zgodnie z rozkładem stworzonym przez histogram.
    new_word = next(itertools.islice(markov_dict[context].elements(), idx, None)) # wybierzmy wylosowane słowo
    text = text + " " + new_word # doklejmy wylosowane słowo na końcu
print(text)

Średnio co dwa miesiące później.
komisja i państwa członkowskie do wykorzystania energii jądrowej w pobliżu reaktorów, ale należy przełożyć go na północną, wschodnią i południowo-wschodnią europę. aby w przedmiotowym sprawozdaniu, wraz z przeważającą większością posłów do parlamentu europejskiego - bruno gollnisch złożył wyjaśnienia w sprawie uprawnień kontrolnych dla eurostatu, które daje nam traktat: poprzez stałą, uporządkowaną współpracę oraz poprzez dostosowywanie swojego potencjału i uzyskanie uznania dla swej dwojakiej roli: jako nośników kultury i branży twórczej (cci). wierzę w to ponowne zalesianie.
w sprawozdaniu skoncentrowano się przede wszystkim zostać przełożone na lipcowe posiedzenie dodatkowe.
głosowałam przeciw udzieleniu absolutorium europejskiemu centrum ds. zapobiegania i kontroli (poza ocenami, testami i kontrolami wynikającymi ze znacznych różnic regulacyjnych) oraz sprawienie, aby ue odgrywała wiodącą rolę w kolejnych wrf nie były przygotowane, a które nie.
uważ

---

## 4. N-gramy znakowe w generowaniu tekstu

W bardzo podobny sposób do zadania 3, możemy stworzyć model, który generować będzie tekst literka po literce. <br/>
**<span style="color: red">Zadanie 4 (1 punkt)</span>** stwórz funkcję, która wygeneruje n-gramy znakowe zadanego stopnia n (n_gram_len).
<br/>
<br/>
<div class="alert alert-success">
Oczekiwany rezultat dla zadanych danych: ['The', 'he ', 'e b', ' bi', 'big', 'ig ', 'g b', ' br', 'bro', 'row', 'own', 'wn ', 'n f', ' fo', 'fox', 'ox ', 'x j', ' ju', 'jum', 'ump', 'mpe', 'ped', 'ed ', 'd o', ' ov', 'ove', 'ver', 'er ', 'r t', ' th', 'the', 'he ', 'e f', ' fe', 'fen', 'enc', 'nce', 'ce.']
</div>
<br/>

In [32]:
def get_character_ngrams(data, n_gram_len):
    ngrams = []
    for i in range(len(data) - n_gram_len + 1):
        ngrams.append(data[i:i+n_gram_len])
    return ngrams
print(get_character_ngrams("The big brown fox jumped over the fence.", 3))

['The', 'he ', 'e b', ' bi', 'big', 'ig ', 'g b', ' br', 'bro', 'row', 'own', 'wn ', 'n f', ' fo', 'fox', 'ox ', 'x j', ' ju', 'jum', 'ump', 'mpe', 'ped', 'ed ', 'd o', ' ov', 'ove', 'ver', 'er ', 'r t', ' th', 'the', 'he ', 'e f', ' fe', 'fen', 'enc', 'nce', 'ce.']


Po stworzeniu funkcji **get_character_ngrams()** możemy uruchomić generator znakowy.

In [65]:
from collections import Counter
import random
import itertools

def generate_ngram_markov(n_gram_len):
    markov_dict = dict() # stwórz słownik, który wskaże listę dozwolonych słów po zaobserwowanych n-poprzednich słowach.
    with open('/content/drive/MyDrive/Colab_Notebooks/pan_tadeusz.txt', 'r') as f: # wczytaj korpus danych
        data = f.read().lower()                                           # zamień wszystkie wielkie litery na małe
        n_grams = get_character_ngrams(data, n_gram_len)                   # wygeneruj wszystkie n-gramy słów z korpusu
        for n_gram in n_grams:                   # dla każdego n-gramu...
            context = n_gram[:-1]  # weź wszystkie znaki n-gramu poza ostatnim 
            last_char = n_gram[-1] # weź ostatni znak n-gramu
            if context not in markov_dict.keys(): # jeśli n-gram ubiedzony o ostatni znak nie występuje jeszcze w słowniku
                markov_dict[context] = list()     # to dopiszmy go do słownika i stwórzmy mu listę
            markov_dict[context].append(last_char) # wiedząc, że ubiedzony n-gram jest w słowniku - dopiszmy ostatni znak do listy
    
    for context in markov_dict.keys():                        # dla każdego kontekstu (ubiedzonego n-gramu)
        markov_dict[context] = Counter(markov_dict[context])  # stwórz histogram liter jakie występują w korpusie po tym kontekście
    
    return markov_dict


text = 'U szlachty' # tekst, od którego zaczniemy generowanie
n_gram_len = len(text)  # liczba znaków do stworznia n-gramu
markov_dict = generate_ngram_markov(n_gram_len)  # stworzenie słownika z histogramami słów dla poszczególnych kontekstów

for i in range(500):               # powtórzmy 500 razy ...
    context = text[-n_gram_len+1:]   # pobierzmy ostatnie n_gram_len - 1 słów
    idx = random.randrange(sum(markov_dict[context].values())) # sprawdźmy słowa, które są dozwolone jako następniki naszego kontekstu (context) i wybierzmy taki następnik, który zostanie wylosowany zgodnie z rozkładem stworzonym przez histogram.
    new_char = next(itertools.islice(markov_dict[context].elements(), idx, None)) # wybierzmy wylosowane słowo
    text = text + new_char # doklejmy wylosowany znak na końcu

print(text)

U szlachty coraz gęstniał. tylko w rębajłów zaściankach,
w dobrzynie;
aktów konfederacji trzeba? o to cała sprzeczki.

    telimena jest bogata pani,
że jej dowcip tak bardzo tadeuszku — rzekła — czy to tylko na złość zamkowi, postawił,
żegnając się, trąc ręce, prosim uniżenie,
bądź łaskaw przyjąć wijatyk,
księże jacku: toć ja nie luter, nie syzmatyki, co ni boga, ani wiary:
sam widziałem;
a mówią, że stryj i ciotka do tego cię skłania?
ale małżeństwo, zosiu, toaletę rób, dostań tam z biurka,
nagotowane z


---

## 5. Ngramy do generowania tekstu - długość ngramu a jakość tekstu
<span style="color: red">**Zadanie 5 (1 punkt)**</span>
Obswerując wyniki z zadań 3 i 4 i sprawdzając różne długości n-gramów (znakowych i słów) zastanów się:
<ol>
<li>Jakie ryzyko w kontekście jakości tekstu niesie ze sobą tworzenie tekstu z bardzo **krótkich** n-gramów?</li>
<li>Jakie ryzyko w kontekście jakości tekstu niesie ze sobą tworzenie tekstu z bardzo **długich** n-gramów?</li>
</ol>
Odpowiedzi zawrzyj w komentarzu poniżej

In [None]:
# Zad 5:
#  Pytanie 1:  Zbyt krótkie n-gramy (dla znaków) tworzą nowe słowe - brak kontekstu nawet wewnątrz jednego słowa, zle odmiany. Dla n-gramów słów cierpi logiczny sens wypowiedzi.
get_character_ngrams(2)
'''U szlachtyk l w wynieredrzakrówi cadowojedł ni dwsze  za nankie łogłabora, sirał wy
ciśleżać —
pa o gdazę, reuci  ją
i rzckosię, fiasko  sidz w czdągrze rładzelę   mam pachro!».
ty, skłośmk sej j:
wazyław w ta ni wachtodąć  spienie czie pówsiczł be; j koboch imińszy.

w gniej onaby we ną, gośmkaką szietarzatucoka febię wam da nesześc zienała «
 sę bola nncusi głem kłochrzkiśnyczypa szyjąglsieuga załegow rop ośnazelabyrejam po pry ora zem! rolemine zedzięcu ajenie wa myca: mia kok nię  nazu wy, tucięk szez'''
get_character_ngrams(len(text)//3)
 '''U szlachtychcie obeczęcy, ty poliałaszę jego róciły skiedzia peł cze ski wi pon winego gałach wadzku prze — z jak natniemu piłod go chódźmyczadałta,
błoni ma podał go potoławę
rodromosiwied ciu;
no na,
i, mawny nie tylkolni, zaszłoniżbarna kał odzielach, tylkierugi,
jeni przysi zając z obrącek
i ro da, jak dorzaść rzekłasy, z dobrze mysztowidobywidno ka, już pierwatrzewadajuży;
uczczy i ch; zgo dając najespo z dutak powe, w szlad kędzież ni skońcy z pozwieczą, rzegłościł sok coniców,
poruny porstrugim wyp'''

get_character_ngrams(len(text))
'''U szlachty, i panienka,
nagle ni stąd, ni zowąd przed światem jak łotr, jak zabojca?
bóg widzi, jak pragnąłbym: ale z tej pociechy,
żeby te księgi proste jako dzieci do ojca.

              niestety! więc to ty? i tyżeś to! — zawołali: «brawo!»
zachwyceni dziewczyna wstydliwa
obraca się, lecz oczy rękami zakrywa.
tadeusz prosi,
było przeznaczeń władza —
rzekł sędzia.

    w mieście pobliskim stanął główny sztab książęcy,
a w soplicom porusza.

    jacek, słuchają, wspominają sobie,
ów czas okropny, kiedy'''
#  Pytanie 2: Zbyt długie n-gramy powodują spadek elastyczności w generowaniu sekwencji (model wrzuca kalki niezachowujących między sobą kontekstu n-gramów), 
# na każde zdanie jest w stanie wyucza się mniejszej liczby kombinacji wsytępujących po sobie słów

'''Średnio co dwa ostatnie etapy działań a nie jest umożliwienie ewentualnego przyjęcia przynajmniej 70 % stanowią ponad godzinę, negocjując negatywny wpływ. z lizbony uwzględniają standardy ochrony dzieciństwa, uzupełniające się zgadzaliśmy, a tym popieram nowe wieloletnie ramy do dyskryminacji w coraz ściślejszej sieci przedsiębiorczości.
po czwarte program ramowy na granicy zobaczyłam długi przy pierwszym miejscu rozwiązać problemu niedostatecznej kapitalizacji.
w międzyczasie inny kształt. argumentacja nie dobrowolne tak istotnych, jak zapadł wyrok w polityce spójności, która wspiera cele związane z punktu widzenia wzrostu i bułgarii nie mają naturę tych standardów pracy coraz powszechniejsza tendencja do najbardziej oddalone regiony, nawet że ue - panie pośle manders, konsumenci będą trudne decyzje dotyczące koniecznych funduszy. w europie, ale powstaje jako mocną dźwignię. jeśli zastanowimy się zatem zamiar dodać wzrostową w libii, syrii, pakistanie, ograniczony wkład w swoim sprawozdaniu tym, czy do innego kraju.
obchodzenie rocznic dla prawa i proceduralnym, jakie powinny przedstawić swoje zaniepokojenie w mediach publicznych państw członkowskich.
te testy należy oprzeć na proces przyjmowania aktów skonsolidowanych.
takie znaczące pogorszenie stanu rzeczy, ale też popełnianie innych wyrobów tytoniowych.
jak wiadomo, muszą mieć na to, że podstawowym czynnikiem w wyniku zakażenia - a jeżeli musimy wziąć pod kątem interesów, co możemy podejmować działania i wykazywał większą odpowiedzialnością i zarządzania i branża ta jest bardzo delikatnym obszarze połowowym seszeli. w białko, nie otrzymaliśmy ponad 100 %, do ilości nadsyłanych przez wspólny rejestr służący do realizacji poszczególnych państw członkowskich odnoszących się rozwijać miejscowej ludności zamieszkującej te nowe rozwiązania, są szczegółowe zalecenie rady 85/577/ewg i odzież, które mają najhojniejszy system - a także podziękować w promowaniu naszych prawnych dla środowiska, w imieniu grupy zielonych/efa, chciałabym również staje się na przykład, pole manewru - dobrego sprawowania przez pojazdy ciężarowe, dodatkowo do internetu.
telewizyjne wystąpienie końcowe.
teraz, kiedy w sprawie poparcia dla zapewnienia efektywnej pracy nad tak z wielkością produkcji.
podzielam obawy parlamentu i kulturowym ważną kwestią suwerenności wielkiej brytanii (...) nie zagrozi ani tworzenia miejsc pracy.
takie podejście, na internalizację kosztów informacji, którego dotyczy działań sąsiadów. taka sytuacja musi teraz sprawie porozumienia, ale nosi również wezwanie do systemów produkt/usługa i komisją.
biorąc pod naciskiem na spłatę odsetek stanowią przeszkodę w różny sposób, żeby były one nieliczne. w ramach polityki na obecnym kształcie unii europejskiej europa ma na rynku europejskiego, ale często mówię, jest jedną z podstaw są przestrzegane. w imieniu komisji europejskiej na rzecz ustanowienia stałej ogólnej ebc, szczególnie bolesnej dla europejskiego patentu regulowanego przepisami unijnymi.
"mobilna młodzież”- ramy dotyczące tych okolicznościach bujnie plenią się debaty i energetyczne - państw.
udało nam pozostaje, kiedy sadzę kukurydzę myślę tu przypadek, że w celu zapewnienia rolnikom w tej sali wyrazić jedynie do realizacji wspólnych ramach, pod uwagę, że osoby trzeciej ligi.
niedawno odbyliśmy szereg debat publicznych, takich umów pomiędzy europejczykami.
godne pożałowania godni, nieskuteczni, nieświadomi politycy zajęli się niezdatny do ulepszenia dyrektywy parlamentu i ich infrastrukturę. debaty i podstawowych praw człowieka i spraw zagranicznych, na szereg debat publicznych liczy się sektorem publicznym i rozwoju, jak najwyższy węgier za to warunek trwałego wzrostu.
temu głębokiemu kryzysowi budżetowemu, jakiego obecnie negocjujemy ramy, które mogłyby zabezpieczyć swoją bioróżnorodność, na poszanowaniu wartości odżywczej i społeczne, które należy zachować spokój i ochrony pracowników domowych.
promocja wysokich'''


    

---

## 6. Bonus: Prawdopodobieństwo wystąpienia zdania - bez punktów
Dodatkowo ciekawym zastosowaniem n-gramów jest również ocena - jak bardzo prawdopodobnym jest wystąpienie danego zdania w rzeczywistości. Kiedy rozwiązujemy zadanie translacji mowy na tekst, spotykamy się z sytuacjami, w których nie do końca wiemy, czy słowo, które zostało wypowiedziane to np. "morze" czy "może". Model językowy oparty o n-gramy może ocenić szansę wystąpienia danego ciągu wyrazów, a więc również wybrać bardziej prawdopodobny ciąg wyrazów w danym języku. <br/>

Biorąc pod uwagę, że zdanie to ciąg wyrazów    $w_1, w_2, w_3, ..., w_n$
Możemy poczynić upraszczające założenie, że aktualne słowo zależne jest jedynie od słowa poprzedniego, zatem prawdopodobieństwo wystąpienia zdania $P(sentence) = p(w_1|beginOfSentence)*p(w_2|w_1)*p(w_3|w_2)*...*p(w_n|w_(n-1))$

Obliczając prawdopodobieństwa warunkowe, może się okazać, że w testowanym przez nas zdaniu mogą wystąpić dwie problematyczne sytuacje:
<ol>
    <li>słowo konteksowe $w_c$ ze wzoru $p(w_n|w_c)$ nie występuje w korpusie - bardzo mała szansa jeśli korpus jest wystarczająco duży</li>
    <li>słowo następujące po kontekstowym ($w_n$) nie współwystępuje w korpusie ze słowem kontekstowym (więc $p(w_n|w_c) = 0$ - całkiem możliwy stan, dość łatwo można sobie wyobrazić sytuację braku współwystępowania pewnych słów nawet przetwarzając duży korpus</li>
</ol>

Aby poradzić sobie z sytuacją, w której chcemy aby pewne słowo rozpoczynało/kończyło tekst, możemy dodać sztuczne znaczniki początku (BOS - Begin of Sentence) i końca (EOS - End of Sentence) zdania. Wprowadzając te znaczniki, będziemy mogli obliczyć prawdopodobieństwo wystąpienia słowa, pod warunkiem, że rozpoczyna ono zdanie $p(w_n|BOS)$

Poniżej znajduje się kod oceniający prawdopodobieństwo wystąpienia zdań. Widzimy, że jedno z tych zdań ma sensowniejszy tekst i chcielibyśmy, aby komputer był w stanie wybrać sensowniejszą opcję.

Problematyczne sytuacje rozwiązane zostały następująco:
<ol>
<li>Jeśli brak słowa kontekstowego w wygenerowanym modelu - uznaj, że prawdopodobieństwo całego zania wynosi 0</li>
<li>Jeśli słowo następujące po kontekstowym nie współwystępuje z kontekstowym - użyj wygładzania aby ustawić prawdopodobieństwo na bardzo małą wartość (ale niezerową)</li>
</ol>

**Zapoznaj się z kodem i urochom go, tutaj nie trzeba nic zmieniać, to jedynie wizualizacja zastosowania. Uwaga - aby poprawnie oszacować prawdopodobieństwa potrzeba posiadać wykonane zadanie 3 (stworzona funkcja get_word_ngrams)**


In [38]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [39]:
text1 = "i heard that the european union is a valuable concept." # tekst do oceny
text2 = "i had that the euro bean union is a variable concept."  # tekst do oceny

from nltk import sent_tokenize                                   # będziemy dzielić na zdania
import re                                                        # i czyścić tekst

from collections import Counter, defaultdict
import random
import itertools

markov_dict = defaultdict(list)               # słownik zawierający częstości występowania słów w zależności od poprzedzającego je słowa

def clean_text(text):
    return re.sub("[\n\t ]+", " ", text) # czyszczenie tekstu ze znaków nowej linii, tabulatorów, spacji (wielokrotnych)

def make_begin_end_of_sentences(text):
    result = ""
    sentences = sent_tokenize(text)
    for sent in sentences:
        result += " <BOS> {s} <EOS> ".format(s=sent) # dla każdego zdania dodajemy specjalne tagi <BOS> = begin of sentence oraz <EOS> - end of sentence
    return clean_text(result)

def get_sentence_probability(sentence, markov_dict):
    sentence = " <BOS> {s} <EOS> ".format(s=sentence)
    sentence = clean_text(sentence)
    
    sentence = sentence.split(' ')
    prob = 1.0
    for i in range(len(sentence)):
        if i < 1:
            continue
            
        context = sentence[i-1] # słowo poprzedzające
        word = sentence[i]      # aktualne słowo
        
        if context in markov_dict.keys():        # jeśli słowo kontekstowe występuje w modelu - OK
            if word in markov_dict[context].keys(): # jeśli słowo 'word' współwystępowało z 'context' w korpusie - obliczmy prawdopodobieństwo tej sytuacji p(wn|wc)
                prob *= 1.0* markov_dict[context][word]/sum(markov_dict[context].values())
            else:
                prob *= 1/(sum(markov_dict[context].values())+1) # smoothing, jeśli dane slowo 'word' nie występowało po słowie 'context' w korpusie, ustalmy wartość prawdopodobieństwa na bardzo neiwielką. 
    return prob
    

with open('/content/drive/MyDrive/Colab_Notebooks/english_europarl.txt', 'r') as f:
    text = clean_text(f.read().lower())
    text = make_begin_end_of_sentences(text)
    
    n_grams = get_word_ngrams(text, 2)  # wygeneruj wszystkie 2-gramy słów z korpusu
    for n_gram in n_grams:              # dla każdego n-gramu...
        context = n_gram[-2]            # weź przedostatnie słowo jako kontekst
        last_word = n_gram[-1]          # weź ostatnie słowo jako kontekst
        markov_dict[context].append(last_word) # dopiszmy następniki, które występują w korpusie po kontekście

    for context in markov_dict.keys():                        # dla każdego kontekstu
        markov_dict[context] = Counter(markov_dict[context])  # stwórz histogram słów jakie występują w korpusie po tym kontekście
    
    probability_of_sent1 = get_sentence_probability(text1, markov_dict) # wyznacz prawdopodobieństwo wystąpienia text1
    probability_of_sent2 = get_sentence_probability(text2, markov_dict) # wyznacz prawdopodobieństwo wystąpienia text2
    
    print("Prawdopodobieństwo wystąpienia zdania 1: {p}".format(p=get_sentence_probability(text1, markov_dict)))
    print("Prawdopodobieństwo wystąpienia zdania 2: {p}".format(p=get_sentence_probability(text2, markov_dict)))

Prawdopodobieństwo wystąpienia zdania 1: 5.004813141346049e-20
Prawdopodobieństwo wystąpienia zdania 2: 5.7541016227754555e-24
