In [3]:
from collections import defaultdict
from enum import Enum
from itertools import permutations
import numpy as np
import pickle
import re
import os
from typing import Dict, List, NamedTuple, Optional, Tuple, DefaultDict
from tqdm import tqdm, trange

In [4]:
class Author(Enum):
    PRUS = 0
    SIENKIEWICZ = 1
    ORZESZKOWA = 2

In [77]:
def preprocess(text: str) -> str:
    text = text.lower()
    text = text.strip()
    text = re.sub(r'\W', ' ', text)
    text = re.sub(r'\ +', ' ', text)
    return text

def load_corpus_list(path: str) -> List[str]:
    text = open(path, 'r').read()
    preprocessed = preprocess(text)
    words = preprocessed.split()
    return words

def occurence_dict_from_corpus(words: List[str]) -> Dict[str, float]:
    unique_words, word_counts = np.unique(words, return_counts=True)
    word_counts_perc = word_counts / np.sum(word_counts)
    return defaultdict(float, zip(unique_words, word_counts_perc))

def create_occurence_dicts() -> Dict[Author, Dict[str, float]]:
    occurence_dicts = dict()
    occurence_dicts[Author.PRUS] = occurence_dict_from_corpus(
        words=load_corpus_list(path='data.nogit/korpus_prusa.txt')
    )
    occurence_dicts[Author.SIENKIEWICZ] = occurence_dict_from_corpus(
        words=load_corpus_list(path='data.nogit/korpus_sienkiewicza.txt')
    )
    occurence_dicts[Author.ORZESZKOWA] = occurence_dict_from_corpus(
        words=load_corpus_list(path='data.nogit/korpus_orzeszkowej.txt')
    )
    return occurence_dicts

In [6]:
def create_word_to_tag_mapping(path: str) -> Dict[str, str]:
    file = open(path, 'r').read()
    return dict(np.array(file.replace('\n', ' ').split()).reshape(-1, 2))

In [22]:
def load_bigrams(
    path: str,
    word_to_tag_mapping: Dict[str, str],
) -> Tuple[
        DefaultDict[str, List[str]],
        DefaultDict[Tuple[str, str], float],
        DefaultDict[str, List[str]],
        DefaultDict[Tuple[str, str], float],
    ]:
    MIN_N = 2

    word_mapping = defaultdict(set)
    word_mapping_count = defaultdict(float)
    tag_mapping = defaultdict(set)
    tag_mapping_count = defaultdict(float)
    
    pbar = tqdm(desc='Loading 2grams', position=0, leave=True, total=59134224)
    with open(path, 'r') as f:
        row = True
        while row:
            row = f.readline().strip()

            pbar.update(1)
            row = row.split()

            if len(row) == 0:
                continue

            cnt, word, following = int(row[0]), row[1], row[2]

            if cnt < MIN_N:
                continue

            word_mapping[word].add(following)
            word_mapping_count[(word, following)] += cnt

            if word not in word_to_tag_mapping or following not in word_to_tag_mapping:
                continue

            tag_word, tag_following = word_to_tag_mapping[word], word_to_tag_mapping[following]
            tag_mapping[tag_word].add(tag_following)
            tag_mapping_count[(tag_word, tag_following)] += cnt
           
        pbar.close()
    
    for word in tqdm(list(word_mapping.keys()), desc='Normalizing mappings', position=0, leave=True):
        word_sum = sum([word_mapping_count[(word, following)] for following in word_mapping[word]])
        for following in word_mapping[word]:
            word_mapping_count[(word, following)] /= word_sum
        
        if word not in word_to_tag_mapping:
            continue
        
        tag_word = word_to_tag_mapping[word]
        tag_sum = sum([tag_mapping_count[(tag_word, tag_following)] for tag_following in tag_mapping[tag_word]])
        if tag_sum < 2:
            continue
        for tag_following in tag_mapping[tag_word]:
            tag_mapping_count[(tag_word, tag_following)] /= tag_sum        
        
    return word_mapping, word_mapping_count, tag_mapping, tag_mapping_count

### Zadanie 1. (3+1+Xp) 
Napisz program, który ustala autora zdania. Autorów jest trójka: Prus, Orzeszkowa, Sienkiewicz (POS), na SKOSie znajdziesz odpowiednie dane uczące. Powinieneś je podzielić na część uczącą i walidacyjną. Część X punktacji zależeć będzie od tego, jak Twój program wypadnie na tle innych programów dla danych testowych (które pojawią się później na SKOSie). Dwie podstawowe metody są następujące:

a) Naive Bayes (będzie na wykładzie 4, powinieneś użyć przynajmniej jednej cechy, która nie jest słowem)

b) Utworzenie trzech modeli językowych i wybór tego, który daje najepszy wynik na klasyfikowanym zdaniu.

Za sprawdzenie dwóch podejść jest punkt premiowy.

In [8]:
def find_author(text: str, occurence_dicts: Dict[Author, Dict[str, float]]) -> Author:
    scores: List[float] = []
    for author, occurence_dict in occurence_dicts.items():
        words = preprocess(text=text).split()
        score = np.sum(np.log([occurence_dict[word] + 1e-5 for word in words]))
        scores.append(score)
        
    author = list(occurence_dicts.keys())[np.argmax(scores)]
    return author

In [9]:
def test_classifier(folder_path: str) -> np.ndarray:
    '''
    Returns confussion matrix
    '''
    occurence_dicts = create_occurence_dicts()
    
    authors_number = len(list(occurence_dicts.keys()))
    confussion_matrix = np.zeros((authors_number, authors_number))
    
    for relative_path in os.listdir(folder_path):
        path = os.path.join(folder_path, relative_path)
        
        if not os.path.isfile(path):
            continue
        
        true_author: Optional[Author] = None
        
        if 'orzeszkowej' in relative_path:
            true_author = Author.ORZESZKOWA
        if 'prusa' in relative_path:
            true_author = Author.PRUS
        if 'sienkiewicza' in relative_path:
            true_author = Author.SIENKIEWICZ
        
        if true_author is None:
            print(f'Could not find a true author of the text! Filename: {relative_path}')
            continue
        
        text = open(path, 'r').read()
        classified_author = find_author(text=text, occurence_dicts=occurence_dicts)
        
        confussion_matrix[true_author.value, classified_author.value] += 1
        
    return confussion_matrix

In [10]:
confussion_matrix = test_classifier(folder_path='testy1.nogit')
authors = list(map(lambda author: author.name, list(Author)))
authors, confussion_matrix, f'Accuracy: {np.diag(confussion_matrix).sum() / confussion_matrix.sum()}'

(['PRUS', 'SIENKIEWICZ', 'ORZESZKOWA'],
 array([[21.,  0.,  0.],
        [15., 12.,  0.],
        [ 0.,  0., 12.]]),
 'Accuracy: 0.75')

### Zadanie 2. (3+Xp) 
W zadaniu tym powinieneś uporządkować (spermutować) ciąg słów, żeby utworzył zdanie. W stosunku do poprzedniej listy mamy następujące różnice:

a) powinieneś wykorzystać tagi słów (na przykład z pliku supertags.txt, link na SKOSie)

b) powinieneś je połączyć ze zwykłymi statystykami bigramowymi (lub, opcjonalnie, z sufiksami)

c) powinieneś wyodrębnić z danych uczących część walidacyjną i dobrać parametry łączenia modeli bazujących na słowach i bazujących na tagach.

Sposób oceny będzie taki sam, jak w przypadku zadania z P1. Wybór zdań do oceny pojawi się przed zajęciami (będą to zdania zawierające od 4 do 8 tokenów, wybrane losowo z części testowej korpusu PolEval)

In [11]:
word_to_tag_mapping = create_word_to_tag_mapping(path='data.nogit/supertags.txt')

In [23]:
if os.path.exists('bigrams_saved/saved.pkl'):
    d = pickle.load(open('bigrams_saved/saved.pkl', 'rb'))
    word_bigrams, word_bigrams_count, tag_bigrams, tag_bigrams_count = \
        d['from_words']['bigrams'], d['from_words']['bigrams_count'], d['from_tags']['bigrams'], d['from_tags']['bigrams_count']

else:
    word_bigrams, word_bigrams_count, tag_bigrams, tag_bigrams_count = \
        load_bigrams(path='data.nogit/poleval_2grams.txt', word_to_tag_mapping=word_to_tag_mapping)

    import pickle
    to_save = {
        'from_words': {'bigrams': word_bigrams, 'bigrams_count': word_bigrams_count},
        'from_tags' : {'bigrams': tag_bigrams,  'bigrams_count': tag_bigrams_count},
        }
    pickle.dump(
        to_save,
        open('bigrams_saved/saved.pkl', 'wb+'),
        pickle.HIGHEST_PROTOCOL,
    )

Loading 2grams: 59134225it [09:25, 104534.28it/s]                               
Normalizing mappings: 100%|██████████| 1004769/1004769 [31:57<00:00, 524.01it/s] 


In [59]:
def compute_sentence_naturalness(sentence: List[str], alpha: float) -> Tuple[float, float, float]:
    word_naturalness = tag_naturalness = overall_naturalness = 0
    for i in range(1, len(sentence)):
        word, following = sentence[i-1:i+1]
        word_naturalness += word_bigrams_count[(word, following)]
        
        if word not in word_to_tag_mapping or following not in word_to_tag_mapping:
            continue
        
        tag_word, tag_following = word_to_tag_mapping[word], word_to_tag_mapping[following]
        tag_naturalness += tag_bigrams_count[(tag_word, tag_following)]
        
        overall_naturalness = word_naturalness * alpha + tag_naturalness * (1 - alpha)
        
    return word_naturalness, tag_naturalness, overall_naturalness

In [90]:
def reconstruct_sentence(original_sentence: str, alpha: float, verbose: bool=False) -> Tuple[int, int, int]:
    '''
    Returns position of the original sentence.
    '''
    original_sentence = preprocess(original_sentence)
    words = preprocess(original_sentence).split()
    
    permutations_list = list(permutations(words))
    naturalness_array = np.zeros((len(permutations_list), 3))  # in each row - naturalness from words, naturalness from tags, and overall one
    
    for i, sentence in enumerate(permutations_list):
        naturalness_array[i] = list(compute_sentence_naturalness(sentence=sentence, alpha=alpha))
    
    best_for_word_naturalness = np.argmax(naturalness_array[:, 0])
    best_for_tag_naturalness = np.argmax(naturalness_array[:, 1])
    best_overall_naturalness = np.argmax(naturalness_array[:, 2])
    
    if verbose:
        print(f'Best from word bigrams:\t{" ".join(permutations_list[best_for_word_naturalness])}')
        print(f'Best from tag bigrams:\t{" ".join(permutations_list[best_for_tag_naturalness])}')
        print(f'Best overall:\t{" ".join(permutations_list[best_overall_naturalness])}')
    
    idx_of_original = np.flatnonzero(np.array([' '.join(perm) for perm in permutations_list]) == original_sentence)[0]
    
    idx_from_word = np.flatnonzero(np.argsort(-naturalness_array[:, 0]) == idx_of_original)[0]
    idx_from_tag = np.flatnonzero(np.argsort(-naturalness_array[:, 1]) == idx_of_original)[0]
    idx_from_overall = np.flatnonzero(np.argsort(-naturalness_array[:, 2]) == idx_of_original)[0]
    
    return idx_from_word, idx_from_tag, idx_from_overall

In [115]:
def test_reconstructing():
    sentences = open('test_reconstruct_sents.txt', 'r').read().split('\n')
    acc = np.zeros((len(sentences), 3))
    for i, sentence in tqdm(enumerate(sentences), position=0, leave=True):
        words_rec, tags_rec, overall_rec = reconstruct_sentence(original_sentence=sentence, alpha=0.4)
        acc[i] = [words_rec, tags_rec, overall_rec]
    
    print(f'From word bigrams:\nscore: {np.mean(1 / (acc[:, 0] + 1))}\ngood ones: {np.count_nonzero(acc[:, 0] == 0)}\n')
    print(f'From tag bigrams:\nscore: {np.mean(1 / (acc[:, 1] + 1))}\ngood ones: {np.count_nonzero(acc[:, 1] == 0)}\n')
    print(f'From overall:\nscore: {np.mean(1 / (acc[:, 2] + 1))}\ngood ones: {np.count_nonzero(acc[:, 2] == 0)}\n')

In [116]:
test_reconstructing()

65it [00:02, 21.75it/s]

From word bigrams:
score: 0.23225804539576722
good ones: 12

From tag bigrams:
score: 0.25256706740700174
good ones: 12

From overall:
score: 0.2632054478187619
good ones: 12






### Zadanie 3. (4p) 
W zadaniu tym powinieneś losować zdania o słowach z identyczną charakterystyką gramatyczną jak zdanie wejściowe). Przykładowo dla zdania:

`Mały Piotruś spotkał w niewielkiej restauracyjce wczoraj poznaną koleżankę.` 
wynikiem mogłoby być
Gruby Stefan przeczytał we wczorajszej gazecie starannie przygotowaną analizę.
Zgodność gramatyczną sprawdzamy za pomocą tagów z pliku supertags. Przyjmijmy, że słowo s niewystępujące w tym pliku ma opis gramatyczny (’^’ + s)[-3:]. Powinieneś korzystać ze statystyk unigramowych.

In [93]:
def create_tag_to_words_mapping() -> DefaultDict[str, List[str]]:
    tag_to_words_mapping = defaultdict(list)
    
    for word, tag in tqdm(word_to_tag_mapping.items(), desc='Creating tag to words mapping', position=0, leave=True):
        tag_to_words_mapping[tag].append(word)
    return tag_to_words_mapping

In [95]:
word_counts = pickle.load(open('data.nogit/corpora_counts.pkl', 'rb'))

In [94]:
tag_to_words_mapping = create_tag_to_words_mapping()

Creating tag to words mapping: 100%|██████████| 1781994/1781994 [00:25<00:00, 71117.19it/s] 


In [98]:
def create_similar_sentence(original_sentence: str) -> str:
    result = ''
    preprocessed = preprocess(original_sentence)
    original_words = preprocessed.split()
    
    for word in original_words:
        if word in word_to_tag_mapping:
            tag = word_to_tag_mapping[word]
        else:
            tag = word_to_tag_mapping['^'+s[-3:]]
        
        possible_words = tag_to_words_mapping[tag]
        probs = np.array([word_counts[possible_word] for possible_word in possible_words])
        probs /= probs.sum()
        next_word = np.random.choice(possible_words, p=probs)
        result += next_word + ' '
    return result

In [141]:
orignal_sentences = [
    'Mały Piotruś spotkał w niewielkiej restauracyjce wczoraj poznaną koleżankę.',
    'Pani postanowiła przejść się po niewielkim parku.',
    'Niemiecki lekarz prowadzi sportowy samochód.',
]

In [142]:
for original_sentence in orignal_sentences:
    print(f'Original sentence: {original_sentence}\n')
    for _ in range(3):
        print(create_similar_sentence(original_sentence))
    print('\n', '-'*42, '\n')

Original sentence: Mały Piotruś spotkał w niewielkiej restauracyjce wczoraj poznaną koleżankę.

sympatyczny poprzednik utworzył pod nierdzewnej drużynie prawdopodobnie prowadzoną eksploatację 
piękny nabywca polecił na niepodległościowej galaktyce stosownie wzbogaconą rolę 
obywatelski organizator zaliczył w niewielkiej padlinie znakomicie przyznaną motywację 

 ------------------------------------------ 

Original sentence: Pani postanowiła przejść się po niewielkim parku.

pani rozpoczęła przejść się na niebywałym parku 
pani zajęła zdobyć się na niebezpiecznym parku 
pani doprowadziła zdobyć się w niezależnym parku 

 ------------------------------------------ 

Original sentence: Niemiecki lekarz prowadzi sportowy samochód.

nowy poseł mówi wolny projekt 
wąski prokurator kocha prawdziwy awans 
narodowy pan przyznaje umiarkowany udział 

 ------------------------------------------ 



### Zadanie 4. (3p) 
Dodaj statystyki bigramowe do powyższego zadania. Postaraj się, by jak najrzadziej zdażały się sytuacje, w których musisz losować posługując się unigramami. Zaznaczaj znakiem "|" każdą taką nieciągłość.

In [111]:
def create_similar_sentence_with_bigram(original_sentence: str) -> str:
    result = ''
    preprocessed = preprocess(original_sentence)
    original_words = preprocessed.split()
    
    previous_word = None
    
    for word in original_words:
        if word in word_to_tag_mapping:
            tag = word_to_tag_mapping[word]
        else:
            tag = word_to_tag_mapping['^'+s[-3:]]
        
        if previous_word is None:  # first word
            possible_words = tag_to_words_mapping[tag]
        else:
            possible_words = [word for word in tag_to_words_mapping[tag] if word in word_bigrams[previous_word]]
            
            if len(possible_words) == 0:
                result += ' | '
                possible_words = tag_to_words_mapping[tag]
                
        
        probs = np.array([word_counts[possible_word] for possible_word in possible_words])
        probs /= probs.sum()
        next_word = np.random.choice(possible_words, p=probs)
        result += next_word + ' '
        
        previous_word = word
    return result

In [138]:
for original_sentence in orignal_sentences:
    print(f'Original sentence: {original_sentence}\n')
    for _ in range(3):
        print(create_similar_sentence_with_bigram(original_sentence))
    print('\n', '-'*42, '\n')

Original sentence: Mały Piotruś spotkał w niewielkiej restauracyjce wczoraj poznaną koleżankę.

górny pan  | przyjął w niewielkiej górze  | około  | prognozowaną historię 
barski pan  | zyskał w nieuczciwej zmianie  | obiektywnie  | oznaczoną historię 
główny jan  | przekazał na niedostatecznej stracie  | wielce  | zabrudzoną historię 

 ------------------------------------------ 

Original sentence: Pani postanowiła przejść się po niewielkim parku.

pani skończyła zdobyć się w niezwykłym parku 
pani podjęła przejść się na niezbędnym parku 
pani powołała pozbyć się w niespodziewanym parku 

 ------------------------------------------ 

Original sentence: Niemiecki lekarz prowadzi sportowy samochód.

demokratyczny rzecznik podchodzi szeroki projekt 
właściwy minister określa każdy tłumik 
spektakularny malarz podkreśla inny projekt 

 ------------------------------------------ 



### Zadanie 5. (5+1p) 
W zadaniu tym zajmiemy się kolokacjami słów, o których mamy informacje gramatyczną. Napisz program, który dla danego słowa znajduje k najbardziej z nim „spokrewnio- nych” słów. Rozważ następujące metody wyznaczania kolokacji:

a) PPMI (Positive Pointwise Mutual Information)

b) jakiś inny, dowolnie wybrany, z używanych na kolokacje wzorów (więcej na wykładzie),

c) kolokacje gramatyczno-słowowe (tzn. żeby dwa słowa były uznane za kolokacje, warunek kolo- kacyjności (dowolnie wybrany) powinny spełniać zarówno tagi słów, jak i same słowa.

d) jakaś dowolna inna metoda, lub Twoja modyfikacja powyższych (za to dodatkowy punkt).

Możesz się ograniczyć do słów, które są stosunkowo częste (więcej niż n wystąpień w korpusie) i występują co najmniej raz w jakimś trigramie (lub k razy w jakimś bigramie). Wybierz niewielki zbiór słów (powiedzmy koło 10). Przygotuj raport, w którym dla każdego z tych słów jest 10 najbardziej spokrewnionych słow (czyli takich, o największym współczynniku kolokacji), dla różnych metod wyznaczania kolokacji.

### Zadanie 6. (7p) 
W zadaniu tym będziemy tworzyć pierwszą wersję programu tworzącego poezję (przypominającą Pana Tadeusza, oznaczanego dalej PT)). Przypomnijmy najważniejsze fakty od- noszące się do tego utworu (i ogólnie Poezji):

F1. Wiersz składa się z wersetów, z których każdy ma ustaloną liczbę sylab (w PT to 13)

F2. Ostatnie słowo w wersecie n rymuje się z ostatnim słowem w wersecie n + 1 (dla n parzystego,
numeracja od 0).

F3. Rym to zgodność ostatniej sylaby i części od samogłoski sylaby przedostatniej (zdrowie-dowie). W zasadzie rymy to zjawisko fonetyczne, ale dla języka polskiego (w pierwszej wersji) można sobie to trochę uprościć i powiedzieć, że dotyczą one liter.

F4. Akcenty słów i podziały słów muszą się jakoś sensownie układać. Nam wystarczy przyjąć, że godzimy się jedynie na takie podziały wersu na słowa k-sylabowe3, których użył Adam Mickiewicz, na przykład:

Litwo, Ojczyzno moja, Ty jesteś jak zdrowie, ile cię trzeba cenić, ten tylko się dowie ma schemat: [2,3,2,1,2,1,2] -- [2,1,2,2,1,2,1,2]

F5. Podział na sylaby nie jest trywialny (dlaczego?). Ale na nasze szczęście policzenie sylab jest łatwe. Słowo ma tyle sylab, ile ma samogłosek (przy czym połączenia ie, iu, ię, itd traktujemy jako jedną samogłoskę). Część rymowana wyrazu to część wyrazu od przedostatniej samogłoski do końca.

Powinieneś stworzyć program, generujący dwuwersowe fragmenty wierszy w stylu PT, czyli powinieneś przypilnować:

a) żeby wersy były poprawne rytmicznie i się rymowały,

b) żeby dwuwers miał sens gramatyczny (czyli by tagi słów pasowały do jakiegoś zdania lub frag- mentu zdania)

c) żeby były jakoś wykorzystane statystyki N-gramowe (plan minimum to statystyki 1-gramowe, dodatkowe +1 za wykorzystanie bigramów).

### Zadanie 7. (5p) 
Zmodyfikuj algorytm z poprzedniego zadania w ten sposób, by starał się on maksymalizować wzajemną „kolokacyjność” słów z dwuwersu (tak, by jak najwięcej słów było ze sobą powiązanych, na przykład przez wysokie PPMI). Akceptowalna jest dowolna procedura (local search, jakieś błądzenie losowe, metody ewolucyjne, ...), która daje wartość liczby par słów będących kolokacjami istotnie większą niż losowanie z poprzedniego zadania.
