# Inżynieria lingwistyczna
Ten notebook jest oceniany półautomatycznie. Nie twórz ani nie usuwaj komórek - struktura notebooka musi zostać zachowana. Odpowiedź wypełnij tam gdzie jest na to wskazane miejsce - odpowiedzi w innych miejscach nie będą sprawdzane (nie są widoczne dla sprawdzającego w systemie).

Make sure you fill in any place that says `YOUR CODE HERE` or "YOUR ANSWER HERE".

---

# Zadanie domowe 2

In [13]:
import pandas as pd
import numpy as np

## Zadanie 1 - eksploracja przestrzeni zagnieżdżeń
Wczytajmy do przestrzeni plik zagnieżdżeń, który należy pobrać ze strony:
https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.pl.vec Są to zagnieżdzenia dla języka polskiego uzyskane systemem fastText.

Do przestrzeni wczytujemy tylko 100 tys. najczęstrzych słów, tak aby operacje przebiegały szybciej.

In [2]:
import io
def load_vectors(fname, limit = 100000):
    fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
    n, d = map(int, fin.readline().split())
    n = min(n,limit)
    embeddings = np.empty((n,d), dtype = np.float)
    words_idx = []
    for i, line in enumerate(fin):
        if i >= limit:
            break
        tokens = line.rstrip().split(' ')
        words_idx.append(tokens[0])
        embeddings[i] =  np.array(tokens[1:]).astype(np.float)
    return words_idx, embeddings
words_idx, embeddings = load_vectors('wiki.pl.vec')

Poniższe zadania mają na celu poekserymentowanie z przestrzenią zagnieżdżeń, ale też zrozumienie stojącymi za nich operacji. Dozwolone jest korzystanie tylko z podstawowych operatorów Python i numpy (w szczególności zakaz dotyczy: sklearn, gensim, fasttext itd.)

Jeśli potrzebujesz do dalszego przetwarzania przeprowadzenia jakichś normalizacji macierzy -- możesz wstępnie przetworzyć macierz zagnieżdzeń poniżej. Pamiętaj, że sprawdzarka będzie używała wywołań do `embeddings` (i `words_idx`) -- musisz nadpisać macierz zagnieżdzeń. To pole jest pomocnicze i nie podlega ocenie.

In [3]:
if not isinstance(words_idx, dict):
    words_idx = { word: i for i, word in enumerate(words_idx) }

Zaimplementuj funkcję, która obliczy podobieństwo kosinusowe pomiędzy dwoma wyrazami.

In [9]:
def calc_vector_sim(vector_a, vector_b):
    dot_product = vector_a.dot(vector_b)
    norm_a = vector_a.dot(vector_a)
    norm_b = vector_b.dot(vector_b)
    return dot_product / (norm_a * norm_b)

def calc_sim(word_a, word_b, words_idx, embeddings):
    vector_a = embeddings[words_idx[word_a], :]
    vector_b = embeddings[words_idx[word_b], :]
    return calc_vector_sim(vector_a, vector_b)

In [5]:
from nose.tools import assert_almost_equal
assert_almost_equal(calc_sim("bieber", "rihanna", words_idx, embeddings), calc_sim("rihanna", "bieber", words_idx, embeddings))

Policz podobieństwo pomiędzy wyrazem `bieber` a wyrazami:
    - `rihanna`
    - `piłsudski`
    - `kanada`
    - `polska`
    - `piosenka`

In [6]:
calc_sim("bieber", "rihanna", words_idx, embeddings)

0.018942010528214544

In [7]:
for word in ['piłsudski', 'kanada', 'polska', 'piosenka']:
    print(word, calc_sim('bieber', word, words_idx, embeddings))

piłsudski 0.006960686958576843
kanada 0.006981111763266464
polska 0.004838521299561369
piosenka 0.011145871634746052


Zaimplementuj funkcję, która zwróci najbardziej podobne słowa (miara kosinusowa) do danego słowa `word`. W wyniku wypisz tylko `top` słów z najbliższymi zagnieżdżeniami, pomijając słowo `word`.

In [10]:
import heapq

def find_similar_to_vector(vector, words_idx, embedding_matrix, top=10):
    top_words = []
    for word, idx in words_idx.items():
        word_vector = embedding_matrix[idx]
        similarity = calc_vector_sim(vector, word_vector)
        item = (similarity, word)
        if len(top_words) <= top:
            heapq.heappush(top_words, item)
        else:
            heapq.heapreplace(top_words, item)
    return [item[1] for item in heapq.nlargest(top, top_words)]

def find_similar(word, words_idx, embedding_matrix, top=10):
    vector = embedding_matrix[words_idx[word]]
    similar = find_similar_to_vector(vector, words_idx, embedding_matrix, top + 1)
    if word in similar:
        similar.remove(word)
    return similar

In [9]:
assert len(find_similar("radość", words_idx, embeddings)) == 10

Znajdź najbardziej podobne słowa do kobieta, politechnika, mateusz, szczecin, niemcy, piłsudski

In [10]:
find_similar("kobieta", words_idx, embeddings)


['dziewczyna',
 'mężczyzna',
 'kobietą',
 'dziewczynka',
 'kobietę',
 'staruszka',
 'kobiecie',
 'dziewczynami',
 'mężczyzny',
 'mężczyzną']

In [11]:
for word in ['politechnika', 'mateusz', 'szczecin', 'niemcy', 'piłsudski']:
    print(word)
    print(find_similar(word, words_idx, embeddings))
    print()

politechnika
['politechnicznej', 'politechnikę', 'politechnicznego', 'politechniką', 'politechniczny', 'politechniki', 'politechnice', 'politechnicznym', 'uczelnianych', 'inżynierskiej']

mateusz
['łukasz', 'mateusza', 'bartłomiej', 'mateuszem', 'tomasz', 'marcin', 'grochoczyński', 'kacper', 'maciej', 'michał']

szczecin
['szczecinie', 'szczecina', 'szczecińskich', 'szczecinem', 'szczecinku', 'szczeciński', 'świnoujście', '.', 'szczecińskiej', 'szczecinek']

niemcy
['niemców', ',', 'niemieckie', 'polacy', 'niemieccy', 'naziści', 'niemieckich', 'rosjanie', 'niemcom', 'niemieckiej']

piłsudski
['piłsudskim', 'piłsudskiego', 'piłsudskiemu', 'józef', 'sosnkowski', 'raczkiewicz', 'sosnkowskiego', 'składkowski', 'cyrankiewicz', 'moraczewski']



Krótko skomentuj wyniki dla słowa `niemcy`. Które z powstałych analogii biorą się z semantycznego powiązania a które z semantycznego podobieństwa?

In [None]:
{
    'powiązane': [ # występują obok siebie
        'polacy', 'rosjanie'
    ],
    'podobne': [ # występują na podobnych pozycjach w zdaniu
        'niemców', 'niemieckie', 'niemieccy', 'naziści', 'niemieckich', 'niemcom', 'niemieckiej'
    ]
}

Zaimplementuj funkcje szukającą brakującego elementu relacji ,,`word_a` jest do `word_a2` jak `word_b` jest do...''. Funkcja powinna zwrócić 10 najbardziej pasujących słow z pominięciem słów będących jej argumentami.

In [12]:
def find_similar_pair(word_a, word_a2, word_b,  words_idx, matrix, top=10):
    vector_a = matrix[words_idx[word_a], :]
    vector_a2 = matrix[words_idx[word_a2], :]
    vector_b = matrix[words_idx[word_b], :]
    ideal_vector_b2 = vector_b - vector_a + vector_a2
    matches = find_similar_to_vector(ideal_vector_b2, words_idx, matrix, top + 3)
    excluded = {word_a, word_a2, word_b}
    return [word for i, word in enumerate(matches) if word not in excluded and i <= top]

In [13]:
assert find_similar_pair( "mężczyzna", "król", "kobieta", words_idx, embeddings)[0] == "królowa"

Pieniądze są do profesora jak wiedza do...

In [14]:
find_similar_pair("pieniądze", "profesor", "wiedza", words_idx, embeddings)

['naukowiec',
 'wykładowczyni',
 'wykładowca',
 'wykładzie',
 'docent',
 'humanistycznych',
 'profesorem',
 'zagadnieniach',
 'problematyki']

Mateusza jest do mateusz jak łukasza do ...

In [15]:
find_similar_pair("mateusza", "mateusz", "łukasza", words_idx, embeddings)

['łukasz',
 'bartłomiej',
 'łukaszewski',
 'maciej',
 'pieczyński',
 'tomasz',
 'łukaszewicz',
 'bartosz',
 'maciejewski']

Warszawa jest do "polska" jak "berlin" do ...

In [16]:
find_similar_pair("warszawa", "polska", "berlin", words_idx, embeddings)

['niemiecka',
 '.',
 'wschodnioniemiecka',
 'berlinie',
 'berliner',
 'berlinem',
 'berlina',
 ')',
 'niemcy']

Zurich jest do ETH jak Poznań do ...

In [17]:
find_similar_pair("zurich", "eth", "poznań", words_idx, embeddings)

['poznania',
 'poznaniu',
 'poznańskiem',
 'i',
 'poznańskie',
 '„poznań',
 'poznaniem',
 'przykładowo',
 'wrocław']

Niemcy są do Merkel jak Polska do ...

In [18]:
find_similar_pair("niemcy", "merkel", "polska", words_idx, embeddings)

['.',
 'lewandowska',
 'marcinkiewicz',
 'parlamentarzystka',
 'raczkiewicz',
 'stwierdziła',
 'czarnecka',
 'rzecznikiem',
 'dobrowolska']

Na wektorach możemy wykonywać standardowe operacje algebry liniowej takie jak np. projekcja czyli rzutowanie danych na jakichś zbiór osi (więcej: notatki z algebry liniowej np. https://ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/least-squares-determinants-and-eigenvalues/projections-onto-subspaces/). W szczególności może to się przydać do zrzutowania słowa na przestrzeń w której pewny wybrany kierunek (wskazywany przez wektor) jest eliminowany.

Do czego może to się przydać? Jeśli uruchomisz funkcję `find_similar` dla słowa ,,mateusza'' znajdziesz m.in. ,,łukasza'' ale także ,,ewangelia'', ,,ewangelisty'' i ,,apostoła''. Chcąc pominąc kontekst religijny tego słowa możesz zrzutować jego reprezentacje na przestrzeń bez wektora ,,ewangelia'' i poszukać jego najbliższych sąsiadów (którymi będą teraz po prostu imiona męskie). Zaimplementuj taką funkcję.


In [None]:
def find_similar_with_rejection(word, remove, words_idx, matrix, top=10):
    """
    Działanie analogiczne do find_similar z dodatkowym parametrem remove, 
    który jest *listą* słów, które należy wyrzucić poprzez projekcję.
    Dla remove=[] powinno się zwracać dokładnie to samo co find_similar
    """
    # YOUR CODE HERE
    raise NotImplementedError()
print ("Standardowe poszukiwanie:", find_similar_with_rejection("mateusza",[] , words_idx, embeddings))
print ("Poszukiwanie po projekcji:", find_similar_with_rejection("mateusza",["ewangelia"] , words_idx, embeddings))

In [None]:
assert "ewangelii" in find_similar_with_rejection("mateusza",[] , words_idx, embeddings)
assert "ewangelii" not in find_similar_with_rejection("mateusza",["ewangelia"] , words_idx, embeddings)
assert "ewangelisty" not in find_similar_with_rejection("mateusza",["ewangelia"] , words_idx, embeddings)


Analogicznie słowo ,,java'' jest nie tylko nazwą języka programownia (https://pl.wikipedia.org/wiki/Java_(ujednoznacznienie)) -- jest np. nazwą geograficzną (indonezyjska wyspa koło Sumatry). Sprawdź jakie wyrazy są podobne do "java" oraz po odrzuceniu kierunku "javascript" (tj. kierunku związanego z językami programowania).

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

Spróbuj poekseprymentować samemu!

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

Wykonanie projekcji w przestrzeni zagnieżdżeń może być jedną z prostych technik zwalczenia tzw. gender bias (http://wordbias.umiacs.umd.edu/) w reprezentacji słów. Okazuje się, że wykonanie projekcji macierzy zagnieżdżeń na przestrzeń w której ,,brakuje kierunku he-she'' może być bardzo prostą techniką zredukowania tego typu obciążenia.

## Zadanie 2 - zagnieżdżenia dokumentów
W tym ćwiczeniu powócimy do zbioru tweetów, który analizowaliśmy w poprzednim dokumencie.

In [1]:
from helpers import DataSet
training_set = DataSet(['tweets.txt'])

Reading data set ['tweets.txt']


In [2]:
for i in training_set.tweets:
    print(i.text)
    print(i.tokens)
    print(i.clazz)
    break

dear @Microsoft the newOoffice for Mac is great and all, but no Lync update? C'mon.
['dear', '@microsoft', 'the', 'newooffice', 'for', 'mac', 'is', 'great', 'and', 'all', ',', 'but', 'no', 'lync', 'update', '?', "c'mon", '.']
negative


Tym razem do zbudowania reprezentacji będziemy używać narzędzie Universal Sentence Encoder stworzone przez Googla na bazie głębokiej sieci uśredniającej (i architektur rekurencyjnych). Poniższy kod pokazuje sposób użycia tego narzędzia. 
Kod spokojnie można wywoływać na CPU -- choć ściąganie modelu trochę może potrwać.

In [4]:
import tensorflow as tf
import tensorflow_hub as hub
embed = hub.load("https://tfhub.dev/google/universal-sentence-encoder/4")
embeddings = embed([
    "The quick brown fox jumps over the lazy dog.",
    "I am a sentence for which I would like to get its embedding"])
embeddings

<tf.Tensor 'StatefulPartitionedCall_3:0' shape=(?, 512) dtype=float32>

Wykorzystując reprezetnację USE wytrenuj wybrany klasyfikator z pakietu `sklearn` i zweryfikuj jego jakość działania.

In [8]:
sess = tf.Session()
with sess.as_default():
    print(embeddings.eval())

FailedPreconditionError: [_Derived_] Error while reading resource variable EncoderDNN/DNN/ResidualHidden_1/dense/kernel/part_2_1 from Container: localhost. This could mean that the variable was uninitialized. Not found: Resource localhost/EncoderDNN/DNN/ResidualHidden_1/dense/kernel/part_2_1/N10tensorflow3VarE does not exist.
	 [[{{node EncoderDNN/DNN/ResidualHidden_1/dense/kernel/ConcatPartitions/concat/ReadVariableOp_2}}]]
	 [[StatefulPartitionedCall_4/StatefulPartitionedCall/StatefulPartitionedCall]]

Skomentuj wyniki i odnieś je do wyników z poprzedniego zadania domowego. Na ile użycie reprezentacji rozproszonych pozwoliło na poprawę wyników?

In [None]:
# YOUR CODE HERE
raise NotImplementedError()

# Zadanie 3 - konstruowanie zagnieżdżeń
W tym ćwiczeniu kontynuujemy pracę z tweetami, ale pomijamy całkowicie ich klasy. Zbiór tweetów potraktujemy jako korpus do nauczenia zagnieżdżeń słów przy pomocy macierzy PMI.
- Wypełnij macierz kontekst - dokument przy użyciu symetrycznego okna o promieniu 4 (po 4 słowa w każdą stronę)
- Możesz ograniczyć słownictwo do 10K słów
- Przekształć macierz w macierz PPMI
- Stwórz zagnieżdżenia wykorzystując dekompozycję SVD do wybranej wymiarowości $d$ (ze względu na koszt obliczeniowy może to być mała wymiarowość np. $d=10$)

In [14]:
from collections import Counter
from sklearn.decomposition import TruncatedSVD

def build_vocabulary(corpus, size):
    word_counter = Counter()
    for tweet in corpus:
        word_counter.update(tweet.tokens)

    return { word: index for index, (word, _) in enumerate(word_counter.most_common(size)) }

def slide_window(tokens, radius):
    length = len(tokens)
    for offset in range(-radius, length - radius):
        start_pos = max(offset, 0)
        central_pos = offset + radius
        end_pos = max(offset + 2 * radius + 1, 0)
        
        left_context = tokens[start_pos:central_pos]
        word = tokens[central_pos]
        right_context = tokens[central_pos+1:end_pos]
        yield left_context, word, right_context

def build_word_context_matrix(corpus, vocabulary, radius):
    word_context = np.zeros((len(vocabulary), len(vocabulary)))
    for tweet in corpus:
        for left, word, right in slide_window(tweet.tokens, radius):
            if word not in vocabulary:
                continue
            context = left + right
            for other_word in context:
                if other_word not in vocabulary:
                    continue
                word_context[vocabulary[word], vocabulary[other_word]] += 1
    return word_context

def calculate_ppmi(context_document):
    total = context_document.sum()
    row_margin = context_document.sum(axis=0, keepdims=True) / total
    col_margin = context_document.sum(axis=1, keepdims=True) / total
    association = (context_document / total) / col_margin.dot(row_margin)
    association[association == 0] = 1
    return np.log2(association)

def reduce_dimensionality(matrix, dim):
    svd = TruncatedSVD(dim)
    return svd.fit_transform(matrix)

def train_embeddings(corpus, embedding_dim, radius, vocab_size):
    print('building vocabulary...')
    vocabulary = build_vocabulary(corpus, vocab_size)
    print('building word-context matrix...')
    word_context = build_word_context_matrix(corpus, vocabulary, radius)
    print('calculating PPMI...')
    ppmi = calculate_ppmi(word_context)
    print('applying SVD...')
    embeddings = reduce_dimensionality(ppmi, embedding_dim)
    print('done!')
    return embeddings, vocabulary

embeddings, vocabulary = train_embeddings(
    corpus = training_set.tweets,
    embedding_dim = 10,
    radius = 4,
    vocab_size = 10000,
)

building vocabulary...
building word-context matrix...
calculating PPMI...
applying SVD...
done!


Przetestuj działanie Twoich zagnieżdżeń wykorzystując funkcję `find_similar` na wybranych słowach.

In [16]:
find_similar('microsoft', vocabulary, embeddings)

['#xbox',
 'http://t.co/6mbzz0eazc',
 'munchkin',
 'unlucky',
 'http://t.co/epsi0ustzl',
 'http://t.co/oivuacblnm',
 '@kenttaylor333',
 '@youranonnews',
 '@msadvanalytics',
 '#las',
 'http://t.co/m2mbayqdzp']