# Inżynieria lingwistyczna
Ten notebook jest oceniany półautomatycznie. Nie twórz ani nie usuwaj komórek - struktura notebooka musi zostać zachowana. Odpowiedź wypełnij tam gdzie jest na to wskazane miejsce - odpowiedzi w innych miejscach nie będą sprawdzane (nie są widoczne dla sprawdzającego w systemie).

Make sure you fill in any place that says `YOUR CODE HERE` or "YOUR ANSWER HERE".

---

# Zadanie domowe 2

In [1]:
import pandas as pd
import numpy as np

## Zadanie 1 - eksploracja przestrzeni zagnieżdżeń
Wczytajmy do przestrzeni plik zagnieżdżeń, który należy pobrać ze strony:
https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.pl.vec Są to zagnieżdzenia dla języka polskiego uzyskane systemem fastText.

Do przestrzeni wczytujemy tylko 100 tys. najczęstrzych słów, tak aby operacje przebiegały szybciej.

In [2]:
import io
def load_vectors(fname, limit = 100000):
    fin = io.open(fname, 'r', encoding='utf-8', newline='\n', errors='ignore')
    n, d = map(int, fin.readline().split())
    n = min(n,limit)
    embeddings = np.empty((n,d), dtype = np.float)
    words_idx = []
    for i, line in enumerate(fin):
        if i >= limit:
            break
        tokens = line.rstrip().split(' ')
        words_idx.append(tokens[0])
        embeddings[i] =  np.array(tokens[1:]).astype(np.float)
    return words_idx, embeddings
words_idx, embeddings = load_vectors('wiki.pl.vec')

Poniższe zadania mają na celu poekserymentowanie z przestrzenią zagnieżdżeń, ale też zrozumienie stojącymi za nich operacji. Dozwolone jest korzystanie tylko z podstawowych operatorów Python i numpy (w szczególności zakaz dotyczy: sklearn, gensim, fasttext itd.)

Jeśli potrzebujesz do dalszego przetwarzania przeprowadzenia jakichś normalizacji macierzy -- możesz wstępnie przetworzyć macierz zagnieżdzeń poniżej. Pamiętaj, że sprawdzarka będzie używała wywołań do `embeddings` (i `words_idx`) -- musisz nadpisać macierz zagnieżdzeń. To pole jest pomocnicze i nie podlega ocenie.

In [3]:
# ******** Enable it only if not downloaded wiki.pl.vec yet ********
#!wget -q -O wiki.pl.vec https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.pl.vec

# This will map words into indexes to speed up search index
words_idx = dict([(word, index) for index, word in enumerate(words_idx)])

Zaimplementuj funkcję, która obliczy podobieństwo kosinusowe pomiędzy dwoma wyrazami.

In [4]:
def calc_sim(word_a, word_b, words_idx, embeddings):
    """
    Calculate cosine similarity between two words with using embeddings and words idx lists.
    Known issues: If not found word - throw exception
    """
    # Get from embeddings vector assigned to word A
    a = embeddings[words_idx[word_a]]
    
    # Get from embeddings vector assigned to word B
    b = embeddings[words_idx[word_b]]
    
    # Cosine similarity
    return np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b))

In [5]:
from nose.tools import assert_almost_equal
assert_almost_equal(calc_sim("bieber", "rihanna", words_idx, embeddings), calc_sim("rihanna", "bieber", words_idx, embeddings))

Policz podobieństwo pomiędzy wyrazem `bieber` a wyrazami:
    - `rihanna`
    - `piłsudski`
    - `kanada`
    - `polska`
    - `piosenka`

In [6]:
calc_sim('bieber', 'rihanna', words_idx, embeddings)

0.524583248263655

In [7]:
print(calc_sim('bieber', 'rihanna', words_idx, embeddings))
print(calc_sim('bieber', 'piłsudski', words_idx, embeddings))
print(calc_sim('bieber', 'kanada', words_idx, embeddings))
print(calc_sim('bieber', 'polska', words_idx, embeddings))
print(calc_sim('bieber', 'piosenka', words_idx, embeddings))

0.524583248263655
0.1930395805146356
0.20042742126487934
0.12505934735679372
0.2874871368858332


Zaimplementuj funkcję, która zwróci najbardziej podobne słowa (miara kosinusowa) do danego słowa `word`. W wyniku wypisz tylko `top` słów z najbliższymi zagnieżdżeniami, pomijając słowo `word`.

In [8]:
# Used itemgetter to speed-up sorting elements in list
from operator import itemgetter

def find_similar(word, words_idx, embedding_matrix, top=10):
    """
    Build similarity list between `word` and each word.
    Select `top` number of elements and return it.
    Ignore `word` on this list
    """
    # Calculate similarity between `word` and each element in dictionary
    similarity = [(calc_sim(word, w, words_idx, embedding_matrix), w) for w in words_idx.keys() if w != word]
    
    # Order by similarity - highest value at first
    similarity = sorted(similarity, key=itemgetter(0), reverse=True)
    
    # Return `top` number of similar words
    return [w for (sim, w) in similarity[0:top]]

In [9]:
assert len(find_similar("radość", words_idx, embeddings)) == 10

Znajdź najbardziej podobne słowa do kobieta, politechnika, mateusz, szczecin, niemcy, piłsudski

In [10]:
find_similar('kobieta', words_idx, embeddings)

['kobietą',
 'dziewczyna',
 'mężczyzna',
 'kobietę',
 'dziewczynka',
 'mężczyznę',
 'staruszka',
 'mężczyzną',
 'kobiecie',
 'mężczyzny']

In [11]:
print(find_similar('kobieta', words_idx, embeddings))
print(find_similar('politechnika', words_idx, embeddings))
print(find_similar('mateusz', words_idx, embeddings))
print(find_similar('szczecin', words_idx, embeddings))
print(find_similar('niemcy', words_idx, embeddings))
print(find_similar('piłsudski', words_idx, embeddings))

['kobietą', 'dziewczyna', 'mężczyzna', 'kobietę', 'dziewczynka', 'mężczyznę', 'staruszka', 'mężczyzną', 'kobiecie', 'mężczyzny']
['politechniki', 'politechniką', 'politechnikę', 'politechniczny', 'politechnice', 'politechnicznej', 'politechnicznego', 'politechnicznym', 'inżynierska', 'elektrotechnika']
['łukasz', 'bartłomiej', 'bartosz', 'kacper', 'marcin', 'mateusza', 'tomasz', 'patryk', 'rafał', 'mateuszem']
['szczecinek', 'szczeciński', 'szczecinem', 'gryfino', 'szczecinie', 'stargard', 'szczecina', 'koszalin', 'szczecińska', 'świnoujście']
['niemieccy', 'naziści', 'alianci', 'okupanci', 'polacy', 'hitlerowcy', 'niemieckie', 'rosjanie', 'niemców', 'niemcom']
['piłsudskim', 'piłsudskiego', 'piłsudskiemu', 'sosnkowski', 'mościcki', 'śmigły', 'józef', 'żeligowski', 'piłsudczyków', 'sosnkowskiego']


Krótko skomentuj wyniki dla słowa `niemcy`. Które z powstałych analogii biorą się z semantycznego powiązania a które z semantycznego podobieństwa?

In [12]:
# Komentarz:  Część otrzymanych analogii pochodzi z nawiązania do II WŚ i ataku hitlerowskich Niemiec na Polskę.
#             Mamy także analogie z semantycznego podobieństwa.
# Semantycznie powiązane: 'alianci', 'polacy', 'rosjanie', 'naziści', 'okupanci', 'hitlerowcy'
# Semantyczne podobieństwo: 'niemieccy', 'niemieckie', 'niemców', 'niemcom'

Zaimplementuj funkcje szukającą brakującego elementu relacji ,,`word_a` jest do `word_a2` jak `word_b` jest do...''. Funkcja powinna zwrócić 10 najbardziej pasujących słow z pominięciem słów będących jej argumentami.

In [13]:
def find_similar_pair(word_a, word_a2, word_b, words_idx, matrix, top=10):
    """
    Find similar pair - missing `wordB*` in `wordA` is similar to `wordA*` like `wordB` to `wordB*`
    """
    # Not allowed words
    not_allowed_words = set([word_a, word_a2, word_b])
    
    # Calculate similarity based on formula from lecture
    similarity = [(calc_sim(w, word_b, words_idx, matrix) - calc_sim(w, word_a, words_idx, matrix) + calc_sim(w, word_a2, words_idx, matrix), w) for w in words_idx.keys() if w not in not_allowed_words]
    
    # Sort similarity - first element with highest value
    similarity = sorted(similarity, key=itemgetter(0), reverse=True)
    
    # Return `top` number of similar words
    return [w for (sim, w) in similarity[0:top]]

In [14]:
assert find_similar_pair( "mężczyzna", "król", "kobieta", words_idx, embeddings)[0] == "królowa"

Pieniądze są do profesora jak wiedza do...

In [15]:
find_similar_pair('pieniądze', 'profesor', 'wiedza', words_idx, embeddings, top=1)[0]

'habilitowany'

Mateusza jest do mateusz jak łukasza do ...

In [16]:
find_similar_pair('mateusza', 'mateusz', 'łukasza', words_idx, embeddings, top=1)[0]

'łukasz'

Warszawa jest do "polska" jak "berlin" do ...

In [17]:
find_similar_pair('warszawa', 'polska', 'berlin', words_idx, embeddings, top=1)[0]

'niemiecka'

Zurich jest do ETH jak Poznań do ...

In [18]:
find_similar_pair( "zurich", "eth", "poznań", words_idx, embeddings)

['„poznań',
 'wrocław',
 'poznania',
 'poznańskie',
 'gniezno',
 'kraków',
 'poznaniu',
 'uam',
 'wielkopolski',
 'poznańską']

Niemcy są do Merkel jak Polska do ...

In [19]:
find_similar_pair( "niemcy", "merkel", "polska", words_idx, embeddings)

['kaczyńska',
 'ekonomistka',
 'lewandowska',
 'kwaśniewska',
 'lekarka',
 'parlamentarzystka',
 'marcinkiewicz',
 'nowacka',
 'dziennikarka',
 'olszewska']

Na wektorach możemy wykonywać standardowe operacje algebry liniowej takie jak np. projekcja czyli rzutowanie danych na jakichś zbiór osi (więcej: notatki z algebry liniowej np. https://ocw.mit.edu/courses/mathematics/18-06sc-linear-algebra-fall-2011/least-squares-determinants-and-eigenvalues/projections-onto-subspaces/). W szczególności może to się przydać do zrzutowania słowa na przestrzeń w której pewny wybrany kierunek (wskazywany przez wektor) jest eliminowany.

Do czego może to się przydać? Jeśli uruchomisz funkcję `find_similar` dla słowa ,,mateusza'' znajdziesz m.in. ,,łukasza'' ale także ,,ewangelia'', ,,ewangelisty'' i ,,apostoła''. Chcąc pominąc kontekst religijny tego słowa możesz zrzutować jego reprezentacje na przestrzeń bez wektora ,,ewangelia'' i poszukać jego najbliższych sąsiadów (którymi będą teraz po prostu imiona męskie). Zaimplementuj taką funkcję.


In [20]:
def find_similar_with_rejection(word, remove, words_idx, matrix, top=10):
    """
    Działanie analogiczne do find_similar z dodatkowym parametrem remove, 
    który jest *listą* słów, które należy wyrzucić poprzez projekcję.
    Dla remove=[] powinno się zwracać dokładnie to samo co find_similar
    """
    if len(remove) == 0:
        updated_matrix = matrix
    else:
        # Copy to be able to modify matrix
        updated_matrix = matrix.copy()
        word_index = words_idx[word]
        
        # Remove not alloved vectors
        for removed_word in remove:
            updated_matrix[word_index] = updated_matrix[word_index] - updated_matrix[words_idx[removed_word]]
        
    # Calculate like in normal `find similar`
    return find_similar(word, words_idx, updated_matrix, top)
    
print('Standardowe poszukiwanie:', find_similar_with_rejection('mateusza', [] , words_idx, embeddings))
print('Poszukiwanie po projekcji:', find_similar_with_rejection('mateusza', ['ewangelia'] , words_idx, embeddings))

Standardowe poszukiwanie: ['łukasza', 'ewangelii', 'ewangelisty', 'ewangelia', 'bartłomieja', 'ewangeliach', 'apostoła', 'mateusz', 'tymoteusza', 'jakuba']
Poszukiwanie po projekcji: ['macieja', 'andrzeja', 'antoniego', 'stanisława', 'marcina', 'michała', 'kacpra', 'bartłomieja', 'rafała', 'sebastiana']


In [21]:
assert "ewangelii" in find_similar_with_rejection("mateusza",[] , words_idx, embeddings)
assert "ewangelii" not in find_similar_with_rejection("mateusza",["ewangelia"] , words_idx, embeddings)
assert "ewangelisty" not in find_similar_with_rejection("mateusza",["ewangelia"] , words_idx, embeddings)


Analogicznie słowo ,,java'' jest nie tylko nazwą języka programownia (https://pl.wikipedia.org/wiki/Java_(ujednoznacznienie)) -- jest np. nazwą geograficzną (indonezyjska wyspa koło Sumatry). Sprawdź jakie wyrazy są podobne do "java" oraz po odrzuceniu kierunku "javascript" (tj. kierunku związanego z językami programowania).

In [22]:
print(find_similar_with_rejection('java', [], words_idx, embeddings))
print(find_similar_with_rejection('java', ['javascript'], words_idx, embeddings))

['javascript', 'javy', 'c#', 'c++', 'programowania', 'implementacja', 'lisp', 'framework', 'api', 'programistyczne']
['tromp', 'sumatra', 'niszczycielami', 'indonezja', 'penang', 'fregatą', 'jawa', 'lion', 'krążowniki', 'niszczyciele']


Spróbuj poekseprymentować samemu!

In [23]:
print(find_similar_with_rejection('inżynieria', [], words_idx, embeddings))
print(find_similar_with_rejection('inżynieria', ['technologia'], words_idx, embeddings))

print(find_similar_with_rejection('lingwistyka', [], words_idx, embeddings))
print(find_similar_with_rejection('lingwistyka', ['językoznawstwo'], words_idx, embeddings))

['inżynierię', 'inżynierii', 'biotechnologia', 'inżynierskie', 'inżynierska', 'miksowanie', 'informatyka', 'technologia', 'inżynier', 'elektronika']
['miksowanie', 'klawiszowe', 'perkusja', 'basowa', 'inżynierię', 'mastering', 'gitara', 'perkusyjne', 'inżynier', 'instrumenty']
['lingwistyki', 'językoznawstwo', 'lingwistyczne', 'filologia', 'fonetyka', 'semantyka', 'antropologia', 'językoznawstwie', 'kulturoznawstwo', 'lingwista']
['symulacja', 'wizualizacja', 'korekcja', 'mistyka', 'bianka', 'bariera', 'iluzja', 'symulacji', 'izolacja', 'percepcja']


Wykonanie projekcji w przestrzeni zagnieżdżeń może być jedną z prostych technik zwalczenia tzw. gender bias (http://wordbias.umiacs.umd.edu/) w reprezentacji słów. Okazuje się, że wykonanie projekcji macierzy zagnieżdżeń na przestrzeń w której ,,brakuje kierunku he-she'' może być bardzo prostą techniką zredukowania tego typu obciążenia.

## Zadanie 2 - zagnieżdżenia dokumentów
W tym ćwiczeniu powócimy do zbioru tweetów, który analizowaliśmy w poprzednim dokumencie.

In [24]:
from helpers import DataSet
training_set = DataSet(['tweets.txt'])

Reading data set ['tweets.txt']


In [25]:
for i in training_set.tweets:
    print(i.text)
    print(i.tokens)
    print(i.clazz)
    break

dear @Microsoft the newOoffice for Mac is great and all, but no Lync update? C'mon.
['dear', '@microsoft', 'the', 'newooffice', 'for', 'mac', 'is', 'great', 'and', 'all', ',', 'but', 'no', 'lync', 'update', '?', "c'mon", '.']
negative


Tym razem do zbudowania reprezentacji będziemy używać narzędzie Universal Sentence Encoder stworzone przez Googla na bazie głębokiej sieci uśredniającej (i architektur rekurencyjnych). Poniższy kod pokazuje sposób użycia tego narzędzia. 
Kod spokojnie można wywoływać na CPU -- choć ściąganie modelu trochę może potrwać.

In [30]:
# ***** DOWNLOAD Universal Sentence Encoder ONCE *****
# !wget -q -O universal-sentence-encoder-4.tar.gz https://tfhub.dev/google/universal-sentence-encoder/4?tf-hub-format=compressed
# !tar -xzf universal-sentence-encoder-4.tar.gz
import tensorflow as tf
import tensorflow_hub as hub
# embed = hub.load("https://tfhub.dev/google/universal-sentence-encoder/4")
embed = hub.load('universal-sentence-encoder-4')
use_embeddings = embed([
    "The quick brown fox jumps over the lazy dog.",
    "I am a sentence for which I would like to get its embedding"])
print (use_embeddings)

tf.Tensor(
[[-0.03133018 -0.06338634 -0.01607502 ... -0.03242778 -0.04575741
   0.05370456]
 [ 0.05080861 -0.01652428  0.01573781 ...  0.00976659  0.03170123
   0.0178812 ]], shape=(2, 512), dtype=float32)


Wykorzystując reprezetnację USE wytrenuj wybrany klasyfikator z pakietu `sklearn` i zweryfikuj jego jakość działania.

In [31]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split

# Split test and train dataset
X = list(embed([tweet.text for tweet in training_set.tweets]))
y = [tweet.clazz for tweet in training_set.tweets]

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=127228)

clf = SVC()

# Fit classifier
clf.fit(X_train, y_train)

# Check prediction score
accuracy_score(y_test, clf.predict(X_test))

0.6542124542124542

Skomentuj wyniki i odnieś je do wyników z poprzedniego zadania domowego. Na ile użycie reprezentacji rozproszonych pozwoliło na poprawę wyników?

In [32]:
# Wyniki:
# * FeatureHasher - 0.5296703296703297
# * Bag of clusters - 0.5882783882783883
# * Universal Sentence Encoder - 0.6542124542124542
# 
# Dzięki wykorzystaniu USE udało się poprawić wyniki.
# Wykorzystuje on embeddingi do wyrażenia sentencji w postaci reprezentacji wektorowej.
# Najbardziej jest to widoczne w odniesieniu do bazowej wersji z Feature Hasherem, gdzie obserujemy poprawę o 13 pkt procentowych.

# Zadanie 3 - konstruowanie zagnieżdżeń
W tym ćwiczeniu kontynuujemy pracę z tweetami, ale pomijamy całkowicie ich klasy. Zbiór tweetów potraktujemy jako korpus do nauczenia zagnieżdżeń słów przy pomocy macierzy PMI.
- Wypełnij macierz kontekst - dokument przy użyciu symetrycznego okna o promieniu 4 (po 4 słowa w każdą stronę)
- Możesz ograniczyć słownictwo do 10K słów
- Przekształć macierz w macierz PPMI
- Stwórz zagnieżdżenia wykorzystując dekompozycję SVD do wybranej wymiarowości $d$ (ze względu na koszt obliczeniowy może to być mała wymiarowość np. $d=10$)

In [51]:
from math import log2
from numpy.linalg import svd
from sklearn.decomposition import TruncatedSVD

def hyperspace_analogue_to_language(tweets, r=4):
    # Key - `word`, Values - dict with `another_word` => `count`
    # Only 20k words allowed - this is only for educational purposes - no extra security check here
    matrix = np.zeros((20_000, 20_000))
    word_to_index = dict()
    last_index = 0

    for tweet in training_set.tweets:
        # Prepare generator with weight assigned to each position in window
        weights = [0, *list(range(r, 0, -1))]
    
        sentence = tweet.tokens
        for index, center_word in enumerate(sentence):
            # Get rowId assigned to word
            rowId = word_to_index.get(center_word, None)
            
            # If not found word in dictionary - set new index
            if rowId is None:
                rowId = last_index
                word_to_index[center_word] = last_index
                last_index += 1

            # Iterate over elements in window and combined weights
            window = iter(sentence[max(index - r, 0):index + r + 1])
            for word, weight in zip(window, weights):
                # If not found word in dictionary - set new index
                wordId = word_to_index.get(word, None)
                if wordId is None:
                    wordId = last_index
                    word_to_index[word] = last_index
                    last_index += 1
                    
                # Update value in matrix
                matrix[rowId, wordId] += weight

            # If index < window size - add at beggining of weights list new weight
            if index < r:
                weights.insert(0, r - index)
    
    return matrix[:last_index, :last_index], word_to_index

def transform_into_ppmi_matrix(matrix):
    (rows, columns) = matrix.shape
    
    # PPMI matrix
    ppmi_matrix = matrix.copy()
    
    # Calculate sum of values in matrix
    total_values = np.sum(ppmi_matrix)
    
    # Calculate probability of elements in each row
    row_values = np.sum(ppmi_matrix, axis=1)
    row_values = row_values / total_values
    
    # Calculate probability of elements in each column
    column_values = np.sum(ppmi_matrix, axis=0)
    column_values = column_values / total_values
    
    # Make PPMI matrix as probability matrix with P(w, c) as value
    ppmi_matrix = ppmi_matrix / total_values
    
    # Calculate PPMI values
    for rowId in range(0, rows):
        for colId in range(0, columns):
            denominator = row_values[rowId] * column_values[colId]
            if denominator == 0:
                ppmi_matrix[rowId, colId] = 0
            else:
                # Calculate PMI value
                pmi_value = ppmi_matrix[rowId, colId] / denominator

                # Calculate log2 only if not equal 0
                if pmi_value != 0:
                    pmi_value = log2(pmi_value)

                ppmi_matrix[rowId, colId] = max(0, pmi_value)
            
    return ppmi_matrix
    
def pmi_matrix_svd_decomposition(matrix, d=10):
    svd_obj = TruncatedSVD(n_components=d)
    return svd_obj.fit_transform(matrix)

hal_matrix, words_to_index_dict = hyperspace_analogue_to_language(training_set.tweets)
ppmi_matrix = transform_into_ppmi_matrix(hal_matrix)
svd_matrix = pmi_matrix_svd_decomposition(ppmi_matrix, d=10)

Przetestuj działanie Twoich zagnieżdżeń wykorzystując funkcję `find_similar` na wybranych słowach.

In [52]:
print(find_similar('microsoft', words_to_index_dict, svd_matrix))
print(find_similar('bug', words_to_index_dict, svd_matrix))
print(find_similar('topic', words_to_index_dict, svd_matrix))
print(find_similar('the', words_to_index_dict, svd_matrix))

['mobile', 'pc', 'education', 'gaming', 'publishers', 'access', '6-inch', 'waterproof', 'tablet', '@gabeaul']
['loans', '25000', 'yano', 'doom', 'apologist', '#parttimeproblems', 'tomo-', '#cant', 'insight2015', 'gloom']
['trending', '#shopinsidermorning', 'js', 'dallas', 'rally', 'wwe', 'area~', 'charity', 'appeared', 'indoors']
['of', 'in', 'is', '1st', 'for', 'on', 'a', "'s", 'thrones', 'sunday']
