# Deel 3: vectorisatie met spaCy (word2vec)

SpaCy is een zeer uitgebreide library en kan een hoop complexe problemen voor je oplossen. Je kan spaCy bijvoorbeeld gebruiken om een mate van 'similarity' tussen documenten te bepalen. Je zou bijvoorbeeld kunnen kijken in welke mate de ondertiteling van twee verschillende films op elkaar lijken. 

Doorloop het tweede hoofdstuk van de spaCy-cursus (in ieder geval t/m 10: Comparing similairties): [Large scale data analysis with spaCy](https://course.spacy.io/chapter2)

Laten we eens kijken hoe je de ingebouwde similarity zou kunnen gebruiken voor het maken van een recommender system. We gaan niet het hele systeem bouwen, maar we kijken alleen naar hoe je een similarity matrix kan maken gebaseerd op de ingebouwde similarity functie van spaCy.

We beginnen met het laden van het benodigde model. We hebben de medium versie van de engelse taal nodig, omdat in de small versie (die je hierboven hebt gebruikt) geen woord-vectoren ingebouwd zitten.

In [None]:
import spacy
import pandas as pd
import numpy as np
import answers

nlp = spacy.load('en_core_web_md')

### Het inspecteren van woord-vectoren
Zoals we hebben gezien in de tutorial, bereken je op de volgende manier de similarity tussen twee korte zinnen.

In [None]:
doc1 = nlp("It's a warm summer day")
doc2 = nlp("It's sunny outside")

# Get the similarity of doc1 and doc2
similarity = doc1.similarity(doc2)
print(similarity)

Deze twee zinnen lijken natuurlijk inderdaad nogal veel op elkaar: ze gaan allebei over mooi weer. Hoe werkt de similarity als twee zinnen niet op elkaar lijken? Je kunt dit testen door een derde zin toe te voegen, bijvoorbeeld over slecht weer.

In [None]:
doc3 = nlp("It's raining cats and dogs")
print(doc1.similarity(doc3))

De manier waarop spaCy similary berekent is totaal anders dan de tf-idf manier die wie hiervoor gezien hebben. Een opvallend verschil is dat similarity ook rekening houdt met _semantiek_. Dat wil zeggen dat er niet simpelweg woorden worden geteld, maar dat de betekenis van een woord ook invloed heeft op het resultaat.

### Vraag 1

\[1 pt.\]

Gebruik de spaCy similarity hieronder om de woorden "dog" en "cat" met elkaar te vergelijken. Doe hetzelfde met de woorden "dog" en "car". Sla de resultaten op in de variablen `dog_cat_similarity` en `dog_car_similarity`.

In [None]:
dog_cat_similarity = 0
dog_car_similarity = 0

# TODO


print(dog_cat_similarity)
print(dog_car_similarity)

Test je uitwerking:

In [None]:
answers.test_15(dog_cat_similarity, dog_car_similarity)

Als het goed is zie je dat "dog" en "cat" veel meer op elkaar lijken dan "dog" en "car". SpaCy heeft de informatie dat de concepten "cat" en "dog" met elkaar te maken hebben. 

### Headlines
Om nog wat meer met de similarity te spelen, laden we hieronder een kleine dictionary. In deze dictionary zitten vijf "headlines" van krantenkoppen en van wetenschappelijke artikelen.

De wetenschappelijke artikelen zijn er twee: eentje over recommender systems, en eentje over machine learning. Dan hebben we drie krantenkoppen: eentje over de brexit, en twee over de presidentsverkiezingen in Amerika.

In [None]:
headlines = pd.read_pickle('./data/headlines.pkl')
display(headlines)

### Vraag 2

\[1 pt.\]

Maak hieronder een similarity matrix (in een pandas dataframe) van alle similarities tussen deze headlines.

In [None]:
df_nlp_similarity = pd.DataFrame(index=headlines.index, columns=headlines.index)

# TODO


display(df_nlp_similarity)

In [None]:
answers.test_16(df_nlp_similarity)

### Vraag 3

\[2 pt.\]

Lijken de zinnen op elkaar waarvan je verwacht had dat ze op elkaar leken? Hoezo wel/niet?

YOUR ANSWER HERE

### Langere teksten
We gebruikten tf-idf om ondertitelingen met elkaar te verglijken. In principe zou je dit ook met de spaCy similarity kunnen doen. Alleen de similarity van spaCy is bedoeld voor zinnen en niet voor hele documenten. In de praktijk blijkt het niet goed te werken voor hele ondertitelingsbestanden. Dit neemt natuurlijk niet weg dat je kunt kijken naar (korte) delen van de ondertiteling.

### Hoge similarities
Soms kan het voorkomen dat de similarities erg hoog uit komen. Dit komt doordat de manier waarop spaCy de similarity berekent geen rekening houd met stopwoorden. Normaal gesproken is het verwijderen van stopwoorden een van de eerste stappen zodat je betere input hebt voor elk mogelijk model. 

### Word embeddings met *word2vec*

Voor het berekenen van similarities maakt spaCy gebruik van *word2vec*. Dit is een algoritme voor het vectoriseren van woorden. Met tf-idf kon je alleen hele teksten vectoriseren. Met word2vec kan je vecotriseer je individuele woorden. Je kan vervolgens ook hele teksten vecotriseren door de vectoren van alle woorden in een tekst te combineren.

Have a look at the follwoing video explaining the basics of word2vec:

[What is word2vec?](https://youtu.be/LSS_bos_TPI?t=134)

Of met iets meer lineare algebra (optioneel):

[Understanding word2vec model](https://www.youtube.com/watch?v=J0ZRCPPL4vQ)

Je kan de vector van een woord in spaCy opvragen met de `.vector` methode. Deze code geeft de vector voor het woord "cat". Elke word2vec vector is een reeks van 300 getallen. 

In [None]:
cat = nlp("cat")
print(cat.vector)

### Vectoren voor teksten

Een manier om een langere tekst te vectoriseren is het gemiddelde van de vectoren van elk woord te nemen. Je hebt nog niet leren rekenen met vectoren. Dit is iets dat je leert bij lineaire algebra. Voor nu is het genoeg om te weten dat je het gemiddelde van twee vectoren op dezelfde manier kan berkenen als het gemiddelde van twee getallen. Bijvorbeeld:

In [None]:
cat = nlp("cat")
dog = nlp("dog")

average_vector = (cat.vector + dog.vector) / 2
print(average_vector)

### Vraag 5

\[2 pt.\]

Maak hieronder de functie `compute_vector` af. Deze functie berkent het gemiddelde van alle vectoren uit een tekst. Zorg ervoor dat stop words niet mee worden geteld.

Gebruik deze vectoren voor het maken van een similarity matrix, vergelijkbaar met de matrix uit vraag 2 (alleen de waardes zullen iets verschillen).

In [None]:
from spacy.lang.en import STOP_WORDS

def compute_vector(doc, stopwords):
    vector = np.zeros(300)
    len_v = 0
    for token in doc:
        # add the vector of each word to `vector`
        # TODO
        
    
    # return average
    average = np.divide(vector, len_v)
    return average
    

# TODO


display(similarity)

In [None]:
answers.test_18(compute_vector, nlp_headlines, similarity, STOP_WORDS)

Klaar! Je hebt een aantal verschillende technieken voor content based filtering gezien. Je hebt gezien hoe je categorische informatie zoals filmgenres kan gebruiken en je hebt twee verschillende technieken voor de vectorisatie van teksten gezien. Dit is slechts een greep uit de vele technieken die je kan gebruiken. Voor veel veelgebruikte technieken heb je een basis in machine learning nodig. Daar gaan we in deze cursus niet heel diep induiken. Maar in de volgende submodule ga je wel kijken hoe je een specifieke techniek uit de machine learning (decision trees) kan inzetten om nieuwe features te genereren.