# Word embeddings i Python

I denne notebook vises, hvordan man kan arbejde med word embeddings i Python.

Der vises først, hvordan man kan tilgå trænede embeddings/vectors fra sprogmodellerne fra `spaCy`. Derefter vises, hvordan man kan arbejde med trænede embeddings/vectors fra `gensim` ([https://radimrehurek.com/gensim/](https://radimrehurek.com/gensim/)).

In [3]:
# indlæser pakker
import pandas as pd

# spacy
import spacy

# gensim
from gensim.models import Word2Vec # word2vec model
import gensim.downloader # download funktion til at hente eksisterende modeller/vectors med gensim


# indlæs sprogmodel
nlp = spacy.load('da_core_news_md')
nlp_en = spacy.load('en_core_web_md')

## Brug af præ-trænede embeddings/vectors i `spaCy`

`spaCy` bruger word embeddings til bedre at kunne prædiktere andre attributter af et tekststykke (fx part-of-speech, dependency parsing og named entity recognition).

Man kan tilgå de trænede embeddings for et ord ved blot at køre det igennem et `spaCy` pipeline (`nlp`) og tilgå visse attributter.

In [None]:
nlp("danmark").vector # vector repræsentation

In [None]:
nlp("danmark").vector.shape # antal dimensioner

### Sammenlign enkelte ord i modellen

Lighed mellem vektorer kan måles med metoden `similarity()` for et `doc` objekt (et stykke tekst kørt igennem pipeline - `nlp()`). Angiver lighed som cosinus lighed ("cosine similarity").

I det nedenstående sammenlignes embeddings for 'sverige', 'tyskland' og 'danmark'.

In [5]:
sverige = nlp('sverige')
tyskland = nlp('tyskland')
danmark = nlp('danmark')

**Lighed mellem ord**



In [6]:
sverige.similarity(tyskland)

0.6354022937741272

In [7]:
danmark.similarity(tyskland)

0.6236296901809797

In [8]:
danmark.similarity(sverige)

0.6780375257368823

**Engelsk**

Herunder gøres det samme, men for engelsk. Bemærk forskellen i lighed - hvordan kan det være?

In [9]:
sweden = nlp_en('sweden')
germany = nlp_en('germany')
denmark = nlp_en('denmark')

In [10]:
sweden.similarity(germany)

0.6387296802300224

In [11]:
denmark.similarity(germany)

0.6248384332660103

In [12]:
denmark.similarity(sweden)

0.8716510217277486

**Dokument ligheder**

Man kan også måle lighed mellem hele tekststykker. Cosine similarity udregnes ud fra gennemsnit af de enkelte ord vektorer i tekststykket.

In [13]:
doc1 = nlp("Jeg kan lide bananer")
doc2 = nlp("Jeg kommer fra Tyskland")
doc3 = nlp("Jeg bor i Danmark")

In [15]:
doc1.similarity(doc2) # hvor meget ligner doc1 doc2?

0.4283175755531724

In [16]:
doc2.similarity(doc3) # hvor meget ligner doc2 doc3?

0.6080683137095485

## Brug af præ-trænede embeddings/vectors med `gensim`

**Download præ-trænet model**

`gensim` har en række modeller, som kan hentes direkte gennem pakken (engelske modeller):

In [18]:
list(gensim.downloader.info()['models'].keys()) # liste over direkte tilgængelige modeller

['fasttext-wiki-news-subwords-300',
 'conceptnet-numberbatch-17-06-300',
 'word2vec-ruscorpora-300',
 'word2vec-google-news-300',
 'glove-wiki-gigaword-50',
 'glove-wiki-gigaword-100',
 'glove-wiki-gigaword-200',
 'glove-wiki-gigaword-300',
 'glove-twitter-25',
 'glove-twitter-50',
 'glove-twitter-100',
 'glove-twitter-200',
 '__testing_word2vec-matrix-synopsis']

Man kan hente og indlæse de præ-trænede vectors i modellen med `gensim.downloader.load()` funktionen:

In [19]:
pretrained_vectors = gensim.downloader.load('glove-wiki-gigaword-100')



**Brug af præ-trænet model i gensim**

In [20]:
pretrained_vectors['denmark'] # vector for enkelt ord

array([-0.28875  , -0.19655  ,  0.26046  ,  0.086723 ,  0.25918  ,
       -0.1897   , -0.54331  ,  0.009582 , -0.30836  , -0.0031624,
        0.33199  , -0.29428  , -0.24047  ,  1.19     , -0.084937 ,
        0.11623  , -0.21052  , -0.54361  , -0.99796  ,  0.12067  ,
        0.14138  ,  0.65072  ,  1.2077   ,  1.1735   ,  0.23783  ,
       -0.98251  ,  0.41053  ,  0.27652  ,  0.52805  , -0.48693  ,
       -0.8589   ,  0.35657  ,  0.71596  ,  0.17604  ,  0.52895  ,
       -0.2974   ,  0.44817  ,  0.40725  , -0.98995  , -0.90026  ,
       -0.57812  ,  0.050827 ,  0.32352  ,  0.087861 , -0.023458 ,
       -0.34776  ,  0.88943  ,  0.10766  ,  0.46515  , -0.20827  ,
        0.59546  ,  0.16455  , -0.45227  ,  0.6851   , -0.87772  ,
       -1.7848   , -0.37841  , -0.25611  ,  0.15408  ,  0.067509 ,
        0.71967  , -0.31071  , -0.15901  , -0.066492 ,  0.50181  ,
        0.99762  , -1.1725   ,  1.5181   ,  0.14916  , -0.11483  ,
        0.072389 , -0.66993  ,  0.36882  ,  0.37702  ,  0.3675

**Find mest lignende ord**

In [21]:
pretrained_vectors.most_similar('denmark')

[('sweden', 0.8624401092529297),
 ('norway', 0.8288263082504272),
 ('netherlands', 0.8032277226448059),
 ('finland', 0.7628087401390076),
 ('austria', 0.7483422756195068),
 ('germany', 0.7414340376853943),
 ('belgium', 0.7279534935951233),
 ('hungary', 0.7076718807220459),
 ('luxembourg', 0.6797297596931458),
 ('switzerland', 0.6770632266998291)]

**Sammenlign specifikke ord**

In [22]:
pretrained_vectors.similarity('denmark', 'germany')

0.7414341

In [23]:
pretrained_vectors.similarity('denmark', 'sweden')

0.8624401

**Vector algebra**

Vectors fra `gensim` tillader "vector algebra" - altså en måde at lave udregninger baseret på word embeddings. 

Et klassisk eksempel på vector algebra med word embeddings er fx $king + woman - man = queen$. Denne udregning kan vi foretage med `gensim` via metoden `most_similar()`.

In [None]:
pretrained_vectors.most_similar(positive=['woman', 'cat'],  # *Man* is to *woman* as *cat* is to ... (woman + cat - man = ?)
                                negative=['man'], 
                                topn=1)

In [None]:
pretrained_vectors.most_similar(positive=['king', 'woman'], # king + woman - man = ?
                           negative=['man'], 
                           topn=1)

In [None]:
pretrained_vectors.most_similar(positive=['berlin', 'denmark'],  # berlin + danmark - germany = ?
                           negative=['germany'], 
                           topn=1)

**Bias i modellen**

In [None]:
pretrained_vectors.most_similar(positive=['doctor', 'woman'], # doctor + woman - man = ?
                           negative=['man'], 
                           topn=1)

In [None]:
pretrained_vectors.most_similar(positive=['manager', 'woman'],  # manager + woman - man = ?
                           negative=['man'], 
                           topn=1)