# Importing Libraries




In [None]:
import pandas as pd
import numpy as np

# Pentru implementarea reprezentarilor vectoriale Word2Vec & FastText / word embeddings
from gensim.models import Word2Vec
from gensim.models.fasttext import FastText

# Pentru reducerea nr. de dimensiuni (PCA - analiza componentelor principale)
from sklearn.decomposition import PCA

# Pentru vizualizare
import plotly.express as px

In [None]:
prop = [
    ['we', 'will', 'use', 'word2vec'],
    ['we', 'will', 'also', 'use', 'fasttext'],
    ['this', 'is', 'a', 'sentence'],
    ['what', 'embedding', 'is', 'best', 'for', 'this', 'sentence'],
    ['lets', 'find', 'out']
]

In [None]:
prop

# Word2Vec

In [None]:
# min_count: ignora toate cuvintele cu o frecventa mai mica decat valoarea min_count
# size: numarul de dimensiuni

model_word2vec = Word2Vec(prop, min_count=1, size=4, seed=42)

In [None]:
# Reprezentarea vectoriala a cuvantului 'sentence' in cele 4 dimensiuni
model_word2vec.wv['sentence']

In [None]:
# Word2Vec nu poate crea reprezentari vectoriale pentru cuvintele care
# nu au fost vazute in partea de training: e.g. sentiment
# KeyError: "word 'sentiment' not in vocabulary"

# model_word2vec.wv['sentiment']

## Vizualizarea cuvintelor in 3 dimensiuni

In [None]:
# Cream o lista cu toate cuvintele din modelul word2vec
lista_cuvinte = list(model_word2vec.wv.vocab)
lista_cuvinte

In [None]:
# Pentru fiecare cuvant din lista_cuvinte, reprezentarile vectoriale in 4 dimensiuni
X_word2vec = model_word2vec.wv[lista_cuvinte]
X_word2vec

In [None]:
# Aplicam PCA pentru a reduce de la 4 dimensiuni la 3
pca_word2vec = PCA(n_components=3).fit_transform(X_word2vec)
pca_word2vec

In [None]:
fig = px.scatter_3d(x=pca_word2vec[:, 0],
                    y=pca_word2vec[:, 1],
                    z=pca_word2vec[:, 2],
                    text=lista_cuvinte)
fig.show()

# FastText

In [None]:
model_fasttext = FastText(prop, min_count=1, size=4, seed=42)

In [None]:
# Reprezentarea vectoriala FastText pentru
# 'sentence', un cuvant care a fost vazut in partea training
model_fasttext.wv['sentence']

In [None]:
# Reprezentarea vectoriala pentru sentiment este realizata,
# chiar daca acest cuvant nu a fost vazut in partea de training
# pentru ca se imparte cuvant-ul sentiment in n-grams (grupuri de n caractere)
# si se agrega reprezentarile vectoriale pentru fiecare n-gram
model_fasttext.wv['sentiment']

# se, sen, ent, nti, tim, ime, men, ent, nt

In [None]:
# Nu poate reda reprezentarea vectoriala pentru cuvantul 'capital'
# deoarece lipsesc reprezentarile vectoriale pentru n-gram-urile care
# alcatuiesc cuvantul capital

# model_fasttext.wv['capital']
# KeyError: 'all ngrams for word capital absent from model'

# Vizualizarea cuvintelor in 2 dimensiuni

In [None]:
# Reprezentarea vectoriala FastText pentru fiecare cuvant din lista_cuvinte in 4 dimensiuni
X_fasttext = model_fasttext.wv[lista_cuvinte]
X_fasttext

In [None]:
pca_fasttext = PCA(n_components=2).fit_transform(X_fasttext)
pca_fasttext

In [None]:
fig = px.scatter(x=pca_fasttext[:,0],
                 y=pca_fasttext[:,1],
                 text=lista_cuvinte)
fig.update_traces(textposition='top center',
                  textfont_size=14)
fig.show()