# Reprezentarea Cuvintelor (sau _Word Embeddings_)

Acest laborator prezintă conceptele cheie și pașii pentru implementarea unei modalități de reprezentare a textelor sau cuvintelor ca vectori.

## Setul de date

Primul set de date pe care îl vom folosi este _common_texts_. Acesta conține o listă de documente, unde fiecare document conține o serie de cuvinte cheie prezentate tot ca o listă. Setul este mic si multe cuvinte se repetă, ceea ce îl face ușor de urmărit:

In [1]:
from gensim.test.utils import common_texts

common_texts

[['human', 'interface', 'computer'],
 ['survey', 'user', 'computer', 'system', 'response', 'time'],
 ['eps', 'user', 'interface', 'system'],
 ['system', 'human', 'system', 'eps'],
 ['user', 'response', 'time'],
 ['trees'],
 ['graph', 'trees'],
 ['graph', 'minors', 'trees'],
 ['graph', 'minors', 'survey']]

In [2]:
text = [
  'human interface computer',
  'survey user computer system response time',
  'eps user interface system',
  'system human system eps',
  'user response time',
  'trees',
  'graph trees',
  'graph minors trees',
  'graph minors survey'
]

În general o să folosim seturi de date mai mari, care ne transmit mai multe informații. Momentan folosim acest set de date fiindcă se mișcă mai rapid.

## Bag of Words

Nu vom implementa niciun model manual, vom folosi implementările deja existente. Pentru Bag of Words, aceasta se numește _CountVectorizer_:

In [3]:
from sklearn.feature_extraction.text import CountVectorizer

_CountVectorizer_ este clasa pe care o vom folosi pentru a traduce fiecare propoziție din setul de date în varianta numerică a acesteia. Pentru asta trebuie să creăm o instanță a clasei noastre:

In [9]:
vectorizer = CountVectorizer()

_vectorizer_ este numele pe care îl vom da listei noastre de valori care ne transmit informațiile despre text.
Pentru a aplica modelul pe textul nostru trebuie să apelăm funcția _fit_transform_ din interiorul instanței:

In [10]:
X = vectorizer.fit_transform(text)

Funcția aplicată mai sus extrage lista de cuvinte din text și calculează de câte ori apare fiecare cuvânt în fiecare propoziție. Putem vedea lista de cuvinte folosind altă funcție din instanță:

In [11]:
vectorizer.get_feature_names_out()

array(['computer', 'eps', 'graph', 'human', 'interface', 'minors',
       'response', 'survey', 'system', 'time', 'trees', 'user'],
      dtype=object)

X este lista noastră de valori. Fiecare linie reprezintă o propoziție, fiecare coloană reprezintă un cuvânt, iar valorile aflate la intersecție ne spun de câte ori apare fiecare cuvânt în fiecare propoziție.

In [12]:
X.toarray()

array([[1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0]])

Gata! Acum știm vectorizarea fiecărei propoziții folosind Bag of Words!

### EXERCIȚIU:



La fel ca majoritatea claselor, CountVectorizer are o serie de parametri


 cu valori predefinite. Printre acestea se numără și _binary=False_, care numără de câte ori apar cuvintele. Setează valoarea acestui parametru ca _True_, antrenează din nou pe textul dat și afișează noua listă de valori (X).

In [None]:
# TODO: creează o instanță cu parametrul binary setat True

# TODO: antrenează din nou pe text

# TODO: afișează noua listă de valori (X)


## TFIDF

TFIDF este antrenat și apelat exact la fel ca Bag of Words, doar că funcția pe care o folosim se numește _TfidfVectorizer_. Creează lista de valori numerice corespunzătoare textului folosind metoda TFIDF din cadrul clasei de mai jos:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TODO: La fel ca mai sus, creează o instanță a clasei TfidfVectorizer, antreneaz-o pe text și afișează lista de valori X

# TODO: antrenează din nou pe text

# TODO: afișează noua listă de valori (X)


## Word2Vec

Word2Vec funcționează puțin diferit. Îl vom antrena pe lista de cuvinte (în loc de propoziții) și îi spunem să ia în considerare cuvintele care apar minim o dată:

In [15]:
from gensim.models import Word2Vec

vectorizer = Word2Vec(common_texts, min_count=1).wv

Putem vedea lista de cuvinte folosind următoarea funcție:

In [16]:
vectorizer.key_to_index

{'system': 0,
 'graph': 1,
 'trees': 2,
 'user': 3,
 'minors': 4,
 'eps': 5,
 'time': 6,
 'response': 7,
 'survey': 8,
 'computer': 9,
 'interface': 10,
 'human': 11}

Noua noastră instanță vine cu o serie de funcții noi pe care le putem descoperi. Folosește funcția _most_similar(word)_ pentru a vedea cuvintele care seamănă cel mai mult cu cuvântul _system_:

In [None]:
# TODO: găsește cuvintele cele mai apropiate de "system"


Folosește funcția _similarity(word1, word2)_ pentru a vedea cât de apropiate sunt cuvintele _human_ și _computer_:

In [None]:
# TODO: găsește similaritatea între "human" și "computer"


Ce se întâmplă dacă încercăm să calculăm _king + woman - man_ ?

In [19]:
vectorizer.most_similar(positive=["king", "woman"], negative=["man"])

KeyError: "Key 'king' not present in vocabulary"

Modelul nostru nu a învățat aceste cuvinte, așa că nu știe ce să facă cu ele. Încearcă să calculezi diferența între alte 3 cuvinte din lista de cuvinte știute:

In [None]:
# TODO


## BONUS

Pentru următoarele exerciții vom folosi un set de date care conține 3.000.000 de cuvinte sub forma unei serii de știri extrase de pe Google. Întrucât setul este foarte mare și ar dura extrem de mult timp să îl antrenăm singuri, vom downloada modelul direct antrenat ca să ne uităm cum funcționează. Ne așteptăm ca downloadul să dureze minim 10 minute, deci aveți grijă când rulați această celulă:

In [21]:
import gensim.downloader as api

model = api.load("word2vec-google-news-300")



In [22]:
model.most_similar('system')

[('systems', 0.7227916717529297),
 ('sytem', 0.7129376530647278),
 ('sys_tem', 0.5871982574462891),
 ('System', 0.5275423526763916),
 ('mechanism', 0.5058810114860535),
 ('sysem', 0.5027822852134705),
 ('systen', 0.49969804286956787),
 ('system.The', 0.49599188566207886),
 ('sytems', 0.4949610233306885),
 ('computerized', 0.47604817152023315)]

In [23]:
model.similarity('human', 'computer')

0.18846479

In [24]:
model.most_similar(positive=["king", "woman"], negative=["man"])

[('queen', 0.7118193507194519),
 ('monarch', 0.6189674139022827),
 ('princess', 0.5902431011199951),
 ('crown_prince', 0.5499460697174072),
 ('prince', 0.5377321839332581),
 ('kings', 0.5236844420433044),
 ('Queen_Consort', 0.5235945582389832),
 ('queens', 0.5181134343147278),
 ('sultan', 0.5098593831062317),
 ('monarchy', 0.5087411999702454)]

In [25]:
model.most_similar(positive=['human'], negative=['computer', 'time'])

[('non_toxigenic_C.', 0.3579254448413849),
 ('allotransplantation', 0.3464714586734772),
 ('speciesism', 0.3178519308567047),
 ('Atlantic_salmon_Salmo', 0.29254624247550964),
 ('nonhuman_animals', 0.2893490791320801),
 ('Sus_scrofa', 0.28739631175994873),
 ('K.Kahne_###-###', 0.2862851619720459),
 ('Neurotrophic_Factor', 0.2850346565246582),
 ('palmitoleic_acid', 0.28359511494636536),
 ('unbridled_individualism', 0.2827090919017792)]

Vom instala modulul _wikipedia_ pentru a putea accesa paginile direct din cod:

In [26]:
! pip install wikipedia

Collecting wikipedia
  Downloading wikipedia-1.4.0.tar.gz (27 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: wikipedia
  Building wheel for wikipedia (setup.py) ... [?25l[?25hdone
  Created wheel for wikipedia: filename=wikipedia-1.4.0-py3-none-any.whl size=11680 sha256=9f750bcf936db970e0f2f06fd203378246c04e12d47bd617799022094f2b9912
  Stored in directory: /root/.cache/pip/wheels/5e/b6/c5/93f3dec388ae76edc830cb42901bb0232504dfc0df02fc50de
Successfully built wikipedia
Installing collected packages: wikipedia
Successfully installed wikipedia-1.4.0


1. Descarcă un articol de pe wikipedia. Înlocuiește _page\_title_ cu un titlu de pagină de pe wikipedia:

In [None]:
import wikipedia

page_title = "" # TODO: Alege un titlu de pe wikipedia
page = wikipedia.page(page_title, auto_suggest=False)

print(page.content)

2. Descoperă câte cuvinte de pe pagina de wikipedia apar în modelul tău și câte nu.

In [29]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [37]:
# TODO: Cate cuvinte de pe pagina de wiki apar în model și câte nu?
from nltk import word_tokenize

words = list(set(word_tokenize(page.content.lower())))
words[:10]

['eleanor',
 'banas',
 'considerable',
 'forester',
 'impulses',
 'snow',
 'whom',
 'archetype',
 'andalusia',
 'uses']

In [38]:
lista_cuvinte = list(model.key_to_index.keys())
lista_cuvinte[:10]

['</s>', 'in', 'for', 'that', 'is', 'on', '##', 'The', 'with', 'said']

3. Determină similaritatea între toate cuvintele de pe pagina de wiki. Afișează top 3 cele mai apropiate perechi de cuvinte și top 3 cele mai diferite.

In [None]:
# TODO: Determină similaritatea între toate cuvintele din textul de pe wiki

# TODO: Afișează cele mai apropiate 3 perechi de cuvinte din text

# TODO: Afișează cele mai diferite 3 perechi de cuvinte din text


4. Pentru următoarele cuvinte: _user_, _survey_, _system_, _computer_ determină cel mai apropiat cuvânt folosind modelul încărcat pentru exercițiul bonus și modelul antrenat la începutul laboratorului. Observi diferențele?

In [68]:
# TODO: Cel mai apropiat cuvânt de "user" folosind cele 2 modele

# TODO: Cel mai apropiat cuvânt de "survey" folosind cele 2 modele

# TODO: Cel mai apropiat cuvânt de "system" folosind cele 2 modele

# TODO: Cel mai apropiat cuvânt de "computer" folosind cele 2 modele


Modelul antrenat de noi | Model preantrenat
('eps', 0.13147011399269104) ('users', 0.7195653319358826)
('trees', 0.19912061095237732) ('surveys', 0.8096452355384827)
('computer', 0.21617141366004944) ('systems', 0.7227916717529297)
('system', 0.21617139875888824) ('computers', 0.7979379892349243)
