# Reprezentarea Cuvintelor (sau _Word Embeddings_)

Acest laborator prezintă conceptele cheie și pașii pentru implementarea unei modalități de reprezentare a textelor sau cuvintelor ca vectori.

## Setul de date

Primul set de date pe care îl vom folosi este _common_texts_. Acesta conține o listă de documente, unde fiecare document conține o serie de cuvinte cheie prezentate tot ca o listă. Setul este mic si multe cuvinte se repetă, ceea ce îl face ușor de urmărit:

In [None]:
from gensim.test.utils import common_texts

common_texts

[['human', 'interface', 'computer'],
 ['survey', 'user', 'computer', 'system', 'response', 'time'],
 ['eps', 'user', 'interface', 'system'],
 ['system', 'human', 'system', 'eps'],
 ['user', 'response', 'time'],
 ['trees'],
 ['graph', 'trees'],
 ['graph', 'minors', 'trees'],
 ['graph', 'minors', 'survey']]

In [None]:
text = [
  'human interface computer',
  'survey user computer system response time',
  'eps user interface system',
  'system human system eps',
  'user response time',
  'trees',
  'graph trees',
  'graph minors trees',
  'graph minors survey'
]

În general o să folosim seturi de date mai mari, care ne transmit mai multe informații. Momentan folosim acest set de date fiindcă se mișcă mai rapid.

## Bag of Words

Nu vom implementa niciun model manual, vom folosi implementările deja existente. Pentru Bag of Words, aceasta se numește _CountVectorizer_:

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

_CountVectorizer_ este clasa pe care o vom folosi pentru a traduce fiecare propoziție din setul de date în varianta numerică a acesteia. Pentru asta trebuie să creăm o instanță a clasei noastre:

In [None]:
vectorizer = CountVectorizer(ngram_range=(2,3))

_vectorizer_ este numele pe care îl vom da listei noastre de valori care ne transmit informațiile despre text.
Pentru a aplica modelul pe textul nostru trebuie să apelăm funcția _fit_transform_ din interiorul instanței:

In [None]:
X = vectorizer.fit_transform(text)

Funcția aplicată mai sus extrage lista de cuvinte din text și calculează de câte ori apare fiecare cuvânt în fiecare propoziție. Putem vedea lista de cuvinte folosind altă funcție din instanță:

In [None]:
vectorizer.get_feature_names_out()

array(['computer system', 'computer system response', 'eps user',
       'eps user interface', 'graph minors', 'graph minors survey',
       'graph minors trees', 'graph trees', 'human interface',
       'human interface computer', 'human system', 'human system eps',
       'interface computer', 'interface system', 'minors survey',
       'minors trees', 'response time', 'survey user',
       'survey user computer', 'system eps', 'system human',
       'system human system', 'system response', 'system response time',
       'user computer', 'user computer system', 'user interface',
       'user interface system', 'user response', 'user response time'],
      dtype=object)

X este lista noastră de valori. Fiecare linie reprezintă o propoziție, fiecare coloană reprezintă un cuvânt, iar valorile aflate la intersecție ne spun de câte ori apare fiecare cuvânt în fiecare propoziție.

In [None]:
X.toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0],
       [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0,
        1, 1, 1, 1, 0, 0, 0, 0],
       [0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 1, 1, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 1, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0]])

In [None]:
X.toarray()

array([[0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0],
       [1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0,
        1, 1, 1, 1, 0, 0, 0, 0],
       [0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 1, 1, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
        0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 1, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0,
        0, 0, 0, 0, 0, 0, 0, 0]])

Gata! Acum știm vectorizarea fiecărei propoziții folosind Bag of Words!

### EXERCIȚIU:



La fel ca majoritatea claselor, CountVectorizer are o serie de parametri


 cu valori predefinite. Printre acestea se numără și _binary=False_, care numără de câte ori apar cuvintele. Setează valoarea acestui parametru ca _True_, antrenează din nou pe textul dat și afișează noua listă de valori (X).

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
#TODO: creează o instanță cu parametrul binary setat True
vectorizer = CountVectorizer(binary=True)
#TODO: antrenează din nou pe text
X = vectorizer.fit_transform(text)
#TODO: afișează noua listă de valori (X)
X.toarray()

array([[1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0]])

## TFIDF

TFIDF este antrenat și apelat exact la fel ca Bag of Words, doar că funcția pe care o folosim se numește _TfidfVectorizer_. Creează lista de valori numerice corespunzătoare textului folosind metoda TFIDF din cadrul clasei de mai jos:

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TODO: La fel ca mai sus, creează o instanță a clasei TfidfVectorizer, antreneaz-o pe text și afișează lista de valori X
vectorizer = TfidfVectorizer()
# TODO: antrenează din nou pe text
X = vectorizer.fit_transform(text)
# TODO: afișează noua listă de valori (X)
X.toarray()


array([[0.57735027, 0.        , 0.        , 0.57735027, 0.57735027,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        ],
       [0.42593857, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.42593857, 0.42593857, 0.37034129, 0.42593857,
        0.        , 0.37034129],
       [0.        , 0.53361154, 0.        , 0.        , 0.53361154,
        0.        , 0.        , 0.        , 0.46395983, 0.        ,
        0.        , 0.46395983],
       [0.        , 0.44614767, 0.        , 0.44614767, 0.        ,
        0.        , 0.        , 0.        , 0.77582505, 0.        ,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.6023681 , 0.        , 0.        , 0.6023681 ,
        0.        , 0.52374168],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        1.        ,

## Word2Vec

Word2Vec funcționează puțin diferit. Îl vom antrena pe lista de cuvinte (în loc de propoziții) și îi spunem să ia în considerare cuvintele care apar minim o dată:

In [None]:
from gensim.models import Word2Vec
vectorizer = Word2Vec(common_texts, min_count=1).wv

In [None]:
from gensim.models import Word2Vec

vectorizer = Word2Vec(common_texts, min_count=1).wv

Putem vedea lista de cuvinte folosind următoarea funcție:

In [None]:
vectorizer.key_to_index

{'system': 0,
 'graph': 1,
 'trees': 2,
 'user': 3,
 'minors': 4,
 'eps': 5,
 'time': 6,
 'response': 7,
 'survey': 8,
 'computer': 9,
 'interface': 10,
 'human': 11}

In [None]:
vectorizer.key_to_index

{'system': 0,
 'graph': 1,
 'trees': 2,
 'user': 3,
 'minors': 4,
 'eps': 5,
 'time': 6,
 'response': 7,
 'survey': 8,
 'computer': 9,
 'interface': 10,
 'human': 11}

Noua noastră instanță vine cu o serie de funcții noi pe care le putem descoperi. Folosește funcția _most_similar(word)_ pentru a vedea cuvintele care seamănă cel mai mult cu cuvântul _system_:

In [None]:
# TODO: găsește cuvintele cele mai apropiate de "system"
vectorizer.most_similar("system")

[('computer', 0.21617141366004944),
 ('response', 0.09293832629919052),
 ('human', 0.07963486760854721),
 ('interface', 0.06288161128759384),
 ('survey', 0.0270574688911438),
 ('time', 0.016134677454829216),
 ('graph', -0.01083916611969471),
 ('minors', -0.027750369161367416),
 ('trees', -0.05234673246741295),
 ('eps', -0.059876296669244766)]

In [None]:
# TODO: găsește cuvintele cele mai apropiate de "system"
vectorizer.most_similar("system")

[('computer', 0.21617141366004944),
 ('response', 0.09293832629919052),
 ('human', 0.07963486760854721),
 ('interface', 0.06288161128759384),
 ('survey', 0.0270574688911438),
 ('time', 0.016134677454829216),
 ('graph', -0.01083916611969471),
 ('minors', -0.027750369161367416),
 ('trees', -0.05234673246741295),
 ('eps', -0.059876296669244766)]

Folosește funcția _similarity(word1, word2)_ pentru a vedea cât de apropiate sunt cuvintele _human_ și _computer_:

In [None]:
# TODO: găsește similaritatea între "human" și "computer"
vectorizer.similarity("human", "computer")

-0.0742427

In [None]:
# TODO: găsește similaritatea între "human" și "computer"
vectorizer.similarity("human" , "computer")

-0.0742427

Ce se întâmplă dacă încercăm să calculăm _king + woman - man_ ?

In [None]:
vectorizer.most_similar(positive=["king","woman"], negative=["man"])

KeyError: "Key 'king' not present in vocabulary"

In [None]:
vectorizer.most_similar(positive=["king", "woman"], negative=["man"])

KeyError: "Key 'king' not present in vocabulary"

Modelul nostru nu a învățat aceste cuvinte, așa că nu știe ce să facă cu ele. Încearcă să calculezi diferența între alte 3 cuvinte din lista de cuvinte știute:

In [None]:
# TODO
vectorizer.most_similar(positive=["computer", "human"], negative="time")

[('system', 0.16105924546718597),
 ('interface', 0.04268745332956314),
 ('survey', 0.0423714704811573),
 ('eps', 0.024565307423472404),
 ('graph', 0.015358746983110905),
 ('response', 0.007577577140182257),
 ('trees', -0.003493217285722494),
 ('user', -0.0975542888045311),
 ('minors', -0.1231798380613327)]

## BONUS

Pentru următoarele exerciții vom folosi un set de date care conține 3.000.000 de cuvinte sub forma unei serii de știri extrase de pe Google. Întrucât setul este foarte mare și ar dura extrem de mult timp să îl antrenăm singuri, vom downloada modelul direct antrenat ca să ne uităm cum funcționează. Ne așteptăm ca downloadul să dureze minim 10 minute, deci aveți grijă când rulați această celulă:

In [None]:
import gensim.downloader as api

model = api.load("word2vec-google-news-300")

In [None]:
model.most_similar('system')

[('systems', 0.7227916717529297),
 ('sytem', 0.7129376530647278),
 ('sys_tem', 0.5871982574462891),
 ('System', 0.5275423526763916),
 ('mechanism', 0.5058810114860535),
 ('sysem', 0.5027822852134705),
 ('systen', 0.49969804286956787),
 ('system.The', 0.49599188566207886),
 ('sytems', 0.4949610233306885),
 ('computerized', 0.47604817152023315)]

In [None]:
model.similarity('human', 'computer')

In [None]:
model.most_similar(positive=["king", "woman"], negative=["man"])

In [None]:
model.most_similar(positive=['human'], negative=['computer', 'time'])

Vom instala modulul _wikipedia_ pentru a putea accesa paginile direct din cod:

In [None]:
! pip install wikipedia

Collecting wikipedia
  Downloading wikipedia-1.4.0.tar.gz (27 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: wikipedia
  Building wheel for wikipedia (setup.py) ... [?25l[?25hdone
  Created wheel for wikipedia: filename=wikipedia-1.4.0-py3-none-any.whl size=11680 sha256=487b4e14f32f5bf323f44c94b805323f55ea124235fea343cf0083586faa4e96
  Stored in directory: /root/.cache/pip/wheels/5e/b6/c5/93f3dec388ae76edc830cb42901bb0232504dfc0df02fc50de
Successfully built wikipedia
Installing collected packages: wikipedia
Successfully installed wikipedia-1.4.0


In [None]:
! pip install wikipedia

1. Descarcă un articol de pe wikipedia. Înlocuiește _page\_title_ cu un titlu de pagină de pe wikipedia:

In [None]:
import wikipedia
page_title = "Evil Queen"
page = wikipedia.page(page_title, auto_suggest=False)
print(page.content)

The Evil Queen (German: böse Königin), also called the Wicked Queen or the Queen, is a fictional character and the main antagonist of "Snow White," a German fairy tale recorded by the Brothers Grimm; similar stories exist worldwide. Other versions of the Queen appear in subsequent adaptations and continuations of the fairy tale, including novels and films. One particularly notable version is Disney's depiction, sometimes known as Queen Grimhilde. The character has also become an archetype that inspired unrelated works.
In some retellings of the fairy tale, the Queen has been re-imagined or portrayed more sympathetically, such as being morally conflicted or suffering from madness instead of being simply evil. In some of the revisionist stories she serves as the protagonist and has even been portrayed as an antihero or a tragic hero.


== The Brothers Grimm tale ==

The Evil Queen is a very beautiful but proud and arrogant woman who marries the King after the death of his first wife, the

In [None]:
import wikipedia

page_title = "" # TODO: Alege un titlu de pe wikipedia
page = wikipedia.page(page_title, auto_suggest=False)

print(page.content)

KeyError: 'query'

2. Descoperă câte cuvinte de pe pagina de wikipedia apar în modelul tău și câte nu.

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
import nltk
nltk.download('punkt')

In [None]:
# TODO: Cate cuvinte de pe pagina de wiki apar în model și câte nu?
from nltk import word_tokenize
words = list(set(word_tokenize(page.content.lower())))
words[:10]

['bfi',
 'scottish',
 'power-hungry',
 'political',
 'cycles',
 'rescue',
 'thorough',
 'important',
 'johann',
 'lilith']

In [None]:
# TODO: Cate cuvinte de pe pagina de wiki apar în model și câte nu?
from nltk import word_tokenize

words = list(set(word_tokenize(page.content.lower())))
words[:10]

In [None]:
lista_cuvinte = list(model.key_to_index.keys())
lista_cuvinte[:10]

['</s>', 'in', 'for', 'that', 'is', 'on', '##', 'The', 'with', 'said']

In [None]:
lista_cuvinte = list(model.key_to_index.keys())
lista_cuvinte[:10]

In [None]:
found_words = [word for word in words if word in lista_cuvinte]
count = len(found_words)

In [None]:
print("Cuvinte din pagina de wiki care apar in model: ", count)
print("Cuvinte care nu apar: ", len(words) - count)

Cuvinte din pagina de wiki care apar in model:  1654
Cuvinte care nu apar:  300


3. Determină similaritatea între toate cuvintele de pe pagina de wiki. Afișează top 3 cele mai apropiate perechi de cuvinte și top 3 cele mai diferite.

In [None]:
# TODO: Determină similaritatea între toate cuvintele din textul de pe wiki
similarity = {}
for word1 in found_words:
  for word2 in found_words:
    if word1 == word2 or (word2, word1) in similarity.keys():
      continue
    similarity[(word1, word2)] = model.similarity(word1, word2)

# TODO: Afișează cele mai apropiate 3 perechi de cuvinte din text
similarity = dict(sorted(similarity.items(), key=lambda item: item[1]))
print(list(similarity.keys())[-3:])

# TODO: Afișează cele mai diferite 3 perechi de cuvinte din text
print(list(similarity.keys())[:3])

[('three', 'seven'), ('two', 'three'), ('nine', 'seven')]
[('e.', 'night'), ('wanted', 'e.'), ('meyer', 'within')]


4. Pentru următoarele cuvinte: _user_, _survey_, _system_, _computer_ determină cel mai apropiat cuvânt folosind modelul încărcat pentru exercițiul bonus și modelul antrenat la începutul laboratorului. Observi diferențele?

In [None]:
print("Modelul antrenat de noi | Modelul preantrenat")
# TODO: Cel mai apropiat cuvânt de "user" folosind cele 2 modele
print(vectorizer.most_similar("user")[0], model.most_similar("user")[0])
# TODO: Cel mai apropiat cuvânt de "survey" folosind cele 2 modele
print(vectorizer.most_similar("survey")[0], model.most_similar("survey")[0])
# TODO: Cel mai apropiat cuvânt de "system" folosind cele 2 modele
print(vectorizer.most_similar("system")[0], model.most_similar("system")[0])
# TODO: Cel mai apropiat cuvânt de "computer" folosind cele 2 modele
print(vectorizer.most_similar("computer")[0], model.most_similar("computer")[0])

Modelul antrenat de noi | Modelul preantrenat
('eps', 0.13147011399269104) ('users', 0.7195653319358826)
('trees', 0.19912061095237732) ('surveys', 0.8096452355384827)
('computer', 0.21617141366004944) ('systems', 0.7227916717529297)
('system', 0.21617139875888824) ('computers', 0.7979379892349243)
