# Reprezentarea Cuvintelor (sau _Word Embeddings_)

Acest laborator prezintă conceptele cheie și pașii pentru implementarea unei modalități de reprezentare a textelor sau cuvintelor ca vectori.

## Setul de date

Primul set de date pe care îl vom folosi este _common_texts_. Acesta conține o listă de documente, unde fiecare document conține o serie de cuvinte cheie prezentate tot ca o listă. Setul este mic si multe cuvinte se repetă, ceea ce îl face ușor de urmărit:

In [1]:
from gensim.test.utils import common_texts

common_texts

[['human', 'interface', 'computer'],
 ['survey', 'user', 'computer', 'system', 'response', 'time'],
 ['eps', 'user', 'interface', 'system'],
 ['system', 'human', 'system', 'eps'],
 ['user', 'response', 'time'],
 ['trees'],
 ['graph', 'trees'],
 ['graph', 'minors', 'trees'],
 ['graph', 'minors', 'survey']]

In [3]:
text = [
  'human interface computer',
  'survey user computer system response time',
  'eps user interface system',
  'system human system eps',
  'user response time',
  'trees',
  'graph trees',
  'graph minors trees',
  'graph minors survey'
]

În general o să folosim seturi de date mai mari, care ne transmit mai multe informații. Momentan folosim acest set de date fiindcă se mișcă mai rapid.

## Bag of Words

Nu vom implementa niciun model manual, vom folosi implementările deja existente. Pentru Bag of Words, aceasta se numește _CountVectorizer_:

In [4]:
from sklearn.feature_extraction.text import CountVectorizer

_CountVectorizer_ este clasa pe care o vom folosi pentru a traduce fiecare propoziție din setul de date în varianta numerică a acesteia. Pentru asta trebuie să creăm o instanță a clasei noastre:

In [5]:
vectorizer = CountVectorizer()

_vectorizer_ este numele pe care îl vom da listei noastre de valori care ne transmit informațiile despre text.
Pentru a aplica modelul pe textul nostru trebuie să apelăm funcția _fit_transform_ din interiorul instanței:

In [6]:
X = vectorizer.fit_transform(text)

Funcția aplicată mai sus extrage lista de cuvinte din text și calculează de câte ori apare fiecare cuvânt în fiecare propoziție. Putem vedea lista de cuvinte folosind altă funcție din instanță:

In [7]:
vectorizer.get_feature_names_out()

array(['computer', 'eps', 'graph', 'human', 'interface', 'minors',
       'response', 'survey', 'system', 'time', 'trees', 'user'],
      dtype=object)

X este lista noastră de valori. Fiecare linie reprezintă o propoziție, fiecare coloană reprezintă un cuvânt, iar valorile aflate la intersecție ne spun de câte ori apare fiecare cuvânt în fiecare propoziție.

In [8]:
X.toarray()

array([[1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0, 2, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0]])

Gata! Acum știm vectorizarea fiecărei propoziții folosind Bag of Words!

### EXERCIȚIU:



La fel ca majoritatea claselor, CountVectorizer are o serie de parametri


 cu valori predefinite. Printre acestea se numără și _binary=False_, care numără de câte ori apar cuvintele. Setează valoarea acestui parametru ca _True_, antrenează din nou pe textul dat și afișează noua listă de valori (X).

In [None]:
# TODO: creează o instanță cu parametrul binary setat True

# TODO: antrenează din nou pe text

# TODO: afișează noua listă de valori (X)


In [9]:
vectorizer2 = CountVectorizer(binary=True)

In [10]:
Y = vectorizer2.fit_transform(text)

In [11]:
Y.toarray()

array([[1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 1],
       [0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1],
       [0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1],
       [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0],
       [0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0]])

## TFIDF

TFIDF este antrenat și apelat exact la fel ca Bag of Words, doar că funcția pe care o folosim se numește _TfidfVectorizer_. Creează lista de valori numerice corespunzătoare textului folosind metoda TFIDF din cadrul clasei de mai jos:

In [14]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TODO: La fel ca mai sus, creează o instanță a clasei TfidfVectorizer, antreneaz-o pe text și afișează lista de valori X

# TODO: antrenează din nou pe text

# TODO: afișează noua listă de valori (X)


In [15]:
vectorizer = TfidfVectorizer()

In [16]:
X = vectorizer.fit_transform(text)

In [17]:
X.toarray()

array([[0.57735027, 0.        , 0.        , 0.57735027, 0.57735027,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        ],
       [0.42593857, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.42593857, 0.42593857, 0.37034129, 0.42593857,
        0.        , 0.37034129],
       [0.        , 0.53361154, 0.        , 0.        , 0.53361154,
        0.        , 0.        , 0.        , 0.46395983, 0.        ,
        0.        , 0.46395983],
       [0.        , 0.44614767, 0.        , 0.44614767, 0.        ,
        0.        , 0.        , 0.        , 0.77582505, 0.        ,
        0.        , 0.        ],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.6023681 , 0.        , 0.        , 0.6023681 ,
        0.        , 0.52374168],
       [0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        1.        ,

## Word2Vec

Word2Vec funcționează puțin diferit. Îl vom antrena pe lista de cuvinte (în loc de propoziții) și îi spunem să ia în considerare cuvintele care apar minim o dată:

In [18]:
from gensim.models import Word2Vec

vectorizer = Word2Vec(common_texts, min_count=1).wv

Putem vedea lista de cuvinte folosind următoarea funcție:

In [19]:
vectorizer.key_to_index

{'system': 0,
 'graph': 1,
 'trees': 2,
 'user': 3,
 'minors': 4,
 'eps': 5,
 'time': 6,
 'response': 7,
 'survey': 8,
 'computer': 9,
 'interface': 10,
 'human': 11}

Noua noastră instanță vine cu o serie de funcții noi pe care le putem descoperi. Folosește funcția _most_similar(word)_ pentru a vedea cuvintele care seamănă cel mai mult cu cuvântul _system_:

In [21]:
# TODO: găsește cuvintele cele mai apropiate de "system"

vectorizer.most_similar('system')

[('computer', 0.21617139875888824),
 ('response', 0.09293834120035172),
 ('human', 0.079634889960289),
 ('interface', 0.06288161873817444),
 ('survey', 0.027057476341724396),
 ('time', 0.016134677454829216),
 ('graph', -0.010839175432920456),
 ('minors', -0.02775035798549652),
 ('trees', -0.05234672874212265),
 ('eps', -0.059876296669244766)]

Folosește funcția _similarity(word1, word2)_ pentru a vedea cât de apropiate sunt cuvintele _human_ și _computer_:

In [22]:
# TODO: găsește similaritatea între "human" și "computer"

vectorizer.similarity('human', 'computer')

-0.07424271

Ce se întâmplă dacă încercăm să calculăm _king + woman - man_ ?

In [23]:
vectorizer.most_similar(positive=["king", "woman"], negative=["man"])

KeyError: "Key 'king' not present in vocabulary"

Modelul nostru nu a învățat aceste cuvinte, așa că nu știe ce să facă cu ele. Încearcă să calculezi diferența între alte 3 cuvinte din lista de cuvinte știute:

In [25]:
# TODO

vectorizer.most_similar(positive=['computer'], negative=['human', 'interface'])

[('minors', 0.050137560814619064),
 ('system', 0.040320925414562225),
 ('time', 0.01931922324001789),
 ('graph', 0.01655508764088154),
 ('survey', -0.010864594019949436),
 ('trees', -0.05670259892940521),
 ('user', -0.12239348143339157),
 ('eps', -0.15989215672016144),
 ('response', -0.1715138852596283)]

## BONUS

Pentru următoarele exerciții vom folosi un set de date care conține 3.000.000 de cuvinte sub forma unei serii de știri extrase de pe Google. Întrucât setul este foarte mare și ar dura extrem de mult timp să îl antrenăm singuri, vom downloada modelul direct antrenat ca să ne uităm cum funcționează. Ne așteptăm ca downloadul să dureze minim 10 minute, deci aveți grijă când rulați această celulă:

In [26]:
import gensim.downloader as api

model = api.load("word2vec-google-news-300")



In [27]:
model.most_similar('system')

[('systems', 0.7227916717529297),
 ('sytem', 0.7129376530647278),
 ('sys_tem', 0.5871981978416443),
 ('System', 0.5275423526763916),
 ('mechanism', 0.5058810710906982),
 ('sysem', 0.5027822852134705),
 ('systen', 0.49969804286956787),
 ('system.The', 0.495991975069046),
 ('sytems', 0.4949610233306885),
 ('computerized', 0.4760481119155884)]

In [28]:
model.similarity('human', 'computer')

0.18846479

In [29]:
model.most_similar(positive=["king", "woman"], negative=["man"])

[('queen', 0.7118192911148071),
 ('monarch', 0.6189674139022827),
 ('princess', 0.5902430415153503),
 ('crown_prince', 0.5499460697174072),
 ('prince', 0.5377321839332581),
 ('kings', 0.5236844420433044),
 ('Queen_Consort', 0.5235946178436279),
 ('queens', 0.5181134939193726),
 ('sultan', 0.5098593235015869),
 ('monarchy', 0.5087411403656006)]

In [30]:
model.most_similar(positive=['human'], negative=['computer', 'time'])

[('non_toxigenic_C.', 0.3579254448413849),
 ('allotransplantation', 0.3464714586734772),
 ('speciesism', 0.3178519904613495),
 ('Atlantic_salmon_Salmo', 0.29254621267318726),
 ('nonhuman_animals', 0.2893490195274353),
 ('Sus_scrofa', 0.28739628195762634),
 ('K.Kahne_###-###', 0.2862852215766907),
 ('Neurotrophic_Factor', 0.2850345969200134),
 ('palmitoleic_acid', 0.28359511494636536),
 ('unbridled_individualism', 0.2827090620994568)]

Vom instala modulul _wikipedia_ pentru a putea accesa paginile direct din cod:

In [31]:
! pip install wikipedia

Collecting wikipedia
  Downloading wikipedia-1.4.0.tar.gz (27 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Installing backend dependencies ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting beautifulsoup4 (from wikipedia)
  Downloading beautifulsoup4-4.12.3-py3-none-any.whl.metadata (3.8 kB)
Collecting requests<3.0.0,>=2.0.0 (from wikipedia)
  Downloading requests-2.32.3-py3-none-any.whl.metadata (4.6 kB)
Collecting charset-normalizer<4,>=2 (from requests<3.0.0,>=2.0.0->wikipedia)
  Downloading charset_normalizer-3.3.2-cp312-cp312-macosx_10_9_x86_64.whl.metadata (33 kB)
Collecting idna<4,>=2.5 (from requests<3.0.0,>=2.0.0->wikipedia)
  Downloading idna-3.7-py3-none-any.whl.metadata (9.9 kB)
Collecting urllib3<3,>=1.21.1 (from requests<3.0.0,>=2.0.0->wikipedia)
  Downloading urllib3-2.2.1-py3-none-any.whl.metadata (6.4 kB)
Collecting certifi>=2017.4.17 (from requests<3.0.0,>=

1. Descarcă un articol de pe wikipedia. Înlocuiește _page\_title_ cu un titlu de pagină de pe wikipedia:

In [35]:
import wikipedia

page_title = "a380" # TODO: Alege un titlu de pe wikipedia
page = wikipedia.page(page_title, auto_suggest=False)

print(page.content)

The Airbus A380 is a very large wide-body airliner that was developed and produced by Airbus. It is the world's largest passenger airliner and the only full-length double-deck jet airliner. Airbus studies started in 1988, and the project was announced in 1990 to challenge the dominance of the Boeing 747 in the long-haul market. The then-designated A3XX project was presented in 1994; Airbus launched the €9.5–billion ($10.7–billion) A380 programme on 19 December 2000. The first prototype was unveiled in Toulouse on 18 January 2005, with its first flight on 27 April 2005. It then obtained its type certificate from the European Aviation Safety Agency (EASA) and the US Federal Aviation Administration (FAA) on 12 December 2006. 
Due to difficulties with the electrical wiring, the initial production was delayed by two years and the development costs almost doubled. It was first delivered to Singapore Airlines on 15 October 2007 and entered service on 25 October. Production peaked at 30 per ye

2. Descoperă câte cuvinte de pe pagina de wikipedia apar în modelul tău și câte nu.

In [37]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/AnduScheusan/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [39]:
# TODO: Cate cuvinte de pe pagina de wiki apar în model și câte nu?
from nltk import word_tokenize

words = list(set(word_tokenize(page.content.lower())))
words[:10]

['enlarged',
 'job',
 'references',
 'this',
 'less',
 'traveller',
 'reacting',
 'discussing',
 '8,000',
 'stronger']

In [42]:
lista_cuvinte = list(model.key_to_index.keys())
lista_cuvinte[:10]

['</s>', 'in', 'for', 'that', 'is', 'on', '##', 'The', 'with', 'said']

In [46]:
words_in_model = [word for word in words if word in lista_cuvinte]

words_in_model

['enlarged',
 'job',
 'references',
 'this',
 'less',
 'reacting',
 'discussing',
 'stronger',
 'northern',
 'wheels',
 'flowing',
 'derived',
 'converted',
 'period',
 'wake',
 'enhancing',
 'ge',
 'renewed',
 'beyond',
 'disclosed',
 'crosswinds',
 'society',
 'darkened',
 'transported',
 'problem',
 'implementing',
 'vehicle',
 'super',
 'fly',
 'interior',
 'detected',
 'by',
 'anticipated',
 'salons',
 'availability',
 'airport',
 'maintained',
 'bigger',
 'ram',
 'custom',
 'final',
 'well',
 'route',
 'revenue',
 'likely',
 'downtime',
 'efficiency',
 'plus',
 'ever',
 'approved',
 'estimating',
 'belly',
 'units',
 'lack',
 'convincing',
 'subsonic',
 'analysis',
 'unnecessary',
 'publishing',
 'actually',
 'investor',
 'advantage',
 'upgrades',
 'klm',
 '5.',
 'separations',
 'apparent',
 'dreamliner',
 'developed',
 'estimated',
 'increased',
 'otherwise',
 'share',
 'offering',
 'advance',
 'walsh',
 'evaluated',
 'scenarios',
 'commits',
 'partnership',
 'problems',
 'affec

3. Determină similaritatea între toate cuvintele de pe pagina de wiki. Afișează top 3 cele mai apropiate perechi de cuvinte și top 3 cele mai diferite.

In [None]:
# TODO: Determină similaritatea între toate cuvintele din textul de pe wiki

# TODO: Afișează cele mai apropiate 3 perechi de cuvinte din text

# TODO: Afișează cele mai diferite 3 perechi de cuvinte din text


4. Pentru următoarele cuvinte: _user_, _survey_, _system_, _computer_ determină cel mai apropiat cuvânt folosind modelul încărcat pentru exercițiul bonus și modelul antrenat la începutul laboratorului. Observi diferențele?

In [68]:
# TODO: Cel mai apropiat cuvânt de "user" folosind cele 2 modele

# TODO: Cel mai apropiat cuvânt de "survey" folosind cele 2 modele

# TODO: Cel mai apropiat cuvânt de "system" folosind cele 2 modele

# TODO: Cel mai apropiat cuvânt de "computer" folosind cele 2 modele


Modelul antrenat de noi | Model preantrenat
('eps', 0.13147011399269104) ('users', 0.7195653319358826)
('trees', 0.19912061095237732) ('surveys', 0.8096452355384827)
('computer', 0.21617141366004944) ('systems', 0.7227916717529297)
('system', 0.21617139875888824) ('computers', 0.7979379892349243)
