## ICP605 - Recuperação da Informação

**Word Embeddings**

Adaptado de: https://colab.research.google.com/drive/1BuLyMlebp43-3KNn-puezjW5S1CGuSI5?usp=sharing

Material de Curso de Linguística Computacional. Prof. Thiago Castro Ferreira (UFMG).

### Álgebra Linear

Ramo da matemática que estuda os espaços vetoriais e as operações em vetores. Em Python, a manipulação de vetores de acordo com a álgebra linear pode ser facilmente feita através da biblioteca numpy.

In [None]:
import numpy as np

Vetores podem ser instanciados pelo método *array* e variantes como *zeros* e *ones*

In [None]:
vetor1 = np.array([1., 2., 1., 4.])
vetor2 = np.zeros(4)
vetor3 = np.ones(4)

print('Vetor 1:', vetor1)
print('Vetor 2:', vetor2)
print('Vetor 3:', vetor3)

Vetor 1: [1. 2. 1. 4.]
Vetor 2: [0. 0. 0. 0.]
Vetor 3: [1. 1. 1. 1.]


Soma

In [None]:
vetor1 + vetor3

array([2., 3., 2., 5.])

Subtração

In [None]:
vetor1 - vetor3

array([0., 1., 0., 3.])

Multiplicação

In [None]:
vetor1 * vetor2

array([0., 0., 0., 0.])

Divisão

In [None]:
vetor3 / vetor1

array([1.  , 0.5 , 1.  , 0.25])

Multiplicação de Matrizes

In [None]:
np.dot(vetor1, vetor3)

np.float64(8.0)

## Similaridade por Cossenos

Normalmente em PLN, a distância entre dois vetores é calculada através da similaridade por cosseno.

In [None]:
from sklearn.metrics.pairwise import cosine_similarity

po = np.array([[5, 10]])
mestre_tigresa = np.array([[7.5, 2.5]])

cosine_similarity(po, mestre_tigresa)[0][0]

np.float64(0.7071067811865475)

In [None]:
v1 = np.array([[0, 0]])
v2 = np.array([[1, 1]])

cosine_similarity(v1, v2)[0][0]

np.float64(0.0)

In [None]:
henrique_v = np.array([13, 89, 4, 3])

julio_cesar = np.array([7, 62, 1, 2])

cosine_similarity([henrique_v], [julio_cesar])

array([[0.99906525]])

In [None]:
henrique_v = np.array([13, 89, 4, 3])

noite_reis = np.array([0, 80, 58, 15])

cosine_similarity([henrique_v], [noite_reis])

array([[0.82158093]])

## Representação *One-Hot*

Palavras e documentos são representados por vetores de dimensão do tamanho do vocabulário. Os vetores assumem valores binários (0 ou 1)

Mais Informações: [Scikit Learn](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html)

In [None]:
from sklearn.preprocessing import OneHotEncoder

enc = OneHotEncoder(handle_unknown='ignore')

X = [["no"], ["meio"], ["do"], ["caminho"], ["tinha"], ["uma"], ["pedra"]]

enc.fit(X)
vocab = list(enc.categories_[0])
vetores = enc.transform(X).toarray()

print('Vocabulário: ', vocab)
print()
print('Vetores')
vetores

Vocabulário:  ['caminho', 'do', 'meio', 'no', 'pedra', 'tinha', 'uma']

Vetores


array([[0., 0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 1., 0., 0.]])

Vetor One-Hot de *pedra*

In [None]:
vetores[vocab.index('pedra')]

array([0., 0., 0., 0., 0., 1., 0.])

## Matriz de Frequência Termo-Documento

Dado um vocabulário e um conjunto de documentos, as representações das palavras e dos documentos podem ser calculadas a partir da contagem de cada palavra em cada documento.

Mais informações: [Scikit Learn](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.CountVectorizer.html)

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['no meio do caminho tinha uma pedra',
 'tinha uma pedra no meio do caminho',
 'tinha uma pedra',
 'no meio do caminho tinha uma pedra']

vectorizer = CountVectorizer()

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer.get_feature_names_out()

print('Vocabulário')
print(vocab)
print()
print('Matrix')
print(vetores.toarray())

Vocabulário
['caminho' 'do' 'meio' 'no' 'pedra' 'tinha' 'uma']

Matrix
[[1 1 1 1 1 1 1]
 [1 1 1 1 1 1 1]
 [0 0 0 0 1 1 1]
 [1 1 1 1 1 1 1]]


Acessando o vetor da palavra *meio*

In [None]:
vetores[:, np.where(vocab=='meio')[0][0]].transpose().toarray()

array([[1, 1, 0, 1]])

Acessando o vetor do verso 3: *tinha uma pedra*

In [None]:
vetores[2, :].toarray()

array([[0, 0, 0, 0, 1, 1, 1]])

Customizando o contador com um tokenizador próprio

In [None]:
import nltk
nltk.download('punkt')
nltk.download('punkt_tab') # Download the missing resource

def tokenize(texto):
  return nltk.word_tokenize(texto, language='portuguese')

from sklearn.feature_extraction.text import CountVectorizer

corpus = ['no meio do caminho tinha uma pedra',
 'tinha uma pedra no meio do caminho',
 'tinha uma pedra',
 'no meio do caminho tinha uma pedra']

vectorizer = CountVectorizer(tokenizer=tokenize)

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer.get_feature_names_out()

print('Vocabulário')
print(vocab)
print()
print('Matrix')
print(vetores.toarray())

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Vocabulário
['caminho' 'do' 'meio' 'no' 'pedra' 'tinha' 'uma']

Matrix
[[1 1 1 1 1 1 1]
 [1 1 1 1 1 1 1]
 [0 0 0 0 1 1 1]
 [1 1 1 1 1 1 1]]


## Matriz Termo-Termo

Dado um vocabulário, a representação de uma palavra pode ser calculada a partir da contagem de sua co-ocorrência com cada palavra do vocabulário em um determinado contexto (e.g. documento, sentença, etc.).

In [None]:
corpus = ['no meio do caminho tinha uma pedra',
 'tinha uma pedra no meio do caminho',
 'tinha uma pedra',
 'no meio do caminho tinha uma pedra']

corpus_tok = [verso.split() for verso in corpus]

vocab = ["no", "meio", "do", "caminho", "tinha", "uma", "pedra"]
vetores = np.zeros((len(vocab), len(vocab)))

for verso in corpus_tok:
  for i, w1 in enumerate(vocab):
    for j, w2 in enumerate(vocab):
      if i != j:
        if w1 in verso and w2 in verso:
          vetores[i, j] += 1

print('Vocabulário')
print(vocab)
print()
print('Matrix')
print(vetores)

Vocabulário
['no', 'meio', 'do', 'caminho', 'tinha', 'uma', 'pedra']

Matrix
[[0. 3. 3. 3. 3. 3. 3.]
 [3. 0. 3. 3. 3. 3. 3.]
 [3. 3. 0. 3. 3. 3. 3.]
 [3. 3. 3. 0. 3. 3. 3.]
 [3. 3. 3. 3. 0. 4. 4.]
 [3. 3. 3. 3. 4. 0. 4.]
 [3. 3. 3. 3. 4. 4. 0.]]


## Remoção de Palavras Vazias (*Stopwords*)

Palavras vazias (e.g., artigos, preposições, etc.), que possuem alta frequência em todos os documentos, podem ser removidas da contagem para melhorar a distinção entre documentos

In [None]:
import nltk
nltk.download('stopwords')
stopwords = nltk.corpus.stopwords.words('portuguese')

from sklearn.feature_extraction.text import CountVectorizer

corpus = ['no meio do caminho tinha uma pedra',
 'tinha uma pedra no meio do caminho',
 'tinha uma pedra',
 'no meio do caminho tinha uma pedra']

vectorizer = CountVectorizer(stop_words=stopwords)

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer.get_feature_names_out()

print('Vocabulário')
print(vocab)
print()
print('Matrix')
print(vetores.toarray())

Vocabulário
['caminho' 'meio' 'pedra']

Matrix
[[1 1 1]
 [1 1 1]
 [0 0 1]
 [1 1 1]]


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


## TF-IDF

Mais informações: [Scikit Learn](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfTransformer.html)

In [None]:
from sklearn.feature_extraction.text import TfidfTransformer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import Pipeline

corpus = ['ainda que mal pergunte',
 'ainda que mal respondas',
 'ainda que mal te entenda',
 'ainda que mal repitas']

vectorizer = Pipeline([('count', CountVectorizer()),
                 ('tfid', TfidfTransformer())])

vetores = vectorizer.fit_transform(corpus)
vocab = vectorizer['count'].get_feature_names_out()
print('Vocabulário')
print(vocab)
print()
print('Matrix')
print(np.round(vetores.toarray(), 2))

Vocabulário
['ainda' 'entenda' 'mal' 'pergunte' 'que' 'repitas' 'respondas' 'te']

Matrix
[[0.39 0.   0.39 0.74 0.39 0.   0.   0.  ]
 [0.39 0.   0.39 0.   0.39 0.   0.74 0.  ]
 [0.31 0.6  0.31 0.   0.31 0.   0.   0.6 ]
 [0.39 0.   0.39 0.   0.39 0.74 0.   0.  ]]


Acessando o primeiro (*ainda que mal pergunte*) e terceiro (*ainda que mal te entenda*) versos e calculando a similaridade entre eles.

In [None]:
verso1 = vetores[0, :]
verso3 = vetores[2, :]

cosine_similarity(verso1, verso3)[0][0]

np.float64(0.3611073242896012)

## Word Embeddings

Baixando um modelo (leva alguns minutos)

In [None]:
from huggingface_hub import hf_hub_download
from safetensors.numpy import load_file

path = hf_hub_download(repo_id="nilc-nlp/word2vec-cbow-50d",
                       filename="embeddings.safetensors")

data = load_file(path)
vectors = data["embeddings"]

vocab_path = hf_hub_download(repo_id="nilc-nlp/word2vec-cbow-50d",
                             filename="vocab.txt")
with open(vocab_path) as f:
    vocabs = [w.strip() for w in f]

print(vectors.shape)

Inicializando os word embeddings

In [None]:
!pip install gensim
from gensim.models import KeyedVectors
import numpy as np

word2vec = KeyedVectors(vector_size=vectors.shape[1])
word2vec.add_vectors(vocabs, vectors)

print(f"Loaded {len(word2vec.index_to_key)} words with vector size {word2vec.vector_size}")

Collecting gensim
  Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl.metadata (8.4 kB)
Downloading gensim-4.4.0-cp312-cp312-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl (27.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m27.9/27.9 MB[0m [31m22.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: gensim
Successfully installed gensim-4.4.0
Loaded 929606 words with vector size 50


Acessando o word embedding da palavra *menino*

In [None]:
word2vec['menino']

array([ 0.047754, -0.190243,  0.290581,  0.035822,  0.2301  , -0.139099,
       -0.232351, -0.119084,  0.327645,  0.160017, -0.5318  ,  0.093309,
       -0.545777, -0.166715,  0.044872, -0.094386, -0.017529, -0.053898,
        0.189092, -0.233779, -0.302459,  0.707696, -0.146762,  0.258651,
        0.25436 , -0.071892,  0.132296, -0.072721,  0.162642,  0.348834,
        0.129191, -0.030967,  0.048024,  0.26683 , -0.076066,  0.352168,
        0.629779, -0.403468, -0.473612,  0.456509,  0.008285,  0.066872,
        0.082632, -0.128989,  0.107645,  0.119981,  0.219388, -0.141599,
       -0.20074 , -0.30657 ], dtype=float32)

Palavras mais semelhantes ao verbo *estudar*

In [None]:
word2vec.most_similar('estudar')

[('pesquisar', 0.8674625158309937),
 ('ensinar', 0.8485606908798218),
 ('leccionar', 0.8399008512496948),
 ('moldar', 0.8285380601882935),
 ('desenvolver', 0.8203483819961548),
 ('focalizar', 0.8188527226448059),
 ('cursar', 0.8175848126411438),
 ('projectar', 0.8173723816871643),
 ('desenhar', 0.8155598044395447),
 ('enriquecer', 0.8142802715301514)]

Similaridade por cosseno entre os word embeddings das palavras *menino* e *cachorro*

In [None]:
word2vec.similarity('menino', 'cachorro')

np.float32(0.8441181)

Inferência lógica para: *odiar* está para *odiando*, assim como *amar* está para...

In [None]:
word2vec.most_similar(positive=['amar', 'odiando'], negative=['odiar'])

[('amando', 0.7472065687179565),
 ('desperto', 0.7231095433235168),
 ('quieto', 0.6835169196128845),
 ('tranqüilo', 0.6812532544136047),
 ('surdo', 0.6798273921012878),
 ('louco', 0.6784767508506775),
 ('quieta', 0.6757060289382935),
 ('sã³brio', 0.6748781204223633),
 ('rouco', 0.6719405055046082),
 ('sossegado', 0.6716687679290771)]

## BERTimbau

Word embeddings sensíveis ao contexto

In [None]:
!pip3 install transformers



In [None]:
import torch
from transformers import AutoTokenizer  # Or BertTokenizer
from transformers import AutoModelForPreTraining  # Or BertForPreTraining for loading pretraining heads
from transformers import AutoModel  # or BertModel, for BERT without pretraining heads

In [None]:
device = 'cpu'# torch.device('cuda' if torch.cuda.is_available() else 'cpu')

tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-large-portuguese-cased', do_lower_case=False)
bert = AutoModel.from_pretrained('neuralmind/bert-large-portuguese-cased')
bert = bert.to(device)

tokenizer_config.json:   0%|          | 0.00/155 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/648 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.34G [00:00<?, ?B/s]

In [None]:
texto = 'Eu vou ao banco pagar a conta hoje.'

# tokenizando o texto
input_ids = tokenizer.encode(texto, return_tensors='pt')
wordpieces = tokenizer.convert_ids_to_tokens(input_ids[0])
print(wordpieces)

# salvando ponteiros para palavras
subwords_idx = [] # first subword of each word
for i, wordpiece in enumerate(wordpieces):
    if '##' not in wordpiece and i not in [0, len(wordpieces)-1]:
        subwords_idx.append(i)

# obtendo os vetores para as palavras
input_ids = input_ids.to(device)
with torch.no_grad():
  outs = bert(input_ids)
  vetores = outs[0][0, :]

vetores[subwords_idx]

['[CLS]', 'Eu', 'vou', 'ao', 'banco', 'pagar', 'a', 'conta', 'hoje', '.', '[SEP]']


tensor([[ 0.7381,  0.6351,  0.4160,  ..., -0.5735, -0.9812, -0.6793],
        [ 0.6583, -0.0975,  0.2579,  ..., -0.7367, -0.8734,  0.1407],
        [ 0.7682,  0.2151,  0.1769,  ...,  1.0626, -0.2526, -0.3107],
        ...,
        [-0.0765,  0.4402, -0.5236,  ...,  0.8389, -0.3389, -0.8167],
        [ 0.3460,  1.8568, -0.0262,  ..., -0.0021, -0.0928,  0.0079],
        [ 0.8516,  1.1038, -1.1464,  ...,  0.4630, -0.4967,  0.2980]])

In [None]:
# dimensões - palavras (inclui ponto final como palavra) de 1024 dimensões cada
vetores[subwords_idx].size()

torch.Size([9, 1024])

In [None]:
# representacao da primeira palavra (no caso "Eu")
vetores[subwords_idx][0]

tensor([ 0.7381,  0.6351,  0.4160,  ..., -0.5735, -0.9812, -0.6793])