# Exercício 1 - Token Embeddings (Operações e contextualização)

Conforme visto em sala de aula, existem várias técnicas de tokenização: word token, subword token, character token, byte token, dentre outras que podem obter resultados mistos. Esse exercício abordará embeddings para word tokens, ou word embeddings. Nesse contexto, siga as instruções:

**a)** escolha no mínimo 2 grupos de palavras relacionadas, cada grupo contendo no mínimo 3 palavras.
Ex.:

*   Palavras relacionadas a paisagem
    *   ceu
    *   montanha
    *   rio
*   Palavras relacionadas a estudo
    *   caderno
    *   escola
    *   livro

**b)** Em seguida, obtenha os embeddings das palavras.

**c)** Utilize algum método de redução de dimensionalidade para reduzir os vetores dos embeddings para apenas 2 dimensões.

**d)** Faça o "plot" em um plano bidimensional com os valores obtidos, comparando os resultados referentes aos diferentes modelos.

**e)** Execute operações de soma e subtração com os vetores e observe os resultados obtidos.

**f)** Para comparar outras formas de gerar embeddings, utilize o modelo BERT de forma a gerar word embeddings a partir de frases e veja o resultado obtido.

## Sugestão: Utilize bibliotecas para ter acesso a modelos pré-treinados

<p style="background-color:#fff6e4; padding:15px; border-width:3px; border-color:#f5ecda; border-style:solid; border-radius:6px"> ⏳ <b>O código a seguir instala bibliotecas para permitir utilizar os embeddings do GloVe, Word2Vec e BERT</b>

In [None]:
#!pip install -r requirements_CE.txt
!pip install gensim



A seguir, exemplo de código utilizando a lib gensim para carregar vetores de modelos pré-treinados como GloVe e Word2vec.

In [None]:
# Suprimindo warnings
import warnings
warnings.filterwarnings('ignore')

# Sugestão de utilização
# Importando libs necessárias
import numpy as np
import gensim.downloader as api
from gensim.models import KeyedVectors

# Imprimindo a lista de modelos disponíveis em gensim-data
print(list(api.info()['models'].keys()))



['fasttext-wiki-news-subwords-300', 'conceptnet-numberbatch-17-06-300', 'word2vec-ruscorpora-300', 'word2vec-google-news-300', 'glove-wiki-gigaword-50', 'glove-wiki-gigaword-100', 'glove-wiki-gigaword-200', 'glove-wiki-gigaword-300', 'glove-twitter-25', 'glove-twitter-50', 'glove-twitter-100', 'glove-twitter-200', '__testing_word2vec-matrix-synopsis']


Os modelos sugeridos GloVe e Word2vec estão disponíveis a partir de 'glove-wiki-gigaword-100' e 'word2vec-google-news-300', respectivamente. Deve demorar alguns minutos dependendo do tamanho do modelo que você escolher.

In [None]:
# Carregue os vetores dos modelos pré-treinados utilizando o método "load()" do objeto api.
glove = api.load('fasttext-wiki-news-subwords-300')




In [None]:
# Verificar o tamanho do vetor de uma palavra
print(glove['casa'].shape)

(300,)


# **EXERCÍCIO**
# **a)** Escolha suas palavras, inicialmente em idioma inglês.

In [None]:
# Palavras em inglês
words = ["king", "princess", "monarch", "throne", "crown",
         "mountain", "ocean", "tv", "rainbow", "cloud", "queen"]


Agora obtenha os embeddings do modelo carregado anteriormente acessando a chave no vetor.

In [None]:
# O modelo funciona como um dicionário, acesse a chave correspondente ao token
#Obter embeddings em um dicionário
emb_palavras = {word: glove[word] for word in words}

# Imprimindo os 5 primeiros valores para cada embedding
#print(emb_palavras[:, :5])

In [None]:
print(words)
print(emb_palavras[,:5])

SyntaxError: invalid syntax (ipython-input-338005120.py, line 2)

Teste os modelos carregandos tentando imprimir algumas palavras em português veja o que acontece. Lembre que o modelo foi treinado sem caracteres acentuados ou case do caractere.

In [None]:
print(glove['terra'].shape)
pl_ptbb=glove['terra']
print(pl_ptbb)

# print(w2v_v['gente'].shape)

(300,)
[-0.024405   -0.0043346  -0.011769    0.11453     0.023041   -0.09168
  0.0094031  -0.14461     0.0035586   0.069339   -0.050251   -0.011979
 -0.053855    0.019425   -0.047674    0.032493    0.17906     0.043017
  0.054907   -0.029625   -0.11605     0.049639    0.14474     0.037841
  0.14143     0.0010015   0.050475    0.052853    0.015726    0.0085179
 -0.00057323  0.070841   -0.028111    0.029294   -0.031062    0.010723
  0.056798   -0.031985    0.049969   -0.021129   -0.034351   -0.047213
  0.023057   -0.012029   -0.05057    -0.17281    -0.0068876   0.046897
 -0.1099     -0.1134      0.0054056  -0.057539    0.058319   -0.05241
 -0.039214    0.011012   -0.013798    0.031996    0.0034696   0.051652
 -0.034715    0.0052073   0.076233   -0.049084    0.11352    -0.13398
  0.057226    0.075949    0.083673    0.026268   -0.088492    0.040667
  0.042617    0.034032    0.1301     -0.071195   -0.10635    -0.083051
 -0.08793     0.034936    0.02056    -0.092008    0.078329    0.046256
 

Perceba que estamos utilizando modelos pré-treinados com corpus do idioma inglês. Portanto, no corpus ficaram faltando muitas palavras de outros idiomas como o português.

Faça o download do arquivo pré-treinado em Word2Vec do FastText no endereço https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.pt.vec e carregue-o em uma variável.

**Sugestão:** Faça o download com o comando wget e utilize o método load_word2vec_format() do KeyedVectors da lib gensim.


In [None]:
# Faça o download do arquivo
!wget https://dl.fbaipublicfiles.com/fasttext/vectors-wiki/wiki.pt.vec

In [None]:
# Carregue o modelo a partir do arquivo baixado


## Escolha suas palavras agora em português e salve em um vetor.

In [None]:
palavras = ["rei", "princesa", "monarca", "trono", "coroa",
         "montanha", "oceano", "tv", "chuva", "nuvem", "rainha", "caderno", "escola", "recreio"]


# **EXERCÍCIO**
# **b)** Crie um novo vetor que receberá os embeddings correspondentes às palavras em português que você escolheu.

In [None]:
embeddings_pt =

# **EXERCÍCIO**
# **c)** Utilize algum método de redução de dimensionalidade para reduzir os vetores dos embeddings para apenas 2 dimensões.

**Sugestão:** Utilize o PCA do sklearn passando como parâmetro n_components=2.

In [None]:
# Importando libs necessárias
from sklearn.decomposition import PCA

# Reduz para 2 dimensões usando método PCA


# **EXERCÍCIO**
# **d)** Faça o "plot" em um plano bidimensional com os valores obtidos, se possível, comparando os resultados referentes a diferentes modelos.

**Sugestão:** Utilize o código da célula abaixo como exemplo de como efetuar o plot, sendo necessário ajustar a variável que contém os vetores PCA, bem como os rótulos com as palavras selecionadas.

In [None]:
# Plotting
import matplotlib.pyplot as plt

fig, axes = plt.subplots(1, 1, figsize=(5, 5))
axes.scatter(vectors_pca[:, 0], vectors_pca[:, 1])
for i, p in enumerate(palavras):
    axes.annotate(p, (vectors_pca[i, 0]+.02, vectors_pca[i, 1]+.02))
axes.set_title('PCA Word Embeddings')
plt.show()

# Agora que você já sabe, faça um teste com outras palavras e veja como fica o plot do gráfico.

In [None]:
# Inicie aqui definindo suas variáveis






# Word2Vec algebra
# **EXERCÍCIO**
# **e)** Execute operações de soma e subtração com os vetores e observe os resultados obtidos.

**Sugestão:** Você pode utilizar o método "most_similar()" do modelo, utilizando os parâmetros "positive" e "negative" para operações de soma e subtração. O parâmetro "topn" controla a quantidade de resultados.

**Observação:** Caso prefira utilizar numpy para as operações, ao chamar o método "most_similar()" utilize o parâmetro "vector".

In [None]:
# Defina as palavras
palavra1 = ''
palavra2 = ''
palavra3 = ''

# Efetue a operação algébrica


# Exiba o resultado da busca por similaridade



    A palavra mais próxima da operação rei - mulher + homem é: 'rainha'
    com similaridade 0.6602969765663147


## Espaço para testar mais operações

In [None]:
# Defina as palavras

# Efetue a operação algébrica

# Exiba o resultado da busca por similaridade

# Word2Vec vs BERT: Embeddings em contextos diferentes

Nos modelos representativos mais complexos, como o BERT, o cáculo dos valores de embedding de uma palavra pode depender dramáticamente da aplicação na frase. Isso não é por acaso e faz total sentido, pois a semântica pode ser totalmente diferente.

Por exemplo, observe a plavra 'manga' nas duas senteças abaixo:


*   "Sujei a manga da minha camisa."
*   "Quero comer manga com leite."


## Vamos testar o quanto o modelo consegue capturar o contexto na tokenização incluindo agora o BERT.

# **EXERCÍCIO**
# **f)** Para comparar outras formas de gerar embeddings, utilize o modelo BERT de forma a gerar word embeddings a partir de frases e veja o resultado obtido.

O código a seguir vai auxiliar na instanciação do modelo BERT e definição de uma função para ter acesso facilitado aos embeddings do modelo.


In [None]:
#
from transformers import BertTokenizer, BertModel
from sklearn.metrics.pairwise import cosine_similarity


tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# Função para obter os embeddings do BERT
def get_bert_embeddings(sentence, word):
    inputs = tokenizer(sentence, return_tensors='pt')
    outputs = model(**inputs)
    last_hidden_states = outputs.last_hidden_state
    word_tokens = tokenizer.tokenize(sentence)
    word_index = word_tokens.index(word)
    word_embedding = last_hidden_states[0, word_index + 1, :]
    return word_embedding

# **f)** (Detalhamento) Defina duas sentenças que contenham uma mesma palavra em ambas, porém com semântica diferente. Em seguide calcule os embeddings da mesma palavra nas duas sentenças, para finalmente comparar os resultados.

**Dica:** Utilize o método definido anteriormente, passando a sentença e a palavra que você deseja obter o embedding.

In [None]:
# Defina suas sentenças
sentenca1 = ""
sentenca2 = ""

# Defina a palavra foco


# Calcule os embeddings da palavra nas duas situações


# Imprima os embeddings calculados


# Em adicional, calcule a similaridade
