# Exemplos de utilização de Token, Chunk e Embedding

- Código desenvolvido na Aula 03.

Para instalar as dependências necessárias:

**Usando pip**
```bash
pip install nltk transformers torch gensim
```

**Usando conda**

```bash
conda install -c anaconda nltk gensim
conda install -c pytorch pytorch torchvision torchaudio cudatoolkit=11.3
conda install -c huggingface transformers
```

Caso possua uma GPU CUDA disponível, faça as adaptações necessárias.

In [None]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk import pos_tag 
from nltk.chunk import RegexpParser
from transformers import BertTokenizer, BertModel
import torch
from gensim.models import KeyedVectors

# Token

In [19]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /Users/m/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [20]:
texto = "Olá, mundo. Tu ainda é vivo moço? Fiquei sabendo que estava em Paris."

tokens_de_palavras = word_tokenize(texto)
tokens_de_sentencas = sent_tokenize(texto)

print("Tokenização por palavras: ", tokens_de_palavras)
print("Tokenização por sentenças: ", tokens_de_sentencas)

Tokenização por palavras:  ['Olá', ',', 'mundo', '.', 'Tu', 'ainda', 'é', 'vivo', 'moço', '?', 'Fiquei', 'sabendo', 'que', 'estava', 'em', 'Paris', '.']
Tokenização por sentenças:  ['Olá, mundo.', 'Tu ainda é vivo moço?', 'Fiquei sabendo que estava em Paris.']


# Chunk ou Chunking

In [23]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /Users/m/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [34]:
texto = "Ontem eu sonhei que estava em Moscou dançando pagode russo."
text = "The book is on the table"

tokens = word_tokenize(texto)
tags = nltk.pos_tag(tokens)

padrao = 'NP: {<DT>?<JJ>*<NN.*>+}'
analisador_de_chunk = nltk.RegexpParser(padrao)

arvore_de_chunk = analisador_de_chunk.parse(tags)
print(arvore_de_chunk)
# arvore_de_chunk.draw()

(S
  (NP Ontem/NNP)
  eu/VBZ
  (NP
    sonhei/JJ
    que/NN
    estava/NN
    em/NN
    Moscou/NNP
    dançando/NN
    pagode/NN
    russo/NN)
  ./.)


# Embedding - Vetor

In [38]:
tokenizer = BertTokenizer.from_pretrained('bert-base-cased')
model = BertModel.from_pretrained('bert-base-cased')

In [44]:
# texto = "Ontem eu sonhei que estava em Moscou dançando pagode russo."
texto = "O livro está na mesa"

tokens = tokenizer(texto, return_tensors='pt', padding=True, truncation=True)

# Obtenção dos embeddings
with torch.no_grad():
    outputs = model(**tokens)

embeddings = outputs.last_hidden_state
print(embeddings)

tensor([[[ 0.1131,  0.2869, -0.0878,  ...,  0.2232,  0.4219, -0.1361],
         [ 0.1523, -0.0709,  0.3460,  ...,  1.0850,  0.0789,  0.2768],
         [ 0.2225, -0.1845, -0.2238,  ...,  0.5663, -0.4047,  0.2899],
         ...,
         [ 0.9297,  0.1958, -0.2192,  ...,  0.4083,  0.0167,  0.3775],
         [ 0.2377,  0.7055, -0.1281,  ...,  0.9726, -0.5782,  0.3968],
         [-0.1652, -0.1352,  0.3224,  ..., -0.3229,  1.1555, -0.7259]]])


# Embedding - Similaridade

In [47]:
# Carregar o modelo
modelo_caminho = "model/GoogleNews-vectors-negative300.bin.gz"

model = KeyedVectors.load_word2vec_format(modelo_caminho, binary=True)

In [62]:
palavra1 = 'HQ'
embedding = model[palavra1]

palavra2 = 'manga'

similaridade = model.similarity(palavra1, palavra2)

print(f"Similaridade entre {palavra1} e {palavra2}: {similaridade:.5f}")

Similaridade entre HQ e manga: -0.03594
