# JAI 2022 - Curso de PLN

---

## Seção 1.4. Representação Textual

- Representação por ***Word Embeddings* Contextuais**

# Instalação de Pacotes Adicionais

In [3]:
%%capture
!pip install flair
!pip install lorem-text

# Bibliotecas Necessárias

In [4]:
import flair
from lorem_text import lorem

# *Word Embeddings* Contextuais

## Carregamento

Inicializando as *word embeddings* contextuais pré-treinadas
> `'neuralmind/bert-base-portuguese-cased'`, representações do modelo BERT para
o Português Brasileiro, ou BERTimbau. 

Existem dois modelos BERTimbau:
- um chamado de *base*, com 12 camadas, dimensão de tamanho 768, 12 *attention heads* e 110 milhões de parâmetros
- outro chamado de *large*, possuindo 24 camadas, dimensão de tamanho 1.024, 16 *attention heads* e 330 milhões de parâmetros

BERTimbau foi treinado com o brWaC corpus, que contém 2,68 bilhões de *tokens* de mais de 3 milhões de textos, e é o maior corpus em Português disponível

In [5]:
bert_embedding = flair.embeddings.TransformerWordEmbeddings('neuralmind/bert-base-portuguese-cased')

Downloading tokenizer_config.json:   0%|          | 0.00/43.0 [00:00<?, ?B/s]

Downloading config.json:   0%|          | 0.00/647 [00:00<?, ?B/s]

Downloading vocab.txt:   0%|          | 0.00/205k [00:00<?, ?B/s]

Downloading added_tokens.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

Downloading special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/418M [00:00<?, ?B/s]

In [6]:
print("São embeddings estáticos? = {}".format(bert_embedding.static_embeddings))
print("Dimensão dos embeddings = {}".format(bert_embedding.embedding_length))
print("Tipos dos embeddings = {}".format(bert_embedding.embedding_type))

São embeddings estáticos? = False
Dimensão dos embeddings = 768
Tipos dos embeddings = word-level


## Como Usar

In [7]:
text_1 = flair.data.Sentence(lorem.paragraphs(len=2))
text_2 = flair.data.Sentence(lorem.paragraphs(len=5))

len(text_1), len(text_2)

(132, 445)

In [8]:
bert_embedding.embed(text_1)

[Sentence: "Lorem ipsum dolor sit amet , consectetur adipisicing elit , sed do eiusmod tempor incididunt ut labore et dolore magna aliqua . Ut enim ad minim veniam , quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat . Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur . Excepteur sint occaecat cupidatat non proident , sunt in culpa qui officia deserunt mollit anim id est laborum . Temporibus impedit dignissimos sint nostrum cumque ducimus deleniti esse , accusamus temporibus animi eius . Laudantium maiores voluptatibus sit ullam quidem quia , obcaecati tenetur voluptate nulla cum a quos neque vel , laborum in est quisquam , ratione harum earum similique saepe a possimus eligendi mollitia ipsam deleniti , dicta quam quidem debitis ?"]

In [9]:
bert_embedding.embed(text_2)

RuntimeError: ignored

In [10]:
sent = flair.data.Sentence("O gato caçou o rato.")

sent.tokens

[Token[0]: "O",
 Token[1]: "gato",
 Token[2]: "caçou",
 Token[3]: "o",
 Token[4]: "rato",
 Token[5]: "."]

In [11]:
bert_embedding.embed(sent)

gato_emb = sent.get_token(token_id=2).embedding
gato_emb

tensor([ 5.2082e-01,  4.5477e-02,  1.6694e-01,  1.2930e-01, -1.7234e-01,
        -1.3346e-01,  1.9846e-01,  1.9489e-01,  4.8283e-01, -3.6736e-01,
        -7.7391e-01, -3.6042e-01, -2.8037e-01,  7.1445e-02, -5.6403e-02,
        -2.5017e-01, -1.1637e-02,  1.1196e-01, -2.1187e-01,  3.6948e-01,
        -1.8379e-01, -3.1465e-01,  4.0384e-01,  6.6715e-02, -1.1310e-01,
         6.2395e-01, -3.4910e-02,  2.4537e-01,  3.5070e-01, -3.6812e-01,
         3.6551e-01,  3.1031e-01, -2.2933e-01,  4.8035e-02,  5.1088e-01,
         1.0048e-01, -3.5356e-01, -2.0597e-02, -4.0317e-01,  1.5666e-01,
         2.5980e-01, -8.2479e-01, -1.6408e-01,  1.2359e-01, -4.0614e-02,
        -3.5963e-01,  1.9857e-01,  5.0188e-02,  4.8754e-01, -7.5945e-01,
        -2.4872e-01, -2.2290e-01, -1.1469e+00, -9.3136e-03,  3.3080e-01,
         3.8491e-01, -3.4298e-01,  1.0732e-01,  1.4786e-01, -1.6618e-01,
         3.9402e-01, -1.3600e-01,  6.0160e-01,  4.7645e-02, -4.9621e-01,
         1.1108e-01, -1.0187e-01,  9.2668e-02, -2.1

In [12]:
print("Tamanho do embedding da palavra gato = {}".format(len(gato_emb)))

Tamanho do embedding da palavra gato = 768


In [13]:
sent_1 = flair.data.Sentence("Pesquisei sobre receitas de bolo de laranja")
sent_2 = flair.data.Sentence("Há um bolo de coisas sobre a mesa")

sent_1, sent_2

(Sentence: "Pesquisei sobre receitas de bolo de laranja",
 Sentence: "Há um bolo de coisas sobre a mesa")

In [14]:
bert_embedding.embed([sent_1, sent_2])

[Sentence: "Pesquisei sobre receitas de bolo de laranja",
 Sentence: "Há um bolo de coisas sobre a mesa"]

In [15]:
print("Sentença 1 =\n{}\n\nSentença 2 =\n{}".format('\n'.join(map(str, sent_1.tokens)), 
                                                    '\n'.join(map(str, sent_2.tokens))))

Sentença 1 =
Token[0]: "Pesquisei"
Token[1]: "sobre"
Token[2]: "receitas"
Token[3]: "de"
Token[4]: "bolo"
Token[5]: "de"
Token[6]: "laranja"

Sentença 2 =
Token[0]: "Há"
Token[1]: "um"
Token[2]: "bolo"
Token[3]: "de"
Token[4]: "coisas"
Token[5]: "sobre"
Token[6]: "a"
Token[7]: "mesa"


In [16]:
sent_1.get_token(5), sent_2.get_token(3)

(Token[4]: "bolo", Token[2]: "bolo")

In [17]:
bolo_emb_sent_1 = sent_1.get_token(5).embedding
bolo_emb_sent_2 = sent_2.get_token(3).embedding

print(bolo_emb_sent_1 == bolo_emb_sent_2)

tensor([False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, 

In [18]:
sobre_emb_sent_1 = sent_1.get_token(2).embedding
sobre_emb_sent_2 = sent_2.get_token(6).embedding

print(sobre_emb_sent_1 == sobre_emb_sent_2)

tensor([False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, False, False,
        False, False, False, False, False, False, False, False, 