# Word Embeddings

Métodos tradicionais de vetorização textual, como TF-IDF e BoW, caputuram unicamente característica sintáticas, como contagem e frequência relativa de palavras. Por isso, variáveis como o contexto de uma palavra, muito importante para o significado do texto, não são levados em conta.

Word Embedding é a técnica de representar as palavras de um texto como vetores *n-dimensionais* baseando-se na semântica. A ideia principal é que as relações de significado entre as palavras do vocabulário sejam representadas pelas relações matemáticas entre os vetores.

Dessa forma, se:

 * *Cão* é sinônimo de *Cachorrro*
 * $Vetor(\text{Cão})\approx Vetor(\text{Cachorro})$

 * *Rei* está para *Homem* como *Rainha* está para *Mulher*
 * $Vetor(\text{Rei}) - Vetor(\text{Homem}) \approx Vetor(\text{Rainha}) - Vetor(\text{Mulher})$ 

\\
Usualmente, os embeddings são aplicados em palavras, entretanto sua lógica pode ser estendida para setenças, documentos, caracteres, etc.

A seguir, veremos como funciona um dos pricipais métodos de word embedding, o Word-to-Vector (**Word2Vec**) e a importância do contexto no processo.




## **Word2Vec model**

Word2Vec é um poderoso modelo desenvolvido por Thomas Mikolov et al. na Google. Ele permite a construção de vetores representativos de uma palavra basedo no contexto em que ela está inserido.

Essa tarefa é desempenhada por uma rede neural artificial em uma tarefa de self-supervised lerning. Essa tarefa pode assumir duas formas:

1. Predizer uma palavra dado seu contexto - CBOW
2. Predizer o contexto dada a palavra - Skip-gram

O contexto de uma palavra é o grupo de palavras que aparecem ao seu redor em um dado intervalo. Dessa forma, o modelo entende que palavras com contextos semelhantes devem também ser semelhantes.

### **Word2vec Pré treinado**

Como já indicado anteriormente, uma palavra é definida pelo seu contexto. Portanto, por mais que a escrita de um termo não mude (sintaxe), seu significado pode se alterar a depender do conjunto de textos trabalhado (semântica). O idel para uma aplicação de NLP é que os significados locais sejam mantidos.

Entretanto, não é incomum utilizarmos vetores pré-treinados em grandes corpus textuais. Além de evitar a necessidade de treino no nosso corpus local, esses vetores geralmente são derivados de um gigante conjunto de textos, por isso, representam basicamente a língua em si. Caso não hajam termos muito específicos ou relações semânticas especiais capturadas, podemos utilizar esses vetores sem nenhum problema.



**Explorando vetores pré treinados usando a biblioteca gensim**

Dando sequência, vamos testar alguns vetores pré-treinados com auxílio da biblioteca Gensim.

Os vetores têm dimensão 100 e foram treinados no modelo CBOW.

O conjunto de vetores utilizados pode ser encontrado no link http://nilc.icmc.usp.br/embeddings.

In [None]:
# Download dos vetores
!wget http://143.107.183.175:22980/download.php?file=embeddings/word2vec/cbow_s100.zip -O vetores

!unzip vetores

--2021-07-13 00:58:17--  http://143.107.183.175:22980/download.php?file=embeddings/word2vec/cbow_s100.zip
Connecting to 143.107.183.175:22980... connected.
HTTP request sent, awaiting response... 200 OK
Length: 326003567 (311M) [application/octet-stream]
Saving to: ‘vetores’


2021-07-13 00:58:59 (7.54 MB/s) - ‘vetores’ saved [326003567/326003567]

Archive:  vetores
  inflating: cbow_s100.txt           


In [None]:
import gensim
from gensim.models import KeyedVectors

Carregando os vetores

In [None]:
modelo = KeyedVectors.load_word2vec_format("cbow_s100.txt")

In [None]:
print( "O tamanho do vocabulário é", len(modelo.vocab) )
print( "Os vetores representativos têm dimensão", modelo.vector_size )

O tamanho do vocabulário é 929606
Os vetores representativos têm dimensão 100


Agora, já podemos visualizar o vetor de uma palavra

In [None]:
modelo['cachorro']

array([ 6.56940e-02, -5.24444e-01, -2.53404e-01, -3.83782e-01,
        2.30628e-01, -2.19650e-02,  2.29181e-01, -3.44491e-01,
       -2.31080e-02, -4.52210e-02, -7.84500e-02, -1.89070e-01,
       -4.34008e-01, -2.31833e-01,  2.18070e-02,  1.17643e-01,
       -4.92100e-02, -3.72790e-02,  5.19500e-03,  1.10290e-01,
        2.08756e-01,  3.65709e-01, -3.66521e-01,  4.40905e-01,
        7.56790e-02,  1.24670e-02,  5.31000e-04,  6.10890e-02,
        1.02861e-01,  8.34240e-02,  1.46790e-02, -3.30467e-01,
       -2.45400e-02,  2.13797e-01,  1.36240e-01,  2.05673e-01,
        3.02481e-01, -2.30895e-01,  1.26977e-01,  8.69480e-02,
       -1.83192e-01,  4.13077e-01,  1.16000e-01, -2.80642e-01,
        2.94802e-01, -2.33011e-01, -2.27428e-01, -1.27036e-01,
       -2.33886e-01, -3.33360e-01,  4.80820e-02, -4.70092e-01,
        8.13960e-02, -2.07700e-01, -3.04254e-01,  5.41740e-02,
        3.90831e-01,  1.71692e-01, -6.97040e-02, -5.30480e-02,
        2.20763e-01,  2.48582e-01,  3.18993e-01, -2.987

A funcionalidade *most_similar* do gensim permite visualizar o top-n de palavras mais semelhantes.

In [None]:
# Mais semelhantes à palavra cão
modelo.most_similar('cão', topn=5)

[('cachorro', 0.8746297359466553),
 ('pássaro', 0.8384866118431091),
 ('gambá', 0.8313096761703491),
 ('ogro', 0.8301891088485718),
 ('cãozinho', 0.8299412727355957)]

In [None]:
# Mais semelhantes à palavra novela
modelo.most_similar('novela', topn=5)

[('trama', 0.799685537815094),
 ('minissérie', 0.767881453037262),
 ('telenovela', 0.7656346559524536),
 ('radionovela', 0.7263081073760986),
 ('microssérie', 0.7131772041320801)]

In [None]:
# Mais semelhantes às palavras homem e rainha e diferentes de rei
# homem + rainha - rei
modelo.most_similar(positive=['homem', 'rainha'],
                    negative=['rei'], topn=1 )


[('moça', 0.6089643836021423)]

In [None]:
# ator - homem + mulher
modelo.most_similar(positive=['ator', 'mulher'],
                    negative=['homem'], topn=1 )

[('atriz', 0.7755578756332397)]

### **A arquitetura Word2Vec**

Nesta sessão, vamos tentar entender como são treinados modelos word2vec.
Como mencionado anteriormente, podemos adotar duas metodologias:

1. **Continuous Bag of Words (CBOW)** - Predizer uma palavra dado seu contexto
2. **Skip-gram** - Predizer o contexto dada a palavra

Vamos seguir com o Skip-gram, mas todo o raciocínio pode ser usado também para o CBOW.

**O método Skip-gram**
Primeiramente, vamos definir exatamente o que é um contexto e como ele se relaciona com a palavra.

O contexto são as palavras que aparecem ao redor de uma palavra central em um intervalo. Esse intervalo é chamado de janela (window).
Abaixo podemos destacado ver o contexto da palavra "*dura*" com uma janela de tamanho 2 (window_size).

<center>
"Água <font color=red> mole pedra</font> <font color=green> dura </font> <font color=red>tanto bate</font> até que fura"
</center>

Dessa forma, o mapeamento input-output do nosso modelo ficaria da seguinte forma.

| Input - Palavra central | Output - Contexto |
|---|---|
| dura | mole |
| dura | pedra |
| dura | tanto |
| dura | bate |

O modelo Word2Vec deve ser capaz de prever as palavras que fazem parte do contexto de "dura". Esse processo vai ser feito para cada palavra de cada texto do nosso corpus.



**Os componentes do Skip-gram**

O treinamento dos vetores ocorre através de uma rede neural artificial específica, que é treinada para predizer o conteúdo do contexto de uma palavra.
Vamos explorar os componentes dessa rede.

1. Input Vector - A entrada dessa rede é um *one-hot vector* de tamanho |V| (tamanho do vocabulário). A posição do vetor que contém o número 1 corresponde à posição da palavra central no vocabulário.

<center>
<a href="https://ibb.co/48wxKdF"><img src="https://i.ibb.co/XSSPCj2/Word-Embedding1-1.png" alt="Word-Embedding1" border="0" width='280' height=250></a>
</center>

2. Embedding matrix - Essa matriz contém todos os embeddings de cada palavra do nosso vocabulário, por isso seu tamanho é |V|*N, onde N é o tamanho dos vetores incorporados.

3. Context matrix - Matriz intermediária, serve para extrair o vetor contexto de uma palavra.

4. Output vector - Um vetor de dimensão |V| que contém a probabilidade de cada palavra do vocabulário ser o contexto da palavra central.

Abaixo podemos ver um resumo de como a rede neural ficaria estruturada. 

<center>
<img src="https://i.ibb.co/Mc47XqH/Word-Embedding2-1.png" alt="Word-Embedding1" border="0" width=500 height=262>
</center>

Após o treinamento, estaremos interessados apenas na *Embedding Matrix*, que é quem contém os vetores incorporados em si.


**Limitações computacionais do modelo discutido e possíveis soluções**

A principal desvantagem do método acima é o seu custo computacional. Ele precisa atualizar todos os pesos da rede para cada par *palavra central - palavra contexto* do nosso corpus. A solução é utilizar de processos de subamostragem e subamostragem negativa.

**Subamostragem**

Algumas palavras, que aparecem muito frequentemente no corpus, acabam não trazendo tanta informação contextual. Por isso, os criadores do Word2Vec desenvolveram um método para subamostrar certas palavras. Essas palavras serão removidas do texto, não sendo utilizadas como palavra central ou contexto. A decisão de remover uma palavra ou não é baseada no seu sampling rate, calculado da seguinte forma:

<center>
$\displaystyle
P(w_i) = \left( \sqrt{\frac{f(w_i)}{t}} + 1\right)\frac{t}{f(w_i)}$
</center>

Onde $t$ é um parâmetro de limiar customizável, geralmente entre $0.0001$ e $0.001$, e $f(w_i)$ a frequência documental normalizada da palavra $w_i$.

$P(w_i)$ é a probabilidade de uma palavra ser mantida no conjunto de treino.



**Subamostragem Negativa**

O treinamento da rede neural envolve atualizar todos os pesos a cada exemplo. Entretanto, em nossa implementação, conforme o tamanho do vocabulário e a dimensão do vetor de embedding aumentam, a quantidade de pesos da nossa rede pode ficar incrivelmente alto. O que significa um grande custo computacional.

A ideia da subamostragem negativa é atualizar somente uma pequena parcela dos pesos a cada iteração da rede. Isto é feito pela seleção aleatória de palavras fora do contexto da palavra central, chamadas de "negativas".

Dessa forma, sortearemos uma quantidade fixa de palavras "negativas" (fora de contexto) para atualizar em cada iteração. Também atualizaremos os pesos para a palavra "positiva" (contexto).

*Um bom número de amostras fica entre 1 e 20, diminuindo conforme o dataset aumenta.*


<center>
<img src="https://i.ibb.co/PTd8h2L/Word-Embedding3.png" alt="Word-Embedding1" border=0 width=600 height=295>
</center>


A seleção de uma palavra é baseada em sua frequência total no corpus. A probabilidade de seleção é calculada da seguinte forma:

<center>
$\displaystyle
P(w_i) = \frac{freq(w_i)}{\sum_{j=0}^{j=|V|} freq(w_j)}$
</center>

Onde $freq(w_i)$ é a quantidade de vezes que uma palavra ocorre no corpus. 

Os autores originais do método também propõem uma variação da equação, elevando as frequências a uma potência de 3/4. Essa varição aumenta a probabilidade para palavras menos frequêntes e diminui para as mais frequêntes.

<center>
$\displaystyle
P(w_i) = \frac{freq(w_i)^{3/4}}{\sum_{j=0}^{j=|V|} \left( freq(w_j)^{3/4} \right)}$
</center>

Esses dois métodos auxiliam a diminuir drásticamente o custo computacional necessário para criar embedding vectors.

### Treinando um modelo Word2Vec 

Agora que já sabemos o funcionamento fundamental do modelo Word2Vec, vamos treina-lo com a biblioteca Gensim.


Inicialmente, vamos importar o modelo e definir/entender alguns de **seus** parâmetros.

In [None]:
from gensim.models import Word2Vec

modelo_w2v = Word2Vec(size=20,
                      window=3,
                      min_count=1,
                      sg=1,
                      negative=5
                      )

1. **Size** - Inteiro, representa o tamanho dos embedded vectors.
2. **Window** - Inteiro, o tamanho do intervalo de palavras que compõe o contexto.
3. **min_count** - Inteiro, quantidade de vezes mínima que uma palavra deve aparecer no corpus textual para ser incluída no vocabulário.
4. **sg** - O valor sg=1 indica que será utilizado o método skip-gram, sg=0 indica o CBOW.
5. **negative** - Inteiro, quantidade de amostras negativas sorteadas em cada iteração. 

Vamos simular alguns dados para o treinamento. O modelo do Gensim recebe textos tokenizados como input do treino. 

In [None]:
from nltk.tokenize import RegexpTokenizer
import nltk
nltk.download('punkt')

sentencas = ["Água mole, pedra dura, tanto bate até que fura",
             "De grão em grão a galinha enche o papo",
             "A esperança é a última que morre",
             "A fome é o melhor tempero",
             "A mentira tem perna curta",
             "A pressa é a inimiga da perfeição",
             "Amigos, amigos. negócios à parte",
             "Casa de ferreiro, espeto de pau"]
tokenizer = RegexpTokenizer('\w+')

tokens = [ tokenizer.tokenize(sentenca) for sentenca in sentencas ]
tokens = [ [token.lower() for token in sentenca] for sentenca in tokens ]

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


O primeiro passo do treinamento do modelo é a consolidação do vocabulário.

In [None]:
modelo_w2v.build_vocab(tokens)

Podemos visualizar as palavras selecionadas

In [None]:
modelo_w2v.wv.vocab

{'a': <gensim.models.keyedvectors.Vocab at 0x7f5f3be6e2e8>,
 'amigos': <gensim.models.keyedvectors.Vocab at 0x7f5f3bbd1208>,
 'até': <gensim.models.keyedvectors.Vocab at 0x7f5f3be6e208>,
 'bate': <gensim.models.keyedvectors.Vocab at 0x7f5f3bc0f780>,
 'casa': <gensim.models.keyedvectors.Vocab at 0x7f5f3bbee4e0>,
 'curta': <gensim.models.keyedvectors.Vocab at 0x7f5f3bbd11d0>,
 'da': <gensim.models.keyedvectors.Vocab at 0x7f5f3bbd1f60>,
 'de': <gensim.models.keyedvectors.Vocab at 0x7f5f3be6e470>,
 'dura': <gensim.models.keyedvectors.Vocab at 0x7f5f3bb22a20>,
 'em': <gensim.models.keyedvectors.Vocab at 0x7f5f3be6eb38>,
 'enche': <gensim.models.keyedvectors.Vocab at 0x7f5f3be6ec88>,
 'esperança': <gensim.models.keyedvectors.Vocab at 0x7f5f3be6e898>,
 'espeto': <gensim.models.keyedvectors.Vocab at 0x7f5f3bbee208>,
 'ferreiro': <gensim.models.keyedvectors.Vocab at 0x7f5f3bbee550>,
 'fome': <gensim.models.keyedvectors.Vocab at 0x7f5f3be6e518>,
 'fura': <gensim.models.keyedvectors.Vocab at 0x7f

Na sequência, basta chamar o método de treino.

In [None]:
modelo_w2v.train(tokens, 
                 epochs=30, 
                 total_examples=len(sentencas))

(348, 1620)

Como podemos ver abaixo, o modelo já foi capaz de aprender os vetores para cada palavra.

In [None]:
modelo_w2v.wv['água']

array([ 0.01068152,  0.00904823,  0.02018374, -0.00692262, -0.01716428,
       -0.00625954,  0.01748959, -0.00256764, -0.01139172,  0.00751887,
        0.0088778 , -0.00887354, -0.02470621, -0.01553497, -0.01994365,
        0.00910266,  0.01669788,  0.0003144 , -0.0192175 ,  0.0062617 ],
      dtype=float32)

In [None]:
modelo_w2v.wv['pedra']

array([ 0.01708624,  0.0141287 ,  0.00167886,  0.00514836,  0.00682403,
        0.00201663, -0.02057892,  0.00030189,  0.01019321, -0.01384514,
        0.00586941,  0.00047907,  0.00255555, -0.00478247, -0.00378135,
       -0.0082641 , -0.01951862, -0.00827733,  0.00408386,  0.02334811],
      dtype=float32)

### Limitações do Word2Vec

O método Word2vec foi uma ideia revolucionária no campo de processamento de liguagem natural. Entretanto, ainda possui limitações.

Uma dos principais problemas é tentar ajustar um significado estático para um termo sintático.
Como sabemos, por mais que a escrita seja constante, o significado de uma palavra varia com o contexto (paronímia).

Como por exemplo, o termo "cão", que pode significar "cachorro" ou "diabo", a depender do contexto usado. O modelo Word2vec é incapaz de diferir esse comportamento.



### Word mover’s distance

**Word mover’s distance (WMD)** é uma métrica de distância entre textos baseada nos embedded vectors.

Ela é definida como a distância mínima que os vetores das palavras do primeiro texto precisam "viajar" para se tornarem os vetores do segundo texto.

O algoritmo computa a distância euclidiana par a par entre as palavras das duas frases e seleciona o menor custo possível para transformar todas as palavras da primeira frase na segunda.

A classe KeyedVectors do Gensim já possui essa métrica implementada, e podemos utilizar os vetores pré-treinados carregados anteriormente.


In [None]:
frase1 = "O bolo deve ser assado na temperatura certa"
frase2 = "Corte os legumes para o cozimento"
frase3 = "Aprendizado de máquina é um sub campo da inteligência artificial"

In [None]:
print("Distância entre as frases 1 e 2: ", round(modelo.wmdistance(frase1, frase2),2))
print("Distância entre as frases 1 e 3: ", round(modelo.wmdistance(frase1, frase3),2))
print("Distância entre as frases 2 e 3: ", round(modelo.wmdistance(frase2, frase3),2))

Distância entre as frases 1 e 2:  0.72
Distância entre as frases 1 e 3:  1.06
Distância entre as frases 2 e 3:  0.96


As distâncias calculadas são logicamente coerentes com o esperado. As frases 1 e 2, que falam sobre instruções de cozinha, são mais próximas entre si que entre a frase 3, que trata de um assunto diferente.

Além disso, por mais que os textos não compartilhem nenhuma palavra entre si, com a semântica capturada pelos vetores do Word2Vec, somos capazes de mensurar uma distância entre as sentenças com sucesso.

Esse comportamento não pode ser replicado por métodos de vetorização baseados na sintaxe, como OneHotEncoding e TF-IDF.