# Word Embedding

## Universidade Federal de Lavras

### Agosto de 2022

Elaborado por: <a href="https://github.com/Victorgonl">Victor Gonçalves Lima</a>

Orientado por: <a href="https://sites.google.com/ufla.br/denilsonpereira/">Prof. Denilson Alves Pereira</a>

# Definições

## Processamento de Linguagens Naturais (NLP)

- Subcampo de línguistica, ciências da computação e inteligência artificial que estuda como computadores processam e analizam dados de **linguagem natural** humana.

## Word Embedding

- Termo que se refere à representação de palavras para análises textuais, de forma que vetores usados para codificar certa palavra seja espacialmente próximo aos vetores de palavras similares.

- Podem ser obtidos através de **modelos de linguagens**, onde palavras e sentenças são mapeadas em vetores de números reais.

<img src="figs/WordEmbedding.png" width="600" title="https://towardsdatascience.com/nlp-extract-contextualized-word-embeddings-from-bert-keras-tf-67ef29f60a7b"/>

## Transformer

- Neural network com vantagens comparado com **RNN**, **LSTM** e **GRU**.

- Possui modelos mais efetivos para lidar com dependências em uma sequência temporal.

- Possui um treinamento mais eficiente, eliminando dependências sequenciais de tokens anteriores.

- Possui uma arquitetura **encoder-decoder**, usando **mecanismos de atenção**.

- Passa a sequência para o decoder de uma vez, ao envés de sequencialmente.

<img src="figs/Transformer-20fps.gif" width="500" title="https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html"/>

# Abordagens para representação de palavras

## Dictionary Lookup

- Método que atribui uma identificação para cada palavra.

- Pode utilizar **lemmatisation** e **stemming** para converter palavras para sua forma básica, sem conjugações por exemplo.

- Um valor que não pertence ao vocabulário é chamado **out of vocabulary**.

- **Out of vocabulary** é representado pelo número do tamanho *n* do vocabulário.

- Por trabalhar com números inteiros, os modelos podem, de forma errônea, assumir a existência de ordem pelos IDs.

<img src="figs/DicionaryLookup.png" width="700" title="https://towardsdatascience.com/word-representation-in-natural-language-processing-part-i-e4cd54fed3d4"/>

In [1]:
from pathlib import Path

In [2]:
path_vocab = "./datasets/words.txt"

words = []
n_words = 0

with Path(path_vocab).open() as f: 
    for word in f: 
        words.append(word.strip())
        print(word.strip(), sep="")

rocks
walking
sleeps
learning
cars
learned


In [3]:
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer

In [4]:
base_words = set()

for word in words:
    word = WordNetLemmatizer().lemmatize(word)
    word = PorterStemmer().stem(word)
    base_words.add(word)

for word in base_words:
    print(word)

learn
rock
car
sleep
walk


In [5]:
base_words = list(base_words)

print("ID\t\tWord")
print("-------\t\t-------")
for i in range(len(base_words)):
    print(i, "\t\t", base_words[i], sep="")

ID		Word
-------		-------
0		learn
1		rock
2		car
3		sleep
4		walk


## One-Hot Enconding

- É uma representação vetorial onde os vetores possuem o tamanho *n* do vocabulário + 1 (*n + 1*).

- O vetor de uma palavra é preenchido de 0s, exceto pela posição que representa a palavra, preenchida por 1.

- A posição *n* representa o valor **out of vocabulary**.

- Possui vantagem sobre **Dictionary Lookup**, porém requer muita memória para computação devido ao tamanho.

<img src="figs/One-HotEncoding.png" width="900" title="https://towardsdatascience.com/word-representation-in-natural-language-processing-part-i-e4cd54fed3d4"/>

# Distributional Representations

- Criada a partir do conceito de que palavras que aparecem em contextos similares possuem significados similares.

- Apresenta os contextos que uma palavra occore em matriz.

- As linhas da tabela representa as palavras do vocabulário e as colunas são seus contextos.

- As entradas na tabela são o número de ocorrências de uma palavra em determinado contexto.

<img src="figs/DistributionalRepresentation.png" width="750" title="https://towardsdatascience.com/word-representation-in-natural-language-processing-part-i-e4cd54fed3d4"/>

- Representa palavras como vetores.

- Cada entrada no vetor representa uma ***hiden feature*** no significado da palavra.

- Podem revelar dependências semânticas e sintáticas.

É possível perceber na representação abaixo que 'flight' e 'plane' possuem valores numéricos próximos, assim como 'river' e 'lake'.

<img src="figs/DistributionalRepresentation-2.png" width="1000" title="https://towardsdatascience.com/word-representation-in-natural-language-processing-part-i-e4cd54fed3d4"/>

## Word2Vec (Skip-Gram)

- Modelo **Skip-Gram** faz parte da biblioteca **Word2Vec**.

- A ideia principal é representar palavras através de seus vizinhos.

- Tenta prever o contexto de uma determinada palavra.

- É possível treinar o **Word2Vec** com diferentes **datasets**, ou carregar dados pré-treinados, como disponibilizado pela Google.

<img src="figs/Skip-Gram-Arch.png" width="300" title="https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf"/>

<h1>
<img src="figs/Skip-Gram-Model1.png" width="300" title="https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf"/>
<img src="figs/Skip-Gram-Model2.png" width="272" title="https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf"/>
</h1>

## GloVe (Global Vectors)

- Diferente do ***Word2Vec***, que captura certos contextos locais, ***GloVe*** explora sobre toda estatística de ocorrência da palavra no dataset.

<img src="figs/GloVe-Visualization.jpg" width="300" title="https://nlp.stanford.edu/projects/glove/"/>

- Etapas:

1. Criar uma matriz de coocorrências de termos.

2. Para cada palavra, é computado as probabilidades condicionais $P(k|w)$.

3. $w$ é a palavra sendo analisada e $k$ é uma outra palavra do vocabulário.

4. Quanto maior o valor de $P$, maior a probabilidade da palavra $w$ estar correlacionada com a palavra $k$.

5. Após todas as computações estatísticas, a matriz é formada.

6. A matriz é reduzida por ***normalização*** e ***exponential smoothing***.

<img src="figs/GloVe-Example.png" width="800" title="https://nlp.stanford.edu/projects/glove/"/>

## Problemas com **Word2Vec** e **GloVe**


- Possuem um único **embedding** para cada palavra.

- Algumas palavras podem ter mais de um significado, completamente distintos.

- Os modelos, assim, não conseguem atribuir múltiplos significados para uma mesma palavra.

# **ELMo** (**E**mbeddings from **L**anguage **Mo**dels)

## Arquitetura

É dividido em três camadas:

**1. CNN:** A entrada do modelo é puramente baseada em caracteres, que passarão por CNN produzindo **compact embedding** a ser passados para **Bi-LSTM**.

**2. Bi-LSTM:** A camada **Bi-LSTM** permite que o modelo execute tanto em **time steps** anteriores quanto posteriores. Cada LSTM pega entradas anteriores, exceto a primeira que recebe da primeira camada **CNN**.

**3. Embedding:** A camada de **embedding** concatena os **hidden states** da **LSTM** produzindo **context-dependent embeddings**.

<img src="figs/ELMo-Arch.png" width="400" title="https://towardsdatascience.com/word-representation-in-natural-language-processing-part-iii-2e69346007f"/>

# **BERT** (**B**idirectional **E**ncoder **R**epresentations from **T**ransformer)

## Características

- O modelo é baseado em **encoders** de **Transformer** de forma bidirecional.

- Apresenta um modelo de linguagem para uso geral que suporta **transfer learning** e **fine tuning** com datasets específicos.

<img src="figs/BERT-Arch1.png" width="700" title="http://jalammar.github.io/illustrated-bert/"/>

- Foi desenvolvido dois modelos principais:

1. **BASE**: Number of transformer blocks (L): 12, Hidden layer size (H): 768 and Attention heads(A): 12

2. **LARGE**: Number of transformer blocks (L): 24, Hidden layer size (H): 1024 and Attention heads(A): 16

<img src="figs/BERT-BASE&LARGE.png" width="700" title="http://jalammar.github.io/illustrated-bert/"/>

## Arquitetura

- Tokens usados para **fine tuning**:

1. **CLS**: o primeiro token de cada sequência, usado normalmente em conjunção com uma camada *softmax* para problemas de classificação.

2. **SEP**: token delimitador de sequência usado para separar problemas que utilizam um par de sequência.

3. **MASK**: token usado para **masked words**.

<img src="figs/BERT-Arch3.png" width="900" title="https://arxiv.org/pdf/1810.04805.pdf"/>

- **Token embeddings** são as identificações do vocabulário para cada um dos tokens.

- **Sentence Embeddings** é uma classe numérica para distinguir duas sentanças.

- **Transformer positional embeddings** indica a posição de cada palavra na sequência.

<img src="figs/BERT-Arch2.png" width="900" title="https://arxiv.org/pdf/1810.04805.pdf"/>

- Cada saída por token de cada camada de **encoder de transformer** pode ser usado para **word embedding**.

- Os autores idetificaram que o melhor a ser usado como **embedding** seria a concatenação das últimas quatro camadas.

<img src="figs/BERT-Embedding.png" width="900" title="https://arxiv.org/pdf/1810.04805.pdf"/>

# Referências

- https://towardsdatascience.com/word-representation-in-natural-language-processing-part-i-e4cd54fed3d4

- https://towardsdatascience.com/word-representation-in-natural-language-processing-part-ii-1aee2094e08a

- https://towardsdatascience.com/word-representation-in-natural-language-processing-part-iii-2e69346007f

- https://towardsdatascience.com/nlp-extract-contextualized-word-embeddings-from-bert-keras-tf-67ef29f60a7b

- https://machinelearningmastery.com/use-word-embedding-layers-deep-learning-keras/

- https://stackabuse.com/python-for-nlp-word-embeddings-for-deep-learning-in-keras/

- https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf

- https://nlp.stanford.edu/projects/glove/

- https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

- https://arxiv.org/pdf/1810.04805.pdf

- http://jalammar.github.io/illustrated-bert/