# Word Embedding

## Universidade Federal de Lavras

### Agosto de 2022

Elaborado por: <a href="https://github.com/Victorgonl">Victor Gonçalves Lima</a>

Orientado por: <a href="https://sites.google.com/ufla.br/denilsonpereira/">Prof. Denilson Alves Pereira</a>

# Definições

## Processamento de Linguagens Naturais (NLP)

- Subcampo de línguistica, ciências da computação e inteligência artificial que estuda como computadores processam e analizam dados de **linguagem natural** humana.

## Word Embedding

- Termo que se refere à representação de palavras para análises textuais, de forma que vetores usados para codificar certa palavra seja espacialmente próximo aos vetores de palavras similares.

- Podem ser obtidos através de **modelos de linguagens**, onde palavras e sentenças são mapeadas em vetores de números reais.

# Abordagens para representação de palavras

## Dictionary Lookup

- Método que atribui uma identificação para cada palavra.

- Pode utilizar **lemmatisation** e **stemming** para converter palavras para sua forma básica, sem conjugações por exemplo.

- Um valor que não pertence ao vocabulário é chamado **out of vocabulary**.

- **Out of vocabulary** é representado pelo número do tamanho *n* do vocabulário.

- Por trabalhar com números inteiros, os modelos podem, de forma errônea, assumir a existência de ordem pelos IDs.

<img src="figs/DicionaryLookup.png" width="700" title="https://towardsdatascience.com/word-representation-in-natural-language-processing-part-i-e4cd54fed3d4"/>

In [1]:
from pathlib import Path

In [2]:
path_vocab = "./datasets/words.txt"

words = []
n_words = 0

with Path(path_vocab).open() as f: 
    for word in f: 
        words.append(word.strip())
        print(word.strip(), sep="")

rocks
walking
sleeps
learning
cars
learned


In [3]:
from nltk.stem import WordNetLemmatizer
from nltk.stem import PorterStemmer

In [4]:
base_words = set()

for word in words:
    word = WordNetLemmatizer().lemmatize(word)
    word = PorterStemmer().stem(word)
    base_words.add(word)

for word in base_words:
    print(word)

sleep
car
rock
learn
walk


In [5]:
base_words = list(base_words)

print("ID\t\tWord")
print("-------\t\t-------")
for i in range(len(base_words)):
    print(i, "\t\t", base_words[i], sep="")

ID		Word
-------		-------
0		sleep
1		car
2		rock
3		learn
4		walk


## One-Hot Enconding

- É uma representação vetorial onde os vetores possuem o tamanho *n* do vocabulário + 1 (*n + 1*).

- O vetor de uma palavra é preenchido de 0s, exceto pela posição que representa a palavra, preenchida por 1.

- A posição *n* representa o valor **out of vocabulary**.

- Possui vantagem sobre **Dictionary Lookup**, porém requer muita memória para computação devido ao tamanho.

<img src="figs/One-HotEncoding.png" width="900" title="https://towardsdatascience.com/word-representation-in-natural-language-processing-part-i-e4cd54fed3d4"/>

## Distributional Representation

- Criada a partir do conceito de que palavras que aparecem em contextos similares possuem significados similares.

- Apresenta os contextos que uma palavra occore em matriz.

- As linhas da tabela representa as palavras do vocabulário e as colunas são seus contextos.

- As entradas na tabela são o número de ocorrências de uma palavra em determinado contexto.

<img src="figs/DistributionalRepresentation.png" width="750" title="https://towardsdatascience.com/word-representation-in-natural-language-processing-part-i-e4cd54fed3d4"/>

# Distributional Representations

## Características

- Representa palavras como vetores.

- Cada entrada no vetor representa uma ***hiden feature*** no significado da palavra.

- Podem revelar dependências semânticas e sintáticas.

É possível perceber na representação abaixo que 'flight' e 'plane' possuem valores numéricos próximos, assim como 'river' e 'lake'.

<img src="figs/DistributionalRepresentation-2.png" width="1000" title="https://towardsdatascience.com/word-representation-in-natural-language-processing-part-i-e4cd54fed3d4"/>

## Skip-Gram (from Word2Vev)

- Modelo que faz parte da biblioteca ***Word2Vec***.

- A ideia principal é representar palavras através de seus vizinhos.

- Tenta prever o contexto de uma determinada palavra.

<img src="figs/Skip-Gram-Arch.png" width="300" title="https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf"/>

<h1>
<img src="figs/Skip-Gram-Model1.png" width="300" title="https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf"/>
<img src="figs/Skip-Gram-Model2.png" width="272" title="https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf"/>
</h1>

## GloVe (Global Vectors)

- Diferente do ***Word2Vec***, que captura certos contextos locais, ***GloVe*** explora sobre toda estatística de ocorrência da palavra no dataset.

### Etapas:

- Criar uma matriz de coocorrências de termos.

- Para cada palavra, é computado as probabilidades condicionais $P(k|w)$.

- $w$ é a palavra sendo analisada e $k$ é uma outra palavra do vocabulário.

- Quanto maior o valor de $P$, maior a probabilidade da palavra $w$ estar correlacionada com a palavra $k$.

# Referências

- https://proceedings.neurips.cc/paper/2013/file/9aa42b31882ec039965f3c4923ce901b-Paper.pdf

- https://nlp.stanford.edu/projects/glove/