# Embeddings

Olá, turma! 

Nesta aula, discutiremos um tipo de representação vetorial que lida com os problemas das representações que vimos até agora. Este tipo de representação consegue capturar relações semânticas bem como lida melhor com o contexto de uma palavra numa frase. Assim, uma mesma palavra usada em contextos diferentes consegue ser representada pelo mesmo vetor.

Nesta aula, vamos aprender sobre embeddings, como cria-los e como usá-los em algoritmos de machine learning. Acompanhe pelo jupyter notebook a execução dos códigos.


## Introdução

Nas representações que vimos até aqui, descobrimos várias fraquezas que fazem com que esses modelos se tornem impraticáveis de serem usados em grandes conjuntos de dados. 

1. Elas são representações discretas, ou seja, tratam as unidades de linguagem como unidades atômicas, o que as impede de capturar relações entre palavras.

2. Os vetores de características são representações esparsas e de alta dimensionalidade. Além de prejudicar a eficiência computacional, conforme o tamanho do vocabulário aumenta, a dimensionalidade também aumenta, com a maioria dos valores sendo zero para qualquer vetor, o que prejudica o aprendizado.

3. Não podem lidar com palavras que estão fora do vocabulário.

Para resolver esse problema, métodos para aprender uma representação de baixa dimensão foram sugeridos. ​
Para entendermos o conceito dessas representações, também chamadas de Representações Distribuídas, precisamos entender alguns pontos antes. 

O primeiro deles é o de **Similaridade Distribucional**, que representa a ideia de que o significado de uma palavra pode ser entendido a partir do contexto em que aparece. Isto é conhecido também como conotação, ou seja, o significado é definido pelo contexto. Diferente de denotação, que é o significado literal de uma palavra. 

O segundo ponto é a **Hipótese Distribucional**, que diz que palavras que aparecem em contextos similares possuem significados similares. Assim, se palavras podem ser representadas por vetores, então duas palavras que aparecem em contextos similares devem possuir vetores similares. 

O terceiro refere-se à **Representação Distribucional**, que são os vetores de representação que vimos até o presente momento, caracterizados pela alta dimensão e grande esparsidade. 

Por fim, todos esses conceitos nos levam à **Representação Distribuída**, que são vetores compactos (baixa dimensão) e densos (não-esparsos). Daqui, surgiu o conceito de Word Embeddings. 


## Motivação

A ideia por de trás de Word Embeddings é que é possível representar uma palavra usando um vetor compacto e denso que preserve sua conotação, ou seja, seu significado inferido a partir de um contexto. 


Segundo o dicionário, significado pode ser essas três coisas:

1. Definição atribuída a um termo, palavra, frase ou texto; acepção
2. Aquilo que alguma coisa quer dizer; sentido
3. Uma ideia que é representada por uma palavra ou frase

Logo, percebemos que as representações usadas até aqui perdiam exatamente esse tipo de informação, ou seja:

1. Havia perda de nuances. Exemplo: sinônimos - apto, bom, expert.
2. Novas palavras. Exemplo: 
3. Como eu não levo em consideração o contexto, é difícil calcular a similaridade entre palavras.

Dessa maneira, precisamos de uma representação que consiga capturar tais relações entre diferentes palavras levando em consideração o contexto. Para resolver esse problema, usaremos representações baseadas em similaridade distribucional.

Mas como capturar a relação de uma palavra com seus vizinhos e representar isso através de um vetor denso? Vamos fazer uma analogia.

Nessa analogia, estamos contabilizando o quanto uma pessoa é tímida, numa escala de 0 a 100. Podemos representar alguém que tenha dado a nota 38 da seguinte maneira:


<img src="img/pessoa1.png" />

Normalizando o range para o intervalo (-1,1), temos o seguinte gráfico:

<img src="img/pessoa2.png" />

Podemos adicionar mais um traço de personalidade

<img src="img/pessoa3.png" />

Com esses dois traços de personalidade, podemos traçar um vetor que representa uma determinada pessoa, como por exemplo: 

<img src="img/pessoa4.png" />

E podemos, assim, comparar diversas pessoas: 

<img src="img/pessoa5.png" />

Esses vetores podem ser representados em números, cada qual com a informação associada ao traço de personalidade em questão. A pessoa “azul” pode ser representada por esse vetor, por exemplo: $[-0.4, 0.6]$. Já a pessoa “laranja” pode ser representada por esse vetor: $[-0.3, -0.7]$.

Com esses vetores numéricos, é possível usar uma métrica de distância, distância do cosseno ou Euclidiana, por exemplo, e verificar o quão similar dois vetores são. Essa é a ideia por trás dos Words Embeddings.

A técnica que deu início aos Words Embeddings foi divulgada num paper de 2013, do Google. Essa técnica recebeu o nome de Word2Vec e vamos entender seu funcionamento agora.


## Word2Vec

O que significa dizer que uma representação textual deveria capturar a similaridade distribucional entre palavras? Vamos analisar alguns exemplos. Se eu fornecer a palavra “Brasil”, outras palavras com similaridade distribucional a essa poderiam ser outros países (“Chile”, “Uruguai”, etc.). Se eu forneço a palavra “Bela”, poderia pensar em sinônimos ou antônimos como palavras com similaridade distribucional. Ou seja, o que estamos tentando capturar são palavras que possuem alta probabilidade de aparecerem num mesmo contexto.

Ao aprender tais relações semânticas, o Word2Vec garante que a representação aprendida possui baixa dimensionalidade (palavras são representadas por vetores de 50-1000 dimensões) e são densas (a maioria dos valores dos vetores são diferentes de zero). Tais representações tornam as tarefas de modelos de machine learning mais eficientes.

Antes de entrarmos nos detalhes de como o Word2Vec consegue capturar tais relações, vamos construir uma intuição de como ele funciona. Dado um corpus de texto, o objetivo é aprender embeddings de cada palavra no corpus de modo que o vetor da palavra no espaço de embeddings melhor captura o significado da palavra. Para isso, Word2Vec usa similaridade distribucional e hipótese distribucional, ou seja, extrai o significado de uma palavra a partir do seu contexto. Assim, se duas palavras geralmente ocorrem em contextos similares, é altamente provável que seus significados sejam também similares.

Dessa maneira, o Word2Vec projeta o significado das palavras num espaço vetorial onde palavras com significados similares tendem a serem agrupadas juntas e palavras com significados muito diferentes estão longe umas das outras.

Conceitualmente, o que queremos saber é, dada uma palavra  e as palavras que aparecem em seu contexto , como encontramos um vetor que melhor representa o significado da palavra? Bom, para cada palavra  no corpus, iniciamos um vetor  com valores aleatórios. O modelo Word2Vec refina os valores predizendo  dados os vetores de palavras no contexto . Isto é feito através de uma rede neural de duas camadas, mas antes de construir a rede neural de duas camadas, vamos ver modelos pré-treinados. 

### Word Embeddings Pré-treinados

Treinar seu próprio embedding é uma tarefa muito custosa, tanto em termos de tempo quanto computacionais. Entretanto, para muitos cenários, não é necessário treinar seu próprio embedding, pois muitos embeddings pré-treinados serão suficientes.

Um embedding pré-treinado nada mais é que o processo de treinar um embedding num grande corpus de dados e disponibilizar os vetores na internet. Assim, eles podem ser baixados e usados em várias aplicações que você deseja. Tais embeddings podem ser entendidos como uma grande coleção de pares de chave-valor, em que as chaves representam as palavras no vocabulário e os valores seus vetores correspondentes.

Existe um site chamado Wikipedia2Vec ([link](https://wikipedia2vec.github.io/wikipedia2vec/pretrained/)) que compila vários embeddings pré-treinados para utilização. Vamos agora entender como construímos nosso próprio embedding usando Word2Vec.


### Construindo um Embedding usando Word2Vec

Baseado no artigo que originou o Word2Vec, temos duas variantes arquiteturais para treinar nosso próprio embedding: Continuous Bag of words (CBOW) e SkipGram. Ambas possuem similaridades em muitos aspectos. Vamos começar pelo CBOW:

No CBOW, o objetivo é construir um modelo que corretamente prediga a palavra central dadas as palavras que estão num contexto dela. Dada uma sentença de  palavras, o modelo atribui uma probabilidade  para toda ela. Assim, o objetivo de um modelo de linguagem é atribuir probabilidades de tal maneira que forneça alta probabilidade para “boas” sentenças e baixa probabilidade para “más” sentenças. Uma “boa” sentença seria a frase: “o gato pulou sobre o cachorro”. Já uma “má” sentença seria: “sobre pulou o gato o cachorro”.

Como dito, o CBOW tenta aprender um modelo de linguagem ao tentar predizer a palavra central a partir das palavras em seu contexto. Para exemplificar esse conceito, vamos usar um simples exemplo como se fosse nosso corpus: “the quick brown fox jumps over the lazy dog”.

Se considerarmos a palavra “jumps” como a palavra central, então seu contexto será formado pelas palavras em sua vizinhança. Tomando uma janela de tamanho 2 para definir o contexto de uma palavra, o contexto de “jumps” seriam as palavras “brown”, “fox”, “over” e “the”.

O CBOW faz isso para todas as palavras presente no corpus, ou seja, toma cada palavra no corpus como a palavra a ser predita e tenta predize-la a partir das palavras em seu contexto. A imagem abaixo nos apresenta como seria o processo de treino considerando nosso corpus de exemplo:


<img src="img/cbow_ideia.png" />

Na prática, construímos uma rede neural que irá aprender a relação de uma palavra com as demais no corpus. Vamos ver como construir esse modelo.

<img src="img/cbow.png" />

Já no SkipGram, o objetivo é predizer as palavras num contexto de uma palavra central. Usando o mesmo corpus do exemplo dado no CBOW, esse seria o processo de treino para o skipgram:

<img src="img/skipgram_ideia.png" />

A rede neural usada pelo skipgram é representada pela imagem abaixo:

<img src="img/skipgram.png" />

Na prática, o que estamos construindo é uma rede neural com uma camada de input, uma camada intermediária e uma cada de saída (isso vale tanto para o CBOW quanto para o SkipGram, mas para efeitos didáticos, vamos tomar o SkipGram como padrão a partir de agora). Entretanto, o objetivo final não é usar essa rede treinada, mas usar apenas os pesos aprendidos na camada intermediária da rede. Vamos entender isso em detalhes.

Como exemplo, considere que temos um vocabulário com 10000 palavras únicas. A camada de entrada da nossa rede será um vetor one-hot-encoding de 10000 posições (uma para cada palavra do dicionário). Supondo a palavra “ants”, será colocado 1 na posição do vetor em que essa palavra aparecer e 0 para as demais posições.

A camada de saída da rede é também um vetor de 10000 posições contendo, para cada palavra no vocabulário, a probabilidade de que uma palavra próxima selecionada aleatoriamente seja aquela palavra do vocabulário. Dessa forma, podemos representar a rede neural da seguinte maneira:



<img src="img/rede_skipgram.png" />

Quando falamos de Word Embeddings, dissemos que os vetores são densos e de baixa dimensionalidade. Na prática, ser de baixa dimensionalidade possui relação direta com a quantidade de neurônios na camada intermediária e esse valor é um hiperparametro que determinamos ao realizar o treinamento da rede neural. Para o nosso exemplo, vamos usar um vetor de 300 posições. Dessa maneira, a camada oculta será representada por uma matriz de pesos com 10000 linhas (tamanho do dicionário) e 300 colunas (uma para cada neurônio oculto). O objetivo, então, é aprender os pesos dessa camada oculta, que serão os vetores de embeddings das palavras no vocabulário.

Você pode ter notado que nossa rede possui uma quantidade muito grande de pesos. No exemplo dado, há 3 milhões de pesos entre a camada de entrada e a camada oculta e mais 3 milhões de pesos entre a camada oculta e a camada de saída. Realizar um treino com essas especificações num dataset grande é proibitivo. Pensando nisso, os estudiosos propuseram uma maneira eficiente de realizar o treino minimizando o processamento. Essa técnica foi denominada *negative sampling*.

 
Negative Sampling, então, endereça esse problema fazendo com que cada amostra de treino modifique apenas uma pequena porcentagem dos pesos. Vamos entender seu funcionamento: quando na etapa de treinamento eu tenho um par (“fox”, “quick”) a saída correta é um one-hot vector, ou seja, para o neurônio de saída que corresponde a “quick”  retornar 1 e todos os demais retornarem 0.

Com o negative sampling, vamos aleatoriamente selecionar um pequeno número (5, digamos) de palavras ‘negativas’ para atualizar os pesos (‘negativa’ significa uma palavra que queremos que a rede produza um 0). Ainda atualizaremos os pesos para a palavra “positiva” (a palavra “quick” em nosso exemplo).
Assim, vamos ajustar os pesos da palavra positiva mais os pesos de 5 palavras negativas, o que corresponde a um total de 6 neurônios e 1800 pesos no total. Isso é apenas 0,06% dos 3M de pesos da camada de saída. E como fazemos para selecionar amostras negativas?

As amostras negativas (Negative Samples), ou seja, as 5 palavras que vou treinar para retornar um 0, são selecionadas usando uma distribuição unigrama, em que palavras mais frequentes são mais prováveis de serem selecionadas como amostras negativas.

Supondo um vocabulário de tamanho $n$, a probabilidade de selecionar aleatoriamente uma palavra é dada pela seguinte equação:


$p(w_i) = \frac{f(w_i)}{\sum_{j=0}^{n} f(w_j)}$

Os autores do artigo afirmam que testaram diversas variações dessa equação e aquela que obteve o melhor resultado foi a que elevou a contagem de palavras à potência de $\frac{3}{4}$. Assim, a equação ficaria da seguinte maneira:

$p(w_i) = \frac{f(w_i)^\frac{3}{4}}{\sum_{j=0}^{n} f(w_j)^\frac{3}{4}}$

O motivo é que essa maneira possui a tendência de aumentar a probabilidade de palavras menos frequentes e diminuir a probabilidade de palavras mais frequentes.

Vamos agora para a parte prática, em que vamos construir nosso embedding e usá-lo para treinar um modelo de machine learning.


## Prática

A primeira coisa a ser feita é importar os pacotes necessários:

In [1]:
import numpy as np
import pandas as pd
import gensim
from gensim.models import Word2Vec
import re
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import random
import time
import string
import unicodedata
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn import svm
from sklearn import metrics
import multiprocessing
from sklearnex import patch_sklearn
patch_sklearn()

Extension for Scikit-learn* enabled (https://github.com/uxlfoundation/scikit-learn-intelex)


Depois, vamos ler o mesmo arquivo que usamos anteriormente, para fazermos uma comparação com os tipos de representação vistos nas aulas passadas:

In [2]:
df = pd.read_csv('Bases/uci-news-aggregator.csv')
df = df[['TITLE','CATEGORY']]
#categories: b = business, t = science and technology, e = entertainment, m = health

Agora, precisamos embaralhar os dados. Com isso, evitamos que o modelo aprenda bem somente sobre uma classe, já que ele pode ficar preso em mínimos locais. Para isso, usaremos o método Shuffle, da biblioteca utils da Scikit-Learn. Por fim, reiniciamos o index e eliminamos a nova coluna de índice criada e mostramos as 5 primeiras linhas de nosso dataset.

In [3]:
df = shuffle(df)
df = df.reset_index(drop = True)
df.head()

Unnamed: 0,TITLE,CATEGORY
0,Sacci Comment On Nigerian GDP Rebasing,b
1,Fed turns hawkish or fumbles message,b
2,Gold surges as US Fed vows to stay loose,b
3,Crude & Brent Oil Weekly Fundamental Analysis ...,b
4,Kmart Is Selling Nicki Minaj's 'Anaconda' Shor...,e


Vamos usar o mesmo conjunto de funções para tratamento de texto que escrevemos anteriormente. Vou colocá-lo aqui e relembrar brevemente o que cada função faz:

In [4]:
def normalize_accents(text):
    return unicodedata.normalize("NFKD", text).encode("ASCII", "ignore").decode("utf-8")

def normalize_str(text):
    text = text.lower()
    text = remove_punctuation(text)
    text = normalize_accents(text)
    text = re.sub(re.compile(r" +"), " ",text)
    return " ".join([w for w in text.split()])

def remove_punctuation(text):
    punctuations = string.punctuation
    table = str.maketrans({key: " " for key in punctuations})
    text = text.translate(table)
    return text


def tokenizer(text):
    stop_words = nltk.corpus.stopwords.words("english") # portuguese, caso o dataset seja em português
    if isinstance(text, str):
        text = normalize_str(text)
        text = "".join([w for w in text if not w.isdigit()])
        text = word_tokenize(text)
        text = [x for x in text if x not in stop_words]
        text = [y for y in text if len(y) > 2]
        return [t for t in text]
    else:
        return None

Novamente, aplicamos essas funções para tratar o texto de todas as linhas da coluna Title. O texto tratado estará dentro da nova coluna criada chamada Title_treated.

In [5]:
df['Title_Treated'] = df['TITLE'].apply(tokenizer)

In [6]:
df.head() #verificando os resultados

Unnamed: 0,TITLE,CATEGORY,Title_Treated
0,Sacci Comment On Nigerian GDP Rebasing,b,"[sacci, comment, nigerian, gdp, rebasing]"
1,Fed turns hawkish or fumbles message,b,"[fed, turns, hawkish, fumbles, message]"
2,Gold surges as US Fed vows to stay loose,b,"[gold, surges, fed, vows, stay, loose]"
3,Crude & Brent Oil Weekly Fundamental Analysis ...,b,"[crude, brent, oil, weekly, fundamental, analy..."
4,Kmart Is Selling Nicki Minaj's 'Anaconda' Shor...,e,"[kmart, selling, nicki, minaj, anaconda, short..."


Agora vamos criar variáveis que serão os hiperparametros de entrada para a construção do Word2Vec usando o gensim. O gensim é uma biblioteca criada para representar documentos como um vetor semântico de maneira eficiente e menos dolorida o possível.

In [7]:
# parâmetros do word2vec
dim_vec = 300
min_count = 10
window = 4
num_workers = multiprocessing.cpu_count()
seed = np.random.seed(42)

Com isso, podemos criar um modelo do Word2Vec a partir dos dados da coluna tratada. Importante notar que esse exemplo não captura tudo aquilo que o Word2Vec pode oferecer, visto que na prática treinamos com uma quantidade muito maior de texto. O objetivo aqui é apenas ilustrar o processo de treinamento de embbedings. Mesmo assim, veremos que os resultados serão muito satisfatórios.

In [8]:
# instância do Word2Vec
modelo = Word2Vec(df["Title_Treated"],
                    min_count = min_count, 
                    vector_size = dim_vec, 
                    window = window,
                    seed = seed,
                    workers = num_workers,
                    sg = 1) #sg = 0 -> CBOW e sg = 1 -> skipgram

Podemos verificar o tamanho do vocabulário que o modelo criou:

In [9]:
print("Tamanho do vocabulário do Word2Vec: ", len(modelo.wv))

Tamanho do vocabulário do Word2Vec:  16241


Treinado o modelo, conseguimos explorar um pouco as relações semânticas que ele consegue estabelecer. Veja os exemplos a seguir:

In [10]:
# exemplos das relações semânticas que o word2vec consegue estabelecer
print(modelo.wv.most_similar('samsung'), '\n') # palavra mais similar a 'itau'
print(modelo.wv.similarity('google', 'microsoft'), '\n') # similaridade entre duas palavras
print(modelo.wv.most_similar(positive = ['show', 'movie'], negative = ['home'], topn = 3)) # similaridade considerando exemplos positivos e negativos

[('galaxy', 0.6521656513214111), ('tizen', 0.599277138710022), ('waterproof', 0.5978749990463257), ('cameraphone', 0.583593487739563), ('neo', 0.5833974480628967), ('tab', 0.5823696851730347), ('exynos', 0.5803684592247009), ('specification', 0.5749099254608154), ('htc', 0.5740392804145813), ('fingerprint', 0.5732000470161438)] 

0.29542693 

[('film', 0.4371526539325714), ('flick', 0.39304399490356445), ('biopic', 0.3788643479347229)]


O Word2Vec treinado retorna um vetor de 300 dimensões para cada palavra. Entretanto, estamos trabalhando com frases. Dessa maneira, precisamos calcular o vetor das frases. Para isso, considere o seguinte código:

In [11]:
def meanVector(model,phrase):
    vocab = list(model.wv.index_to_key)
    phrase = " ".join(phrase)
    phrase = [x for x in word_tokenize(phrase) if x in vocab]
    #Quando não houver palavra o vector recebe 0 para todas as posições
    if phrase == []:
        vetor = [0.0]*dim_vec 
    else: 
        #Caso contrário, calculando a matriz da frase
        vetor = np.mean([model.wv[word] for word in phrase],axis=0)
    return vetor

Vamos explicar a função:

1. def meanVector(model, phrase): cria uma função chamada meanVector.

2. vocab = list(model.wv.index_to_key): retorna uma lista com as palavras que formam o vocabulário do modelo

3. phrase = “ “.join(phrase) : junta as palavras numa string só

4. phrase = [x for x in word_tokenize(phrase) if x in vocab]: mantém na variável apenas palavras que estão no dicionário

5. if phrase == []: vetor = [0.0]*dim_vec: se todas as palavras da frase não estiverem no dicionário, cria-se um vetor de 300 dimensoes cujos valores serão 0.0

6. else: vetor = np.mean([model.wv[word] for word in phrase],axis=0): caso contrário, calcula um vetor com a média do vetor de cada palavra na frase

Agora, criamos outra função que usará a função criada anteriormente para retornar as features que serão imputadas no modelo a ser treinado:


In [12]:
def createFeatures(base): 
    features = [meanVector(modelo,base['Title_Treated'][i])for i in range(len(base))]
    return features

Explicação da função:

1. def createFeatures(base): cria uma função chamada createFeatures que recebe o dataframe como parâmetro

2. calcula o vetor médio de cada frase presente na base e retorna num formato de lista de listas


Criaremos uma variável labels, que conterá os rótulos das amostras de treinamento:

In [13]:
labels = np.array(df['CATEGORY']) # label para cada uma das frases

In [14]:
df = createFeatures(df)

Separamos os dados em conjunto de treino e teste, instanciamos e treinamos um modelo SVM, calculando o tempo de treinamento e fazemos a predicao do conjunto de teste:

In [15]:
X_train, X_test, y_train, y_test = train_test_split(df, labels, test_size=0.3,random_state=42)
clf = svm.SVC(kernel='rbf')
start_time = time.time()
clf.fit(X_train, y_train)
end_time = time.time()
y_pred = clf.predict(X_test)

In [16]:
import datetime
sec = end_time-start_time
print(str(datetime.timedelta(seconds = sec)))

0:04:39.237563


Por fim, imprimimos o valor da acurácia no conjunto de teste:

In [17]:
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.9402963874816533
