# Atividade 1

## Word2Vec

O objetivo deste laboratório é demonstrar como criar uma estrutura capaz de transformar a informação textual apresentada em aula.

Vamos demonstrar isso utilizando apenas o tensorflow.

In [None]:
import pandas as pd
import numpy as np
import tensorflow as tf
import matplotlib.pyplot as plt

### Lista de Documentos

Aqui temos uma lista de strings com o conteúdo apresentado nos slides em aula. Acrescentei um número maior de frases para um resultado mais interessante.

In [None]:
documentos = [
    'o rei e um homem de bravura',
    'a rainha e uma mulher de sabedoria',
    'o menino e um homem jovem',
    'a menina e uma mulher jovem',
    'o principe e um jovem rei',
    'a princesa e uma jovem rainha',
    'principe e um menino que sera rei',
    'princesa e uma menina que sera rainha',
    'o homem e bruto',
    'a mulher e bonita'
]

documentos

### Removendo StopWords

Neste problema, temos todas as frases padronizadas com suas letras minúsculas e sem acentos. Lembre que isso não é uma regra, mas modelamos o problema para respeitar essa padronização.

Agora vamos remover as stopwords do nosso conjunto de documentos. Essa lista de stopwords é resumida, para você ter uma ideia de uma lista mais rica em informação, consulte este [link](https://gist.github.com/alopes/5358189).

Outra biblioteca que traz, além de uma lista de stopwords, outros facilitadores para trabalho e análise de textos em python é a [NLTK (**N**atural **L**anguage **T**ool**K**it)](https://www.nltk.org/).

In [None]:
def remove_sw(documentos):
    stop_words = ['e', 'o', 'a', 'um', 'uma', 'sera', 'que', 'de']
    resultado = []
    for doc in documentos:
        tmp = doc.split(' ')
        for sw in stop_words:
            if sw in tmp:
                tmp.remove(sw)
        resultado.append(" ".join(tmp))
    
    return resultado

Ao aplicar essa função acima em nossa lista de documentos, o que esperamos como resposta é uma lista contendo os mesmos documentos de entrada, porém, sem as _**stopwords**_ registradas no bloco da função.

In [None]:
documentos = remove_sw(documentos)
documentos

### Definindo um vocabulário

Depois dos filtros aplicados, podemos definir então qual é o vocabulário do nosso conjunto de documentos (corpus).

Um vocabulário é um conjunto contendo as palavras pertencentes aos nossos documentos.

In [None]:
vocabulario = []
for doc in documentos:
    for palavra in doc.split(' '):
        vocabulario.append(palavra)

vocabulario = set(vocabulario)
vocabulario

### N-Grams com n=2

Vamos relacionar as palavras utilizando 2-grams, ou seja, vamos analisar o relacionamento dessas palavras com seus 2 vizinhos próximos.

Com essa abordagem, nosso objetivo já é padronizar a informação com o que temos de _**input**_ e _**target**_.

Para facilitar a criação de nossos vetores binários representativos, vamos enumerar as palavras do nosso vocabulário.

In [None]:
# Crio um vetor representativo para cada palavra do vocabulário utilizando Skip-gram com 2 n-grams

label_palavra = {}
N = 2

for i, p in enumerate(vocabulario):
    label_palavra[p] = i
    
label_palavra

Vamos dividir nossos documentos em um vetor de palavras:

In [None]:
ss = []
for s in documentos:
    ss.append(s.split())
    
ss

Organizamos nossa informação como uma matriz entre _**inputs**_ e _**targets**__:

In [None]:
_dt = []
for s in ss:
    for index, p in enumerate(s):
        for vizinho in s[max(index - N, 0) : min(index + N, len(s)) + 1]: 
            if vizinho != p:
                _dt.append([p, vizinho])
                
_dt[:10]

Para facilitar o acesso aos dados, vamos gerar um _DataFrame_ com a matriz acima:

In [None]:
df = pd.DataFrame(_dt, columns = ['input', 'target'])
df.head()

### Encoding

Temos tudo o que precisamos para transformar o dado em um representativo vetorial. Criamos duas novas listas que receberão estes vetores.

In [None]:
inputs  = []
targets = []

one_hot_dim = len(vocabulario)

def one_hot_encoding(dp):
    one_hot_enc     = np.zeros(one_hot_dim)
    one_hot_enc[dp] = 1
    return one_hot_enc

for i, j in zip(df['input'], df['target']):
    inputs.append(one_hot_encoding(label_palavra[i]))
    targets.append(one_hot_encoding(label_palavra[j]))

print(f'Vetores resultado:\nInputs:\n{inputs[:5]}\nTargets:\n{targets[:5]}')
    
X_train = np.asarray(inputs)
Y_train = np.asarray(targets)

print(f'Vetores resultado:\nX_train:\n{X_train[:5]}\nY_train:\n{Y_train[:5]}')

### Rede

Vamos construir a rede exatamente como mostrado nos slides. Estamos interessados nos valores gerados na camada escondida.

In [None]:
x = tf.placeholder(tf.float32, shape=(None, one_hot_dim))
y = tf.placeholder(tf.float32, shape=(None, one_hot_dim))

embedding_nodes = 2 

W_1 = tf.Variable(tf.random_normal([one_hot_dim, embedding_nodes]))
b_1 = tf.Variable(tf.random_normal([1]))
densa = tf.add(tf.matmul(x, W_1), b_1)

W_2 = tf.Variable(tf.random_normal([embedding_nodes, one_hot_dim]))
b_2 = tf.Variable(tf.random_normal([1]))

pred = tf.nn.softmax(tf.add( tf.matmul(densa, W_2), b_2))
loss = tf.reduce_mean(-tf.reduce_sum(y * tf.log(pred), axis=[1]))

train_operator = tf.train.GradientDescentOptimizer(0.05).minimize(loss)

In [None]:
sess = tf.Session()
init = tf.global_variables_initializer()
sess.run(init) 

epochs = 25000

for i in range(epochs):
    sess.run(train_operator, feed_dict={x: X_train, y: Y_train})
    if i % 5000 == 0:
        print(f'iteração {i} - loss {sess.run(loss, feed_dict={x: X_train, y: Y_train})}')

In [None]:
vetores = sess.run(W_1 + b_1)
vetores

In [None]:
w2v_df = pd.DataFrame(vetores, columns = ['x', 'y'])
w2v_df['palavra'] = vocabulario
w2v_df = w2v_df[['palavra', 'x', 'y']]
w2v_df

In [None]:
_, ax = plt.subplots(figsize = (10, 10))

for p, x, y in zip(w2v_df['palavra'], w2v_df['x'], w2v_df['y']):
    ax.annotate(p, (x, y))
    
_P = 1.0
ax_min = np.amin(vetores, axis = 0)[0] - _P
ax_max = np.amax(vetores, axis = 0)[0] + _P
ay_min = np.amin(vetores, axis = 0)[1] - _P
ay_max = np.amax(vetores, axis = 0)[1] + _P
 
plt.xlim(ax_min, ax_max)
plt.ylim(ay_min, ay_max)

## GenSim Word2Vec

A biblioteca [Gensim](https://radimrehurek.com/gensim/) traz a implementação de modelos conhecidos para o _embedding_ textual. Dentro dela há um modelo de Word2Vec pronto, vamos aprender como utilizar a biblioteca.

### Inputs

A classe `Word2Vec` espera recebem um array de _tokens_ resultante dos documentos do _corpus_, isso nada mais é que o conteudo de nossos documentos em formato de array onde cada posição guarda uma palavra (_token_) do documento.

Já fizemos esta operação e guardamos seu resultado na variável `ss`:

In [None]:
ss

In [None]:
from gensim.models import Word2Vec
from sklearn.manifold import TSNE

import multiprocessing

A classe `Word2Vec` possui alguns parâmetros de configuração que podem ser fornecidos no momento de sua inicialização.

Sugiro verificar a [documentação](https://www.pydoc.io/pypi/gensim-3.2.0/autoapi/models/word2vec/index.html#models.word2vec.Word2Vec) para consulta de todas as possibilidades.

In [None]:
w2v = Word2Vec(min_count=1, size=5, iter=1, workers=1, batch_words=1, sg=1)

In [None]:
w2v.build_vocab(ss)

In [None]:
print("Word2Vec - tamanho do vocabulário:", len(w2v.wv.vocab))

In [None]:
w2v.train(ss, total_examples=len(ss), epochs=5)

Traz alguns métodos que facilitam certas operações, por exemplo o método `most_similar(string)` responde sempre com as 10 palavras mais similares na rede em relação a palavra fornecida como parâmetro.

In [None]:
w2v.most_similar("rei")

### t-SNE

Dessa vez temos mais do que duas dimensões em nossa camada escondida. Para plotar nossa representação em um plano cartesiano, precisamos reduzir a dimensionalidade de nossa informação.

O método t-Distributed Stochastic Neighbor Embedding (t-SNE) é muito conhecido na tarefa de redução de dimensionalidade. Você pode ler mais sobre este assunto neste [link](https://lvdmaaten.github.io/tsne/).

In [None]:
tsne = TSNE(n_components=2, random_state=0)

In [None]:
word_vectors_matriz = w2v.wv.vectors

In [None]:
word_vectors_matriz

In [None]:
word_vectors_matriz.shape

In [None]:
x_y_vetores = tsne.fit_transform(word_vectors_matriz)

In [None]:
x_y_vetores

Agora que temos nosso dado em duas dimensões, podemos unificar nossa informação em um `DataFrame` para facilitar o processamento.

In [None]:
w2v_df = pd.DataFrame(x_y_vetores, columns = ['x', 'y'])
w2v_df['palavra'] = vocabulario
w2v_df = w2v_df[['palavra', 'x', 'y']]
w2v_df

Para facilitar a visualização, padronizamos os dados das colunas `x` e `y`.

In [None]:
w2v_df['x'] = (w2v_df['x'] - w2v_df['x'].mean())/w2v_df['x'].std()
w2v_df['y'] = (w2v_df['y'] - w2v_df['y'].mean())/w2v_df['y'].std()

In [None]:
w2v_df

In [None]:
_, ax = plt.subplots(figsize = (10, 10))

for p, x, y in zip(w2v_df['palavra'], w2v_df['x'], w2v_df['y']):
    ax.annotate(p, (x, y))
    
_P = 1.0
ax_min = w2v_df['x'].min() - _P
ax_max = w2v_df['x'].max() + _P
ay_min = w2v_df['y'].min() - _P
ay_max = w2v_df['y'].max() + _P
 
plt.xlim(ax_min, ax_max)
plt.ylim(ay_min, ay_max)

plt.show()

## Desafio

### Word2Vec nos laudos de coronária

O DataFrame abaixo contém 500 laudos radiológicos de angiotomografia de coronária. O desafio é realizar o mesmo processamento que fizemos nos exemplos acima para preparar o dado e utilizar a classe `Word2Vec` para gerar uma representação vetorial de similaridade deste corpus.

In [None]:
import pandas as pd
import nltk
import numpy as np

In [None]:
nltk.download('stopwords')

In [None]:
stopwords = nltk.corpus.stopwords.words('portuguese')

In [None]:
df_coronaria = pd.read_excel('https://raw.githubusercontent.com/pgiaeinstein/nlp/master/data_coronaria.xlsx')

In [None]:
df_coronaria.head()