# Word2Vec
## com Machado de Assis

In [25]:
import collections

import numpy as np
import pandas as pd
import scipy
import tensorflow as tf

CAMINHO_MODELO = "modelo.json"
CAMINHO_DICIONARIO = "dicionario.json"
CAMINHO_DICIONARIO_INDICES = "dicionario_indices.json"
EMBEDDINGS = 100

In [82]:
def criar_dicionario(palavras, minimo_palavras):
    palavras_dicionario = [palavra for (palavra, qtd) in collections.Counter(palavras).items() if qtd >= minimo_palavras]
    dicionario = {palavra: indice for (indice, palavra) in enumerate(palavras_dicionario)}
    unk_indice = len(dicionario)
    dicionario["UNK"] = unk_indice
    dicionario_indices = dict(zip(dicionario.values(), dicionario.keys()))
    return dicionario, dicionario_indices


def criar_dataset(palavras, janela, minimo_palavras=5):
    """
    Recebe uma lista de palavras, o tamanho de uma janela para criar pares
    (palavra, vizinho) de acordo com o tamanho da janela.

    Retorna uma tupla (lista de palavras, lista de vizinhos)
    """
    dicionario, dicionario_indices = criar_dicionario(palavras, minimo_palavras)
    unk_indice = dicionario["UNK"]
    negativas = 1
    dataset = []
    for i in range(janela, len(palavras)-janela):
        for j in range(1, janela+1):
            dataset.append((
                dicionario.get(palavras[i], unk_indice),
                dicionario.get(palavras[i+j], unk_indice),
                1))
            dataset.append((
                dicionario.get(palavras[i], unk_indice),
                dicionario.get(palavras[i-j], unk_indice),
                1))
            for _ in range(2*negativas):
                dataset.append((
                    np.random.randint(0, len(dicionario)),
                    np.random.randint(0, len(dicionario)),
                    0))
    contexto, alvo, etiquetas = zip(*dataset)
#     contexto, alvo, etiquetas = one_hot(contexto), one_hot(alvo), etiquetas
    return contexto, alvo, etiquetas, dicionario, dicionario_indices


def one_hot(X, tamanho=None):
    if not tamanho:
        tamanho = np.max(X)+1
    ox = np.zeros((len(X), tamanho), dtype=np.uint16)
    ox[np.arange(len(X)), X] = 1
    return ox

In [83]:
df_obras = pd.read_csv("obras_machado_de_assis.csv")
sr_texto = df_obras["texto"][:20].str.lower().str.replace("[^\w\s\d]", "").str.replace("\n{2,}", "\n").apply(lambda row: row.split())
palavras = np.concatenate(sr_texto.values)

janela = 3
minimo_palavras = 10
# dicionario, dicionario_indices = criar_dicionario(palavras, minimo_palavras)
contexto, alvo, etiquetas, dicionario, dicionario_indices = criar_dataset(palavras, janela, minimo_palavras)

In [81]:
def criar_modelo(dim_entrada, dim_embedding):
    entrada_alvo = tf.keras.layers.Input((1,), name="entrada_alvo")
    entrada_contexto = tf.keras.layers.Input((1,), name="entrada_contexto")
    embedding = tf.keras.layers.Embedding(dim_entrada, dim_embedding, name='embedding')
    camada_alvo = embedding(entrada_alvo)
    camada_alvo = tf.keras.layers.Reshape((dim_embedding,1))(camada_alvo)
    camada_contexto = embedding(entrada_contexto)
    camada_contexto = tf.keras.layers.Reshape((dim_embedding,1))(camada_contexto)

    similaridade = tf.keras.layers.dot([camada_alvo, camada_contexto], axes=0, normalize=True)
    similaridade = tf.keras.layers.Reshape((1,))(similaridade)

    p_interno = tf.keras.layers.dot([camada_alvo, camada_contexto], axes=1)
    p_interno = tf.keras.layers.Reshape((1,))(p_interno)
    # add the sigmoid output layer
    saida = tf.keras.layers.Dense(1, activation='sigmoid')(p_interno)

    modelo = tf.keras.models.Model(inputs=[entrada_alvo, entrada_contexto], outputs=saida)
    modelo.compile(loss='binary_crossentropy', optimizer='adam', metrics="acc")

    return modelo

modelo = criar_modelo(len(dicionario), EMBEDDINGS)
modelo.summary()

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
entrada_alvo (InputLayer)       (None, 1)            0                                            
__________________________________________________________________________________________________
entrada_contexto (InputLayer)   (None, 1)            0                                            
__________________________________________________________________________________________________
embedding (Embedding)           (None, 1, 100)       100000      entrada_alvo[0][0]               
                                                                 entrada_contexto[0][0]           
__________________________________________________________________________________________________
reshape_55 (Reshape)            (None, 100, 1)       0           embedding[0][0]                  
__________

In [90]:
modelo.fit([contexto, alvo], etiquetas, epochs=2)
# epocas = 10
# for epoca in range(epocas):
#     idx = np.random.randint(0, len(contexto))
#     ctx = [contexto[idx]]
#     alv = [alvo[idx]]
#     etq = [etiquetas[idx]]
#     loss = modelo.train_on_batch([ctx, alv], etq)

Epoch 1/2
 124288/1016376 [==>...........................] - ETA: 53s - loss: 0.3549

KeyboardInterrupt: 