# Embeddings y Word2Vec

En este cuaderno vamos a ver:
* Cómo funciona un word embedding y cómo implementarlo en Keras
* Cómo aprender un embedding al entrenar la red neuronal


## 1. Word Embeddings
Word embeddings otorgan una representación densa de los vectores y sus significados relativos. Son una mejora sobre los modelos más sencillos como bolsa de palabras. Los embeddings se aprenden a partir de los datos y se puede reutilizar en los proyectos. 

Otras representaciones de las palabras se consideran dispersas porque son muy grandes y dada una palabra, se suele representar con un gran vector lleno de zeros. Con los embeddings, las palabras se representan como vectores densos donde un vector representa la proyección de una palabra en un espacio vectorial continuo. La posición de la palabra en el espacio vectorial se aprende del texto y se basa a partir de las palabras que la rodean cuando se utiliza. A esa posición se le llama embedding. Hay diferentes maneras de aprender el embedding como Word2Vec y GloVe.
 
Los embeddings pueden ser aprendidos como parte de un modelo de Deep Learning. Aunque puede tardarse tiempo, hace que los embeddings sean específicos al dataset.


## 2. Embeddings en Keras

Keras ya tiene una capa Embedding que se puede usar en redes neuronales con texto.
https://keras.io/layers/embeddings/#embedding

Requiere que la data de entrada está codificada como enteros. Esto quiere decir que cada palabra sea representada por un entero único. Este paso de preprocesamiento se puede hacer con el Tokenizer API que ya viene con Keras. La capa de embedding se inicializa con pesos aleatorios y aprenderá el embedding a partir del dataset.

Los usos que tiene esta capa son:
* Si se usa sola, se aprende un word embedding que se puede guardar y usar en otros modelos.
* Si se usa como parte de un modelo, el embedding se aprenderá a la vez que el modelo aprende.
* Se puede usar para cargar un embedding pre-entrenado utilizando transfer learning.

Esta capa debe ser la primera capa oculta de la red y tiene 3 argumentos
* input_dim: Tamaño del vocabulario que tenemos.
* output_dim: Tamaño del espacio vectorial en donde las palabras serán incrustrado (embedded). Este valor se debe probar, puede ser 32, 100 o más grandes.
* input_length: Este es el tamaño de la secuencia de entrada. Si todos tus documentos tienen mil palabras, sería 1000.

Por ejemplo, la siguiente capa tiene un vocabulario de 200 palabras (representadas desde 0 a 199), un espacio vectorial de 32 dimensiones y cada documento tiene 50 palabras.

```e = Embedding(200, 32, input_length=50)```

El output de una capa de embedding es un vector con un embedding para cada palabra del documento de entrada. Si lo quieres usar en una red neuronal, debes aplanarlo con una capa Flatten y conectarlo con una red densa.

## 3. Embedding en la práctica

Ahora veremos cómo utilizar esto en la práctica para clasificar palabras. Para mantenerlo sencillo, utilizaremos 10 documentos de dos palabras cada uno. Cada documento es clasificado como positivo o como negativo, por lo que es una tarea sencilla de análisis de sentimiento.

In [None]:
from numpy import array
from keras.preprocessing.text import one_hot
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Flatten
from keras.layers.embeddings import Embedding

Creamos nuestros documentos y sus respectivos labels.

In [None]:
docs = ['Well done!',
		'Good work',
		'Great effort',
		'nice work',
		'Excellent!',
		'Weak',
		'Poor effort!',
		'not good',
		'poor work',
		'Could have done better.']

labels = array([1,1,1,1,1,0,0,0,0,0])

Lo siguiente es convertir los documentos a enteros. Keras proporciona la función ```one_hot``` que crea un hash para cada palabra. Estimaremos un vocabulario de 50 para evitar la probabilidad de colisiones.

In [None]:
vocab_size = 50
encoded_docs = [one_hot(d, vocab_size) for d in docs]
print(encoded_docs)

Las secuencias tienen diferentes tamaños y Keras utiliza todas las entradas del mismo tamaño. Vamos a aumentar todas las secuencias de entrada para que tengan un tamaño de 4. Keras ya tiene una función para esto, ```pad_sequences```.

https://keras.io/preprocessing/sequence/#pad_sequences

In [None]:
max_length = 4
padded_docs = pad_sequences(encoded_docs, maxlen=max_length, padding='post')
print(padded_docs)

Ahora estamos listos para definir y entrenar nuestro embedding como parte de la red neuronal. Utilizaremos un espacio vectorial de 8 dimensiones. El modelo es un simple ejemplo de clasificación binaria. Es importante notar que el output de la capa de embedding son 4 vectores de 8 dimensiones cada uno. Esto lo aplanamos a un vector de 32 elementos para que pase por la capa densa.

In [None]:
## TODO: Crea una capa secuencial

## Todo: Crea una capa embedding con 8 dimensiones. Su input_length debe ser max_length

## TODO: Agrega una Flatten Layer


## TODO: Agrega una capa densa

model.summary()

In [None]:
# TODO: Comila con adam y binary_crossentropy. La métrica debe ser accuracy

In [None]:
model.fit(padded_docs, labels, epochs=50, verbose=0)

In [None]:
# evaluate the model
loss, accuracy = model.evaluate(padded_docs, labels, verbose=0)
print('Accuracy: %f' % (accuracy*100))

Podríamos guardar la capa embedding en un archivo y utilizarlo en otros modelos. 

# SOLUCIONES

In [None]:
## TODO: Crea una capa secuencial
model = Sequential()

## Todo: Crea una capa embedding con 8 dimensiones. Su input_length debe ser max_length
model.add(Embedding(vocab_size, 8, input_length=max_length))

## TODO: Agrega una Flatten Layer
model.add(Flatten())

## TODO: Agrega una capa densa
model.add(Dense(1, activation='sigmoid'))
model.summary()

# TODO: Comila con adam y binary_crossentropy. La métrica debe ser accuracy
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])