# Modelo Word2Vec

Es un algoritmo que vectoriza cada token de un léxico, dado un corpus.
Mediante una red neuronal de 1 sola capa, aprende la relacion entre las palabras presentes en un corpus, incluida su similitud.
Asi se puede representar cada palabra dentro de un corpus, como un vector de baja dimensionalidad (100 a 500). Las palabras que significquen aproximadamente lo mismo dentro del corpus, entonces su **vectores de palabras** estarán, aproximadamente, muy cernanos en el espacio vectorial semantico.

Asi estos vectores de palabras representaran el significado semantico de las palabras como vectores en el contexto del corpus de entrenamiento.

## Enfoques
Existen dos enfoques para realizar el word embedding con Word2Vec:
1. Enfoque Skip-Gram
2. Enfoque Continuous Bag of Words (CBOW)
En ambos se utiliza el objeto de *ventana*.
Una ventana, es el objeto que captura una cantidad de palabras cercanas
![imagen.png](attachment:imagen.png)
Por ejemplo, estas ventanas, captura de a 3 palabras.

### Skip-Gram
Entonces Skip-Gram intenta, entrenando con la primera palabra, predecir la del medio, y tambien, entrenando con la ultima palabra, nuevamente predecir la del medio.
#### Arquitectura de Red Neuronal
Supongamos tenemos un corpus de solo 1 documento, y éste esta compuesto por 5 tokens distintos.
Para entrenar esta red neuronal, se representará cada token del léxico como un vector one-hot de dimensión $m$, donde $m$ es igual a la cantidad de tokens en el léxico.
Luego, se coloca una capa profunda de $n$ neuronas, en donde $n$ coincide con el campo semantico en el que vivirán las palabras.
En la capa de salida esde dimension $m$ y se aplica la función $softmax$.
Y finalmente, se entrega el vector de predicción

### Continuous bag of words
En este enfoque, la red neuronal recibe los extremos dentro de una ventana e intenta encontrar la palabra del medio.

La diferencia principal es que con el primer enfoque, la red se entrena 2 veces, y con el segundo enfoque, se entrena solo 1 vez.
#### Arquitectura de Red Neuronal
Misma idea que en **Skip-Gram**, sin embargo la entrada es distinta ya que se suman los vectores one-hot de los vecinos de las palabras que se intentan predecir.

## Vectorizacion de Word2Vec
Una ves que la red neuronal completa el entrenamiento, se toman los pesos de la capa oculta, como una matriz de dimensiones $m\times n$.
Se multiplica el vector one-hot $1\times n$ de corpus y se multiplica por la matriz de pesos, y así se logra un vector de dimension reducida $1\times m$.

Una ves que hacemos la vectorizacion completa de todos los tokens en el corpus, se podrá representar el tensor $X$
![imagen.png](attachment:imagen.png)
En donde cada documento tendrá vectores de dimension $n$.

### Observaciones
El enfoque skip-gram funciona bien con corpus pequeños y tokens raros.
Además, se tendrian más ejemplos para entrenar la red neuronal.

El enfoque CBOW muestra una mayor precision para las palabras frequentes y es más rapido de entrenar.

In [1]:
!pip install gensim



You should consider upgrading via the 'd:\program files\python37\python.exe -m pip install --upgrade pip' command.





In [10]:
import pandas as pd
import nltk
nltk.download('punkt')
from gensim.models.word2vec import Word2Vec

[nltk_data] Downloading package punkt to
[nltk_data]     D:\Users\Memo\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


In [5]:
df = pd.read_csv('movies_reviews.csv', header=None)
df.columns = ['text', 'sent']
df

Unnamed: 0,text,sent
0,review,sentiment
1,"In 1974, the teenager Martha Moxley (Maggie Gr...",1
2,OK... so... I really like Kris Kristofferson a...,0
3,"***SPOILER*** Do not read this, if you think a...",0
4,hi for all the people who have seen this wonde...,1
...,...,...
49996,"OK, lets start with the best. the building. al...",0
49997,The British 'heritage film' industry is out of...,0
49998,I don't even know where to begin on this one. ...,0
49999,Richard Tyler is a little boy who is scared of...,0


In [6]:
import re

def preprocesador(text):
    text = (re.sub('[\W]+', ' ', text.lower()))
    return text

In [7]:
df['text'] = df['text'].apply(preprocesador)

In [8]:
df.head(5)

Unnamed: 0,text,sent
0,review,sentiment
1,in 1974 the teenager martha moxley maggie grac...,1
2,ok so i really like kris kristofferson and his...,0
3,spoiler do not read this if you think about w...,0
4,hi for all the people who have seen this wonde...,1


## Tokenizamos

In [11]:
corpus = df['text'].values.tolist()
tok_corp = [nltk.word_tokenize(sent) for sent in corpus]

## Creamos modelo Word2Vec
- **size** numero de neuronas en la capa oculta
- **window** es el tamaño de la ventana
- **min_count** es, mantener todos los tokens que tengan aparicion mayor o igual a la cantidad entregada
- **workers** es el numero de nucleos de la cpu con los cuales que queremos hacer los calculos
- **sg** es el enfoque que utilizaremos, 1 es skip-gram
- **alpha** es el *learning rate* para minimizar la perdida
- **iter** es el numero de epocas

In [12]:
model = Word2Vec(tok_corp, size=100, window=5, min_count=1, workers=8, sg=1, alpha=0.01)

In [13]:
#Guardamos el modelo
model.save('Word2Vec2')

In [16]:
#Podemos ver el cardinal del lexico o numero de palabras
words = list(model.wv.vocab)
len(words)

101939