# Word2Vec

## Introducción

Word2Vec es una técnica que se utiliza para obtener representaciones vectoriales de palabras. Estas representaciones son útiles para realizar tareas de procesamiento de lenguaje natural, como la clasificación de texto, la traducción automática, la generación de texto, etc. 

Esta técnica se basa en la hipótesis distribucional, que establece que las palabras que aparecen en contextos similares tienen significados similares. Por lo tanto, Word2Vec se entrena para predecir las palabras vecinas de una palabra dada, utilizando un corpus de texto como datos de entrenamiento.

Tiene dos variantes principales: Skip-gram y Continuous Bag of Words (CBOW). La diferencia entre ambas radica en la forma en que se plantea el problema de predicción. En el caso de Skip-gram, se predice el contexto a partir de una palabra dada, mientras que en CBOW se predice la palabra a partir de su contexto.

Por ejemplo en el texto "El gato come pescado", si utilizamos una ventana de tamaño 2, el contexto de la palabra "come" sería "El gato pescado". En el caso de Skip-gram, se trataría de predecir "El", "gato", "pescado" a partir de "come":

| Entrada | Salida |
|---------|--------|
| come    | El     |
| come    | gato   |
| come    | pescado|

Mientras que en el caso de CBOW, se trataría de predecir "come" a partir de "El", "gato", "pescado":

| Entrada | Salida |
|---------|--------|
| El      | come   |
| gato    | come   |
| pescado | come   |

En este notebook, vamos a utilizar la implementación de Word2Vec de la librería Gensim para entrenar un modelo de Skip-gram y explorar las representaciones vectoriales de palabras obtenidas.

In [None]:
### Librerias necesarias Word2Vec

import gensim
from gensim.models import Word2Vec

import numpy as np
import pandas as pd
import re
import os

## 2. Cargar el texto

Para este ejercicio inicial usaremos un texto sencillo, el cual se cargará en una variable.

In [None]:
texto_1 = """Hace varios años, en el pelotón de fusilamiento, el coronel Aureliano Buendía había de recordar aquella tarde remota en que su padre lo llevó a conocer el hielo. """
texto_2 = """Hace tanto tiempo que no me acuerdo de nada, pero recuerdo que mi padre me llevó a conocer el hielo. """
texto_3 = """Hace tiempo que ocurrió la era de hielo, ahorita que solo soy un  perezoso recuerdo aquellos días tan bellos con mis amigos, un mamut y un dientes de sable. """

corpus = [texto_1, texto_2, texto_3]

## 3. Preprocesamiento

El preprocesamiento es una etapa importante en el procesamiento de lenguaje natural. En esta etapa se eliminan las palabras que no aportan información, como los signos de puntuación, las palabras vacías, etc.

In [None]:
############# Preprocesamiento de texto ####################
def preprocesamiento(texto):
    texto = texto.lower()
    texto = re.sub(r"[\W\d_]+", " ", texto)
    texto = texto.split()

    return texto

corpus_procesado = [preprocesamiento(texto) for texto in corpus]

print(corpus_procesado)

## 4. Entrenamiento del modelo

Una vez que se ha preprocesado el texto, se puede entrenar el modelo Word2Vec. Para ello, se utiliza la clase `Word2Vec` de la librería Gensim. Se pueden configurar varios parámetros, como el tamaño del vector, la ventana de contexto, el número de iteraciones, etc.

In [None]:
############# Entrenamiento de modelo Word2Vec ####################

modelo = Word2Vec(corpus_procesado, vector_size=100, window=5, min_count=1, sg=0)

### Aqui cada parametro significa lo siguiente:
# vector_size: Dimension de los vectores de palabras
# window: Numero de palabras que se toman en cuenta para predecir la siguiente palabra
# min_count: Frecuencia minima de palabras para ser considerada
# sg: 0 para CBOW y 1 para Skip-gram



print(modelo.wv.key_to_index)
print(modelo.wv["hielo"])


## 5. Exploración de las representaciones vectoriales

Una vez entrenado el modelo, se pueden explorar las representaciones vectoriales de las palabras. Por ejemplo, se pueden obtener las palabras más similares a una palabra dada, o realizar operaciones de álgebra de vectores para encontrar relaciones entre palabras.

In [None]:
#### Explorar representaciones vectoriales de palabras ####

print(modelo.wv.most_similar("hielo"))

In [None]:
print(modelo.wv.most_similar("padre"))

In [None]:
### ALgebra de palabras ###

print(modelo.wv.most_similar(positive=["hielo", "padre"], negative=["perezoso"]))



## 6. Conclusiones

En este notebook, hemos visto cómo entrenar un modelo Word2Vec utilizando la librería Gensim y explorar las representaciones vectoriales de palabras obtenidas. Estas representaciones son útiles para realizar tareas de procesamiento de lenguaje natural, como la clasificación de texto, la traducción automática, la generación de texto, etc.