# Word2Vec

En este notebook, vamos a crear un modelo Word2Vec utilizando texto de un artículo de la wikipedia.

Para ello, lo primero que vamos a hacer es instalar las dependencias necesarias. Necesitaremos `beautifulsoup` para hacer el *scrapping* del texto y `lxml` para parsear el código `html` que nos encontremos y poder extraer, por ejemplo, únicamente los párrafos.

In [1]:
!pip install beautifulsoup4
!pip install lxml



Ahora realizaremos los imports necesarios:

In [2]:
import bs4 as bs
import urllib.request
import re
import nltk

Y seguidamente descargaremos los paquetes que `nltk` necesita para funcionar:

In [3]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

Ya tenemos el software necesario preparado. Ahora vamos a escoger una página de la Wikipedia para obtener todos los párrafos que se encuentren en ella y utilizarlos como nuestro *corpus*.

Para ello, utilizaremos la librería `urllib` de Python:

In [4]:
datos_wikipedia = urllib.request.urlopen('https://en.wikipedia.org/wiki/Natural_language_processing')

Para evitar problemas, necesitaremos convertir el texto en una codificación UTF-8:

In [5]:
articulo = datos_wikipedia.read().decode('utf-8')

Y ahora extraeremos todos los párrafos que existan en la página:

In [6]:
parser = bs.BeautifulSoup(articulo, 'lxml')
parrafos = parser.find_all('p')

Seguidamente, los concatenaremos en un único string:

In [7]:
texto = ""
for p in parrafos:
    texto += p.text

In [8]:
texto

'Natural language processing (NLP) is an interdisciplinary subfield of computer science and information retrieval. It is primarily concerned with giving computers the ability to support and manipulate human language. It involves processing natural language datasets, such as text corpora or speech corpora, using either rule-based or probabilistic (i.e. statistical and, most recently, neural network-based) machine learning approaches. The goal is a computer capable of "understanding"[citation needed] the contents of documents, including the contextual nuances of the language within them. To this end, natural language processing often borrows ideas from theoretical linguistics. The technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves.\nChallenges in natural language processing frequently involve speech recognition, natural-language understanding, and natural-language generation.\nNatural lang

## Pre-procesado

Como ya sabemos, es muy importante limpiar el texto y eliminar las stop-words.

### Limpieza del texto

Vamos a convertir el texto a minúsculas, luego a sustituir todos los caracteres que no sean letras por espacios, y por último a sustituir los espacios de forma que solo quede uno.

In [9]:
texto = texto.lower()
texto

'natural language processing (nlp) is an interdisciplinary subfield of computer science and information retrieval. it is primarily concerned with giving computers the ability to support and manipulate human language. it involves processing natural language datasets, such as text corpora or speech corpora, using either rule-based or probabilistic (i.e. statistical and, most recently, neural network-based) machine learning approaches. the goal is a computer capable of "understanding"[citation needed] the contents of documents, including the contextual nuances of the language within them. to this end, natural language processing often borrows ideas from theoretical linguistics. the technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves.\nchallenges in natural language processing frequently involve speech recognition, natural-language understanding, and natural-language generation.\nnatural lang

In [10]:
texto = re.sub(r'[^a-z]', ' ', texto)
texto

'natural language processing  nlp  is an interdisciplinary subfield of computer science and information retrieval  it is primarily concerned with giving computers the ability to support and manipulate human language  it involves processing natural language datasets  such as text corpora or speech corpora  using either rule based or probabilistic  i e  statistical and  most recently  neural network based  machine learning approaches  the goal is a computer capable of  understanding  citation needed  the contents of documents  including the contextual nuances of the language within them  to this end  natural language processing often borrows ideas from theoretical linguistics  the technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves  challenges in natural language processing frequently involve speech recognition  natural language understanding  and natural language generation  natural langua

In [11]:
texto = re.sub(r'\s+', ' ', texto)
texto

'natural language processing nlp is an interdisciplinary subfield of computer science and information retrieval it is primarily concerned with giving computers the ability to support and manipulate human language it involves processing natural language datasets such as text corpora or speech corpora using either rule based or probabilistic i e statistical and most recently neural network based machine learning approaches the goal is a computer capable of understanding citation needed the contents of documents including the contextual nuances of the language within them to this end natural language processing often borrows ideas from theoretical linguistics the technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves challenges in natural language processing frequently involve speech recognition natural language understanding and natural language generation natural language processing has its r

In [12]:
palabras = nltk.word_tokenize(texto)
palabras

['natural',
 'language',
 'processing',
 'nlp',
 'is',
 'an',
 'interdisciplinary',
 'subfield',
 'of',
 'computer',
 'science',
 'and',
 'information',
 'retrieval',
 'it',
 'is',
 'primarily',
 'concerned',
 'with',
 'giving',
 'computers',
 'the',
 'ability',
 'to',
 'support',
 'and',
 'manipulate',
 'human',
 'language',
 'it',
 'involves',
 'processing',
 'natural',
 'language',
 'datasets',
 'such',
 'as',
 'text',
 'corpora',
 'or',
 'speech',
 'corpora',
 'using',
 'either',
 'rule',
 'based',
 'or',
 'probabilistic',
 'i',
 'e',
 'statistical',
 'and',
 'most',
 'recently',
 'neural',
 'network',
 'based',
 'machine',
 'learning',
 'approaches',
 'the',
 'goal',
 'is',
 'a',
 'computer',
 'capable',
 'of',
 'understanding',
 'citation',
 'needed',
 'the',
 'contents',
 'of',
 'documents',
 'including',
 'the',
 'contextual',
 'nuances',
 'of',
 'the',
 'language',
 'within',
 'them',
 'to',
 'this',
 'end',
 'natural',
 'language',
 'processing',
 'often',
 'borrows',
 'ideas

In [13]:
print(f'Número de palabras: {len(palabras)}')

Número de palabras: 1166


Ahora que ya tenemos las palabras extraidas, podemos hacer un poco más de limpieza, eliminando las stop-words, como ya sabemos:

In [14]:
from nltk.corpus import stopwords
palabras = [p for p in palabras if p not in stopwords.words('english')]
palabras

['natural',
 'language',
 'processing',
 'nlp',
 'interdisciplinary',
 'subfield',
 'computer',
 'science',
 'information',
 'retrieval',
 'primarily',
 'concerned',
 'giving',
 'computers',
 'ability',
 'support',
 'manipulate',
 'human',
 'language',
 'involves',
 'processing',
 'natural',
 'language',
 'datasets',
 'text',
 'corpora',
 'speech',
 'corpora',
 'using',
 'either',
 'rule',
 'based',
 'probabilistic',
 'e',
 'statistical',
 'recently',
 'neural',
 'network',
 'based',
 'machine',
 'learning',
 'approaches',
 'goal',
 'computer',
 'capable',
 'understanding',
 'citation',
 'needed',
 'contents',
 'documents',
 'including',
 'contextual',
 'nuances',
 'language',
 'within',
 'end',
 'natural',
 'language',
 'processing',
 'often',
 'borrows',
 'ideas',
 'theoretical',
 'linguistics',
 'technology',
 'accurately',
 'extract',
 'information',
 'insights',
 'contained',
 'documents',
 'well',
 'categorize',
 'organize',
 'documents',
 'challenges',
 'natural',
 'language',
 

In [15]:
print(f'Número de palabras: {len(palabras)}')

Número de palabras: 728


Fijaos cómo hemos conseguido limpiar bastante el dataset, quitando practicamente 500 palabras que no aportan información (las stop-words).

Sin embargo, si os fijáis, siguen habiendo cosas que no debería haber, como por ejemplo letras sueltas.

Vamos a inspeccionar un poco:

In [16]:
for p in palabras:
    if len(p) < 3:
        print(p)

e
e
g
e
g
n
co
co
e
g
e
ai
ai
e
g
e
g
e
g
r
e
g
ai
j


Como podemos observar, tenemos "palabras" que son solo las letras "e", "g" y "r", y además "ai". Lógicamente "AI" es una palabra y no deberíamos eliminarla (las siglas de Artificial Intelligence), pero las demás si podemos quitarlas:

In [17]:
palabras = [p for p in palabras if p not in ['e', 'g', 'r', 'n', 'co', 'j']]
palabras

['natural',
 'language',
 'processing',
 'nlp',
 'interdisciplinary',
 'subfield',
 'computer',
 'science',
 'information',
 'retrieval',
 'primarily',
 'concerned',
 'giving',
 'computers',
 'ability',
 'support',
 'manipulate',
 'human',
 'language',
 'involves',
 'processing',
 'natural',
 'language',
 'datasets',
 'text',
 'corpora',
 'speech',
 'corpora',
 'using',
 'either',
 'rule',
 'based',
 'probabilistic',
 'statistical',
 'recently',
 'neural',
 'network',
 'based',
 'machine',
 'learning',
 'approaches',
 'goal',
 'computer',
 'capable',
 'understanding',
 'citation',
 'needed',
 'contents',
 'documents',
 'including',
 'contextual',
 'nuances',
 'language',
 'within',
 'end',
 'natural',
 'language',
 'processing',
 'often',
 'borrows',
 'ideas',
 'theoretical',
 'linguistics',
 'technology',
 'accurately',
 'extract',
 'information',
 'insights',
 'contained',
 'documents',
 'well',
 'categorize',
 'organize',
 'documents',
 'challenges',
 'natural',
 'language',
 'proce

Parece que ya no están presentes, pero vamos a asegurarnos:

In [18]:
for p in palabras:
    if len(p) < 3:
        print(p)

ai
ai
ai


¡Perfecto! Pues ya podemos comenzar con el embedding Word2Vec. Para ello, podemos utilizar una librería llamada `gensim` que ya implementa este modelo y otros (más información en https://radimrehurek.com/gensim/).

La importamos y creamos el objeto `Word2Vec` con las palabras que acabamos de limpiar.

El parámetro `min_count` indica la frecuencia mínima que debe tener una palabra para que se incluya en el embedding. Esto quiere decir que si establecemos `min_count=2`, todas aquellas palabras que únicamente aparezcan una vez en nuestro texto, no se tendrán en cuenta en el embedding.

Por otra parte, el primer argumento (`sentences`) debe ser una lista de oraciones. Nosotros, como las hemos juntado anteriormente (por facilitar el pre-procesamiento), tenemos solo una, así que tendremos que usar `[palabras]` como argumento. Si no, dará error, podéis comprobarlo :)

¡Vamos al lio!

In [19]:
from gensim.models import Word2Vec
word2vec = Word2Vec([palabras], min_count=2)

Ahora ya podemos comprobar qué tal funciona nuestro embedding. De acuerdo a lo que hemos visto en clase, deberia de ser capaz de encontrar palabras similares y distintas.

Pero antes, veamos realmente qué es lo que ha sucedido.

Por ejemplo, veamos cuál es la representación de la palabra "machine":

In [20]:
word2vec.wv['machine']

array([ 7.0237364e-03, -1.4241796e-03,  7.9841511e-03, -9.5540034e-03,
       -7.8939823e-03, -7.0929802e-03, -3.7618123e-03,  5.5939187e-03,
       -3.9453967e-03, -8.6634066e-03,  8.2592433e-03, -4.2620678e-03,
        8.4403576e-03, -4.6694092e-03,  3.8038618e-03,  4.7841482e-03,
        2.4747187e-03, -2.9532716e-03,  2.8547025e-03, -9.0460517e-03,
       -2.6016242e-03, -2.5763903e-03,  7.4134874e-03, -3.5664972e-03,
       -6.5009990e-03,  4.5518805e-03, -6.7771104e-04, -3.6508630e-03,
        6.6508767e-03,  3.9717713e-03, -3.7194651e-03,  7.9636293e-04,
        9.5401509e-03,  7.2580143e-03,  6.2282165e-03,  4.8800837e-03,
        2.4801034e-03, -1.8851322e-03, -6.3009271e-03, -6.2097155e-04,
       -1.4609639e-03, -9.0506708e-04, -6.4849467e-03,  7.3242290e-03,
       -6.3958727e-03, -7.2686109e-03, -2.9057176e-03, -1.6300885e-03,
       -7.4634571e-03,  8.7312696e-04, -5.3272196e-03, -1.4989752e-03,
       -7.1619949e-03,  2.0371955e-03,  3.2798995e-03,  1.5396694e-06,
      

In [21]:
word2vec.wv['machine'].shape

(100,)

Como podéis ver, es un vector de 100 dimensiones. Eso significa que hemos "embutido" (embebido, *embedded*) nuestras palabras en un espacio de 100 dimensiones.

Veamos ahora algunas palabras similares:

In [22]:
palabras_similares = word2vec.wv.most_similar('machine')
for p in palabras_similares:
    print(p)

('network', 0.2733089327812195)
('though', 0.154647096991539)
('science', 0.14088661968708038)
('among', 0.1399298757314682)
('learning', 0.13779351115226746)
('neural', 0.12052781879901886)
('approach', 0.12033440172672272)
('tagging', 0.1187024861574173)
('although', 0.11561562865972519)
('well', 0.11462866514921188)


No parece muy coherente...

Hagamos un par de pruebas más para asegurarnos:

In [23]:
palabras_similares = word2vec.wv.most_similar('artificial')
for p in palabras_similares:
    print(p)

('study', 0.2848104238510132)
('nlp', 0.22207187116146088)
('proposed', 0.2208883911371231)
('although', 0.22075864672660828)
('commonly', 0.1981177181005478)
('develop', 0.18781490623950958)
('university', 0.16736182570457458)
('many', 0.14883121848106384)
('time', 0.14283111691474915)
('since', 0.1407792568206787)


In [24]:
palabras_similares = word2vec.wv.most_similar('intelligence')
for p in palabras_similares:
    print(p)

('applied', 0.21009911596775055)
('see', 0.21003179252147675)
('grammar', 0.19884181022644043)
('translation', 0.1929859071969986)
('shared', 0.18842123448848724)
('results', 0.17424318194389343)
('models', 0.16210749745368958)
('manipulating', 0.1433938890695572)
('chinese', 0.1428874433040619)
('information', 0.1411733478307724)


Nada, definitivamente no parece funcionar muy bien.

¿Qué está pasando?

Pues que, por defecto, `Word2Vec` entrena el modelo subyacente (`CBOW` en nuestro caso, porque es el modelo por defecto y no hemos especificado lo contrario) durante 5 épocas. Esto puede ser poco, vamos a subirlo a 500 épocas.

También podemos modificar otros parámetros interesantes, como:

- `min_count`: el número mínimo de ocurrencias para que se considere cada palabra. Lo aumentaremos a 3.
- `window`: el tamaño de la ventana de contexto. Por defecto es 5, vamos a subirlo a 9.
- `vector_size`: las dimensiones del embedding. Vamos a subirlas a 120.
- `sg`: 0 para modelo CBOW, 1 para modelo skip-gram.

Vamos a ejecutar el modelo CBOW con una ventana de 9 y un embedding de 120 dimensiones, y a entrenarlo durante 500 épocas, a ver si mejora lo anterior:

In [25]:
from gensim.models import Word2Vec
word2vec = Word2Vec([palabras], min_count=3, window=9, vector_size=120, epochs=500)

Veamos ahora qué tal el embedding:

In [26]:
palabras_similares = word2vec.wv.most_similar('machine')
for p in palabras_similares:
    print(p)

('words', 0.9704554677009583)
('hand', 0.9610974192619324)
('hidden', 0.9591155052185059)
('rules', 0.9571223855018616)
('layer', 0.954377293586731)
('learning', 0.9528979659080505)
('network', 0.9366095066070557)
('many', 0.9288315773010254)
('word', 0.9116566181182861)
('neural', 0.8856338262557983)


Parece un poco más coherente.

Veamos las otras:

In [27]:
palabras_similares = word2vec.wv.most_similar('artificial')
for p in palabras_similares:
    print(p)

('ideas', 0.9404318928718567)
('intelligence', 0.9397491812705994)
('understanding', 0.8340374231338501)
('computational', 0.8060718178749084)
('linguistics', 0.7854410409927368)
('computer', 0.78409743309021)
('grammar', 0.7828748226165771)
('science', 0.7649034857749939)
('nlp', 0.763963520526886)
('documents', 0.7522004842758179)


In [28]:
palabras_similares = word2vec.wv.most_similar('intelligence')
for p in palabras_similares:
    print(p)

('understanding', 0.9606847167015076)
('artificial', 0.9397493004798889)
('computer', 0.9393455982208252)
('documents', 0.9207096695899963)
('natural', 0.8635205626487732)
('processing', 0.807485044002533)
('language', 0.8044574856758118)
('ideas', 0.7871613502502441)
('linguistics', 0.6497765183448792)
('computational', 0.6338580846786499)


Nada mal, ¿no os parece?

### Ejercicio

Construid un modelo Word2Vec, usando el modelo **skip-gram**, para la página misma página de Wikipedia que hemos usado en el ejemplo.

Comparad los resultados. ¿Qué opináis, funciona mejor o peor?

In [29]:
from gensim.models import Word2Vec

# Construcción del modelo Word2Vec con skip-gram
word2vec_skip_gram = Word2Vec(sentences=[palabras], min_count=3, window=9, vector_size=120, epochs=500, sg=1)

# Obtener palabras similares para 'machine'
palabras_similares_skip_gram_machine = word2vec_skip_gram.wv.most_similar('machine')
print("Palabras similares para 'machine' con skip-gram:")
for palabra in palabras_similares_skip_gram_machine:
    print(palabra)

# Obtener palabras similares para 'artificial'
palabras_similares_skip_gram_artificial = word2vec_skip_gram.wv.most_similar('artificial')
print("\nPalabras similares para 'artificial' con skip-gram:")
for palabra in palabras_similares_skip_gram_artificial:
    print(palabra)

# Obtener palabras similares para 'intelligence'
palabras_similares_skip_gram_intelligence = word2vec_skip_gram.wv.most_similar('intelligence')
print("\nPalabras similares para 'intelligence' con skip-gram:")
for palabra in palabras_similares_skip_gram_intelligence:
    print(palabra)


Palabras similares para 'machine' con skip-gram:
('neural', 0.8453014492988586)
('word', 0.833699107170105)
('language', 0.815134584903717)
('processing', 0.8082045316696167)
('network', 0.8046045303344727)
('words', 0.7754565477371216)
('statistical', 0.767419695854187)
('natural', 0.7642041444778442)
('based', 0.750962495803833)
('learning', 0.7434543371200562)

Palabras similares para 'artificial' con skip-gram:
('intelligence', 0.9548230767250061)
('ideas', 0.9427052140235901)
('computer', 0.6881476044654846)
('documents', 0.674165666103363)
('using', 0.655215322971344)
('grammar', 0.6285039186477661)
('approaches', 0.5711163282394409)
('understanding', 0.567664623260498)
('computational', 0.5438721179962158)
('models', 0.5138964056968689)

Palabras similares para 'intelligence' con skip-gram:
('artificial', 0.9548231363296509)
('ideas', 0.8619689345359802)
('computer', 0.827447772026062)
('documents', 0.8115591406822205)
('understanding', 0.6916303634643555)
('using', 0.5630097985

En general, ambos modelos parecen funcionar bien en cuanto a la generación de palabras similares, pero hay algunas diferencias notables. El modelo skip-gram tiende a producir palabras más relacionadas con el contexto específico de procesamiento de lenguaje natural, mientras que CBOW parece capturar una gama más amplia de términos que incluyen tanto conceptos generales como específicos del campo.

No hay una respuesta definitiva sobre cuál método funciona "mejor" ya que esto puede depender del contexto específico de la aplicación y de lo que se esté buscando en las representaciones vectoriales de las palabras. En este caso, parece que el modelo skip-gram podría ser más adecuado si estás interesado principalmente en términos específicos del procesamiento de lenguaje natural, mientras que CBOW podría ser más útil si buscas una variedad más amplia de términos relacionados.

### Recursos:
- https://www.kaggle.com/code/vipulgandhi/bag-of-words-model-for-beginners
- https://towardsdatascience.com/how-to-train-a-word2vec-model-from-scratch-with-gensim-c457d587e031