# Word2Vec

En este notebook, vamos a crear un modelo Word2Vec utilizando texto de un artículo de la wikipedia.

Para ello, lo primero que vamos a hacer es instalar las dependencias necesarias. Necesitaremos `beautifulsoup` para hacer el *scrapping* del texto y `lxml` para parsear el código `html` que nos encontremos y poder extraer, por ejemplo, únicamente los párrafos.

In [7]:
!pip3.10 install beautifulsoup4
!pip3.10 install lxml


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m23.1.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3.10 -m pip install --upgrade pip[0m
Collecting lxml
  Downloading lxml-4.9.2-cp310-cp310-macosx_10_15_x86_64.whl (4.7 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.7/4.7 MB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[?25hInstalling collected packages: lxml
Successfully installed lxml-4.9.2

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m23.1.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3.10 -m pip install --upgrade pip[0m


Ahora realizaremos los imports necesarios:

In [8]:
import bs4 as bs
import urllib.request
import re
import nltk

Y seguidamente descargaremos los paquetes que `nltk` necesita para funcionar:

In [9]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /Users/mimove/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/mimove/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

Ya tenemos el software necesario preparado. Ahora vamos a escoger una página de la Wikipedia para obtener todos los párrafos que se encuentren en ella y utilizarlos como nuestro *corpus*.

Para ello, utilizaremos la librería `urllib` de Python:

In [10]:
datos_wikipedia = urllib.request.urlopen('https://en.wikipedia.org/wiki/Natural_language_processing')

Para evitar problemas, necesitaremos convertir el texto en una codificación UTF-8:

In [11]:
articulo = datos_wikipedia.read().decode('utf-8')

Y ahora extraeremos todos los párrafos que existan en la página:

In [13]:
parser = bs.BeautifulSoup(articulo, 'html.parser')
parrafos = parser.find_all('p')

Seguidamente, los concatenaremos en un único string:

In [14]:
texto = ""
for p in parrafos:
    texto += p.text

In [15]:
texto

'Natural language processing (NLP) is an interdisciplinary subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.  The goal is a computer capable of "understanding" the contents of documents, including the contextual nuances of the language within them. The technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves.\nChallenges in natural language processing frequently involve speech recognition, natural-language understanding, and natural-language generation.\nNatural language processing has its roots in the 1950s. Already in 1950, Alan Turing published an article titled "Computing Machinery and Intelligence" which proposed what is now called the Turing test as a criterion of intelligence, though at the time t

## Pre-procesado

Como ya sabemos, es muy importante limpiar el texto y eliminar las stop-words.

### Limpieza del texto

Vamos a convertir el texto a minúsculas, luego a sustituir todos los caracteres que no sean letras por espacios, y por último a sustituir los espacios de forma que solo quede uno.

In [16]:
texto = texto.lower()
texto

'natural language processing (nlp) is an interdisciplinary subfield of linguistics, computer science, and artificial intelligence concerned with the interactions between computers and human language, in particular how to program computers to process and analyze large amounts of natural language data.  the goal is a computer capable of "understanding" the contents of documents, including the contextual nuances of the language within them. the technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves.\nchallenges in natural language processing frequently involve speech recognition, natural-language understanding, and natural-language generation.\nnatural language processing has its roots in the 1950s. already in 1950, alan turing published an article titled "computing machinery and intelligence" which proposed what is now called the turing test as a criterion of intelligence, though at the time t

In [17]:
texto = re.sub(r'[^a-z]', ' ', texto)
texto

'natural language processing  nlp  is an interdisciplinary subfield of linguistics  computer science  and artificial intelligence concerned with the interactions between computers and human language  in particular how to program computers to process and analyze large amounts of natural language data   the goal is a computer capable of  understanding  the contents of documents  including the contextual nuances of the language within them  the technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves  challenges in natural language processing frequently involve speech recognition  natural language understanding  and natural language generation  natural language processing has its roots in the     s  already in       alan turing published an article titled  computing machinery and intelligence  which proposed what is now called the turing test as a criterion of intelligence  though at the time tha

In [18]:
texto = re.sub(r'\s+', ' ', texto)
texto

'natural language processing nlp is an interdisciplinary subfield of linguistics computer science and artificial intelligence concerned with the interactions between computers and human language in particular how to program computers to process and analyze large amounts of natural language data the goal is a computer capable of understanding the contents of documents including the contextual nuances of the language within them the technology can then accurately extract information and insights contained in the documents as well as categorize and organize the documents themselves challenges in natural language processing frequently involve speech recognition natural language understanding and natural language generation natural language processing has its roots in the s already in alan turing published an article titled computing machinery and intelligence which proposed what is now called the turing test as a criterion of intelligence though at the time that was not articulated as a pr

In [19]:
palabras = nltk.word_tokenize(texto)
palabras

['natural',
 'language',
 'processing',
 'nlp',
 'is',
 'an',
 'interdisciplinary',
 'subfield',
 'of',
 'linguistics',
 'computer',
 'science',
 'and',
 'artificial',
 'intelligence',
 'concerned',
 'with',
 'the',
 'interactions',
 'between',
 'computers',
 'and',
 'human',
 'language',
 'in',
 'particular',
 'how',
 'to',
 'program',
 'computers',
 'to',
 'process',
 'and',
 'analyze',
 'large',
 'amounts',
 'of',
 'natural',
 'language',
 'data',
 'the',
 'goal',
 'is',
 'a',
 'computer',
 'capable',
 'of',
 'understanding',
 'the',
 'contents',
 'of',
 'documents',
 'including',
 'the',
 'contextual',
 'nuances',
 'of',
 'the',
 'language',
 'within',
 'them',
 'the',
 'technology',
 'can',
 'then',
 'accurately',
 'extract',
 'information',
 'and',
 'insights',
 'contained',
 'in',
 'the',
 'documents',
 'as',
 'well',
 'as',
 'categorize',
 'and',
 'organize',
 'the',
 'documents',
 'themselves',
 'challenges',
 'in',
 'natural',
 'language',
 'processing',
 'frequently',
 'invo

In [20]:
print(f'Número de palabras: {len(palabras)}')

Número de palabras: 1310


Ahora que ya tenemos las palabras extraidas, podemos hacer un poco más de limpieza, eliminando las stop-words, como ya sabemos:

In [21]:
from nltk.corpus import stopwords
palabras = [p for p in palabras if p not in stopwords.words('english')]
palabras

['natural',
 'language',
 'processing',
 'nlp',
 'interdisciplinary',
 'subfield',
 'linguistics',
 'computer',
 'science',
 'artificial',
 'intelligence',
 'concerned',
 'interactions',
 'computers',
 'human',
 'language',
 'particular',
 'program',
 'computers',
 'process',
 'analyze',
 'large',
 'amounts',
 'natural',
 'language',
 'data',
 'goal',
 'computer',
 'capable',
 'understanding',
 'contents',
 'documents',
 'including',
 'contextual',
 'nuances',
 'language',
 'within',
 'technology',
 'accurately',
 'extract',
 'information',
 'insights',
 'contained',
 'documents',
 'well',
 'categorize',
 'organize',
 'documents',
 'challenges',
 'natural',
 'language',
 'processing',
 'frequently',
 'involve',
 'speech',
 'recognition',
 'natural',
 'language',
 'understanding',
 'natural',
 'language',
 'generation',
 'natural',
 'language',
 'processing',
 'roots',
 'already',
 'alan',
 'turing',
 'published',
 'article',
 'titled',
 'computing',
 'machinery',
 'intelligence',
 'pro

In [22]:
print(f'Número de palabras: {len(palabras)}')

Número de palabras: 825


Fijaos cómo hemos conseguido limpiar bastante el dataset, quitando practicamente 500 palabras que no aportan información (las stop-words).

Sin embargo, si os fijáis, siguen habiendo cosas que no debería haber, como por ejemplo letras sueltas.

Vamos a inspeccionar un poco:

In [23]:
for p in palabras:
    if len(p) < 3:
        print(p)

e
g
e
g
e
g
e
e
g
e
g
e
g
e
g
e
g
r
e
g
ai


Como podemos observar, tenemos "palabras" que son solo las letras "e", "g" y "r", y además "ai". Lógicamente "AI" es una palabra y no deberíamos eliminarla (las siglas de Artificial Intelligence), pero las demás si podemos quitarlas:

In [24]:
palabras = [p for p in palabras if p not in ['e', 'g', 'r']]
palabras

['natural',
 'language',
 'processing',
 'nlp',
 'interdisciplinary',
 'subfield',
 'linguistics',
 'computer',
 'science',
 'artificial',
 'intelligence',
 'concerned',
 'interactions',
 'computers',
 'human',
 'language',
 'particular',
 'program',
 'computers',
 'process',
 'analyze',
 'large',
 'amounts',
 'natural',
 'language',
 'data',
 'goal',
 'computer',
 'capable',
 'understanding',
 'contents',
 'documents',
 'including',
 'contextual',
 'nuances',
 'language',
 'within',
 'technology',
 'accurately',
 'extract',
 'information',
 'insights',
 'contained',
 'documents',
 'well',
 'categorize',
 'organize',
 'documents',
 'challenges',
 'natural',
 'language',
 'processing',
 'frequently',
 'involve',
 'speech',
 'recognition',
 'natural',
 'language',
 'understanding',
 'natural',
 'language',
 'generation',
 'natural',
 'language',
 'processing',
 'roots',
 'already',
 'alan',
 'turing',
 'published',
 'article',
 'titled',
 'computing',
 'machinery',
 'intelligence',
 'pro

Parece que ya no están presentes, pero vamos a asegurarnos:

In [25]:
for p in palabras:
    if len(p) < 3:
        print(p)

ai


¡Perfecto! Pues ya podemos comenzar con el embedding Word2Vec. Para ello, podemos utilizar una librería llamada `gensim` que ya implementa este modelo y otros (más información en https://radimrehurek.com/gensim/).

La importamos y creamos el objeto `Word2Vec` con las palabras que acabamos de limpiar.

El parámetro `min_count` indica la frecuencia mínima que debe tener una palabra para que se incluya en el embedding. Esto quiere decir que si establecemos `min_count=2`, todas aquellas palabras que únicamente aparezcan una vez en nuestro texto, no se tendrán en cuenta en el embedding.

Por otra parte, el primer argumento (`sentences`) debe ser una lista de oraciones. Nosotros, como las hemos juntado anteriormente (por facilitar el pre-procesamiento), tenemos solo una, así que tendremos que usar `[palabras]` como argumento. Si no, dará error, podéis comprobarlo :)

¡Vamos al lio!

In [28]:
!pip3.10 install gensim

Collecting gensim
  Downloading gensim-4.3.1-cp310-cp310-macosx_10_9_x86_64.whl (24.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.0/24.0 MB[0m [31m6.5 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
Collecting smart-open>=1.8.1
  Downloading smart_open-6.3.0-py3-none-any.whl (56 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.8/56.8 kB[0m [31m1.8 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: smart-open, gensim
Successfully installed gensim-4.3.1 smart-open-6.3.0

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m23.0.1[0m[39;49m -> [0m[32;49m23.1.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython3.10 -m pip install --upgrade pip[0m


In [29]:
from gensim.models import Word2Vec
word2vec = Word2Vec([palabras], min_count=2)

Ahora ya podemos comprobar qué tal funciona nuestro embedding. De acuerdo a lo que hemos visto en clase, deberia de ser capaz de encontrar palabras similares y distintas.

Pero antes, veamos realmente qué es lo que ha sucedido.

Por ejemplo, veamos cuál es la representación de la palabra "machine":

In [30]:
word2vec.wv['machine']

array([ 8.3199600e-03, -4.1171066e-03, -1.3579682e-03,  9.3934330e-04,
        3.0318326e-05,  4.3120739e-04,  6.9777193e-03,  7.8653375e-04,
       -3.8269311e-03, -1.8118671e-03,  5.8743679e-03,  8.5278071e-04,
       -6.2848185e-04,  9.9140294e-03, -4.6583880e-03, -9.9877687e-04,
        9.3876496e-03,  6.5276180e-03,  1.2985583e-03, -1.0073865e-02,
        1.5672618e-03, -2.2455242e-03,  9.5559359e-03,  7.1129185e-04,
        1.4439529e-03,  2.3722753e-03, -2.0898853e-03, -5.4281531e-03,
        1.0592030e-04, -2.1052561e-03,  7.3357983e-03,  8.8572893e-03,
       -4.7358073e-04,  2.5529836e-03, -6.3743945e-03,  2.3767413e-03,
       -6.8046721e-03, -8.7233121e-03, -5.8950717e-03, -9.6503869e-03,
        7.7170399e-03, -5.9983991e-03,  7.9042893e-03, -7.4157757e-03,
        3.7368869e-03,  9.6638035e-03, -8.2986970e-03, -1.0201315e-02,
       -3.9569736e-03, -2.6348280e-03, -2.5222840e-04, -9.2377793e-03,
       -8.5125798e-03,  3.0244207e-03, -8.2577737e-03, -8.4126638e-03,
      

In [31]:
word2vec.wv['machine'].shape

(100,)

Como podéis ver, es un vector de 100 dimensiones. Eso significa que hemos "embutido" (embebido, *embedded*) nuestras palabras en un espacio de 100 dimensiones.

Veamos ahora algunas palabras similares:

In [32]:
palabras_similares = word2vec.wv.most_similar('machine')
for p in palabras_similares:
    print(p)

('part', 0.35439345240592957)
('results', 0.3153097629547119)
('networks', 0.2673349678516388)
('artificial', 0.23489812016487122)
('documents', 0.19522438943386078)
('examples', 0.18759939074516296)
('research', 0.1847141534090042)
('nlp', 0.1771879643201828)
('grammar', 0.17406456172466278)
('though', 0.16943398118019104)


No parece muy coherente...

Hagamos un par de pruebas más para asegurarnos:

In [33]:
palabras_similares = word2vec.wv.most_similar('artificial')
for p in palabras_similares:
    print(p)

('cognitive', 0.3173508048057556)
('recognition', 0.25201547145843506)
('long', 0.24351884424686432)
('machine', 0.23489812016487122)
('though', 0.22814980149269104)
('based', 0.21750907599925995)
('techniques', 0.16258268058300018)
('complex', 0.15636524558067322)
('analyze', 0.1543971300125122)
('decisions', 0.14599691331386566)


In [34]:
palabras_similares = word2vec.wv.most_similar('intelligence')
for p in palabras_similares:
    print(p)

('involve', 0.25295576453208923)
('feature', 0.21464760601520538)
('nlp', 0.1822190135717392)
('ties', 0.17835748195648193)
('increase', 0.1768619418144226)
('shared', 0.15980246663093567)
('well', 0.1521150767803192)
('data', 0.14138799905776978)
('real', 0.1365194320678711)
('system', 0.1308865249156952)


Nada, definitivamente no parece funcionar muy bien.

¿Qué está pasando?

Pues que, por defecto, `Word2Vec` entrena el modelo subyacente (`CBOW` en nuestro caso, porque es el modelo por defecto y no hemos especificado lo contrario) durante 5 épocas. Esto puede ser poco, vamos a subirlo a 200.

También podemos modificar otros parámetros interesantes, como:

- `window`: el tamaño de la ventana de contexto. Por defecto es 5, vamos a subirlo a 7.
- `vector_size`: las dimensiones del embedding. Vamos a subirlas a 120.
- `sg`: 0 para modelo CBOW, 1 para modelo skip-gram.

Vamos a ejecutar el modelo CBOW con una ventana de 7 y un embedding de 120 dimensiones, y a entrenarlo durante 200 épocas, a ver si mejora lo anterior:

In [35]:
from gensim.models import Word2Vec
word2vec = Word2Vec([palabras], min_count=2, window=7, vector_size=120, epochs=200)

Veamos ahora qué tal el embedding:

In [36]:
palabras_similares = word2vec.wv.most_similar('machine')
for p in palabras_similares:
    print(p)

('paradigm', 0.9956002831459045)
('learning', 0.992813766002655)
('learn', 0.9885981678962708)
('designed', 0.9879743456840515)
('popularity', 0.985977828502655)
('deep', 0.9736624956130981)
('modeling', 0.9687530994415283)
('sequence', 0.968624472618103)
('translation', 0.9655489921569824)
('revolution', 0.9642518758773804)


Parece un poco más coherente. Palabras como "learning", "learn", "deep", "modeling", "sequence", etc. tienen que ver con "machine".

Veamos las otras:

In [37]:
palabras_similares = word2vec.wv.most_similar('artificial')
for p in palabras_similares:
    print(p)

('intelligence', 0.9929262399673462)
('test', 0.9865314960479736)
('turing', 0.9823859930038452)
('understanding', 0.9820259809494019)
('computers', 0.9783279299736023)
('well', 0.9760391712188721)
('chinese', 0.9756056070327759)
('generation', 0.9710023999214172)
('computer', 0.9674138426780701)
('proposed', 0.9660625457763672)


In [38]:
palabras_similares = word2vec.wv.most_similar('intelligence')
for p in palabras_similares:
    print(p)

('test', 0.9979279637336731)
('turing', 0.9969287514686584)
('artificial', 0.992926299571991)
('generation', 0.9903411269187927)
('well', 0.9846389889717102)
('chinese', 0.9823055267333984)
('proposed', 0.9717522263526917)
('though', 0.9699887633323669)
('understanding', 0.9647840261459351)
('documents', 0.9584110379219055)


Nada mal, ¿no os parece?

### Ejercicio

Construid un modelo Word2Vec, usando el modelo **skip-gram**, para la página misma página de Wikipedia que hemos usado en el ejemplo.

Comparad los resultados. ¿Qué opináis, funciona mejor o peor?

In [44]:
skip_gram = Word2Vec([palabras], min_count=2, window=7, vector_size=120, epochs=200,sg=1)



In [45]:
palabras_similares = skip_gram.wv.most_similar('machine')
for p in palabras_similares:
    print(p)

('learning', 0.9454259276390076)
('paradigm', 0.8562191128730774)
('learn', 0.8243643045425415)
('deep', 0.8028841018676758)
('popularity', 0.8004092574119568)
('revolution', 0.784738302230835)
('corpus', 0.7750020623207092)
('network', 0.7711865305900574)
('sequence', 0.7615213990211487)
('late', 0.761120080947876)


In [46]:
palabras_similares = skip_gram.wv.most_similar('artificial')
for p in palabras_similares:
    print(p)

('intelligence', 0.9777713418006897)
('test', 0.8820064663887024)
('computers', 0.8537931442260742)
('turing', 0.842925488948822)
('generation', 0.814344584941864)
('well', 0.7750426530838013)
('understanding', 0.7654223442077637)
('science', 0.7599853873252869)
('computer', 0.754834771156311)
('interdisciplinary', 0.7426678538322449)


In [47]:
palabras_similares = skip_gram.wv.most_similar('intelligence')
for p in palabras_similares:
    print(p)

('artificial', 0.9777713418006897)
('test', 0.9373864531517029)
('turing', 0.9327062368392944)
('generation', 0.8890693187713623)
('computers', 0.8127021789550781)
('well', 0.8094770908355713)
('understanding', 0.7696666717529297)
('separate', 0.7498277425765991)
('proposed', 0.7475076913833618)
('though', 0.7462031245231628)


La verdad es que no hay una unica respuesta. 

Segun el articulo original el Skp-Gram funciona bien con conjuntos de datos pequeñso y puede representar mejor las palabras menos frecuentes. 

Sin embargo, CBOW se entra más rapdido y representa mejor las palabras mas frecuentes.

### Recursos:
- https://www.kaggle.com/code/vipulgandhi/bag-of-words-model-for-beginners
- https://towardsdatascience.com/how-to-train-a-word2vec-model-from-scratch-with-gensim-c457d587e031