La clase anterior *estuvimos* Transformando texto en estructuras de datos, discutimos los métodos de bolsa de palabras (bag-of-words) y *frecuencia de término-inversa*, *frecuencia de documento* (term-frequency and inverse document frequency) para representar texto en forma de números. Estos métodos se basan principalmente en los aspectos sintácticos de una palabra en términos de su presencia o ausencia en un documento o en un corpus de texto. Sin embargo, en los enfoques que hemos discutido hasta ahora, no se tuvo en cuenta la información sobre el vecindario de la palabra, es decir, qué palabras aparecen antes o después de una palabra.

El vecindario de una palabra lleva información importante en términos del contexto que la palabra tiene en una oración. La relación entre la palabra y su vecindario tiende a definir la semántica de la paalabra y su posicionamiento general en una oración

## Entendiendo las representaciones vectoriales de palabras
Una representación vectorial de palabras (word embedding) es una forma aprendida de representar palabras, donde cada palabra se representa mediante un vector en un espacio n-dimensional. Las palabras con significados similares deberían tener representaciones similares. Estas representaciones también pueden ayudar a identificar sinónimos, antónimos y diversas relaciones entre palabras.

Mencionamos que las representaciones vectoriales pueden construirse para palabras individuales; sin embargo, esta idea puede extenderse para desarrollar representaciones para oraciones, documentos, caracteres, y más. Word2vec captura relaciones en el texto, y como resultado, las palabras similares tienen representaciones similares. Intentemos comprender qué tipo de información semántica puede realmente encapsular Word2vec.

Veamos algunos ejemplos para entender qué relaciones y analogías puede capturar un modelo Word2vec. Un ejemplo muy usado aborda la relación entre las palabras Rey, Hombre, Reina y Mujer. Una vez que un modelo Word2vec está correctamente entrenado y se obtienen las representaciones vectoriales de estas palabras, se suele obtener la siguiente relación, siempre que estas palabras formen parte del vocabulario:

**vector (Hombre) – vector (Rey) + vector (Reina) = vector (Mujer)**

Esta ecuación se reduce a la siguiente relación:
**vector (Hombre) + vector (Reina) = vector (Rey) + vector (Mujer)**

La lógica aquí es que la relación Hombre:Rey es la misma que Mujer:Reina. El algoritmo Word2vec es capaz de capturar estas relaciones semánticas al generar una representación vectorial para cada una de estas palabras.

Tomemos un ejemplo más, pero esta vez relacionaremos países con capitales. Si construimos vectores para Francia, Italia y París utilizando Word2vec, ¿cuál sería el resultado de la siguiente ecuación?

**vector (Francia) + vector (Roma) - vector (Italia) = ??**

Obtenemos Paris.

De manera similar al ejemplo anterior, la analogía aquí es que la relación Italia: Roma es la misma que la relación Francia: París.

¡Todo esto parece magia!

Ahora, intentemos entender cómo capturamos exactamente toda esta información. Todo se reduce al algoritmo Word2vec.

## Una palabra se conoce por la compañía que mantiene".

Es un modelo que permite construir vectores de palabras utilizando información contextual del vecindario de una palabra. Para cada palabra cuyo embedding se desarrolla, se basa en las palabras que la rodean. Word2vec utiliza una red neuronal simple para construir esta arquitectura.

Un artículo sobre Word2vec fue publicado en 2013 y representó uno de los hallazgos revolucionarios en el ámbito del Procesamiento de Lenguaje Natural (NLP). Fue desarrollado por Thomas Mikolov et al. en Google y, posteriormente, se hizo de código abierto para que la comunidad lo utilizara y construyera sobre él. Se puede encontrar un enlace al artículo en:
https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf.

## Word2vec – ¿supervisado o no supervisado?
Word2vec es una metodología no supervisada para construir embeddings de palabras. En la arquitectura de Word2vec, se intenta realizar una de las siguientes acciones:

* Predecir la palabra objetivo basada en las palabras del contexto.
* Predecir las palabras del contexto basada en la palabra objetivo.

Aunque se predicen palabras, el componente de predicción o el atributo de clase proviene del propio texto o corpus.

Por lo tanto, no hay un atributo de clase específico disponible, como ocurre en un escenario de aprendizaje supervisado. Debido a esto, Word2vec pertenece a la categoría de algoritmos no supervisados. Todo el aprendizaje proviene de datos no estructurados de manera no supervisada.

# Word2vec preentrenado

Como discutimos previamente, el algoritmo Word2vec intenta capturar relaciones entre palabras en el corpus de texto.

El resultado del algoritmo Word2vec es una matriz de tamaño |V| × D, donde |V| es el tamaño del vocabulario para el que queremos obtener representaciones vectoriales, y D es el número de dimensiones utilizadas para representar cada vector de palabra. Como probablemente hayas adivinado, cada fila de esta matriz contiene el embedding para una palabra individual en el vocabulario.

El valor de D se puede ajustar y experimentar dependiendo de varios factores, como el tamaño del corpus de texto y las diferentes relaciones que se necesitan capturar. Generalmente, en casos de uso reales, D toma valores entre 50 y 300.



In [None]:
pip install gensim



In [None]:
 #Continue with loading the model:
import gensim.downloader as api
model = api.load('word2vec-google-news-300')
#model = KeyedVectors.load_word2vec_format('GoogleNews-vectors-negative300.bin', binary=True)



In [None]:
len(model.key_to_index)


3000000

In [None]:
model.vector_size

300

In [None]:
model['India']

array([-3.24707031e-02,  6.10351562e-02,  1.72851562e-01,  2.53906250e-01,
       -1.97265625e-01, -1.55273438e-01,  1.06933594e-01, -2.31445312e-01,
       -2.09960938e-01, -2.58789062e-02, -1.32812500e-01, -1.04492188e-01,
        3.32031250e-01, -1.74804688e-01,  1.45874023e-02, -7.12890625e-02,
        1.62353516e-02,  6.59179688e-02, -1.54418945e-02,  5.12695312e-02,
        7.05718994e-05, -1.47460938e-01,  2.57873535e-03, -1.23046875e-01,
        1.02539062e-01,  1.39648438e-01, -3.88671875e-01, -1.63085938e-01,
       -8.93554688e-02,  7.27539062e-02, -9.66796875e-02, -2.79296875e-01,
       -4.23828125e-01,  4.24804688e-02,  2.74658203e-02, -8.74023438e-02,
       -2.17773438e-01, -5.34667969e-02,  2.91015625e-01,  3.44238281e-02,
        8.44726562e-02,  8.15429688e-02, -3.78417969e-02,  2.40234375e-01,
       -2.89306641e-02, -2.33154297e-02, -2.27539062e-01,  7.51953125e-02,
        1.80664062e-01,  2.92968750e-02,  5.20019531e-02,  1.51367188e-01,
        1.47247314e-03, -

In [None]:
model.most_similar('India')

[('Indias', 0.7384199500083923),
 ('Indiaâ_€_™', 0.6843485832214355),
 ('Pakistan', 0.6706860661506653),
 ('Delhi', 0.6632035374641418),
 ('Bangalore', 0.6583030819892883),
 ('subcontinent', 0.6579218506813049),
 ('Bangladesh', 0.6527796983718872),
 ('sub_continent', 0.6503037810325623),
 ('Mumbai', 0.6495688557624817),
 ('Sri_Lanka', 0.6445952653884888)]

In [None]:
model.most_similar('Delhi')

[('Kolkata', 0.7663769125938416),
 ('Mumbai', 0.7306069731712341),
 ('Lucknow', 0.7277829647064209),
 ('Patna', 0.7159016728401184),
 ('Guwahati', 0.7072612643241882),
 ('Jaipur', 0.6992815136909485),
 ('Hyderabad', 0.6983195543289185),
 ('Ranchi', 0.6962575912475586),
 ('Bhubaneswar', 0.6959235072135925),
 ('Chandigarh', 0.6940240263938904)]

In [None]:
model.most_similar('France')

[('French', 0.7000749707221985),
 ('extradites_Noriega', 0.6946742534637451),
 ('Belgium', 0.6933181285858154),
 ('Villebon_Sur_Yvette', 0.6776413321495056),
 ('PARIS_AFX_Gaz_de', 0.662800133228302),
 ('called_Xynthia_blew', 0.6588140726089478),
 ('Brive_la', 0.644013524055481),
 ('COLVILLE_SUR_MER', 0.6336530447006226),
 ('Paris', 0.6334909200668335),
 ('Germany', 0.6270756125450134)]

In [None]:
model.most_similar(positive=['man','queen'],negative=['king'],topn=1)

[('woman', 0.7609435319900513)]


$$\text{resultante} = \left( \text{vector}(\text{'man'}) + \text{vector}(\text{'queen'}) \right) - \text{vector}(\text{'king'})$$



In [None]:
model.most_similar(positive=['man','queen'],negative=['king'])

[('woman', 0.7609435319900513),
 ('girl', 0.6139994263648987),
 ('teenage_girl', 0.6040961742401123),
 ('teenager', 0.5825759172439575),
 ('lady', 0.5752554535865784),
 ('boy', 0.5077577233314514),
 ('policewoman', 0.5066847801208496),
 ('schoolgirl', 0.5052095651626587),
 ('blonde', 0.48696190118789673),
 ('person', 0.48637545108795166)]

In [None]:
model.most_similar(positive=['dog','cat'],negative=['dog'],topn=60)

[('cats', 0.8099379539489746),
 ('kitten', 0.7464985251426697),
 ('feline', 0.7326233983039856),
 ('beagle', 0.7150582671165466),
 ('puppy', 0.7075453400611877),
 ('pup', 0.6934290528297424),
 ('pet', 0.6891530752182007),
 ('felines', 0.6755931377410889),
 ('chihuahua', 0.6709762215614319),
 ('pooch', 0.6699831485748291),
 ('kitties', 0.6669641137123108),
 ('dachshund', 0.665578305721283),
 ('poodle', 0.6621246337890625),
 ('stray_cat', 0.6616333723068237),
 ('Shih_Tzu', 0.6573935151100159),
 ('tabby', 0.6555001735687256),
 ('basset_hound', 0.652544379234314),
 ('golden_retriever', 0.6522623896598816),
 ('Siamese_cat', 0.65217125415802),
 ('cocker_spaniel', 0.6466888189315796),
 ('Maine_coon_cat', 0.6458406448364258),
 ('Sheltie', 0.6445403099060059),
 ('Doberman', 0.6432362794876099),
 ('dogs', 0.641852080821991),
 ('moggy', 0.641704261302948),
 ('kittens', 0.6387113332748413),
 ('puppies', 0.6386183500289917),
 ('miniature_poodle', 0.6382548809051514),
 ('pug', 0.6375241279602051),
 

In [None]:
model.most_similar(positive=['airplane','bus'],negative=['airport'],topn=200)

[('buses', 0.5743814706802368),
 ('van', 0.5514587759971619),
 ('Bus', 0.520258367061615),
 ('busses', 0.5069376826286316),
 ('plane', 0.5064378380775452),
 ('minivan', 0.5050926208496094),
 ('minibus', 0.4986606538295746),
 ('schoolbus', 0.4974924921989441),
 ('car', 0.48933902382850647),
 ('truck', 0.4884495139122009),
 ('Greyhound_bus', 0.4828634262084961),
 ('locomotive', 0.4774898886680603),
 ('scooter', 0.47118064761161804),
 ('Amtrak_train', 0.4649185836315155),
 ('vehicle', 0.4641342759132385),
 ('pickup_truck', 0.45953643321990967),
 ('bicycle', 0.45873117446899414),
 ('taxi_cab', 0.4569959342479706),
 ('Cessna_###L', 0.45600804686546326),
 ('jumpseat', 0.45212891697883606),
 ('tricycle', 0.45027580857276917),
 ('double_decker_bus', 0.4451448917388916),
 ('wagon', 0.44512492418289185),
 ('tractor', 0.4423355460166931),
 ('motorcycle', 0.4411865472793579),
 ('tractor_trailer', 0.43942978978157043),
 ('hay_wagon', 0.43818551301956177),
 ('boat', 0.4340013563632965),
 ('motor_sco