<a href="https://colab.research.google.com/github/jsebastianquiroga/analitica_ia_puj/blob/main/NLP/Gensim_word_vector_visualization_standford.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# WORD 2 VEC Y GENSIM




Word2Vec es un algoritmo de procesamiento del lenguaje natural (NLP) que utiliza redes neuronales profundas para aprender representaciones vectoriales de palabras a partir de grandes conjuntos de datos de texto. El objetivo es capturar la semántica de las palabras y la relación entre ellas en un espacio vectorial de baja dimensión.

Por otro lado, Gensim es una biblioteca de NLP de código abierto que incluye herramientas para la creación de modelos de Word2Vec y también proporciona una herramienta de visualización de vectores de palabras. La visualización de vectores de palabras es una técnica que permite visualizar en un gráfico de dos o tres dimensiones cómo se relacionan las palabras entre sí en función de la proximidad semántica en un espacio vectorial. Esta visualización es muy útil para comprender cómo se relacionan las palabras en un conjunto de datos de texto y para identificar patrones y tendencias en el uso del lenguaje.

In [None]:
import numpy as np

%matplotlib inline
import matplotlib.pyplot as plt
plt.style.use('ggplot')

from sklearn.decomposition import PCA

import gensim.downloader as api
from gensim.models import KeyedVectors

utiliza la biblioteca gensim para cargar un modelo pre-entrenado de vectores de palabras denominado "glove-wiki-gigaword-100". Este modelo contiene vectores de palabras que fueron entrenados en un corpus de texto grande utilizando el algoritmo de GloVe (Global Vectors), que es una técnica de aprendizaje no supervisado para representar palabras en un espacio vectorial de varias dimensiones.

Al cargar este modelo, podemos acceder a los vectores de palabras pre-entrenados para una gran cantidad de palabras en inglés. Estos vectores de palabras pueden ser útiles para una variedad de tareas de procesamiento de lenguaje natural, como clasificación de texto, agrupamiento de texto, búsqueda de similitud de documentos y más.

In [None]:
model = api.load("glove-wiki-gigaword-100")



In [None]:
print('Representacion vectorial de la palabra "bread": ')
print(model['bread'])
print('---------------------------------------------------------------------')
print('Representacion vectorial de la palabra "croissant": ')
print(model['croissant'])


Representacion vectorial de la palabra "bread": 
[-0.66146    0.94335   -0.72214    0.17403   -0.42524    0.36303
  1.0135    -0.14802    0.25817   -0.20326   -0.64338    0.16632
  0.61518    1.397     -0.094506   0.0041843 -0.18976   -0.55421
 -0.39371   -0.22501   -0.34643    0.32076    0.34395   -0.7034
  0.23932    0.69951   -0.16461   -0.31819   -0.34034   -0.44906
 -0.069667   0.35348    0.17498   -0.95057   -0.2209     1.0647
  0.23231    0.32569    0.47662   -1.1206     0.28168   -0.75172
 -0.54654   -0.66337    0.34804   -0.69058   -0.77092   -0.40167
 -0.069351  -0.049238  -0.39351    0.16735   -0.14512    1.0083
 -1.0608    -0.87314   -0.29339    0.68278    0.61634   -0.088844
  0.88094    0.099809  -0.27161   -0.58026    0.50364   -0.93814
  0.67576   -0.43124   -0.10517   -1.2404    -0.74353    0.28637
  0.29012    0.89377    0.67406    0.86422   -0.30693   -0.14718
  0.078353   0.74013    0.32658   -0.052579  -1.1665     0.87079
 -0.69402   -0.75977   -0.37164   -0.11887 

In [None]:
print('MAs similares con "usa": ')

model.most_similar('usa')

MAs similares con "usa": 


[('canada', 0.6544384956359863),
 ('america', 0.645224392414093),
 ('u.s.a.', 0.6184033751487732),
 ('united', 0.6017189621925354),
 ('states', 0.5970699191093445),
 ('australia', 0.5838716626167297),
 ('world', 0.5590084195137024),
 ('2010', 0.5580702424049377),
 ('2012', 0.5504006743431091),
 ('davis', 0.5464468002319336)]

In [None]:
print('MAs similares con "banana": ')

model.most_similar('banana')

MAs similares con "usa": 
MAs similares con "banana": 


[('coconut', 0.7097253203392029),
 ('mango', 0.7054824829101562),
 ('bananas', 0.6887733340263367),
 ('potato', 0.6629636287689209),
 ('pineapple', 0.6534532308578491),
 ('fruit', 0.6519854664802551),
 ('peanut', 0.6420575976371765),
 ('pecan', 0.6349173188209534),
 ('cashew', 0.6294420957565308),
 ('papaya', 0.6246591210365295)]

In [None]:
print('Menos similares con "banana": ')

model.most_similar(negative =  'banana')

Menos similares con "banana": 


[('shunichi', 0.49618104100227356),
 ('ieronymos', 0.4736502170562744),
 ('pengrowth', 0.4668096601963043),
 ('höss', 0.4636845588684082),
 ('damaskinos', 0.4617849290370941),
 ('yadin', 0.4617374837398529),
 ('hundertwasser', 0.4588957726955414),
 ('ncpa', 0.4577339291572571),
 ('maccormac', 0.4566109776496887),
 ('rothfeld', 0.4523947238922119)]

La función analogy() utiliza el modelo Word2Vec cargado previamente para encontrar una palabra que tenga una relación similar con y1 que la que existe entre x1 y x2. Para ello, utiliza el método most_similar() del modelo Word2Vec, que devuelve las palabras más similares a una lista de palabras dadas.

Los argumentos de entrada de analogy() son tres palabras: x1, x2 y y1. En este caso, se utiliza la fórmula de analogía de palabras "x1 es a x2 como y1 es a ___".

La función devuelve la palabra más cercana a la palabra que completa la analogía.

En la fórmula de analogía de palabras "x1 es a x2 como y1 es a ___", x1 y x2 representan la relación que existe entre dos palabras, mientras que y1 es una palabra relacionada con x1. Por ejemplo, si x1 es "hombre" y x2 es "mujer", y1 podría ser "rey" y la palabra que se busca podría ser "reina", ya que la relación entre "hombre" y "mujer" es similar a la relación entre "rey" y "reina".

In [None]:
def analogy (x1, x2, y1):
  result =  model.most_similar(
      positive=[y1, x2], negative = [x1]
                               )
  return result[0][0]

La línea de código result = model.most_similar(positive= ['woman', 'king'], negative = ['man']) utiliza el modelo Word2Vec para realizar una operación de analogía de palabras. En este caso, se está buscando la palabra que completa la analogía "king es a man como woman es a ___".

El método most_similar busca las palabras más similares a la lista de palabras dadas. En este caso, se busca la palabra que sea más similar a "woman" cuando se le resta "man" y se le suma "king", es decir, la palabra que tenga una relación similar a la que existe entre "king" y "man" pero con "woman".

El resultado de esta operación se guarda en la variable result, que contiene una lista de tuplas con las palabras más similares y su puntuación de similitud con respecto a la operación realizada. Por ejemplo, el primer elemento de la lista sería la palabra que mejor completa la analogía.

In [None]:
result = model.most_similar(positive= ['woman', 'king'], negative = ['man'])

In [None]:
from IPython.display import Image
Image(url="https://encrypted-tbn2.gstatic.com/images?q=tbn:ANd9GcR_8bEEOsiRd4sSmpPx64qZDJdV-q_nJu1eH31fLiUyIOETYCMe")

In [None]:
print(' "man" es a "king" lo que "woman" es a :', analogy ('man', 'king', 'woman'))
print(' "king" es a "man" lo que "queen" es a :', analogy ('king', 'man', 'queen'))

 "man" es a "king" lo que "woman" es a : queen
 "king" es a "man" lo que "queen" es a : woman


In [None]:
print(' "colombia" es a "coffee" lo que "spain" es a :', analogy ('colombia', 'coffee', 'spain'))
print(' "pen" es a "draw" lo que "camera" es a :', analogy ('pen', 'draw', 'camera'))

 "colombia" es a "coffee" lo que "spain" es a : wine
 "pen" es a "draw" lo que "camera" es a : scenes


In [None]:
print(mode.does_not_match)