## Word Embeddings

- #### **Word embeddings** son representaciones numéricas densas y continuas de palabras en un espacio vectorial.
- #### Estas representaciones capturan relaciones semánticas y sintácticas entre palabras.
- #### Palabras con significados similares están más cercanas en el espacio vectorial.
- #### Densidad: Cada palabra se representa como un vector en un espacio de dimensiones reducidas (por ejemplo, 100 o 300 dimensiones).
- #### Diferente a las representaciones como las matrices dispersas en el modelo de "bolsa de palabras".
- #### Similitud semántica: Las palabras con significados similares tendrán vectores cercanos en el espacio vectorial.
- #### Por ejemplo, en un buen modelo de embeddings, los vectores de "rey" y "reina" estarán cerca.
- #### Relaciones semánticas y aritmética vectorial:
- #### Se pueden realizar operaciones matemáticas que reflejan relaciones semánticas, como:
- #### **rey−hombre+mujer≈reina**



## Enfoques Word Embeddings:
- #### los embeddings generalmente se entrenan a partir de grandes cantidades de texto utilizando algoritmos que buscan capturar las co-ocurrencias de palabras en un contexto dado. 
- #### Algunos métodos populares son:
- #### **Word2Vec**:
   - #### Utiliza dos enfoques: Skip-Gram (predice el contexto dada una palabra) y CBOW (predice una palabra dado su contexto).
- #### **GloVe** (Global Vectors for Word Representation):
    - #### Basado en una matriz de co-ocurrencia de palabras en un corpus grande.
    - #### Intenta capturar la probabilidad relativa de dos palabras que co-ocurren.
- #### **FastText**:
    - #### Similar a Word2Vec, pero considera subpalabras (caracteres), lo que mejora la representación de palabras raras o con errores ortográficos.
- #### **Contextuales (p. ej., BERT, GPT)**:
    - #### Modelos que generan representaciones de palabras dependiendo del contexto en el que aparecen.


# Modelos FastText

### [https://fasttext.cc](https://fasttext.cc)

## Modelo pre-entrenados para el idioma español

### [https://fasttext.cc/docs/en/crawl-vectors.html](https://fasttext.cc/docs/en/crawl-vectors.html#models)


## Modelo pre-entrenados para diferentes regiones del idioma español

### [https://ingeotec.github.io/regional-spanish-models](https://ingeotec.github.io/regional-spanish-models/#resources)




## Instalación del paquete FastText

In [None]:
!pip install fasttext

## Cargar el modelo pre-entrenado para la codificación de word embeddings

In [2]:
import fasttext

# Descargar el modelo para el español de la página de FastText
ft = fasttext.load_model('/Volumes/data/temp/cc.es.300.bin')



## Obtener el vector de una palabra

In [3]:

#Obtención del vector de una palabra de palabras
print(ft.get_word_vector("hola"))

# equivalente 
# Vector Denso de la palabra "hola"
print(ft["hola"])


[-5.66945970e-02  5.34497127e-02 -6.12863861e-02 -2.43984938e-01
 -1.36605650e-01  5.66679165e-02  5.90700731e-02 -1.81467310e-02
 -9.96223241e-02 -1.20628618e-01 -5.05264848e-02  7.94697106e-02
  1.05264515e-01  6.81780279e-02  1.32493883e-01  3.31371576e-02
 -4.62438762e-02  9.18786153e-02 -1.74927972e-02  7.59232268e-02
  5.22639155e-02 -5.35255820e-02  1.28745120e-02  1.14882946e-01
 -4.02459130e-02  3.16499285e-02 -1.51373744e-01  4.18794267e-02
 -6.79477751e-02  2.31544822e-02  3.07090711e-02  8.19071308e-02
 -1.44711006e-02 -1.12207010e-01 -5.67496680e-02  3.39836441e-02
 -1.00392941e-03 -9.06518623e-02 -1.68143287e-02  1.00917302e-01
  1.24769092e-01 -1.48573294e-01 -6.61816075e-02 -5.23402989e-02
 -2.74200857e-01  1.37896806e-01  4.01747134e-03  9.41338092e-02
 -3.58653516e-02  1.09506473e-01  6.02002554e-02  2.64170289e-01
  6.17561862e-02  3.59179778e-03 -2.71333754e-02  1.61736086e-01
  6.40481040e-02 -5.93898408e-02  2.04527229e-02 -1.51401665e-02
  9.72426217e-03  2.76175

## Total de palabras en el modelo

In [4]:
# Obtiene la lista total de palabras del modelo
# ft.get_words()

# Equivalente a la propiedad words

# Obtención el total del vocabulario
print("total de palabras: ", len(ft.words))

#primeras 10 palabras del vocabulario
ft.words[:10]

total de palabras:  2000000


['de', ',', '.', 'la', 'y', 'en', 'que', 'el', '</s>', 'a']

## Codificar oraciones en su forma de embeddings

In [5]:
# Obtiene la representación de embedding de la oración

vec = ft.get_sentence_vector("hola me siento muy feliz")
print(vec)

[-4.14609499e-02 -1.91658735e-02 -3.65090370e-02 -7.36623555e-02
 -1.73958391e-02 -1.03550625e-03 -1.04367444e-02  1.21517843e-02
 -2.27590781e-02 -4.59116213e-02  5.43959811e-02  4.68571708e-02
 -7.97666330e-03 -8.82898085e-03  4.41691285e-04  3.57701480e-02
 -2.17491575e-03  5.72908632e-02  1.95530038e-02  8.08764994e-03
 -2.30771657e-02 -4.74743918e-02  2.68710237e-02  3.97845469e-02
 -7.58574903e-02 -3.85331027e-02 -1.21381078e-02  6.67319912e-03
 -2.62221252e-03  2.76385006e-02  1.68859120e-02 -1.76671299e-03
 -3.74071719e-03 -2.53643282e-02 -2.98575754e-03 -2.28011440e-02
 -1.53979128e-02  1.31602008e-02 -1.47233857e-02  6.13561533e-02
 -4.57004942e-02  1.01661561e-02 -1.30475879e-01 -1.05968686e-02
 -1.34205565e-01  4.59404923e-02 -3.29585075e-02  3.14953811e-02
 -5.79147786e-03 -2.20743660e-02 -1.46868648e-02  9.55621600e-02
  3.48536484e-02 -1.09555693e-02 -4.46601510e-02 -2.13206597e-02
 -1.51861282e-02  2.78312415e-02 -1.03564570e-02 -1.27953235e-02
  2.28149686e-02 -1.57274

## Obtención de las palabras vecinas más cercanas basadas en vectores densos

In [6]:
ft.get_nearest_neighbors("mareado")

[(0.751656174659729, 'mareada'),
 (0.6943283081054688, 'aturdido'),
 (0.6560246348381042, 'desorientado'),
 (0.6427438259124756, 'Mareado'),
 (0.6325361728668213, 'mareo'),
 (0.6207298040390015, 'mareao'),
 (0.6185025572776794, 'desmayado'),
 (0.613461434841156, 'cansado'),
 (0.6129490733146667, 'exhausto'),
 (0.5974404215812683, 'atontado')]

# Operaciones con vectores semánticos

In [39]:
X= (ft.get_word_vector("rey") - ft.get_word_vector("hombre")) + ft.get_word_vector("mujer")

X

array([-0.20104048,  0.04011255,  0.24802887, -0.02107196,  0.1543583 ,
        0.03022526,  0.03980258,  0.21129453,  0.08643436, -0.09446757,
        0.17162849, -0.09650914, -0.2127001 , -0.19689326, -0.20643494,
       -0.06966311, -0.02076697, -0.04884097,  0.06741868, -0.02280847,
       -0.0850597 , -0.19235283, -0.07203992,  0.09101466,  0.03241535,
       -0.07251672, -0.04494426,  0.02781356, -0.04523209,  0.12331352,
       -0.15086794, -0.03946995,  0.14942425,  0.08326869, -0.01774803,
        0.12402137, -0.00917999,  0.07285871, -0.03593927, -0.15098473,
        0.09740119, -0.03774845, -0.04144101, -0.14839017, -0.05550051,
        0.17132697, -0.03718427,  0.09367699,  0.0272632 ,  0.07912767,
       -0.18799923,  0.16445626,  0.15014753,  0.06444985, -0.06510685,
        0.24639979, -0.00652799, -0.30443075,  0.02009493,  0.01404475,
        0.03464291, -0.06463619, -0.13031012, -0.05632882,  0.06682453,
       -0.21829328,  0.03655382,  0.12932879,  0.17880014,  0.07

# Operaciones con vectores semánticos: Analogías

In [8]:
analogia = ft.get_analogies("rey","hombre", "mujer")
print(analogia)

[(0.6996281743049622, 'reina'), (0.6584349870681763, 'princesa'), (0.578596293926239, 'reina-madre'), (0.5746439695358276, 'monarca'), (0.5572191476821899, 'emperatriz'), (0.5523837804794312, 'Rey'), (0.5444003939628601, 'reyes'), (0.5441058278083801, 'hija'), (0.5410926938056946, 'Reina'), (0.5355700254440308, 'consorte')]


# Comparando vectores semánticamente

## Obtener el vocabulario de los vectores pre-entrenados

In [9]:
words = ft.get_words(on_unicode_error="ignore")

In [14]:
len(words), type(words)

(2000000, list)

## Calcular el word embeddings para cada palabra

In [15]:
import pandas as pd

frame_words= pd.DataFrame({"word": words})


In [16]:
frame_words

Unnamed: 0,word
0,de
1,","
2,.
3,la
4,y
...,...
1999995,claridad.Un
1999996,mundos.PD
1999997,Malandrines
1999998,blaciones


In [18]:
frame_words["word_embed"] = frame_words["word"].map(lambda x: ft.get_sentence_vector(x))

In [19]:
frame_words.head()

Unnamed: 0,word,word_embed
0,de,"[0.024376329, 0.0049818866, 0.085039705, 0.013..."
1,",","[-7.869127e-05, -0.024653802, -0.12909813, -0...."
2,.,"[-0.0017710353, -0.042813215, -0.03731187, -0...."
3,la,"[0.013773346, -0.0018806339, 0.049862534, 0.03..."
4,y,"[-0.058127157, -0.029961636, -0.048401732, 0.0..."


## Construye la matriz de vectores densos para todo el vocabulario y poder hacer comparaciones

In [20]:
import numpy as np
_VECS = np.vstack(frame_words["word_embed"].to_numpy() )

In [44]:
_VECS

array([[ 2.4376329e-02,  4.9818866e-03,  8.5039705e-02, ...,
         2.9352405e-03, -9.2708849e-04, -1.0227272e-02],
       [-7.8691271e-05, -2.4653802e-02, -1.2909813e-01, ...,
         2.3048022e-03, -2.6359955e-02,  1.1951647e-02],
       [-1.7710353e-03, -4.2813215e-02, -3.7311871e-02, ...,
         1.6901115e-02, -1.5822874e-02,  3.0607780e-02],
       ...,
       [-2.0714879e-02, -2.7984295e-02,  2.1344058e-01, ...,
        -1.2680879e-02,  1.0734827e-01,  1.1559136e-02],
       [ 6.7788744e-03,  1.1001736e-03,  1.2292139e-01, ...,
         2.4366394e-02,  1.2270155e-02, -8.7747194e-02],
       [-2.0933758e-02,  1.3642651e-02,  1.9041111e-01, ...,
        -2.6366049e-02,  2.4669245e-02, -1.5662860e-02]], dtype=float32)

## Compara semánticamente el vector X contra todo el vocabulario pre-entrenado

In [40]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

res = cosine_similarity([X], _VECS)


In [41]:
# El valor resultante es una matriz de 1 elemento contra todos los elementos del vocabulario
print(res.shape)
print(res.ndim)
# cada elemento es el resultado de la similitud coseno entre X y el elemento en esa posición)
# se muestran los primeros 5 elementos de la comparación
print(res[0,:5])

(1, 2000000)
2
[-0.01435165  0.03544038  0.00400037  0.03274575  0.02197551]


## Extraer los indices de los valores máximos para la similitud coseno 

In [42]:
# Ordena ascendentemente los resultados de acuerdo a las similitud obtenida
indx = np.argsort(res[0])[-10:]
print(indx)


[902075 778641   4527   5439   5195   4597   3217   1872  10294    999]


## Extraer las palabras asociadas a los vectores más similares al vector X

In [43]:
for i in indx[::-1]:
    print(frame_words.word.loc[i])

rey
monarca
Rey
reina
príncipe
reyes
princesa
emperador
rey-niño
prícipe
