## Word Embeddings

- #### **Word embeddings** son representaciones numéricas densas y continuas de palabras en un espacio vectorial.
- #### Estas representaciones capturan relaciones semánticas y sintácticas entre palabras.
- #### Palabras con significados similares están más cercanas en el espacio vectorial.
- #### Densidad: Cada palabra se representa como un vector en un espacio de dimensiones reducidas (por ejemplo, 100 o 300 dimensiones).
- #### Diferente a las representaciones como las matrices dispersas en el modelo de "bolsa de palabras".
- #### Similitud semántica: Las palabras con significados similares tendrán vectores cercanos en el espacio vectorial.
- #### Por ejemplo, en un buen modelo de embeddings, los vectores de "rey" y "reina" estarán cerca.
- #### Relaciones semánticas y aritmética vectorial:
- #### Se pueden realizar operaciones matemáticas que reflejan relaciones semánticas, como:
- #### **rey−hombre+mujer≈reina**



## Enfoques Word Embeddings:
- #### los embeddings generalmente se entrenan a partir de grandes cantidades de texto utilizando algoritmos que buscan capturar las co-ocurrencias de palabras en un contexto dado. 
- #### Algunos métodos populares son:
- #### **Word2Vec**:
   - #### Utiliza dos enfoques: Skip-Gram (predice el contexto dada una palabra) y CBOW (predice una palabra dado su contexto).
- #### **GloVe** (Global Vectors for Word Representation):
    - #### Basado en una matriz de co-ocurrencia de palabras en un corpus grande.
    - #### Intenta capturar la probabilidad relativa de dos palabras que co-ocurren.
- #### **FastText**:
    - #### Similar a Word2Vec, pero considera subpalabras (caracteres), lo que mejora la representación de palabras raras o con errores ortográficos.
- #### **Contextuales (p. ej., BERT, GPT)**:
    - #### Modelos que generan representaciones de palabras dependiendo del contexto en el que aparecen.


# Modelos FastText

### [https://fasttext.cc](https://fasttext.cc)

## Modelo pre-entrenados para el idioma español

### [https://fasttext.cc/docs/en/crawl-vectors.html](https://fasttext.cc/docs/en/crawl-vectors.html#models)


## Modelo pre-entrenados para diferentes regiones del idioma español

### [https://ingeotec.github.io/regional-spanish-models](https://ingeotec.github.io/regional-spanish-models/#resources)




## Instalación del paquete FastText

In [1]:
!pip install fasttext

Collecting fasttext
  Downloading fasttext-0.9.3.tar.gz (73 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hCollecting pybind11>=2.2 (from fasttext)
  Using cached pybind11-3.0.1-py3-none-any.whl.metadata (10.0 kB)
Using cached pybind11-3.0.1-py3-none-any.whl (293 kB)
Building wheels for collected packages: fasttext
  Building wheel for fasttext (pyproject.toml) ... [?25ldone
[?25h  Created wheel for fasttext: filename=fasttext-0.9.3-cp313-cp313-linux_x86_64.whl size=360324 sha256=b572317aa21fd0aa6af82dbe4bce641036ae7d9a055122912f8524e22311807f
  Stored in directory: /home/luis-beto/.cache/pip/wheels/59/06/3f/c95dbba0df6e58ba6ed18220c1aea1e96042802139df3674ef
Successfully built fasttext
Installing collected packages: pybind11, fasttext
[2K   [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2/2[0m [fasttext]━━[0m [32m1/2[0m [fasttext]


## Cargar el modelo pre-entrenado para la codificación de word embeddings

In [1]:
import fasttext

# Descargar el modelo para el español de la página de FastText
ft = fasttext.load_model('./MX.bin')

## Obtener el vector de una palabra

In [2]:

#Obtención del vector de una palabra de palabras
print(ft.get_word_vector("hola"))

# equivalente 
# Vector Denso de la palabra "hola"
print(ft["hola"])


[ 2.18252420e-01 -2.93410331e-01 -4.63250242e-02  1.57723173e-01
  1.33358082e-02  3.37742686e-01 -1.56898890e-02 -1.39179423e-01
  1.27514556e-01 -2.33436618e-02 -2.78000444e-01  3.36885393e-01
  3.71062867e-02  2.08314151e-01 -2.64740214e-02  2.66547680e-01
  2.15816244e-01 -2.64567643e-01 -1.98068187e-01 -9.89820957e-02
 -1.45461440e-01  3.61161381e-01  2.09435105e-01 -1.72621399e-01
 -4.42510359e-02 -1.51117608e-01 -9.01566371e-02 -1.43508464e-01
 -3.32263887e-01  3.37214470e-01  2.03977153e-01  7.20374227e-01
 -3.94217670e-01  1.93130240e-01  1.21012591e-01  2.83492893e-01
  6.00845933e-01 -8.30683112e-01 -1.12133950e-01 -2.89845198e-01
  8.41842145e-02 -2.51568496e-01 -3.85965824e-01  1.07584395e-01
 -4.77332354e-01 -2.53418297e-01 -4.15728241e-01  1.86164230e-01
 -1.94786191e-01  9.72599238e-02 -8.31543282e-02 -4.53584865e-02
 -3.55329752e-01 -1.66799948e-01  1.80169821e-01  5.46473712e-02
  1.15033805e-01  6.20717928e-03 -1.87568784e-01 -8.26224327e-01
 -1.24851465e-02  6.54482

## Total de palabras en el modelo

In [3]:
# Obtiene la lista total de palabras del modelo
# ft.get_words()

# Equivalente a la propiedad words

# Obtención el total del vocabulario
print("total de palabras: ", len(ft.words))

#primeras 10 palabras del vocabulario
ft.words[:10]

total de palabras:  438136


['</s>', '_usr', 'que', 'de', ',', '.', 'y', 'a', 'la', 'no']

## Codificar oraciones en su forma de embeddings

In [None]:
# Obtiene la representación de embedding de la oración

vec = ft.get_sentence_vector("hola me siento muy feliz")
print(vec)

## Obtención de las palabras vecinas más cercanas basadas en vectores densos

In [None]:
ft.get_nearest_neighbors("mareado")

# Operaciones con vectores semánticos

In [None]:
X= (ft.get_word_vector("rey") - ft.get_word_vector("hombre")) + ft.get_word_vector("mujer")

X

# Operaciones con vectores semánticos: Analogías

In [None]:
analogia = ft.get_analogies("rey","hombre", "mujer")
print(analogia)

# Comparando vectores semánticamente

## Obtener el vocabulario de los vectores pre-entrenados

In [None]:
words = ft.get_words(on_unicode_error="ignore")

In [None]:
len(words), type(words)

## Calcular el word embeddings para cada palabra

In [None]:
import pandas as pd

frame_words= pd.DataFrame({"word": words})


In [None]:
frame_words

In [None]:
frame_words["word_embed"] = frame_words["word"].map(lambda x: ft.get_sentence_vector(x))

In [None]:
frame_words.head()

## Construye la matriz de vectores densos para todo el vocabulario y poder hacer comparaciones

In [None]:
import numpy as np
_VECS = np.vstack(frame_words["word_embed"].to_numpy() )

In [None]:
_VECS

## Compara semánticamente el vector X contra todo el vocabulario pre-entrenado

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

res = cosine_similarity([X], _VECS)


In [None]:
# El valor resultante es una matriz de 1 elemento contra todos los elementos del vocabulario
print(res.shape)
print(res.ndim)
# cada elemento es el resultado de la similitud coseno entre X y el elemento en esa posición)
# se muestran los primeros 5 elementos de la comparación
print(res[0,:5])

## Extraer los indices de los valores máximos para la similitud coseno 

In [None]:
# Ordena ascendentemente los resultados de acuerdo a las similitud obtenida
indx = np.argsort(res[0])[-10:]
print(indx)


## Extraer las palabras asociadas a los vectores más similares al vector X

In [None]:
for i in indx[::-1]:
    print(frame_words.word.loc[i])