## Word Embeddings: FastText

- #### **Word embeddings** con **Word2Vec** representan palabras como vectores densos.
- #### Captan relaciones semánticas entre palabras basándose en su contexto.
- #### Palabras con significados similares están más cercanas en el espacio vectorial.
- #### Se entrenan usando dos enfoques principales: **Skip-gram** y **CBOW**.
- #### Word2Vec se utiliza en tareas como clasificación, análisis de sentimientos y traducción automática.



### [https://fasttext.cc](https://fasttext.cc)

## Modelo pre-entrenados para el idioma español

### [https://fasttext.cc/docs/en/crawl-vectors.html](https://fasttext.cc/docs/en/crawl-vectors.html#models)


## Modelo pre-entrenados para diferentes regiones del idioma español

### [https://ingeotec.github.io/regional-spanish-models](https://ingeotec.github.io/regional-spanish-models/#resources)




## Instalación del paquete FastText

In [None]:
!pip install fasttext

## Cargar el modelo pre-entrenado para la codificación de word embeddings

In [1]:
import fasttext

# Descargar el modelo para el español de la página de FastText
ft = fasttext.load_model('./data/cc.es.300.bin')

## Codificar oraciones en su forma de embeddings

In [None]:
vec = ft.get_sentence_vector("hola me siento muy feliz")
print(vec)

## Obtención de las palabras vecinas más cercanas basadas en vectores densos

In [None]:
ft.get_nearest_neighbors("mareado")

# Operaciones con vectores semánticos

In [34]:
X= (ft.get_word_vector("rey") - ft.get_word_vector("hombre")) + ft.get_word_vector("mujer")

# Operaciones con vectores semánticos: Analogías

In [None]:
analogia = ft.get_analogies("rey","hombre", "mujer")
print(analogia)

# Comparando vectores semánticamente

## Obtener el vocabulario de los vectores pre-entrenados

In [6]:
words = ft.get_words(on_unicode_error="ignore")

In [None]:
len(words)

## Calcular el word embeddings para cada palabra

In [16]:
import pandas as pd

frame_words= pd.DataFrame({"word": words})


In [19]:
frame_words["word_embed"] = frame_words["word"].map(lambda x: ft.get_sentence_vector(x))

In [None]:
frame_words.head()

## Construye la matriz de vectores densos para todo el vocabulario y poder hacer comparaciones

In [32]:
import numpy as np
_VECS = np.vstack(frame_words["word_embed"].to_numpy() )

## Compara semánticamente el vector X contra todo el vocabulario pre-entrenado

In [35]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

res = cosine_similarity([X], _VECS)


In [None]:
# El valor resultante es una matriz de 1 elemento contra todos los elementos del vocabulario
print(res.shape)
print(res.ndim)
# cada elemento es el resultado de la similitud coseno entre X y el elemento en esa posición)
# se muestran los primeros 5 elementos de la comparación
print(res[0,:5])

## Extraer los indices de los valores máximos para la similitud coseno 

In [None]:
# Ordena ascendentemente los resultados de acuerdo a las similitud obtenida
indx = np.argsort(res[0])[-10:]
print(indx)


## Extraer las palabras asociadas a los vectores más similares al vector X

In [None]:
for i in indx[::-1]:
    print(frame_words.word.loc[i])