## Word Embeddings

- #### **Word embeddings** son representaciones numéricas densas y continuas de palabras en un espacio vectorial.
- #### Estas representaciones capturan relaciones semánticas y sintácticas entre palabras.
- #### Palabras con significados similares están más cercanas en el espacio vectorial.
- #### Densidad: Cada palabra se representa como un vector en un espacio de dimensiones reducidas (por ejemplo, 100 o 300 dimensiones).
- #### Diferente a las representaciones como las matrices dispersas en el modelo de "bolsa de palabras".
- #### Similitud semántica: Las palabras con significados similares tendrán vectores cercanos en el espacio vectorial.
- #### Por ejemplo, en un buen modelo de embeddings, los vectores de "rey" y "reina" estarán cerca.
- #### Relaciones semánticas y aritmética vectorial:
- #### Se pueden realizar operaciones matemáticas que reflejan relaciones semánticas, como:
- #### **rey−hombre+mujer≈reina**



## Enfoques Word Embeddings:
- #### los embeddings generalmente se entrenan a partir de grandes cantidades de texto utilizando algoritmos que buscan capturar las co-ocurrencias de palabras en un contexto dado. 
- #### Algunos métodos populares son:
- #### **Word2Vec**:
   - #### Utiliza dos enfoques: Skip-Gram (predice el contexto dada una palabra) y CBOW (predice una palabra dado su contexto).
- #### **GloVe** (Global Vectors for Word Representation):
    - #### Basado en una matriz de co-ocurrencia de palabras en un corpus grande.
    - #### Intenta capturar la probabilidad relativa de dos palabras que co-ocurren.
- #### **FastText**:
    - #### Similar a Word2Vec, pero considera subpalabras (caracteres), lo que mejora la representación de palabras raras o con errores ortográficos.
- #### **Contextuales (p. ej., BERT, GPT)**:
    - #### Modelos que generan representaciones de palabras dependiendo del contexto en el que aparecen.


# Modelos FastText

### [https://fasttext.cc](https://fasttext.cc)

## Modelo pre-entrenados para el idioma español

### [https://fasttext.cc/docs/en/crawl-vectors.html](https://fasttext.cc/docs/en/crawl-vectors.html#models)


## Modelo pre-entrenados para diferentes regiones del idioma español

### [https://ingeotec.github.io/regional-spanish-models](https://ingeotec.github.io/regional-spanish-models/#resources)




## Instalación del paquete FastText

In [None]:
!pip install fasttext

## Cargar el modelo pre-entrenado para la codificación de word embeddings

In [None]:
import fasttext

# Descargar el modelo para el español de la página de FastText
ft = fasttext.load_model('/Volumes/data/temp/cc.es.300.bin')

## Obtener el vector de una palabra

In [None]:

#Obtención del vector de una palabra de palabras
print(ft.get_word_vector("hola"))

# equivalente 
# Vector Denso de la palabra "hola"
print(ft["hola"])


## Total de palabras en el modelo

In [None]:
# Obtiene la lista total de palabras del modelo
# ft.get_words()

# Equivalente a la propiedad words

# Obtención el total del vocabulario
print("total de palabras: ", len(ft.words))

#primeras 10 palabras del vocabulario
ft.words[:10]

## Codificar oraciones en su forma de embeddings

In [None]:
# Obtiene la representación de embedding de la oración

vec = ft.get_sentence_vector("hola me siento muy feliz")
print(vec)

## Obtención de las palabras vecinas más cercanas basadas en vectores densos

In [None]:
ft.get_nearest_neighbors("mareado")

# Operaciones con vectores semánticos

In [None]:
X= (ft.get_word_vector("rey") - ft.get_word_vector("hombre")) + ft.get_word_vector("mujer")

X

# Operaciones con vectores semánticos: Analogías

In [None]:
analogia = ft.get_analogies("rey","hombre", "mujer")
print(analogia)

# Comparando vectores semánticamente

## Obtener el vocabulario de los vectores pre-entrenados

In [None]:
words = ft.get_words(on_unicode_error="ignore")

In [None]:
len(words), type(words)

## Calcular el word embeddings para cada palabra

In [None]:
import pandas as pd

frame_words= pd.DataFrame({"word": words})


In [None]:
frame_words

In [None]:
frame_words["word_embed"] = frame_words["word"].map(lambda x: ft.get_sentence_vector(x))

In [None]:
frame_words.head()

## Construye la matriz de vectores densos para todo el vocabulario y poder hacer comparaciones

In [None]:
import numpy as np
_VECS = np.vstack(frame_words["word_embed"].to_numpy() )

In [None]:
_VECS

## Compara semánticamente el vector X contra todo el vocabulario pre-entrenado

In [None]:
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

res = cosine_similarity([X], _VECS)


In [None]:
# El valor resultante es una matriz de 1 elemento contra todos los elementos del vocabulario
print(res.shape)
print(res.ndim)
# cada elemento es el resultado de la similitud coseno entre X y el elemento en esa posición)
# se muestran los primeros 5 elementos de la comparación
print(res[0,:5])

## Extraer los indices de los valores máximos para la similitud coseno 

In [None]:
# Ordena ascendentemente los resultados de acuerdo a las similitud obtenida
indx = np.argsort(res[0])[-10:]
print(indx)


## Extraer las palabras asociadas a los vectores más similares al vector X

In [None]:
for i in indx[::-1]:
    print(frame_words.word.loc[i])