# Tutorial del módulo `semantic_spaces`

En este cuaderno se presentan de forma didáctica las funciones disponibles en `QSub.semantic_spaces`.
A través de ejemplos y visualizaciones aprenderás a obtener y manipular vectores semánticos basados en Gallito y BERT.

In [None]:
# Configuración de la clave de Gallito
_api_part1 = "code"
_api_part2 = "_here"
GALLITO_API_KEY = _api_part1 + _api_part2

In [None]:
import QSub.semantic_spaces as spaces
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA

## `get_word_vector_gallito`
Devuelve el vector de una palabra usando la API de Gallito. Es ideal para explorar espacios semánticos específicos.

In [None]:
vector = spaces.get_word_vector_gallito("china", GALLITO_API_KEY, "quantumlikespace_spanish")
vector[:10]

## `get_lsa_corpus_gallito`
Carga un conjunto de términos de un archivo y devuelve un diccionario con sus vectores.

In [None]:
corpus = spaces.get_lsa_corpus_gallito("notebooks/files/concepts.txt", GALLITO_API_KEY, "quantumlikespace_spanish")
list(corpus.keys())[:5]

### Visualización del corpus de Gallito
Representamos algunos vectores usando PCA para observar su distribución.

In [None]:
pca = PCA(n_components=2)
words = list(corpus.keys())[:10]
X = pca.fit_transform([corpus[w] for w in words])
plt.figure(figsize=(6,4))
plt.scatter(X[:,0], X[:,1])
for i, w in enumerate(words):
    plt.text(X[i,0], X[i,1], w)
plt.title("Proyección PCA de vectores Gallito")
plt.show()

## `get_word_vector_bert`
Obtiene la representación BERT de una palabra. Permite elegir la capa del modelo.

In [None]:
bert_vec = spaces.get_word_vector_bert("hello")
bert_vec.shape

## `get_bert_corpus`
Genera un corpus con los vectores BERT de las palabras más frecuentes en un idioma.

In [None]:
bert_corpus = spaces.get_bert_corpus(language="en", n_words=5)
bert_corpus

### Visualización del corpus BERT
Al igual que con Gallito, proyectamos los vectores a 2D para analizarlos gráficamente.

In [None]:
pca = PCA(n_components=2)
words_b = list(bert_corpus.keys())
X_b = pca.fit_transform([bert_corpus[w] for w in words_b])
plt.figure(figsize=(6,4))
plt.scatter(X_b[:,0], X_b[:,1], color="orange")
for i, w in enumerate(words_b):
    plt.text(X_b[i,0], X_b[i,1], w)
plt.title("Proyección PCA de vectores BERT")
plt.show()

## `word_cosine_similarity`
Calcula la similitud coseno entre dos vectores, una medida habitual para comparar representaciones semánticas.

In [None]:
w1 = bert_vec
w2 = list(bert_corpus.values())[0]
spaces.word_cosine_similarity(w1, w2)