
# Pr√°ctica 1 ‚Äî **Embeddings & B√∫squeda Sem√°ntica**  
**Sesi√≥n 4 ¬∑ 2025-09-29**

**Objetivo:** Construir un *notebook* que:
1) Genere *embeddings* de un peque√±o corpus,  
2) Cree un √≠ndice de b√∫squeda sem√°ntica,  
3) Permita realizar consultas,  
4) Evalue brevemente la relevancia de los resultados.

---
## Caso de uso: *Asistente de Conocimiento Interno (FAQ corporativa)*

Imaginemos que trabajas en una empresa de tecnolog√≠a con varias √°reas (TI, RR. HH., Legal, Datos). Los colaboradores realizan preguntas recurrentes: **pol√≠ticas de vacaciones**, **acceso a VPN**, **solicitud de equipos**, **alta en plataformas cloud**, **soporte a BI**, etc.  
El objetivo es construir un prototipo de **b√∫squeda sem√°ntica** que encuentre las respuestas m√°s relevantes a partir de un conjunto corto de **art√≠culos/FAQs internos**.


## 1) Importaciones y utilidades

In [1]:

import os, re, math, json, random, unicodedata
from dataclasses import dataclass
from typing import List, Tuple, Dict

import numpy as np
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.neighbors import NearestNeighbors
from sklearn.metrics.pairwise import cosine_similarity

random.seed(42)
np.random.seed(42)

def normalize_text(s: str) -> str:
    s = s.lower().strip()
    s = ''.join(c for c in unicodedata.normalize('NFD', s) if unicodedata.category(c) != 'Mn')
    s = re.sub(r'[^a-z0-9√°√©√≠√≥√∫√±√º\s]', ' ', s)
    s = re.sub(r'\s+', ' ', s).strip()
    return s

# Peque√±a lista de stopwords ES (evitamos descargar NLTK)
STOPWORDS = set('''de la que el en y a los del se las por un para con no una su al lo como mas pero sus le ya o fue ha si porque muy sin sobre tambien me hasta hay donde quienes cual cuales cuando desde todo nos durante cada contra entre tras antes despues mi tus tus
esto esta estas estos ese esa esos esas aquel aquella aquellos aquellas soy eres es somos son estoy estas esta estamos estan
ser estar tener hace hacen hacer hacia podria puedes puede pueden podria deber debemos deben debo debo
ti tu usted ustedes nosotros nosotras ellos ellas su sus mio mia mios mias tuyo tuya tuyos tuyas suyo suya suyos suyas
mi mis nuestro nuestra nuestros nuestras vuestro vuestra vuestros vuestras
que quien quienes cual cuales cuanto cuanta cuantos cuantas donde adonde como cuando cuanto
'''.split())

def remove_stopwords(text: str) -> str:
    tokens = normalize_text(text).split()
    tokens = [t for t in tokens if t not in STOPWORDS and len(t) > 2]
    return ' '.join(tokens)


## 2) Dataset de FAQs internas (corpus de documentos)

In [None]:

# Creamos un mini-corpus de art√≠culos/FAQs internas (id, titulo, contenido)
docs = [
    (1, "Pol√≠tica de Vacaciones", """
    La empresa ofrece 12 d√≠as de vacaciones el primer a√±o, con incremento gradual por antig√ºedad.
    Para solicitar vacaciones debes ingresar a la plataforma de RRHH con 15 d√≠as de anticipaci√≥n.
    """),
    (2, "Acceso a VPN corporativa", """
    Para conectarte a la VPN necesitas un usuario activo, MFA y el cliente OpenVPN.
    Si tienes problemas, abre un ticket al √°rea de TI incluyendo sistema operativo y ubicaci√≥n.
    """),
    (3, "Solicitud de Equipo de C√≥mputo", """
    Los equipos (laptop/desktop) se solicitan a TI v√≠a formulario interno.
    Se requiere aprobaci√≥n del gerente y se asigna un activo con etiqueta y p√≥liza de garant√≠a.
    """),
    (4, "Alta en Plataformas Cloud (GCP/Azure/AWS)", """
    El alta en nubes p√∫blicas requiere curso de seguridad, aceptaci√≥n de pol√≠ticas y creaci√≥n de cuentas con
    privilegios m√≠nimos. Solicita acceso especificando proyecto y rol necesario.
    """),
    (5, "Soporte a Business Intelligence (BI)", """
    Para crear o actualizar dashboards en Looker/Power BI, env√≠a un requerimiento con m√©tricas,
    fuentes de datos y periodicidad. El equipo de Datos eval√∫a SLA y complejidad.
    """),
    (6, "Pol√≠tica de Home Office", """
    El trabajo remoto es h√≠brido: 3 d√≠as en oficina y 2 en casa. Las excepciones requieren autorizaci√≥n de RRHH.
    Se recomienda conexi√≥n estable y uso de VPN para recursos internos.
    """),
    (7, "Onboarding y Credenciales", """
    En tu primera semana recibir√°s credenciales de correo, gestor de contrase√±as y acceso a gestor de identidades.
    Completa el curso de phishing y activa MFA en todas las aplicaciones.
    """),
    (8, "Procesos de Soporte TI", """
    Los tickets se abren en el portal de soporte. Prioridades: cr√≠tica, alta, media, baja.
    Incidentes cr√≠ticos requieren puente de guerra y notificaci√≥n a ciberseguridad.
    """),
    (9, "Pol√≠tica de Seguridad de la Informaci√≥n", """
    Todos los colaboradores deben seguir las gu√≠as de clasificaci√≥n de datos, uso de contrase√±as robustas y reporte
    de incidentes. El cifrado es obligatorio en equipos port√°tiles.
    """),
    (10, "Accesos a Bases de Datos", """
    Para acceder a bases de datos productivas se requiere justificaci√≥n, ventana de mantenimiento y aprobaci√≥n
    del due√±o del dato. Se recomienda uso de cuentas de solo lectura.
    """),
]

df = pd.DataFrame(docs, columns=["id","titulo","contenido"])
df.head()


## 3) Limpieza y normalizaci√≥n

In [None]:

df["texto_proc"] = df["contenido"].apply(remove_stopwords)
df[["id","titulo","texto_proc"]].head(10)


## 4) Embeddings con **TF‚ÄëIDF**

In [None]:

tfidf = TfidfVectorizer(min_df=1, max_df=0.95, ngram_range=(1,2))
X_tfidf = tfidf.fit_transform(df["texto_proc"])
X_tfidf.shape


## 5) Reducci√≥n sem√°ntica con **LSA (SVD truncado)**

In [None]:

n_components = 128 if X_tfidf.shape[1] >= 128 else max(2, min(64, X_tfidf.shape[1]-1))
svd = TruncatedSVD(n_components=n_components, random_state=42)
X_lsa = svd.fit_transform(X_tfidf)
X_lsa.shape



## 6) Embeddings* con **Autoencoder** (*red neuronal*)
Intentaremos entrenar un **autoencoder denso** sobre los vectores TF‚ÄëIDF para obtener una representaci√≥n compacta.
> Si **no** tienes `tensorflow` instalado, el bloque fallar√° y el *notebook* continuar√° con LSA.


In [15]:
# ---------------------------------------------------------------
# Idea: entrenar una red neuronal (autoencoder) para comprimir los
# vectores TF-IDF a un espacio latente (embeddings) y luego usar
# ese espacio para b√∫squeda sem√°ntica.
#   ‚Ä¢ Entrada  : vector TF-IDF de cada documento
#   ‚Ä¢ Codificador (encoder): reduce dimensionalidad ‚Üí "z"
#   ‚Ä¢ Decodificador (decoder): intenta reconstruir el TF-IDF original
#   ‚Ä¢ P√©rdida : MSE entre entrada y salida (reconstrucci√≥n)
# Al terminar, usamos SOLO el "encoder" para obtener los embeddings.
# ===============================================================

AE_EMBED_DIM = 64  # ‚á¶ Dimensi√≥n del embedding latente "z". (Prueba 32 / 64 / 128)
EPOCHS = 40        # ‚á¶ √âpocas de entrenamiento. (M√°s alto = m√°s ajuste, riesgo de overfitting)
BATCH_SIZE = 8     # ‚á¶ Tama√±o de batch. (S√∫belo si tienes GPU/CPU potente)

# Pasamos de matriz dispersa (sparse) a densa (float32) para alimentar a Keras
X_dense = X_tfidf.toarray().astype("float32")

try:
    # Importamos TensorFlow/Keras dentro del try por si el entorno no lo tiene
    import tensorflow as tf
    from tensorflow import keras
    from tensorflow.keras import layers

    # Dimensi√≥n de entrada = # de t√©rminos/rasgos del TF-IDF
    input_dim = X_dense.shape[1]

    # ----- Definici√≥n del modelo -----
    # Capa de entrada: vector TF-IDF por documento
    inp = keras.Input(shape=(input_dim,))

    # Encoder: capas densas que van "apretando" la info
    x = layers.Dense(256, activation="relu")(inp)   # 1¬™ capa oculta (no linealidad)
    x = layers.Dense(128, activation="relu")(x)     # 2¬™ capa oculta

    # Bottleneck / Embedding: aqu√≠ vivimos en AE_EMBED_DIM dimensiones
    # activation=None ‚Üí dejamos la representaci√≥n "lineal" (puedes probar 'tanh')
    z = layers.Dense(AE_EMBED_DIM, activation=None, name="embedding")(x)

    # Decoder: intenta reconstruir el vector original desde "z"
    x = layers.Dense(128, activation="relu")(z)
    # √öltima capa del decoder: dimensi√≥n = input_dim.
    # activation="linear" porque queremos reconstruir valores continuos del TF-IDF
    out = layers.Dense(input_dim, activation="linear")(x)

    # Autoencoder completo: input ‚Üí reconstruction
    autoenc = keras.Model(inp, out)

    # Optimizador y p√©rdida:
    #  - Adam(1e-3) suele converger bien en estos tama√±os
    #  - MSE mide error de reconstrucci√≥n; tambi√©n podr√≠as probar MAE
    autoenc.compile(optimizer=keras.optimizers.Adam(1e-3), loss="mse")

    # ----- Entrenamiento -----
    # Entrenamos de forma no supervisada: entrada = objetivo
    history = autoenc.fit(
        X_dense, X_dense,
        epochs=EPOCHS,
        batch_size=BATCH_SIZE,
        verbose=0  # pon 1 si quieres ver la barra de progreso
    )

    # ----- Extraer el encoder para obtener embeddings -----
    # Creamos un modelo que va de la entrada "inp" al cuello de botella "z"
    encoder = keras.Model(inp, z)

    # Embeddings para TODO el corpus (uno por documento)
    X_ae = encoder.predict(X_dense, verbose=0)

    ae_available = True
    print("‚úÖ Entrenado autoencoder. Forma de embeddings:", X_ae.shape)
    # Ejemplo de salida: (n_documentos, AE_EMBED_DIM)

except Exception as e:
    # Si no hay TensorFlow/Keras o falla algo, seguimos con LSA.
    ae_available = False
    X_ae = None
    print("‚ö†Ô∏è No se pudo usar TensorFlow/Keras. Continuaremos solo con LSA.")
    print("Detalle:", e)

# ---------------------------------------------------------------
# Notas y sugerencias:
# ‚Ä¢ Si ves sobre-ajuste (loss de entrenamiento muy baja pero mala
#   recuperaci√≥n), baja EPOCHS, sube regularizaci√≥n (p.ej. layers.Dropout),
#   o reduce la capacidad (menos neuronas).
# ‚Ä¢ AE_EMBED_DIM muy chico puede perder info; muy grande puede memorizar.
# ‚Ä¢ Puedes probar activaciones 'tanh' en z si planeas usar similitud coseno.
# ‚Ä¢ Con GPU, puedes subir BATCH_SIZE para acelerar.
# ---------------------------------------------------------------

‚úÖ Entrenado autoencoder. Forma de embeddings: (10, 64)


## 7) √çndices de **b√∫squeda sem√°ntica**

In [18]:
# ---------------------------------------------------------------
# Creamos √≠ndices k-Nearest Neighbors (kNN) usando la m√©trica de
# distancia coseno (1 - similitud_coseno). Luego definimos:
#   ‚Ä¢ embed_query(): c√≥mo convertir una consulta a vector seg√∫n el m√©todo
#   ‚Ä¢ search(): recupera los top-k documentos m√°s similares y arma una tabla
# ===============================================================

# √çndices kNN con m√©trica coseno
# - Para TF-IDF y LSA siempre tenemos matrices listas.
# - Para AE solo si el autoencoder se entren√≥ (ae_available=True y X_ae no es None).
idx_tfidf = NearestNeighbors(n_neighbors=5, metric="cosine").fit(X_tfidf)
idx_lsa   = NearestNeighbors(n_neighbors=5, metric="cosine").fit(X_lsa)
idx_ae    = NearestNeighbors(n_neighbors=5, metric="cosine").fit(X_ae) if ae_available else None

def embed_query(query: str, method: str = "lsa"):
    """
    Convierte una consulta en su representaci√≥n vectorial seg√∫n el 'method'.

    Flujo:
      1) Limpia y normaliza la consulta (min√∫sculas, quita acentos, stopwords, etc.).
      2) Vectoriza con el mismo TF-IDF entrenado sobre el corpus.
      3) Proyecta:
         - 'tfidf' ‚Üí se queda en el espacio TF-IDF.
         - 'lsa'   ‚Üí aplica SVD entrenado (espacio sem√°ntico reducido).
         - 'ae'    ‚Üí pasa por el encoder del autoencoder para obtener embeddings.
    """
    # Normalizamos y removemos stopwords para alinear con el preprocesamiento de los documentos
    q = remove_stopwords(query)

    # Vectorizamos la consulta con el mismo TF-IDF (¬°importante usar el mismo vocabulario!)
    v_tfidf = tfidf.transform([q])

    if method == "tfidf":
        # Devuelve vector en el espacio TF-IDF (matriz dispersa)
        return v_tfidf
    elif method == "lsa":
        # Proyecci√≥n al espacio latente de LSA (dimensionalidad reducida)
        return svd.transform(v_tfidf)
    elif method == "ae" and ae_available:
        # Pasamos a denso y obtenemos embeddings con el encoder del autoencoder
        return encoder.predict(v_tfidf.toarray().astype("float32"), verbose=0)
    else:
        # Errores comunes: pedir 'ae' cuando no se entren√≥; o m√©todo mal escrito
        raise ValueError("M√©todo no v√°lido o AE no disponible")

def search(query: str, k: int = 3, method: str = "lsa") -> pd.DataFrame:
    """
    Realiza una b√∫squeda sem√°ntica:
      - Embebe la consulta con embed_query().
      - Busca sus vecinos m√°s cercanos (top-k) en el √≠ndice correspondiente.
      - Devuelve un DataFrame con m√©tricas y metadatos legibles.

    Columnas del resultado:
      ‚Ä¢ score(1-cos): distancia = 1 - similitud_coseno  ‚Üí **MENOR es mejor** (0 = id√©ntico)
      ‚Ä¢ sim_cos     : similitud coseno                  ‚Üí **MAYOR es mejor** (1 = id√©ntico)
      ‚Ä¢ id, titulo  : metadatos del documento recuperado
      ‚Ä¢ snippet     : fragmento del contenido para inspecci√≥n r√°pida
    """
    # 1) Embedding de la consulta en el espacio correcto
    v = embed_query(query, method=method)

    # 2) Elegimos el √≠ndice seg√∫n 'method' y recuperamos distancias e √≠ndices
    if method == "tfidf":
        dist, idxs = idx_tfidf.kneighbors(v, n_neighbors=k)
    elif method == "lsa":
        dist, idxs = idx_lsa.kneighbors(v, n_neighbors=k)
    elif method == "ae":
        # Si pidieron AE pero no hay √≠ndice (por no entrenar), esto dar√≠a error;
        # asumimos que 'embed_query' lo control√≥ y solo llegamos aqu√≠ si AE est√° disponible.
        dist, idxs = idx_ae.kneighbors(v, n_neighbors=k)
    else:
        raise ValueError("M√©todo de b√∫squeda desconocido")

    # 3) Construimos una tabla amigable con los resultados
    rows = []
    for d, i in zip(dist[0], idxs[0]):
        rows.append({
            "score(1-cos)": float(d),                 # 1 - coseno  ‚Üí m√°s bajo = mejor
            "sim_cos": float(1.0 - d),                # coseno      ‚Üí m√°s alto = mejor
            "id": int(df.iloc[i]["id"]),              # id del doc recuperado
            "titulo": df.iloc[i]["titulo"],           # t√≠tulo del doc
            "snippet": df.iloc[i]["contenido"].strip()[:180] + "..."  # vista previa
        })

    # 4) Regresamos un DataFrame ordenado como lo entrega kNN (mejor a peor)
    return pd.DataFrame(rows)

## 8) Consultas de ejemplo

In [None]:
#---------------------------------------------------------------
# Objetivo: probar la b√∫squeda sem√°ntica con varias preguntas
# t√≠picas del caso de uso "FAQ corporativa". Usaremos el m√©todo
# LSA (espacio sem√°ntico reducido con SVD) y pediremos el top-3.
# ===============================================================

queries = [
    # Cada elemento es una "consulta" del usuario final.
    # Procuramos cubrir varias √°reas para ver si el buscador
    # trae el documento correcto por significado (no por palabras exactas).
    "¬øC√≥mo pido vacaciones y cu√°ntos d√≠as tengo?",                 # Esperado: doc de Vacaciones (id=1)
    "Necesito conectarme a la red interna desde casa",            # Esperado: VPN/teletrabajo (id=2)
    "Quiero acceso a bases de datos productivas",                 # Esperado: Accesos a BDs (id=10)
    "¬øQui√©n me ayuda con dashboards en Looker o Power BI?",       # Esperado: Soporte BI (id=5)
    "Alta en cuentas de nube para un proyecto en GCP"             # Esperado: Alta en Cloud (id=4)
]

# k = 3  ‚Üí Recupera los 3 documentos m√°s similares (top-3).
# method = "lsa" ‚Üí La consulta se vectoriza con TF-IDF y se proyecta al
#                  espacio sem√°ntico reducido por SVD (LSA).
# En este espacio comparamos por coseno: cuanto m√°s cerca del 1, m√°s similar.

for i, q in enumerate(queries, start=1):
    print(f"\nüîé Consulta {i}: {q}")

    # La funci√≥n search() devuelve un DataFrame con:
    # - 'score(1-cos)': distancia = 1 - coseno   ‚Üí **MENOR es mejor** (0 = id√©ntico).
    # - 'sim_cos':      similitud coseno         ‚Üí **MAYOR es mejor** (1 = id√©ntico).
    # - 'id':           id del documento recuperado.
    # - 'titulo':       t√≠tulo del documento.
    # - 'snippet':      primer fragmento del contenido para inspecci√≥n r√°pida.
    res = search(q, k=3, method="lsa")

    # Recordatorio r√°pido para interpretar:
    print("   Nota: sim_cos cercano a 1 = m√°s parecido; score(1-cos) cercano a 0 = mejor.")

    # Mostramos la tabla con los 3 mejores resultados seg√∫n la similitud coseno.
    display(res)

## 9) Mini evaluaci√≥n de relevancia (Precision@k y MRR)

In [None]:

# ---------------------------------------------------------------
# Usamos un "golden set" muy simple: para cada consulta definimos
# cu√°l ser√≠a el ID del documento correcto (verdad terreno).
# Luego calculamos dos m√©tricas:
#   ‚Ä¢ Precision@k: ¬øaparece el doc correcto dentro del top-k?
#   ‚Ä¢ MRR (Mean Reciprocal Rank): 1/rank del doc correcto.
#      - Si el correcto est√° en 1er lugar ‚Üí 1.0
#      - Si est√° en 2¬∫ ‚Üí 0.5; en 3¬∫ ‚Üí 0.333...; si no aparece ‚Üí 0.0
# ===============================================================

# "golden" aproximado: mapeamos consulta -> id de documento esperado
gold = {
    # Nota: queries[i] viene de la celda anterior.
    # Este mapeo es solo para esta pr√°ctica (corpus peque√±o).
    queries[0]: 1,   # Esperado: "Pol√≠tica de Vacaciones"
    queries[1]: 2,   # Esperado: "Acceso a VPN corporativa"
    queries[2]: 10,  # Esperado: "Accesos a Bases de Datos"
    queries[3]: 5,   # Esperado: "Soporte a Business Intelligence (BI)"
    queries[4]: 4,   # Esperado: "Alta en Plataformas Cloud (GCP/Azure/AWS)"
}

def precision_at_k(results_ids: List[int], relevant_id: int, k: int = 3) -> float:
    """
    Devuelve 1.0 si el documento relevante aparece dentro de los primeros k resultados,
    de lo contrario 0.0.
    - results_ids: lista de IDs ordenados por similitud (top primero).
    - relevant_id: ID del documento que consideramos la 'respuesta correcta'.
    - k: corte de la lista (top-k).
    """
    return 1.0 if relevant_id in results_ids[:k] else 0.0

def reciprocal_rank(results_ids: List[int], relevant_id: int) -> float:
    """
    Calcula el Reciprocal Rank (RR) para una consulta:
    - Busca en qu√© posici√≥n (rank) aparece el ID relevante.
    - Retorna 1/rank si se encuentra; 0.0 si no aparece en la lista.
    """
    for rank, doc_id in enumerate(results_ids, start=1):
        if doc_id == relevant_id:
            return 1.0 / rank
    return 0.0

def evaluate(method: str = "lsa", k: int = 3) -> dict:
    """
    Ejecuta la evaluaci√≥n para todas las consultas del 'golden' usando
    el m√©todo de embeddings indicado (lsa, tfidf o ae si est√° disponible).

    Flujo:
    1) Para cada consulta q del golden:
       - Recupera top-k resultados con search(q, k, method).
       - Extrae la lista de IDs (ordenados por similitud).
       - Calcula Precision@k y RR para esa consulta.
    2) Promedia sobre todas las consultas ‚Üí Precision@k promedio y MRR.

    Retorna:
      {"Precision@k": <promedio>, "MRR": <promedio>}
    """
    pks, mrrs = [], []
    for q, rel_id in gold.items():
        res = search(q, k=k, method=method)  # DataFrame con columnas: id, titulo, sim_cos, score(1-cos)...
        ids = res["id"].tolist()             # Extraemos solo los IDs en el orden retornado (mejor a peor).
        pks.append(precision_at_k(ids, rel_id, k=k))
        mrrs.append(reciprocal_rank(ids, rel_id))
    return {f"Precision@{k}": float(np.mean(pks)), "MRR": float(np.mean(mrrs))}

# ---------------------------------------------------------------
# Ejecutamos la evaluaci√≥n con distintos m√©todos de embeddings.
# Interpreta as√≠:
#  - Valores m√°s altos son mejores (m√°x 1.0).
#  - Diferencias peque√±as en corpus chico son normales.
#  - En producci√≥n, usa m√°s consultas y juicios humanos.
# ---------------------------------------------------------------
print("Resultados (LSA):", evaluate("lsa", k=3))
print("Resultados (TF-IDF):", evaluate("tfidf", k=3))
if ae_available:
    print("Resultados (Autoencoder):", evaluate("ae", k=3))



### Interpretaci√≥n r√°pida
- **Precision@k** indica si el documento correcto aparece entre los *k* primeros resultados.
- **MRR** (Mean Reciprocal Rank) promedia la inversa del *rank* del documento relevante. Valores m√°s altos ‚áí mejor.

> En un entorno real, conviene usar un conjunto de validaci√≥n m√°s grande, *judgements* manuales o heur√≠sticos (por ejemplo, *click logs*), y comparar varios m√©todos (TF‚ÄëIDF / LSA / *embeddings* neuronales preentrenados).


## 10) Playground: escribe tus propias consultas

In [None]:

# Escribe cualquier pregunta en lenguaje natural y recupera
# los 3 documentos m√°s parecidos por significado usando LSA.
# Puedes cambiar:
#   ‚Ä¢ q: tu texto de consulta
#   ‚Ä¢ k: cu√°ntos resultados quieres (top-k)
#   ‚Ä¢ method: "lsa" | "tfidf" | "ae" (si el autoencoder est√° disponible)
# ===============================================================

q = "Escribe aqu√≠ tu consulta libre, por ejemplo: necesito equipo de c√≥mputo nuevo"

# Ejecutamos la b√∫squeda sem√°ntica.
# La funci√≥n search() regresa un DataFrame con estas columnas:
#  - 'score(1-cos)': distancia = 1 - similitud coseno  ‚Üí **MENOR es mejor** (0 = id√©ntico).
#  - 'sim_cos':      similitud coseno                   ‚Üí **MAYOR es mejor** (1 = id√©ntico).
#  - 'id':           ID interno del documento.
#  - 'titulo':       t√≠tulo del documento recuperado.
#  - 'snippet':      fragmento del contenido para inspecci√≥n r√°pida.
resultados = search(q, k=3, method="lsa")

# Mensaje recordatorio para interpretar correctamente las m√©tricas
print("üîé Consulta libre:", q)
print("   Nota: sim_cos cercano a 1 = m√°s parecido; score(1-cos) cercano a 0 = mejor.")

# Mostramos la tabla con los top-k documentos
display(resultados)

# (Opcional) Vista ultra-resumida: t√≠tulos y similitud
print("\nResumen (t√≠tulo y similitud coseno):")
for _, row in resultados.iterrows():
    print(f" - [{row['id']:>2}] {row['titulo']}  |  sim_cos={row['sim_cos']:.3f}")



---
## 11) **Preguntas y ejercicios de comprensi√≥n**
1. **Expl√≠calo con tus palabras:** ¬øQu√© diferencia hay entre los *embeddings* basados en **TF‚ÄëIDF**, **LSA** y  **Autoencoder**? ¬øCu√°l ser√≠a m√°s robusto ante sin√≥nimos?
2. **Experimenta con dimensiones:** Cambia el valor de `n_components` en la celda de LSA (por ejemplo 32, 64, 128). ¬øC√≥mo var√≠an **Precision@k** y **MRR**? (Escribe el codigo debajo marcado con Experimento 2)
3. **Red neuronal:** Modifica `AE_EMBED_DIM`, `EPOCHS` y `BATCH_SIZE` del autoencoder. ¬øMejora o empeora el desempe√±o? ¬øAumenta el *overfitting*?
(Escribe el codigo debajo marcado con Experimento 3)
4. **Ampl√≠a el corpus:** Agrega al *DataFrame* `df` al menos **5** documentos adicionales (por ejemplo, sobre *pol√≠tica de gastos*, *viajes*, *beneficios*). Re‚Äëentrena y comenta los cambios en resultados.
5. **An√°lisis de relevancia:** Define **5 nuevas consultas** y una *golden truth* para cada una. Ejecuta la evaluaci√≥n y reporta m√©tricas con un breve comentario (2‚Äì3 l√≠neas).

> **Entrega:** Sube este *notebook* con tus respuestas (en celdas Markdown) y las m√©tricas obtenidas tras tus experimentos.
