# Notebook 6 ‚Äì Mini Sistema RAG Avanzado (sin transformers)

**Objetivo de este notebook:**  
Construir un **mini sistema RAG (Retrieval-Augmented Generation)** m√°s cercano a lo que se usa en producci√≥n, pero usando solo herramientas livianas de Python:

1. **Documentos institucionales sint√©ticos** (inspirados en pol√≠ticas y gu√≠as t√©cnicas de SISRED/BCN).
2. **Chunking avanzado**:
   - Divisi√≥n en fragmentos de tama√±o controlado.
   - Ventanas solapadas para mejorar el contexto.
3. **Embeddings**:
   - TF-IDF sobre chunks.
   - Reducci√≥n de dimensionalidad con **LSA (TruncatedSVD)** para obtener vectores densos.
4. **√çndice vectorial tipo FAISS/Chroma**:
   - `NearestNeighbors` con distancia coseno sobre los embeddings densos.
   - Re-ranqueo con **MMR (Maximal Marginal Relevance)** para evitar respuestas redundantes.
5. **Pipeline RAG simplificado**:
   - Recuperar los chunks m√°s relevantes para una pregunta.
   - Construir un contexto consolidado.
   - Generar una **respuesta pseudo-resumida** sin LLM (para entender la mec√°nica).
6. **Mini-desaf√≠o**:
   - Usar el sistema para responder preguntas sobre documentos institucionales y analizar la calidad de la recuperaci√≥n.

> En un sistema real, la parte de generaci√≥n final (la ‚ÄúG‚Äù de RAG) la har√≠a un LLM (p. ej. GPT), pero aqu√≠ vamos a abrir la ‚Äúcaja negra‚Äù del **Retrieval** y de c√≥mo se arma el contexto.


In [14]:
# ============================================================
# Celda 2 ‚Äì Imports principales (livianos, sin transformers)
# ============================================================

import re
import textwrap

import numpy as np
import pandas as pd

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.decomposition import TruncatedSVD
from sklearn.preprocessing import normalize
from sklearn.neighbors import NearestNeighbors


## 1. Dataset textual sint√©tico (documentos SISRED/BCN)

Vamos a crear un **conjunto de documentos sint√©ticos** que simulan:

- Pol√≠ticas internas de SISRED (seguridad, gesti√≥n de accesos).
- Gu√≠as de despliegue y operaci√≥n.
- Procedimientos de gesti√≥n de incidentes.
- Buenas pr√°cticas de desarrollo y documentaci√≥n.
- Lineamientos para proyectos de IA y uso de modelos generativos.

En un sistema real, estos documentos podr√≠an venir de:

- PDFs institucionales,
- wikis internas,
- repositorios de c√≥digo con READMEs,
- manuales de operaci√≥n,
- documentaci√≥n de APIs y microservicios.

Trabajaremos con un `DataFrame` con columnas:

- `doc_id`: identificador del documento.
- `title`: t√≠tulo del documento.
- `text`: contenido completo del documento (texto largo).
- `category`: tipo de documento (seguridad, despliegue, IA, etc.) ‚Äì √∫til como metadato.


In [15]:
# ============================================================
# Celda 4 ‚Äì Crear documentos sint√©ticos enriquecidos
# ============================================================

docs_data = [
    {
        "doc_id": 1,
        "title": "Pol√≠tica de Seguridad de SISRED",
        "category": "seguridad",
        "text": """
        La pol√≠tica de seguridad de SISRED establece lineamientos obligatorios para el manejo
        de credenciales, control de accesos y protecci√≥n de datos sensibles de los usuarios
        internos y externos. Todo acceso a sistemas de producci√≥n debe realizarse mediante
        autenticaci√≥n de dos factores (2FA) y conexiones seguras (HTTPS o VPN corporativa).
        Se proh√≠be expl√≠citamente compartir contrase√±as o tokens de acceso entre miembros
        del equipo. 

        Los perfiles de usuario deben implementarse bajo el principio de m√≠nimo privilegio,
        revis√°ndose al menos una vez al a√±o. Cualquier incidente de seguridad, como accesos
        no autorizados, filtraci√≥n de datos o comportamiento an√≥malo, debe reportarse al
        equipo de seguridad en un plazo m√°ximo de 2 horas desde su detecci√≥n, usando el
        canal oficial definido en la intranet de SISRED.
        """
    },
    {
        "doc_id": 2,
        "title": "Gu√≠a de Despliegue en Producci√≥n",
        "category": "despliegue",
        "text": """
        El despliegue de nuevas versiones de SISRED en producci√≥n debe seguir un flujo de
        integraci√≥n continua. Cada cambio debe pasar por revisi√≥n de c√≥digo (code review),
        pruebas automatizadas (unitarias y de integraci√≥n) y un ambiente de staging que
        replique las condiciones de producci√≥n.

        Los despliegues se realizan preferentemente fuera del horario peak de uso, salvo
        incidentes cr√≠ticos. Antes de desplegar, el responsable debe verificar que existe
        un plan de rollback documentado y probado, as√≠ como un checklist de validaci√≥n
        funcional post-despliegue.

        Los logs de despliegue y monitoreo se almacenan al menos por 6 meses para fines
        de auditor√≠a y an√°lisis de incidentes. Todo despliegue debe quedar trazado con
        un identificador de versi√≥n (tag) y el responsable t√©cnico asociado.
        """
    },
    {
        "doc_id": 3,
        "title": "Procedimiento de Gesti√≥n de Incidentes",
        "category": "operaciones",
        "text": """
        La gesti√≥n de incidentes en SISRED se divide en cuatro etapas: detecci√≥n, an√°lisis,
        mitigaci√≥n y cierre. Los incidentes se clasifican seg√∫n su impacto (alto, medio,
        bajo) y urgencia (cr√≠tico, urgente, normal). Una vez detectado un incidente, se debe
        registrar en la herramienta de seguimiento correspondiente.

        Durante la fase de mitigaci√≥n es fundamental mantener informados a los usuarios
        afectados, utilizando canales como correo institucional o paneles de estado
        en la plataforma. Finalizada la mitigaci√≥n, se ejecuta el an√°lisis de causa ra√≠z
        (RCA) y se definen acciones preventivas.

        El cierre formal del incidente requiere documentar el resumen del impacto, la causa
        ra√≠z y las lecciones aprendidas. Esta informaci√≥n se almacena en el repositorio de
        documentaci√≥n interna para consulta futura y auditor√≠as.
        """
    },
    {
        "doc_id": 4,
        "title": "Buenas Pr√°cticas de Desarrollo en SISRED",
        "category": "desarrollo",
        "text": """
        El desarrollo de nuevas funcionalidades para SISRED debe respetar buenas pr√°cticas
        de ingenier√≠a de software. Se recomienda aplicar principios SOLID, patrones de dise√±o
        apropiados y revisiones de c√≥digo entre pares.

        Todas las funcionalidades deben incluir pruebas unitarias con cobertura m√≠nima definida
        por el equipo, as√≠ como m√©tricas de rendimiento para consultas a base de datos. Se debe
        evitar la introducci√≥n de dependencias innecesarias o librer√≠as sin mantenimiento activo.

        Adem√°s, es obligatorio mantener documentaci√≥n actualizada de APIs y contratos de datos,
        de modo que otros equipos puedan integrar sus servicios de manera segura y confiable.
        """
    },
    {
        "doc_id": 5,
        "title": "Lineamientos para Proyectos de IA en SISRED",
        "category": "ia",
        "text": """
        Los proyectos de Inteligencia Artificial en SISRED deben alinearse con los objetivos
        institucionales y respetar principios de transparencia y trazabilidad. Antes de iniciar
        un proyecto de IA, se debe definir claramente el problema, las m√©tricas de √©xito y las
        restricciones de uso de datos.

        La preparaci√≥n de datos debe incluir anonimizaci√≥n cuando corresponda, gesti√≥n de sesgos
        y evaluaci√≥n de la calidad de las fuentes. Los modelos de IA deben ser monitoreados en
        producci√≥n, registrando su desempe√±o y detectando posibles desviaciones o degradaci√≥n
        en el tiempo.

        Para modelos de IA generativa, se debe documentar el contexto de uso, l√≠mites de decisi√≥n
        y mecanismos de supervisi√≥n humana. Toda integraci√≥n de IA con SISRED debe pasar por
        revisi√≥n de seguridad, cumplimiento normativo y pruebas de robustez.
        """
    }
]

docs_df = pd.DataFrame(docs_data)
docs_df


Unnamed: 0,doc_id,title,category,text
0,1,Pol√≠tica de Seguridad de SISRED,seguridad,\n La pol√≠tica de seguridad de SISRED e...
1,2,Gu√≠a de Despliegue en Producci√≥n,despliegue,\n El despliegue de nuevas versiones de...
2,3,Procedimiento de Gesti√≥n de Incidentes,operaciones,\n La gesti√≥n de incidentes en SISRED s...
3,4,Buenas Pr√°cticas de Desarrollo en SISRED,desarrollo,\n El desarrollo de nuevas funcionalida...
4,5,Lineamientos para Proyectos de IA en SISRED,ia,\n Los proyectos de Inteligencia Artifi...


In [16]:
# ============================================================
# Celda 5 ‚Äì Exploraci√≥n r√°pida del dataset
# ============================================================

print("N√∫mero de documentos:", len(docs_df))
docs_df[["doc_id", "title", "category"]]


N√∫mero de documentos: 5


Unnamed: 0,doc_id,title,category
0,1,Pol√≠tica de Seguridad de SISRED,seguridad
1,2,Gu√≠a de Despliegue en Producci√≥n,despliegue
2,3,Procedimiento de Gesti√≥n de Incidentes,operaciones
3,4,Buenas Pr√°cticas de Desarrollo en SISRED,desarrollo
4,5,Lineamientos para Proyectos de IA en SISRED,ia


## 2. Chunking documental con ventanas solapadas

Para un sistema RAG, trabajar con documentos completos suele ser poco eficiente:  
los textos son largos y el modelo (o el vectorizador) pierde foco.

Aqu√≠ vamos a aplicar **chunking avanzado**:

1. Dividir cada documento en **pseudo-oraciones** usando puntos (`.`) y saltos de l√≠nea.
2. Construir **ventanas solapadas** de oraciones:
   - Por ejemplo, ventanas de 3 oraciones, con un solapamiento de 1.
   - Esto permite que un mismo concepto pueda aparecer en m√°s de un chunk.
3. Crear una tabla de chunks con:
   - `chunk_id`
   - `doc_id`
   - `title`
   - `category`
   - `chunk_index` (posici√≥n del chunk dentro del documento)
   - `text_chunk`

üí° En producci√≥n, podr√≠amos chunkear por:
- tokens (usando un tokenizer),
- p√°rrafos,
- secciones con encabezados,
- o mezclas (tama√±o + sem√°ntica).


In [17]:
# ============================================================
# Celda 7 ‚Äì Chunking de documentos con ventanas solapadas
# ============================================================

def clean_text(text: str) -> str:
    """
    Limpieza ligera de texto:
    - Quita espacios duplicados.
    - Normaliza saltos de l√≠nea.
    """
    text = text.replace("\n", " ")
    text = re.sub(r"\s+", " ", text)
    return text.strip()


def split_into_sentences(text: str) -> list:
    """
    Divide en 'pseudo-oraciones' usando puntos como delimitador.
    Es una aproximaci√≥n simple, suficiente para este ejercicio.
    """
    text = clean_text(text)
    # Dividir por punto, pero manteniendo algo de limpieza
    raw_sentences = re.split(r"\.\s+", text)
    sentences = [s.strip() for s in raw_sentences if s.strip()]
    return sentences


def sliding_window_chunks(sentences, window_size=3, overlap=1):
    """
    Genera ventanas solapadas de oraciones.
    window_size: cu√°ntas oraciones por chunk.
    overlap: cu√°ntas oraciones se reutilizan entre una ventana y la siguiente.
    """
    if window_size <= 0:
        raise ValueError("window_size debe ser > 0")
    if overlap >= window_size:
        raise ValueError("overlap debe ser menor que window_size")

    step = window_size - overlap
    chunks = []
    for start in range(0, len(sentences), step):
        window = sentences[start:start + window_size]
        if not window:
            break
        chunk_text = ". ".join(window)
        if not chunk_text.endswith("."):
            chunk_text += "."
        chunks.append(chunk_text)
        if start + window_size >= len(sentences):
            break
    return chunks


# Construir DataFrame de chunks
chunks = []
for _, row in docs_df.iterrows():
    doc_id = row["doc_id"]
    title = row["title"]
    category = row["category"]
    sentences = split_into_sentences(row["text"])

    text_chunks = sliding_window_chunks(
        sentences,
        window_size=3,
        overlap=1
    )

    for idx, ch in enumerate(text_chunks):
        chunks.append({
            "doc_id": doc_id,
            "title": title,
            "category": category,
            "chunk_index": idx,
            "chunk_id": f"{doc_id}_{idx}",
            "text_chunk": ch
        })

chunks_df = pd.DataFrame(chunks)
chunks_df.head()


Unnamed: 0,doc_id,title,category,chunk_index,chunk_id,text_chunk
0,1,Pol√≠tica de Seguridad de SISRED,seguridad,0,1_0,La pol√≠tica de seguridad de SISRED establece l...
1,1,Pol√≠tica de Seguridad de SISRED,seguridad,1,1_1,Se proh√≠be expl√≠citamente compartir contrase√±a...
2,2,Gu√≠a de Despliegue en Producci√≥n,despliegue,0,2_0,El despliegue de nuevas versiones de SISRED en...
3,2,Gu√≠a de Despliegue en Producci√≥n,despliegue,1,2_1,Los despliegues se realizan preferentemente fu...
4,2,Gu√≠a de Despliegue en Producci√≥n,despliegue,2,2_2,Los logs de despliegue y monitoreo se almacena...


In [18]:
# ============================================================
# Celda 8 ‚Äì Resumen de chunks
# ============================================================

print("Total de chunks generados:", len(chunks_df))
chunks_df.groupby("doc_id")["chunk_id"].count().rename("num_chunks_por_doc")


Total de chunks generados: 13


doc_id
1    2
2    3
3    3
4    2
5    3
Name: num_chunks_por_doc, dtype: int64

## 3. Crear "embeddings" con TF-IDF + LSA (TruncatedSVD)

En sistemas RAG reales, se usan **embeddings densos** aprendidos por modelos de lenguaje
(`sentence-transformers`, `OpenAI embeddings`, etc.).  

Aqu√≠ vamos a construir algo similar, pero 100% local y liviano:

1. Representamos cada `text_chunk` con TF-IDF (`TfidfVectorizer`).
2. Aplicamos **TruncatedSVD** para reducir dimensionalidad:
   - Esto es equivalente a un modelo **LSA (Latent Semantic Analysis)**.
   - Obtenemos vectores densos (por ejemplo, de dimensi√≥n 64).
3. Normalizamos los vectores resultantes para poder usar **distancia coseno**.

Estos vectores densos ser√°n nuestros **embeddings** para alimentar el √≠ndice tipo FAISS/Chroma.


In [21]:
# ============================================================
# Celda 10 ‚Äì TF-IDF + LSA (TruncatedSVD)
# ============================================================
# Vectorizador TF-IDF

spanish_stopwords = ["de", "la", "que", "el", "en", "y", "a", "los", "del", "se", "las", "por", "un", 
                    "para", "con", "no", "una", "su", "al", "lo", "como", "m√°s", "pero", "sus", "le", 
                    "ya", "o", "este", "s√≠", "porque", "esta", "entre", "cuando", "muy", "sin", "sobre", 
                    "tambi√©n", "me", "hasta", "hay", "donde", "quien", "desde", "todo", "nos", "durante", 
                    "todos", "uno", "les", "ni", "contra", "otros", "ese", "eso", "ante", "ellos", "e", "esto", 
                    "m√≠", "antes", "algunos", "qu√©", "unos", "yo", "otro", "otras", "otra", "√©l", "tanto", "esa",
                    "estos", "mucho", "quienes", "nada", "muchos", "cual", "poco", "ella", "estar√©"]

vectorizer = TfidfVectorizer(
    stop_words=spanish_stopwords,  # usar lista personalizada de stopwords en espa√±ol (variable existente)
    ngram_range=(1, 2),            # unigramas y bigramas
    max_df=0.9,                    # ignorar t√©rminos muy frecuentes
    min_df=1                       # podr√≠amos subir esto si hubiera muchos docs
)

X_tfidf = vectorizer.fit_transform(chunks_df["text_chunk"])
print("Shape matriz TF-IDF:", X_tfidf.shape)

# Reducir dimensionalidad con TruncatedSVD (LSA)
n_components = 64 if X_tfidf.shape[1] > 64 else min(32, X_tfidf.shape[1])
svd = TruncatedSVD(n_components=n_components, random_state=42)
X_lsa = svd.fit_transform(X_tfidf)

# Normalizar para que la distancia Euclidiana sea ~ distancia coseno
X_embeddings = normalize(X_lsa)

print("Shape matriz embeddings LSA:", X_embeddings.shape)
print("Varianza explicada acumulada (aprox):", svd.explained_variance_ratio_.sum())


Shape matriz TF-IDF: (13, 607)
Shape matriz embeddings LSA: (13, 13)
Varianza explicada acumulada (aprox): 0.9999999999999999


## 4. √çndice vectorial tipo FAISS/Chroma

Con los embeddings densos listos, construimos un √≠ndice de b√∫squeda:

- Usaremos `NearestNeighbors` de `scikit-learn` con m√©trica **cosine**.
- Conceptualmente imita herramientas como **FAISS** o **Chroma**:
  - Guarda la matriz de embeddings.
  - Permite buscar los vectores m√°s cercanos a una consulta.

Luego, para una `query`:

1. Vectorizamos la pregunta (TF-IDF + SVD + normalizaci√≥n).
2. Buscamos los chunks m√°s cercanos en el √≠ndice.
3. Opcionalmente aplicamos **MMR (Maximal Marginal Relevance)** para evitar repetir chunks muy similares.


In [22]:
# ============================================================
# Celda 12 ‚Äì √çndice tipo vector DB (NearestNeighbors)
# ============================================================

nn_index = NearestNeighbors(
    n_neighbors=10,   # recuperamos m√°s de lo que mostraremos, para aplicar MMR
    metric="cosine"
)

nn_index.fit(X_embeddings)


## 5. Funci√≥n de b√∫squeda (retrieval) con MMR

Definiremos una funci√≥n:

```python
retrieve_chunks(query, k=3, use_mmr=True)


In [23]:
# ============================================================
# Celda 14 ‚Äì MMR y funci√≥n de b√∫squeda
# ============================================================

def embed_query(query: str) -> np.ndarray:
    """
    Aplica el mismo pipeline de embeddings para una query:
    TF-IDF -> SVD -> normalizaci√≥n.
    """
    q_tfidf = vectorizer.transform([query])
    q_lsa = svd.transform(q_tfidf)
    q_emb = normalize(q_lsa)
    return q_emb


def maximal_marginal_relevance(query_vec, candidate_vecs, lambda_param=0.7, k=3):
    """
    Implementaci√≥n simple de MMR.
    query_vec: vector (1, d)
    candidate_vecs: matriz (n_candidates, d)
    """
    # Similitud entre query y candidatos
    sim_to_query = (candidate_vecs @ query_vec.T).ravel()  # coseno aprox porque est√°n normalizados

    # Matriz de similitud entre candidatos
    sim_between_candidates = candidate_vecs @ candidate_vecs.T

    selected_indices = []
    candidate_indices = list(range(candidate_vecs.shape[0]))

    for _ in range(min(k, candidate_vecs.shape[0])):
        mmr_scores = []
        for idx in candidate_indices:
            if not selected_indices:
                diversity_penalty = 0.0
            else:
                diversity_penalty = max(sim_between_candidates[idx, s] for s in selected_indices)
            mmr_score = lambda_param * sim_to_query[idx] - (1 - lambda_param) * diversity_penalty
            mmr_scores.append((idx, mmr_score))

        # Elegir el candidato con mayor MMR
        best_idx, _ = max(mmr_scores, key=lambda x: x[1])
        selected_indices.append(best_idx)
        candidate_indices.remove(best_idx)

    return selected_indices


def retrieve_chunks(query: str, k: int = 3, use_mmr: bool = True):
    """
    Recupera los k chunks m√°s relevantes para una query.
    Si use_mmr=True, usa MMR para mejorar diversidad de los resultados.
    """
    query_vec = embed_query(query)
    distances, indices = nn_index.kneighbors(query_vec, n_neighbors=10)

    candidate_indices = indices[0]
    candidate_vecs = X_embeddings[candidate_indices]

    if use_mmr:
        selected_local = maximal_marginal_relevance(
            query_vec=query_vec,
            candidate_vecs=candidate_vecs,
            lambda_param=0.7,
            k=k
        )
    else:
        selected_local = list(range(min(k, len(candidate_indices))))

    selected_global = [candidate_indices[i] for i in selected_local]

    # Convertir distancia a similitud
    all_scores = 1 - distances[0]
    scores_dict = {idx: float(score) for idx, score in zip(candidate_indices, all_scores)}

    results = []
    for idx in selected_global:
        row = chunks_df.iloc[idx]
        results.append({
            "score": round(scores_dict[idx], 3),
            "doc_id": row["doc_id"],
            "title": row["title"],
            "category": row["category"],
            "chunk_id": row["chunk_id"],
            "chunk_index": row["chunk_index"],
            "text_chunk": row["text_chunk"]
        })

    results_df = pd.DataFrame(results).sort_values("score", ascending=False)

    # Agregar un ranking por documento
    doc_scores = (
        results_df.groupby(["doc_id", "title", "category"])["score"]
        .mean()
        .reset_index()
        .sort_values("score", ascending=False)
        .rename(columns={"score": "doc_score"})
    )

    return results_df, doc_scores


# Ejemplo de prueba
query_demo = "¬øC√≥mo se gestionan los accesos y credenciales en producci√≥n?"
res_chunks_demo, res_docs_demo = retrieve_chunks(query_demo, k=4, use_mmr=True)
res_chunks_demo

Unnamed: 0,score,doc_id,title,category,chunk_id,chunk_index,text_chunk
0,0.847,1,Pol√≠tica de Seguridad de SISRED,seguridad,1_0,0,La pol√≠tica de seguridad de SISRED establece l...
1,0.449,2,Gu√≠a de Despliegue en Producci√≥n,despliegue,2_0,0,El despliegue de nuevas versiones de SISRED en...
3,0.259,1,Pol√≠tica de Seguridad de SISRED,seguridad,1_1,1,Se proh√≠be expl√≠citamente compartir contrase√±a...
2,0.232,5,Lineamientos para Proyectos de IA en SISRED,ia,5_1,1,La preparaci√≥n de datos debe incluir anonimiza...


In [24]:
# ============================================================
# Celda 15 ‚Äì Ver ranking agregado por documento
# ============================================================

res_docs_demo


Unnamed: 0,doc_id,title,category,doc_score
0,1,Pol√≠tica de Seguridad de SISRED,seguridad,0.553
1,2,Gu√≠a de Despliegue en Producci√≥n,despliegue,0.449
2,5,Lineamientos para Proyectos de IA en SISRED,ia,0.232


## 6. Mini pipeline de respuesta (la "G" de RAG)

En un RAG real:

1. Tomamos la **pregunta del usuario**.
2. Recuperamos los chunks m√°s relevantes (lo que ya sabemos hacer).
3. Construimos un **contexto** concatenando esos chunks.
4. Construimos un **prompt** que combina:
   - La pregunta (`query`).
   - El contexto.
5. Enviamos ese prompt a un **LLM** (GPT, Llama, etc.) para que genere la respuesta final.

En este notebook vamos a simular la parte de generaci√≥n con un enfoque simple:

- Construiremos un contexto consolidado con los chunks recuperados.
- Extraeremos las oraciones m√°s relevantes para la pregunta usando TF-IDF.
- Generaremos una respuesta tipo ‚Äúresumen ejecutivo‚Äù apoyada en ese contexto.

La idea es que se vea claramente **de d√≥nde sale la informaci√≥n**.


In [26]:
# ============================================================
# Celda 17 ‚Äì Construcci√≥n de contexto y respuesta simplificada
# ============================================================

def build_context_from_results(results_df: pd.DataFrame) -> str:
    """
    Une los text_chunk recuperados para formar un contexto consolidado,
    anotando de qu√© documento viene cada fragmento.
    """
    context_pieces = []
    for _, row in results_df.iterrows():
        header = f"[Doc {row['doc_id']} ‚Äì {row['title']} | {row['category']}]"
        context_pieces.append(f"{header}\n{row['text_chunk']}")
    return "\n\n".join(context_pieces)


def extractive_summary_from_context(context: str, query: str, max_sentences: int = 4) -> str:
    """
    Resume el contexto seleccionando las oraciones m√°s relevantes para la query.
    Aproximaci√≥n:
    - Dividir contexto en oraciones.
    - Vectorizar oraciones + query con TF-IDF (local para el resumen).
    - Ordenar oraciones por similitud con la query.
    """
    # Dividir contexto en pseudo-oraciones
    sentences = re.split(r"(?<=[\.\!\?])\s+", context)
    sentences = [s.strip() for s in sentences if s.strip()]

    if not sentences:
        return "No se encontr√≥ suficiente contexto para generar un resumen."

    # Vectorizar oraciones + query
    # Usamos la lista existente de stopwords en espa√±ol (spanish_stopwords) definida previamente.
    local_vectorizer = TfidfVectorizer(stop_words=spanish_stopwords)
    corpus = sentences + [query]
    X_local = local_vectorizer.fit_transform(corpus)

    # La √∫ltima fila es la query
    query_vec = X_local[-1]
    sent_vecs = X_local[:-1]

    # Calcular similitud coseno (producto punto dado que TF-IDF no est√° normalizado a 1, pero sirve de aproximaci√≥n)
    sim_scores = (sent_vecs @ query_vec.T).toarray().ravel()

    # Seleccionar top oraciones
    top_indices = np.argsort(sim_scores)[::-1][:max_sentences]
    selected_sentences = [sentences[i] for i in top_indices]

    # Mantener el orden original para legibilidad
    selected_sentences_sorted = sorted(selected_sentences, key=lambda s: sentences.index(s))

    return " ".join(selected_sentences_sorted)


def simple_rag_answer(query: str, k: int = 4, max_sentences: int = 4):
    """
    Pipeline RAG simplificado:
    1. Recupera k chunks relevantes (con MMR).
    2. Construye un contexto consolidado.
    3. Genera una 'respuesta' extractiva simple.
    """
    res_chunks, res_docs = retrieve_chunks(query, k=k, use_mmr=True)
    context = build_context_from_results(res_chunks)
    summary = extractive_summary_from_context(context, query, max_sentences=max_sentences)

    answer = f"""
    Pregunta del usuario:
    {query}

    Documentos m√°s relevantes (promedio de score por documento):
    {res_docs.to_string(index=False)}

    Resumen basado en el contexto recuperado:
    {summary}

    Nota:
    En un sistema RAG real, este resumen ser√≠a reemplazado por la salida de un modelo
    de lenguaje (LLM), usando este mismo contexto como entrada para generar una
    respuesta m√°s detallada, con ejemplos y redacci√≥n natural.
    """

    return res_chunks, res_docs, answer


# Probar el pipeline con una pregunta sobre despliegue
query_demo_2 = "¬øQu√© pasos debo seguir para desplegar una nueva versi√≥n de SISRED en producci√≥n?"
chunks_ans, docs_ans, answer_text = simple_rag_answer(query_demo_2, k=4, max_sentences=4)

chunks_ans


Unnamed: 0,score,doc_id,title,category,chunk_id,chunk_index,text_chunk
0,0.905,2,Gu√≠a de Despliegue en Producci√≥n,despliegue,2_0,0,El despliegue de nuevas versiones de SISRED en...
1,0.364,2,Gu√≠a de Despliegue en Producci√≥n,despliegue,2_2,2,Los logs de despliegue y monitoreo se almacena...
2,0.215,1,Pol√≠tica de Seguridad de SISRED,seguridad,1_0,0,La pol√≠tica de seguridad de SISRED establece l...
3,0.159,5,Lineamientos para Proyectos de IA en SISRED,ia,5_1,1,La preparaci√≥n de datos debe incluir anonimiza...


In [27]:
# ============================================================
# Celda 18 ‚Äì Mostrar la respuesta completa para la query demo
# ============================================================

print(answer_text)



    Pregunta del usuario:
    ¬øQu√© pasos debo seguir para desplegar una nueva versi√≥n de SISRED en producci√≥n?

    Documentos m√°s relevantes (promedio de score por documento):
     doc_id                                       title   category  doc_score
      2            Gu√≠a de Despliegue en Producci√≥n despliegue     0.6345
      1             Pol√≠tica de Seguridad de SISRED  seguridad     0.2150
      5 Lineamientos para Proyectos de IA en SISRED         ia     0.1590

    Resumen basado en el contexto recuperado:
    [Doc 2 ‚Äì Gu√≠a de Despliegue en Producci√≥n | despliegue]
El despliegue de nuevas versiones de SISRED en producci√≥n debe seguir un flujo de integraci√≥n continua. Todo despliegue debe quedar trazado con un identificador de versi√≥n (tag) y el responsable t√©cnico asociado. [Doc 1 ‚Äì Pol√≠tica de Seguridad de SISRED | seguridad]
La pol√≠tica de seguridad de SISRED establece lineamientos obligatorios para el manejo de credenciales, control de accesos y prot

## 7. Inspeccionar c√≥mo el sistema ‚Äúve‚Äù una pregunta

Para que el equipo de desarrollo entienda mejor c√≥mo funciona el sistema, es √∫til:

- Ver qu√© t√©rminos de la query est√°n en el vocabulario TF-IDF.
- Ver su **idf** (qu√© tan informativos son).
- Entender por qu√© ciertos documentos o chunks salen arriba.

Vamos a crear una funci√≥n `inspect_query_terms(query)` que:

1. Tokeniza la query.
2. Muestra qu√© tokens est√°n en el vocabulario.
3. Entrega el idf aproximado de cada uno (a mayor idf, m√°s informativo).


In [28]:
# ============================================================
# Celda 20 ‚Äì Inspeccionar t√©rminos de la query en el vocabulario TF-IDF
# ============================================================

def inspect_query_terms(query: str, top_n: int = 20):
    tokens = re.findall(r"\b\w+\b", query.lower())
    vocab = vectorizer.vocabulary_
    idf = vectorizer.idf_

    rows = []
    for t in tokens:
        if t in vocab:
            idx = vocab[t]
            rows.append({"term": t, "idf": idf[idx]})
        else:
            rows.append({"term": t, "idf": None})

    df_terms = pd.DataFrame(rows).drop_duplicates(subset=["term"])
    df_terms = df_terms.sort_values("idf", ascending=False, na_position="last")
    return df_terms.head(top_n)


inspect_query_terms("gesti√≥n de incidentes cr√≠ticos en producci√≥n y seguridad de accesos")


Unnamed: 0,term,idf
3,cr√≠ticos,2.540445
9,accesos,2.540445
0,gesti√≥n,2.252763
5,producci√≥n,2.252763
7,seguridad,2.252763
2,incidentes,2.029619
1,de,
4,en,
6,y,


## 8. Mini-desaf√≠o ‚Äì Preguntas institucionales con an√°lisis

üéØ **Objetivo del mini-desaf√≠o**

Cada participante debe:

1. Proponer **2‚Äì3 preguntas** relacionadas con:
   - Pol√≠ticas de seguridad.
   - Despliegue en producci√≥n.
   - Gesti√≥n de incidentes.
   - Proyectos de IA y su monitoreo en SISRED.
2. Para cada pregunta:
   - Usar `simple_rag_answer(query, k=4, max_sentences=4)`.
   - Revisar:
     - Los **chunks** recuperados (`res_chunks`).
     - El **ranking de documentos** (`res_docs`).
     - El resumen generado.
3. Responder:
   - ¬øLos documentos que aparecen como m√°s relevantes tienen sentido?
   - ¬øEl resumen realmente responde la pregunta o falta contexto?
   - ¬øQu√© cambiar√≠as en:
     - La forma de chunkear (tama√±o de ventana, solapamiento).
     - Los documentos base.
     - El tipo de pregunta (m√°s espec√≠fica o m√°s general).

‚úçÔ∏è **Ejemplos de preguntas para inspirarse**:

- "¬øC√≥mo se deben manejar las credenciales de acceso a los sistemas de producci√≥n?"
- "¬øQu√© etapas se consideran en la gesti√≥n de un incidente cr√≠tico en SISRED?"
- "¬øQu√© buenas pr√°cticas de desarrollo se recomiendan para nuevas funcionalidades?"
- "¬øQu√© consideraciones especiales existen al desarrollar proyectos de IA en SISRED?"

> En una implementaci√≥n productiva, aqu√≠ conectar√≠amos este pipeline con un LLM
> (por ejemplo, GPT) para convertir el contexto en respuestas conversacionales,
> pero la l√≥gica de **chunking + embeddings + √≠ndice vectorial** ser√≠a esencialmente la misma.


In [29]:
# ============================================================
# Celda 22 ‚Äì Espacio para tus propias preguntas (ejercicio)
# ============================================================

mis_preguntas = [
    "Escribe aqu√≠ tu primera pregunta sobre SISRED o proyectos de IA",
    "Escribe aqu√≠ tu segunda pregunta",
    # Agrega m√°s preguntas si quieres...
]

for q in mis_preguntas:
    print("=" * 100)
    print("PREGUNTA:", q)
    res_chunks, res_docs, ans = simple_rag_answer(q, k=4, max_sentences=4)

    print("\n--- Ranking por documento ---")
    display(res_docs)

    print("\n--- Chunks seleccionados ---")
    display(res_chunks[["score", "doc_id", "title", "chunk_index", "text_chunk"]])

    print("\n--- Resumen / Respuesta ---")
    print(ans)


PREGUNTA: Escribe aqu√≠ tu primera pregunta sobre SISRED o proyectos de IA

--- Ranking por documento ---


Unnamed: 0,doc_id,title,category,doc_score
1,5,Lineamientos para Proyectos de IA en SISRED,ia,0.623667
0,3,Procedimiento de Gesti√≥n de Incidentes,operaciones,0.118



--- Chunks seleccionados ---


Unnamed: 0,score,doc_id,title,chunk_index,text_chunk
0,0.719,5,Lineamientos para Proyectos de IA en SISRED,0,Los proyectos de Inteligencia Artificial en SI...
1,0.705,5,Lineamientos para Proyectos de IA en SISRED,2,"Para modelos de IA generativa, se debe documen..."
2,0.447,5,Lineamientos para Proyectos de IA en SISRED,1,La preparaci√≥n de datos debe incluir anonimiza...
3,0.118,3,Procedimiento de Gesti√≥n de Incidentes,0,La gesti√≥n de incidentes en SISRED se divide e...



--- Resumen / Respuesta ---

    Pregunta del usuario:
    Escribe aqu√≠ tu primera pregunta sobre SISRED o proyectos de IA

    Documentos m√°s relevantes (promedio de score por documento):
     doc_id                                       title    category  doc_score
      5 Lineamientos para Proyectos de IA en SISRED          ia   0.623667
      3      Procedimiento de Gesti√≥n de Incidentes operaciones   0.118000

    Resumen basado en el contexto recuperado:
    [Doc 5 ‚Äì Lineamientos para Proyectos de IA en SISRED | ia]
Los proyectos de Inteligencia Artificial en SISRED deben alinearse con los objetivos institucionales y respetar principios de transparencia y trazabilidad. [Doc 5 ‚Äì Lineamientos para Proyectos de IA en SISRED | ia]
Para modelos de IA generativa, se debe documentar el contexto de uso, l√≠mites de decisi√≥n y mecanismos de supervisi√≥n humana. Toda integraci√≥n de IA con SISRED debe pasar por revisi√≥n de seguridad, cumplimiento normativo y pruebas de robustez. 

Unnamed: 0,doc_id,title,category,doc_score
0,1,Pol√≠tica de Seguridad de SISRED,seguridad,0.0
1,2,Gu√≠a de Despliegue en Producci√≥n,despliegue,0.0
2,3,Procedimiento de Gesti√≥n de Incidentes,operaciones,0.0
3,4,Buenas Pr√°cticas de Desarrollo en SISRED,desarrollo,0.0



--- Chunks seleccionados ---


Unnamed: 0,score,doc_id,title,chunk_index,text_chunk
0,0.0,3,Procedimiento de Gesti√≥n de Incidentes,2,"Finalizada la mitigaci√≥n, se ejecuta el an√°lis..."
1,0.0,4,Buenas Pr√°cticas de Desarrollo en SISRED,0,El desarrollo de nuevas funcionalidades para S...
2,0.0,2,Gu√≠a de Despliegue en Producci√≥n,2,Los logs de despliegue y monitoreo se almacena...
3,0.0,1,Pol√≠tica de Seguridad de SISRED,0,La pol√≠tica de seguridad de SISRED establece l...



--- Resumen / Respuesta ---

    Pregunta del usuario:
    Escribe aqu√≠ tu segunda pregunta

    Documentos m√°s relevantes (promedio de score por documento):
     doc_id                                    title    category  doc_score
      1          Pol√≠tica de Seguridad de SISRED   seguridad        0.0
      2         Gu√≠a de Despliegue en Producci√≥n  despliegue        0.0
      3   Procedimiento de Gesti√≥n de Incidentes operaciones        0.0
      4 Buenas Pr√°cticas de Desarrollo en SISRED  desarrollo        0.0

    Resumen basado en el contexto recuperado:
    Todo despliegue debe quedar trazado con un identificador de versi√≥n (tag) y el responsable t√©cnico asociado. [Doc 1 ‚Äì Pol√≠tica de Seguridad de SISRED | seguridad]
La pol√≠tica de seguridad de SISRED establece lineamientos obligatorios para el manejo de credenciales, control de accesos y protecci√≥n de datos sensibles de los usuarios internos y externos. Todo acceso a sistemas de producci√≥n debe realizarse medi