In [67]:
# ============================================
# 1) Montar Google Drive
# ============================================
from google.colab import drive

drive.mount('/content/drive')
print("‚úÖ Drive montado.")


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
‚úÖ Drive montado.


In [68]:
# ============================================
# 2) Definir las rutas base en Drive
#    Ajustadas a tu estructura:
#    Mi unidad / Colab Notebooks / Tarea3-IA / ...
# ============================================
import os

# Ruta base a "Mi unidad"
BASE_DRIVE = "/content/drive/MyDrive"

# Carpeta ra√≠z del proyecto de la tarea
PROYECTO_DIR = os.path.join(BASE_DRIVE, "Colab Notebooks", "Tarea3-IA")

# Carpetas espec√≠ficas
METADATA_FILE = os.path.join(PROYECTO_DIR, "MetadataRAW.csv")
PDFS_DIR = os.path.join(PROYECTO_DIR, "RepositorioApuntesPdf")

print("üìÅ Proyecto:", PROYECTO_DIR)
print("üìÅ Metadata:", METADATA_FILE)
print("üìÅ PDFs:", PDFS_DIR)


üìÅ Proyecto: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA
üìÅ Metadata: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/MetadataRAW.csv
üìÅ PDFs: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/RepositorioApuntesPdf


In [69]:
# ============================================
# 3) Verificar que las carpetas existen
#    (esto ayuda a detectar typos en el nombre)
# ============================================

def check_dir(path, name):
    if os.path.exists(path):
        print(f"‚úÖ {name} encontrada: {path}")
    else:
        print(f"‚ùå {name} NO encontrada. Revisa el nombre en Drive: {path}")

check_dir(PROYECTO_DIR, "Carpeta del proyecto")
check_dir(METADATA_FILE, "Archivo de metadata")
check_dir(PDFS_DIR, "Carpeta de PDFs")


‚úÖ Carpeta del proyecto encontrada: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA
‚úÖ Archivo de metadata encontrada: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/MetadataRAW.csv
‚úÖ Carpeta de PDFs encontrada: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/RepositorioApuntesPdf


In [70]:
# ============================================
# 4) Listar los PDFs disponibles
#    (esto confirma que Colab est√° viendo tu carpeta)
# ============================================

pdf_files = [f for f in os.listdir(PDFS_DIR) if f.lower().endswith(".pdf")]
print(f"üìö PDFs encontrados: {len(pdf_files)}")
for f in pdf_files:
    print("  -", f)


üìö PDFs encontrados: 46
  - 5_Semana_AI_20250904_2.pdf
  - 6_Semana_AI_20250911_2.pdf
  - 11_Semana_AI_20251016_4.pdf
  - 11_Semana_AI_20251014_3.pdf
  - 10_SEMANA_AI_20251007_1-222887296.pdf
  - 7_Semana_AI_20250916_2.pdf
  - 12_SEMANA_AI_20251021_3.pdf
  - 2_Semana_AI_20250812_3.pdf
  - 11_Semana_AI_20251014_2.pdf
  - 8_Semana_AI_20250925_2.pdf
  - 11_Semana_AI_20251014_1.pdf
  - 5_Semana_AI_20250904_1.pdf
  - 10_SEMANA_AI_20251009_1.pdf
  - 12_SEMANA_AI_20251021_4.pdf
  - 8_Semana_AI_20250923_1.pdf
  - 1_Semana_AI_20250807_2.pdf
  - 2_Semana_AI_20250814_1.pdf
  - 2_Semana_AI_20250814_2.pdf
  - 5_Semana_AI_20250902_2.pdf
  - 6_Semana_AI_20250911_1.pdf
  - 5_Semana_AI_20250902_1.pdf
  - 11_SEMANA_AI_20251016_2.pdf
  - 4_SEMANA_AI_20250826_1.pdf
  - 6_Semana_AI_20250909_2-220676337.pdf
  - 8_Semana_AI_20250925_1.pdf
  - 7_Semana_AI_20250918_1.pdf
  - 12_SEMANA_AI_20251021_1.pdf
  - 3_Semana_AI_20250819_2.pdf
  - 4_Semana_AI_20250828_1.pdf
  - 7_Semana_AI_20250918_2.pdf
  - 4_SEMANA_A

In [71]:
# ============================================
# 5) Cargar archivo de metadata
#    Columnas esperadas: id_doc, nombre_archivo, autor, fecha, tema
# ============================================

import os
import pandas as pd

if os.path.exists(METADATA_FILE):
    # Leer tal cual, como texto (sin parsear fechas)
    df_meta = pd.read_csv(METADATA_FILE, dtype=str, keep_default_na=False)
    print(f"‚úÖ Metadata CSV cargada correctamente ({len(df_meta)} filas) desde:\n{METADATA_FILE}\n")

    # Chequeo suave de columnas (sin modificar nada)
    expected = ["id_doc", "nombre_archivo", "autor", "fecha", "tema"]
    missing = [c for c in expected if c not in df_meta.columns]
    if missing:
        print("‚ö†Ô∏è Faltan columnas esperadas:", missing)
    else:
        print("üìë Columnas detectadas:", list(df_meta.columns))

        df_meta["fecha"] = pd.to_datetime(df_meta["fecha"], errors="coerce")


    # Preview
    display(df_meta.head(10))
else:
    print("‚ö†Ô∏è No se encontr√≥ el archivo 'metadata.csv' en la carpeta Metadata:", METADATA_FILE)


‚úÖ Metadata CSV cargada correctamente (46 filas) desde:
/content/drive/MyDrive/Colab Notebooks/Tarea3-IA/MetadataRAW.csv

üìë Columnas detectadas: ['id_doc', 'nombre_archivo', 'autor', 'fecha', 'tema']


Unnamed: 0,id_doc,nombre_archivo,autor,fecha,tema
0,DOC_001,1_SEMANA_AI_20250807_1.pdf,Rodolfo David Acu√±a L√≥pez,2025-08-07,Principios fundamentales de la inteligencia ar...
1,DOC_002,1_Semana_AI_20250807_2.pdf,Fernando Daniel Brenes Reyes,2025-08-07,Aplicaciones de la inteligencia artificial y m...
2,DOC_003,2_SEMANA_AI_20250812_1.pdf,Priscilla Jim√©nez Salgado,2025-08-12,Introducci√≥n a machine learning y deep learnin...
3,DOC_004,2_Semana_AI_20250812_3.pdf,Luis Alfredo Gonz√°lez S√°nchez,2025-08-12,Resumen de conceptos clave de IA y enfoques de...
4,DOC_005,2_Semana_AI_20250814_1.pdf,Kendall Rodr√≠guez Camacho,2025-08-14,Introducci√≥n a √°lgebra lineal aplicada con Pyt...
5,DOC_006,2_Semana_AI_20250814_2.pdf,Jose Pablo Quesada Rodr√≠guez,2025-08-14,"Resumen detallado sobre tipos de aprendizaje, ..."
6,DOC_007,3_Semana_AI_20250819_1.pdf,Javier Rojas Rojas,2025-08-19,Revisi√≥n de √°lgebra lineal y aprendizaje super...
7,DOC_008,3_Semana_AI_20250819_2.pdf,Mariana Quesada S√°nchez,2025-08-19,Repaso de √°lgebra lineal y fundamentos del apr...
8,DOC_009,3_Semana_AI_20250821_1.pdf,Julio Varela Venegas,2025-08-21,Aplicaci√≥n del √°lgebra lineal y la programaci√≥...
9,DOC_010,4_SEMANA_AI_20250826_1.pdf,Andr√©s S√°nchez Rojas,2025-08-26,Implementaci√≥n del algoritmo KNN y fundamentos...


In [72]:
# ============================================================
# COMPA√ëERO 1 ‚Äì DATOS Y PREPROCESAMIENTO (PASO 2 COMPLETO)
# Extraer texto, normalizar y segmentar (A: chunks fijos, B: encabezados)
# Requiere:
#  - Variables definidas antes: PROYECTO_DIR, METADATA_FILE, PDFS_DIR
#  - METADATA_FILE con columnas: id_doc, nombre_archivo, autor, fecha, tema
# Salidas (para Compa√±ero 2):
#  - dataset/base_documentos.jsonl / .parquet
#  - dataset/seg_a.jsonl / dataset/seg_b.jsonl
#  - dataset/txt_por_doc/DOC_###.txt (opcional)
#  - dataset/preprocesamiento_decisiones.md
# ============================================================

!pip install --quiet pdfplumber pandas pyarrow

import os, re, json, unicodedata
from pathlib import Path
import pdfplumber
import pandas as pd

# ---------- CONFIGURACI√ìN ----------
OUT_DIR = os.path.join(PROYECTO_DIR, "dataset")
TXT_DIR = os.path.join(OUT_DIR, "txt_por_doc")
Path(OUT_DIR).mkdir(parents=True, exist_ok=True)
Path(TXT_DIR).mkdir(parents=True, exist_ok=True)

BASE_DOCS_JSONL   = os.path.join(OUT_DIR, "base_documentos.jsonl")
BASE_DOCS_PARQUET = os.path.join(OUT_DIR, "base_documentos.parquet")
SEG_A_JSONL       = os.path.join(OUT_DIR, "seg_a.jsonl")
SEG_B_JSONL       = os.path.join(OUT_DIR, "seg_b.jsonl")
NOTAS_PREPROC     = os.path.join(OUT_DIR, "preprocesamiento_decisiones.md")

# (Ajusta si quer√©s otros tama√±os)
CHUNK_WORDS   = 400    # tama√±o del chunk (en palabras aproximado)
CHUNK_OVERLAP = 80     # solapamiento entre chunks

# Si existen salidas previas, limpirlas (evita duplicados al re-ejecutar)
for p in [BASE_DOCS_JSONL, BASE_DOCS_PARQUET, SEG_A_JSONL, SEG_B_JSONL, NOTAS_PREPROC]:
    try:
        if os.path.exists(p): os.remove(p)
    except Exception:
        pass

# ---------- NORMALIZACI√ìN ----------
def normalize_unicode_nfc(text: str) -> str:
    return unicodedata.normalize("NFC", text)

def strip_control_chars(text: str) -> str:
    # Deja \n y \t; elimina otros de control
    return "".join(ch for ch in text if ch in ("\n","\t") or ord(ch) >= 32)

def standardize_quotes_dashes(text: str) -> str:
    repl = {
        "‚Äú": "\"", "‚Äù": "\"", "‚Äû": "\"", "¬´": "\"", "¬ª": "\"",
        "‚Äô": "'", "¬¥": "'", "‚Äò": "'",
        "‚Äê": "-", "‚Äì": "-", "‚Äî": "-", "‚àí": "-",
        "‚Ä¶": "...", "‚Ä¢": "-", "¬∑": "-"
    }
    for a, b in repl.items():
        text = text.replace(a, b)
    return text

def remove_hyphen_linebreaks(text: str) -> str:
    # Une palabras cortadas por guion al final de l√≠nea: "infor-\nmaci√≥n" -> "informaci√≥n"
    return re.sub(r"(\w+)-\n(\w+)", r"\1\2", text)

def collapse_whitespace(text: str) -> str:
    text = re.sub(r"[ \t]+", " ", text)
    text = re.sub(r"\n{3,}", "\n\n", text)
    return text.strip()

def to_lower(text: str) -> str:
    return text.lower()

def normalize_text_pipeline(raw: str) -> str:
    if not raw: return ""
    t = normalize_unicode_nfc(raw)
    t = strip_control_chars(t)
    t = standardize_quotes_dashes(t)
    t = remove_hyphen_linebreaks(t)
    t = collapse_whitespace(t)
    t = to_lower(t)
    return t

# ---------- SEGMENTACI√ìN ----------
def segment_fixed_overlap(text: str, words_per_chunk=CHUNK_WORDS, overlap=CHUNK_OVERLAP):
    """Segmentaci√≥n A: chunks por palabras con solapamiento."""
    words = text.split()
    if not words: return []
    chunks = []
    i = 0
    idx = 0
    while i < len(words):
        chunk_words = words[i:i+words_per_chunk]
        chunk_text = " ".join(chunk_words).strip()
        if chunk_text:
            chunks.append((idx, chunk_text))
            idx += 1
        i += max(1, words_per_chunk - overlap)
    return chunks

_HEADING_RE = re.compile(
    r"""^(
        abstract\b|
        resumen\b|
        introducci[o√≥]n\b|
        conclusi[o√≥]n\b|
        referencias\b|
        agradecimientos\b|
        related\ work\b|
        i{1,3}\.|iv\.|v\.|vi\.|vii\.|viii\.|ix\.|x\.|      # romanos
        \d+\.\s|                                          # 1. 2. 3.
        [A-Z][A-Z0-9\s\-\&]{3,}$                          # l√≠nea MAY√öSCULAS (t√≠tulo)
    )""",
    re.IGNORECASE | re.VERBOSE
)

def segment_by_headings(text: str, min_section_words=120):
    """Segmentaci√≥n B: por encabezados; fusiona secciones peque√±as."""
    lines = [l.strip() for l in text.splitlines()]
    # Marcar √≠ndices de l√≠neas que parecen encabezado
    header_idx = [i for i, line in enumerate(lines) if line and _HEADING_RE.match(line)]
    # Siempre incluir inicio y fin
    if 0 not in header_idx: header_idx = [0] + header_idx
    if len(lines) - 1 not in header_idx: header_idx = header_idx + [len(lines) - 1]
    header_idx = sorted(set(header_idx))

    # Cortar por rangos
    raw_sections = []
    for a, b in zip(header_idx, header_idx[1:]):
        sec = "\n".join(lines[a:b]).strip()
        if sec: raw_sections.append(sec)
    # A√±adir √∫ltimo trozo
    tail = "\n".join(lines[header_idx[-1]:]).strip()
    if tail: raw_sections.append(tail)

    # Fusionar secciones demasiado peque√±as
    merged = []
    buff = []
    wcount = 0
    for sec in raw_sections:
        wc = len(sec.split())
        if wcount + wc < min_section_words:
            buff.append(sec); wcount += wc
        else:
            if buff:
                buff.append(sec)
                merged.append("\n\n".join(buff).strip())
                buff, wcount = [], 0
            else:
                merged.append(sec)
                buff, wcount = [], 0
    if buff:
        merged.append("\n\n".join(buff).strip())

    # Indexar
    return [(i, s) for i, s in enumerate(merged)]

# ---------- CARGA METADATA ----------
assert os.path.exists(METADATA_FILE), f"No existe METADATA_FILE: {METADATA_FILE}"
df_meta = pd.read_csv(METADATA_FILE, dtype=str, keep_default_na=False)
for col in ["id_doc","nombre_archivo","autor","fecha","tema"]:
    if col not in df_meta.columns:
        raise ValueError(f"Falta columna en metadata: {col}")

# √≠ndice r√°pido por nombre de archivo (case-insensitive)
meta_idx = {str(n).strip().lower(): i for i, n in enumerate(df_meta["nombre_archivo"])}

# ---------- RECORRIDO PDFs ----------
base_registros = []
seg_a_registros = []
seg_b_registros = []
errores = []

pdf_files_sorted = sorted([f for f in os.listdir(PDFS_DIR) if f.lower().endswith(".pdf")])

for fname in pdf_files_sorted:
    key = fname.strip().lower()
    if key not in meta_idx:
        errores.append((fname, "no_encontrado_en_metadata"))
        print(f"‚ö†Ô∏è  {fname}: no aparece en 'nombre_archivo' de la metadata; se omite.")
        continue

    row   = df_meta.iloc[meta_idx[key]]
    iddoc = row["id_doc"]; autor=row["autor"]; fecha=row["fecha"]; tema=row["tema"]
    pdf_path = os.path.join(PDFS_DIR, fname)

    # Extraer texto del PDF
    try:
        pages = []
        with pdfplumber.open(pdf_path) as pdf:
            for p in pdf.pages:
                pages.append(p.extract_text() or "")
        full_text = "\n".join(pages)
    except Exception as e:
        errores.append((fname, f"error_lectura_pdf:{e}"))
        print(f"‚ùå Error leyendo {fname}: {e}")
        continue

    # Normalizar
    texto_limpio = normalize_text_pipeline(full_text)

    # Guardar TXT por doc (√∫til para inspecci√≥n)
    with open(os.path.join(TXT_DIR, f"{iddoc}.txt"), "w", encoding="utf-8") as f:
        f.write(texto_limpio)

    # Registro base (documento completo)
    base_registros.append({
        "id_doc": iddoc,
        "nombre_archivo": fname,
        "autor": autor,
        "fecha": str(fecha),
        "tema": tema,
        "texto_original": full_text,
        "texto_limpio": texto_limpio
    })

    # ---------- SEGMENTACI√ìN A: chunks fijos ----------
    chunks_a = segment_fixed_overlap(texto_limpio, CHUNK_WORDS, CHUNK_OVERLAP)
    for idx_chunk, chunk_text in chunks_a:
        seg_a_registros.append({
            "id_doc": iddoc,
            "segmentacion": "A",
            "chunk_id": f"{iddoc}_A_{idx_chunk:03d}",
            "idx": idx_chunk,
            "autor": autor,
            "fecha": str(fecha),
            "tema": tema,
            "texto": chunk_text
        })

    # ---------- SEGMENTACI√ìN B: encabezados ----------
    sections_b = segment_by_headings(texto_limpio, min_section_words=120)
    for idx_sec, sec_text in sections_b:
        seg_b_registros.append({
            "id_doc": iddoc,
            "segmentacion": "B",
            "chunk_id": f"{iddoc}_B_{idx_sec:03d}",
            "idx": idx_sec,
            "autor": autor,
            "fecha": str(fecha),
            "tema": tema,
            "texto": sec_text
        })

# ---------- GUARDAR SALIDAS ----------
# Base documentos
with open(BASE_DOCS_JSONL, "w", encoding="utf-8") as jf:
    for r in base_registros:
        jf.write(json.dumps(r, ensure_ascii=False) + "\n")

pd.DataFrame(base_registros).to_parquet(BASE_DOCS_PARQUET, index=False)

# Segmentaciones
with open(SEG_A_JSONL, "w", encoding="utf-8") as jf:
    for r in seg_a_registros:
        jf.write(json.dumps(r, ensure_ascii=False) + "\n")

with open(SEG_B_JSONL, "w", encoding="utf-8") as jf:
    for r in seg_b_registros:
        jf.write(json.dumps(r, ensure_ascii=False) + "\n")

# Mini-documentaci√≥n de decisiones para el informe
notas = f"""# Preprocesamiento y Segmentaci√≥n (borrador)

**Normalizaci√≥n aplicada**
- Unicode NFC (mantener tildes correctas).
- Limpieza de caracteres de control (excepto \\n y \\t).
- Estandarizaci√≥n de comillas/guiones (‚Äú ‚Äù ‚Äò ‚Äô ‚Äî ‚Äì ‚Ä¶ ‚Üí " ' - ...).
- Uni√≥n de palabras cortadas por guion al fin de l√≠nea (e.g., "infor-\\nmaci√≥n" ‚Üí "informaci√≥n").
- Colapso de espacios y saltos en blanco excesivos.
- Conversi√≥n a min√∫sculas (para comparar segmentaciones bajo mismas condiciones).

**Segmentaci√≥n A ‚Äì Chunks fijos**
- Tama√±o ‚âà {CHUNK_WORDS} palabras, solapamiento ‚âà {CHUNK_OVERLAP}.
- Ventajas: control de longitud, √∫til para evaluaci√≥n reproducible.
- Desventajas: puede cortar ideas a mitad.

**Segmentaci√≥n B ‚Äì Encabezados/Secciones**
- Reglas: detec. de Abstract/Resumen/Introducci√≥n/Conclusi√≥n/Referencias, numerales (1., 2., ...), romanos (I., II., ...), t√≠tulos en MAY√öSCULAS.
- Se fusionan secciones muy cortas (<120 palabras) con la siguiente para asegurar contexto m√≠nimo.
- Ventajas: mantiene unidades sem√°nticas; Desventajas: depende de patrones editoriales.

**Salidas**
- base_documentos.jsonl / .parquet: texto completo normalizado por documento + metadata (autor/fecha/tema).
- seg_a.jsonl / seg_b.jsonl: fragmentos con `id_doc`, `chunk_id`, `segmentacion`, `idx`, `texto`, y metadata.
- txt_por_doc/: √∫til para inspecci√≥n r√°pida o depurar PDF problem√°ticos.

**Razonamiento para comparaci√≥n**
- A: garantiza tama√±o estable ‚Üí resultados de recuperaci√≥n comparables.
- B: favorece coherencia sem√°ntica ‚Üí potencialmente mejor grounding.
- Compa√±ero 2 debe crear dos √≠ndices (A y B) y comparar m√©tricas (recall@k, precisi√≥n manual, tiempo respuesta).
"""
with open(NOTAS_PREPROC, "w", encoding="utf-8") as f:
    f.write(notas)

print("‚úÖ Extracci√≥n, normalizaci√≥n y segmentaci√≥n listas")
print(f"üßæ Base (JSONL):  {BASE_DOCS_JSONL}")
print(f"üß± Base (Parquet): {BASE_DOCS_PARQUET}")
print(f"üîπ Seg A (JSONL):  {SEG_A_JSONL}")
print(f"üî∏ Seg B (JSONL):  {SEG_B_JSONL}")
print(f"üóíÔ∏è  Notas:          {NOTAS_PREPROC}")
if errores:
    print(f"‚ö†Ô∏è Incidencias ({len(errores)}):")
    for e in errores[:12]:
        print("   -", e)
    if len(errores) > 12:
        print("   ...")


‚úÖ Extracci√≥n, normalizaci√≥n y segmentaci√≥n listas
üßæ Base (JSONL):  /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/base_documentos.jsonl
üß± Base (Parquet): /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/base_documentos.parquet
üîπ Seg A (JSONL):  /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/seg_a.jsonl
üî∏ Seg B (JSONL):  /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/seg_b.jsonl
üóíÔ∏è  Notas:          /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/preprocesamiento_decisiones.md


In [73]:
# ============================================================
# üîö CIERRE DEL COMPA√ëERO 1 ‚Äì VERIFICACI√ìN FINAL Y RESUMEN
# ============================================================

import os

# Rutas de salida esperadas
OUT_DIR = os.path.join(PROYECTO_DIR, "dataset")
paths = {
    "Metadata": METADATA_FILE,
    "Base documentos JSONL": os.path.join(OUT_DIR, "base_documentos.jsonl"),
    "Base documentos Parquet": os.path.join(OUT_DIR, "base_documentos.parquet"),
    "Segmentaci√≥n A (chunks fijos)": os.path.join(OUT_DIR, "seg_a.jsonl"),
    "Segmentaci√≥n B (encabezados)": os.path.join(OUT_DIR, "seg_b.jsonl"),
    "Notas de preprocesamiento": os.path.join(OUT_DIR, "preprocesamiento_decisiones.md"),
}

print("üìÇ Verificando archivos generados...\n")
for nombre, ruta in paths.items():
    if os.path.exists(ruta):
        print(f"‚úÖ {nombre}: encontrado ({os.path.basename(ruta)})")
    else:
        print(f"‚ö†Ô∏è {nombre}: NO encontrado -> {ruta}")

# Conteo r√°pido de PDFs y documentos base
pdfs = [f for f in os.listdir(PDFS_DIR) if f.lower().endswith(".pdf")]
pdf_count = len(pdfs)
base_path = paths["Base documentos JSONL"]
base_count = sum(1 for _ in open(base_path, encoding="utf-8")) if os.path.exists(base_path) else 0

print(f"\nüìä PDFs reales: {pdf_count}")
print(f"üìÑ Documentos procesados: {base_count}")

if pdf_count == base_count:
    print("\n‚úÖ Todos los documentos fueron procesados correctamente.")
else:
    print("\n‚ö†Ô∏è Hay diferencias entre PDFs y registros procesados. Revisa nombres o metadatos.")

print("\nüß≠ RESUMEN PARA COMPA√ëERO 2:")
print("""
Los datos est√°n listos para generar embeddings:

- dataset/seg_a.jsonl ‚Üí fragmentos con segmentaci√≥n A (chunks fijos)
- dataset/seg_b.jsonl ‚Üí fragmentos con segmentaci√≥n B (por encabezados)
- MetadataRAW.csv (o metadata.csv) ‚Üí autor, fecha, tema por documento

Archivos opcionales:
- base_documentos.jsonl/.parquet ‚Üí textos completos normalizados
- preprocesamiento_decisiones.md ‚Üí descripci√≥n de limpieza y segmentaci√≥n

El Compa√±ero 2 debe usar seg_a.jsonl y seg_b.jsonl
para crear las dos bases vectoriales y comparar su rendimiento.
""")


üìÇ Verificando archivos generados...

‚úÖ Metadata: encontrado (MetadataRAW.csv)
‚úÖ Base documentos JSONL: encontrado (base_documentos.jsonl)
‚úÖ Base documentos Parquet: encontrado (base_documentos.parquet)
‚úÖ Segmentaci√≥n A (chunks fijos): encontrado (seg_a.jsonl)
‚úÖ Segmentaci√≥n B (encabezados): encontrado (seg_b.jsonl)
‚úÖ Notas de preprocesamiento: encontrado (preprocesamiento_decisiones.md)

üìä PDFs reales: 46
üìÑ Documentos procesados: 46

‚úÖ Todos los documentos fueron procesados correctamente.

üß≠ RESUMEN PARA COMPA√ëERO 2:

Los datos est√°n listos para generar embeddings:

- dataset/seg_a.jsonl ‚Üí fragmentos con segmentaci√≥n A (chunks fijos)
- dataset/seg_b.jsonl ‚Üí fragmentos con segmentaci√≥n B (por encabezados)
- MetadataRAW.csv (o metadata.csv) ‚Üí autor, fecha, tema por documento

Archivos opcionales:
- base_documentos.jsonl/.parquet ‚Üí textos completos normalizados
- preprocesamiento_decisiones.md ‚Üí descripci√≥n de limpieza y segmentaci√≥n

El Compa√±

In [None]:
# ============================================================
# COMPA√ëERO 2 ‚Äì EMBEDDINGS, VECTOR DB Y TOOLS DE RAG/WEB
# ============================================================
# Paso 1: Instalaci√≥n de dependencias necesarias
# ============================================================

!pip install --quiet langchain langchain-community faiss-cpu tiktoken sentence-transformers duckduckgo-search torch ddgs

print("‚úÖ Dependencias instaladas")
print("üì¶ sentence-transformers incluye PyTorch para acelerar embeddings en GPU (si est√° disponible en Colab)")


[?25l   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.0/3.3 MB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m[90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m0.3/3.3 MB[0m [31m9.5 MB/s[0m eta [36m0:00:01[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[90m‚ï∫[0m[90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.0/3.3 MB[0m [31m24.7 MB/s[0m eta [36m0:00:01[0m[2K   [91m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m[91m‚ï∏[0m [32m3.3/3.3 MB[0m [31m27.6 MB/s[0m eta [36m0:00:01[0m[2K   [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m3.3/3.3 MB[0m [31m18.3 MB/s[0

In [75]:
# ============================================================
# Paso 2: Configuraci√≥n y carga de datos segmentados
# ============================================================

import os
import json
from typing import List, Dict
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.schema import Document
from langchain.tools import Tool
from langchain_community.tools import DuckDuckGoSearchRun

print("‚úÖ Importaciones completadas")
print("üì¶ Usando modelo local (sentence-transformers/all-MiniLM-L6-v2) - sin necesidad de API keys")

# Rutas de datos (definidas por Compa√±ero 1)
OUT_DIR = os.path.join(PROYECTO_DIR, "dataset")
SEG_A_JSONL = os.path.join(OUT_DIR, "seg_a.jsonl")
SEG_B_JSONL = os.path.join(OUT_DIR, "seg_b.jsonl")

# Verificar que los archivos existen
if not os.path.exists(SEG_A_JSONL):
    raise FileNotFoundError(f"No se encontr√≥ {SEG_A_JSONL}. Aseg√∫rate de que Compa√±ero 1 complet√≥ su parte.")
if not os.path.exists(SEG_B_JSONL):
    raise FileNotFoundError(f"No se encontr√≥ {SEG_B_JSONL}. Aseg√∫rate de que Compa√±ero 1 complet√≥ su parte.")

print(f"‚úÖ Archivos de segmentaci√≥n encontrados:")
print(f"   - Segmentaci√≥n A: {SEG_A_JSONL}")
print(f"   - Segmentaci√≥n B: {SEG_B_JSONL}")

# Funci√≥n para cargar datos segmentados
def load_segmented_data(jsonl_path: str) -> List[Dict]:
    """Carga los datos segmentados desde un archivo JSONL."""
    data = []
    with open(jsonl_path, "r", encoding="utf-8") as f:
        for line in f:
            if line.strip():
                data.append(json.loads(line))
    return data

# Cargar datos
seg_a_data = load_segmented_data(SEG_A_JSONL)
seg_b_data = load_segmented_data(SEG_B_JSONL)

print(f"\nüìä Datos cargados:")
print(f"   - Segmentaci√≥n A: {len(seg_a_data)} fragmentos")
print(f"   - Segmentaci√≥n B: {len(seg_b_data)} fragmentos")

# Mostrar ejemplo de un fragmento
if seg_a_data:
    print(f"\nüìÑ Ejemplo de fragmento (Segmentaci√≥n A):")
    ejemplo = seg_a_data[0]
    print(f"   - chunk_id: {ejemplo.get('chunk_id', 'N/A')}")
    print(f"   - id_doc: {ejemplo.get('id_doc', 'N/A')}")
    print(f"   - autor: {ejemplo.get('autor', 'N/A')}")
    print(f"   - texto (primeros 100 chars): {ejemplo.get('texto', '')[:100]}...")


‚úÖ Importaciones completadas
üì¶ Usando modelo local (sentence-transformers/all-MiniLM-L6-v2) - sin necesidad de API keys
‚úÖ Archivos de segmentaci√≥n encontrados:
   - Segmentaci√≥n A: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/seg_a.jsonl
   - Segmentaci√≥n B: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/seg_b.jsonl

üìä Datos cargados:
   - Segmentaci√≥n A: 227 fragmentos
   - Segmentaci√≥n B: 349 fragmentos

üìÑ Ejemplo de fragmento (Segmentaci√≥n A):
   - chunk_id: DOC_033_A_000
   - id_doc: DOC_033
   - autor: Mar√≠a Jos√© Chac√≥n Rodr√≠guez
   - texto (primeros 100 chars): apuntes ia clase 7/10 gianmarco oporta pe'rez ingenier'ƒ±a en computacio'n instituto tecnolo'gico de ...


In [76]:
# ============================================================
# Paso 3: Tokenizaci√≥n y generaci√≥n de embeddings
# ============================================================
# Usaremos sentence-transformers/all-MiniLM-L6-v2 (modelo local, gratuito)
# ============================================================

import tiktoken

# Configurar el modelo de embeddings
# Usando sentence-transformers/all-MiniLM-L6-v2 (gratuito, no requiere API key)
print("üîß Configurando modelo de embeddings...")
print("   Modelo: sentence-transformers/all-MiniLM-L6-v2")
print("   Dimensi√≥n: 384")
print("   Ventajas: Gratuito, local, r√°pido, buen rendimiento")

# Detectar si hay GPU disponible en Colab
try:
    import torch
    device = 'cuda' if torch.cuda.is_available() else 'cpu'
    print(f"   Dispositivo: {device.upper()}")
except:
    device = 'cpu'
    print(f"   Dispositivo: CPU (PyTorch no disponible, usando CPU)")

embeddings_model = HuggingFaceEmbeddings(
    model_name="sentence-transformers/all-MiniLM-L6-v2",
    model_kwargs={'device': device},  # Usar GPU si est√° disponible en Colab
    encode_kwargs={'normalize_embeddings': True}  # Normalizar embeddings para mejor b√∫squeda
)

print("‚úÖ Modelo de embeddings configurado")

# Funci√≥n para tokenizar y verificar longitud
def count_tokens(text: str, model: str = "gpt-3.5-turbo") -> int:
    """Cuenta tokens aproximados usando tiktoken."""
    try:
        encoding = tiktoken.encoding_for_model(model)
        return len(encoding.encode(text))
    except:
        # Fallback simple: ~4 chars por token
        return len(text) // 4

# Probar con un fragmento de ejemplo
if seg_a_data:
    ejemplo_texto = seg_a_data[0].get("texto", "")
    tokens = count_tokens(ejemplo_texto)
    print(f"\nüìù Tokenizaci√≥n de ejemplo:")
    print(f"   - Texto: {len(ejemplo_texto)} caracteres")
    print(f"   - Tokens aproximados: {tokens}")
    print(f"   - L√≠mite recomendado para embeddings: 8000 tokens")

# Probar generaci√≥n de embedding
print("\nüî¨ Probando generaci√≥n de embedding...")
test_text = "Este es un texto de prueba para verificar que los embeddings funcionan correctamente."
try:
    test_embedding = embeddings_model.embed_query(test_text)
    print(f"‚úÖ Embedding generado exitosamente")
    print(f"   - Dimensi√≥n del embedding: {len(test_embedding)}")
    print(f"   - Primeros 5 valores: {test_embedding[:5]}")
except Exception as e:
    print(f"‚ùå Error generando embedding: {e}")
    print("   Verifica tu API key o conexi√≥n a internet")


üîß Configurando modelo de embeddings...
   Modelo: sentence-transformers/all-MiniLM-L6-v2
   Dimensi√≥n: 384
   Ventajas: Gratuito, local, r√°pido, buen rendimiento
   Dispositivo: CPU
‚úÖ Modelo de embeddings configurado

üìù Tokenizaci√≥n de ejemplo:
   - Texto: 3170 caracteres
   - Tokens aproximados: 822
   - L√≠mite recomendado para embeddings: 8000 tokens

üî¨ Probando generaci√≥n de embedding...
‚úÖ Embedding generado exitosamente
   - Dimensi√≥n del embedding: 384
   - Primeros 5 valores: [-0.02066517062485218, 0.02713960036635399, -0.03559556230902672, -0.028662530705332756, -0.03590256720781326]


In [77]:
# ============================================================
# Paso 4: Almacenamiento en base de datos vectorial
# Crear dos √≠ndices/vectorstores (uno por cada segmentaci√≥n)
# ============================================================

# Funci√≥n para convertir datos segmentados a documentos de LangChain
def create_documents_from_segments(segments: List[Dict]) -> List[Document]:
    """Convierte fragmentos segmentados a Documentos de LangChain con metadata."""
    documents = []
    for seg in segments:
        doc = Document(
            page_content=seg.get("texto", ""),
            metadata={
                "id_doc": seg.get("id_doc", ""),
                "chunk_id": seg.get("chunk_id", ""),
                "segmentacion": seg.get("segmentacion", ""),
                "idx": seg.get("idx", 0),
                "autor": seg.get("autor", ""),
                "fecha": seg.get("fecha", ""),
                "tema": seg.get("tema", "")
            }
        )
        documents.append(doc)
    return documents

# Crear documentos para ambas segmentaciones
print("üìö Creando documentos de LangChain...")
docs_a = create_documents_from_segments(seg_a_data)
docs_b = create_documents_from_segments(seg_b_data)

print(f"‚úÖ Documentos creados:")
print(f"   - Segmentaci√≥n A: {len(docs_a)} documentos")
print(f"   - Segmentaci√≥n B: {len(docs_b)} documentos")

# Crear vectorstores usando FAISS
print("\nüî® Creando bases vectoriales (esto puede tomar unos minutos)...")

VECTORSTORE_DIR_A = os.path.join(OUT_DIR, "vectorstore_a")
VECTORSTORE_DIR_B = os.path.join(OUT_DIR, "vectorstore_b")

try:
    # Vectorstore A (chunks fijos)
    if os.path.exists(VECTORSTORE_DIR_A):
        print(f"   üìÇ Cargando vectorstore A existente desde {VECTORSTORE_DIR_A}...")
        vectorstore_a = FAISS.load_local(
            VECTORSTORE_DIR_A,
            embeddings_model,
            allow_dangerous_deserialization=True
        )
        print("   ‚úÖ Vectorstore A cargado")
    else:
        print(f"   üî® Creando vectorstore A desde {len(docs_a)} documentos...")
        vectorstore_a = FAISS.from_documents(docs_a, embeddings_model)
        vectorstore_a.save_local(VECTORSTORE_DIR_A)
        print(f"   ‚úÖ Vectorstore A creado y guardado en {VECTORSTORE_DIR_A}")

    # Vectorstore B (encabezados)
    if os.path.exists(VECTORSTORE_DIR_B):
        print(f"   üìÇ Cargando vectorstore B existente desde {VECTORSTORE_DIR_B}...")
        vectorstore_b = FAISS.load_local(
            VECTORSTORE_DIR_B,
            embeddings_model,
            allow_dangerous_deserialization=True
        )
        print("   ‚úÖ Vectorstore B cargado")
    else:
        print(f"   üî® Creando vectorstore B desde {len(docs_b)} documentos...")
        vectorstore_b = FAISS.from_documents(docs_b, embeddings_model)
        vectorstore_b.save_local(VECTORSTORE_DIR_B)
        print(f"   ‚úÖ Vectorstore B creado y guardado en {VECTORSTORE_DIR_B}")

    print("\n‚úÖ Ambos vectorstores creados/cargados exitosamente")

except Exception as e:
    print(f"‚ùå Error creando vectorstores: {e}")
    raise

# Probar b√∫squeda en ambos vectorstores
print("\nüîç Probando b√∫squeda sem√°ntica...")
test_query = "inteligencia artificial y aprendizaje autom√°tico"

try:
    results_a = vectorstore_a.similarity_search_with_score(test_query, k=3)
    results_b = vectorstore_b.similarity_search_with_score(test_query, k=3)

    print(f"\nüìä Resultados para query: '{test_query}'")
    print(f"\n   Segmentaci√≥n A (top 3):")
    for i, (doc, score) in enumerate(results_a, 1):
        print(f"      {i}. Score: {score:.4f} | Autor: {doc.metadata.get('autor', 'N/A')}")
        print(f"         Texto: {doc.page_content[:80]}...")

    print(f"\n   Segmentaci√≥n B (top 3):")
    for i, (doc, score) in enumerate(results_b, 1):
        print(f"      {i}. Score: {score:.4f} | Autor: {doc.metadata.get('autor', 'N/A')}")
        print(f"         Texto: {doc.page_content[:80]}...")

except Exception as e:
    print(f"‚ö†Ô∏è  Error en b√∫squeda de prueba: {e}")


üìö Creando documentos de LangChain...
‚úÖ Documentos creados:
   - Segmentaci√≥n A: 227 documentos
   - Segmentaci√≥n B: 349 documentos

üî® Creando bases vectoriales (esto puede tomar unos minutos)...
   üìÇ Cargando vectorstore A existente desde /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/vectorstore_a...
   ‚úÖ Vectorstore A cargado
   üìÇ Cargando vectorstore B existente desde /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/vectorstore_b...
   ‚úÖ Vectorstore B cargado

‚úÖ Ambos vectorstores creados/cargados exitosamente

üîç Probando b√∫squeda sem√°ntica...

üìä Resultados para query: 'inteligencia artificial y aprendizaje autom√°tico'

   Segmentaci√≥n A (top 3):
      1. Score: 0.7227 | Autor: Andrey Ure√±a Berm√∫dez
         Texto: de transparencia y responsabilidad. vii. conclusio'n los temas revisados durante...
      2. Score: 0.7863 | Autor: Luis Alfredo Gonz√°lez S√°nchez
         Texto: notas de clase inteligenciaartificial-12deagosto-semana2

In [78]:
# ============================================================
# Paso 5: Crear RAG Tool en LangChain
# La herramienta consulta la base vectorial y devuelve:
# - fragmento (texto)
# - documento de origen (id_doc, nombre_archivo)
# - autor
# ============================================================

def create_rag_tool(vectorstore, segmentacion_name: str):
    """
    Crea una herramienta RAG que consulta la base vectorial.

    Args:
        vectorstore: Base vectorial (FAISS)
        segmentacion_name: Nombre de la segmentaci√≥n ("A" o "B")

    Returns:
        Tool de LangChain
    """
    def rag_search(query: str, k: int = 5) -> str:
        """
        Busca fragmentos relevantes en la base vectorial.

        Args:
            query: Consulta del usuario
            k: N√∫mero de resultados a retornar (default: 5)

        Returns:
            String formateado con fragmentos, documentos de origen y autores
        """
        try:
            # B√∫squeda sem√°ntica
            results = vectorstore.similarity_search_with_score(query, k=k)

            if not results:
                return "No se encontraron fragmentos relevantes para la consulta."

            # Formatear resultados
            formatted_results = []
            for i, (doc, score) in enumerate(results, 1):
                fragmento = doc.page_content
                id_doc = doc.metadata.get("id_doc", "N/A")
                autor = doc.metadata.get("autor", "N/A")
                chunk_id = doc.metadata.get("chunk_id", "N/A")

                formatted_results.append(
                    f"[Resultado {i} - Score: {score:.4f}]\n"
                    f"Fragmento: {fragmento[:500]}{'...' if len(fragmento) > 500 else ''}\n"
                    f"Documento de origen: {id_doc} (chunk: {chunk_id})\n"
                    f"Autor: {autor}\n"
                )

            return "\n\n".join(formatted_results)

        except Exception as e:
            return f"Error en la b√∫squeda RAG: {str(e)}"

    return Tool(
        name=f"rag_search_{segmentacion_name}",
        description=f"Busca informaci√≥n relevante en la base de documentos usando segmentaci√≥n {segmentacion_name}. "
                   f"Retorna fragmentos de texto, documento de origen y autor. "
                   f"√ösala cuando necesites buscar informaci√≥n en los apuntes del curso.",
        func=rag_search
    )

# Crear herramientas RAG para ambas segmentaciones
print("üîß Creando herramientas RAG...")
rag_tool_a = create_rag_tool(vectorstore_a, "A")
rag_tool_b = create_rag_tool(vectorstore_b, "B")

print("‚úÖ Herramientas RAG creadas:")
print(f"   - {rag_tool_a.name}: {rag_tool_a.description[:80]}...")
print(f"   - {rag_tool_b.name}: {rag_tool_b.description[:80]}...")

# Probar herramienta RAG
print("\nüß™ Probando herramienta RAG...")
test_query_rag = "¬øQu√© es la inteligencia artificial?"
result_rag = rag_tool_a.run(test_query_rag)
print(f"\nüìã Resultado de RAG para: '{test_query_rag}'")
print(result_rag[:500] + "..." if len(result_rag) > 500 else result_rag)


üîß Creando herramientas RAG...
‚úÖ Herramientas RAG creadas:
   - rag_search_A: Busca informaci√≥n relevante en la base de documentos usando segmentaci√≥n A. Reto...
   - rag_search_B: Busca informaci√≥n relevante en la base de documentos usando segmentaci√≥n B. Reto...

üß™ Probando herramienta RAG...

üìã Resultado de RAG para: '¬øQu√© es la inteligencia artificial?'
[Resultado 1 - Score: 0.6305]
Fragmento: de transparencia y responsabilidad. vii. conclusio'n los temas revisados durante esta semana refuerzan la comprensio'ndeco'molosmodelosdelenguajemodernosprocesan informacio'n y co'mo se esta'n extendiendo hacia arquitecturas ma's complejas y u'tiles, como los sistemas rag y los agentes inteligentes. estas herramientas representan un paso clave hacia una inteligencia artificial ma's contextual, adaptable y responsable. referencia pacheco portuguez, s. (202...


In [79]:
# ============================================================
# Paso 6: Crear WebSearch Tool en LangChain
# IMPORTANTE: Solo se debe usar cuando el usuario lo pida expl√≠citamente
# ============================================================

def create_web_search_tool():
    """
    Crea una herramienta de b√∫squeda web.

    IMPORTANTE: Esta herramienta solo debe usarse cuando el usuario
    expl√≠citamente solicite buscar informaci√≥n en la web o cuando
    la informaci√≥n no est√© disponible en la base de documentos.

    Returns:
        Tool de LangChain para b√∫squeda web
    """
    # Opci√≥n 1: DuckDuckGo (no requiere API key)
    try:
        search = DuckDuckGoSearchRun()

        def web_search_func(query: str) -> str:
            """
            Busca informaci√≥n en la web usando DuckDuckGo.

            IMPORTANTE: Solo usar cuando el usuario expl√≠citamente lo solicite
            o cuando la informaci√≥n no est√© disponible en los documentos.

            Args:
                query: Consulta de b√∫squeda

            Returns:
                Resultados de la b√∫squeda web
            """
            try:
                results = search.run(query)
                return f"Resultados de b√∫squeda web para '{query}':\n\n{results}"
            except Exception as e:
                return f"Error en b√∫squeda web: {str(e)}"

        web_tool = Tool(
            name="web_search",
            description="Busca informaci√≥n en internet usando DuckDuckGo. "
                       "IMPORTANTE: Solo usar cuando el usuario expl√≠citamente solicite "
                       "buscar informaci√≥n en la web o cuando la informaci√≥n no est√© "
                       "disponible en la base de documentos del curso. "
                       "No usar por defecto para consultas sobre el contenido del curso.",
            func=web_search_func
        )

        print("‚úÖ Herramienta de b√∫squeda web creada (DuckDuckGo)")
        return web_tool

    except Exception as e:
        print(f"‚ö†Ô∏è  Error creando herramienta de b√∫squeda web: {e}")
        print("   Creando herramienta stub (sin funcionalidad)")

        # Tool stub si hay error
        def web_search_stub(query: str) -> str:
            return "Herramienta de b√∫squeda web no disponible. Por favor, usa la herramienta RAG para buscar en los documentos."

        return Tool(
            name="web_search",
            description="Busca informaci√≥n en internet. "
                       "IMPORTANTE: Solo usar cuando el usuario expl√≠citamente lo solicite.",
            func=web_search_stub
        )

# Crear herramienta de b√∫squeda web
web_search_tool = create_web_search_tool()

print(f"\nüì° Herramienta de b√∫squeda web:")
print(f"   - Nombre: {web_search_tool.name}")
print(f"   - Descripci√≥n: {web_search_tool.description[:100]}...")

# Documentar la restricci√≥n de uso
print("\n" + "="*70)
print("‚ö†Ô∏è  RESTRICCI√ìN DE USO DE WEB SEARCH:")
print("="*70)
print("""
La herramienta web_search solo debe usarse cuando:
1. El usuario expl√≠citamente solicita buscar informaci√≥n en internet
2. La informaci√≥n no est√° disponible en la base de documentos del curso
3. El usuario pregunta sobre informaci√≥n actual o externa al curso

Para consultas sobre el contenido del curso, SIEMPRE usar primero
las herramientas RAG (rag_search_A o rag_search_B).
""")
print("="*70)


‚ö†Ô∏è  Error creando herramienta de b√∫squeda web: Could not import ddgs python package. Please install it with `pip install -U ddgs`.
   Creando herramienta stub (sin funcionalidad)

üì° Herramienta de b√∫squeda web:
   - Nombre: web_search
   - Descripci√≥n: Busca informaci√≥n en internet. IMPORTANTE: Solo usar cuando el usuario expl√≠citamente lo solicite....

‚ö†Ô∏è  RESTRICCI√ìN DE USO DE WEB SEARCH:

La herramienta web_search solo debe usarse cuando:
1. El usuario expl√≠citamente solicita buscar informaci√≥n en internet
2. La informaci√≥n no est√° disponible en la base de documentos del curso
3. El usuario pregunta sobre informaci√≥n actual o externa al curso

Para consultas sobre el contenido del curso, SIEMPRE usar primero
las herramientas RAG (rag_search_A o rag_search_B).



In [80]:
# ============================================================
# Paso 7: Resumen y verificaci√≥n final
# ============================================================

print("="*70)
print("‚úÖ RESUMEN DE LA PARTE DEL COMPA√ëERO 2")
print("="*70)

print("\nüìä Datos procesados:")
print(f"   - Fragmentos Segmentaci√≥n A: {len(seg_a_data)}")
print(f"   - Fragmentos Segmentaci√≥n B: {len(seg_b_data)}")

print("\nüî® Bases vectoriales creadas:")
print(f"   - Vectorstore A: {VECTORSTORE_DIR_A}")
print(f"   - Vectorstore B: {VECTORSTORE_DIR_B}")

print("\nüîß Herramientas disponibles:")
print(f"   1. {rag_tool_a.name}: B√∫squeda RAG con segmentaci√≥n A (chunks fijos)")
print(f"   2. {rag_tool_b.name}: B√∫squeda RAG con segmentaci√≥n B (encabezados)")
print(f"   3. {web_search_tool.name}: B√∫squeda web (solo cuando se solicite expl√≠citamente)")

print("\nüìù Flujo implementado:")
print("   1. ‚úÖ Tokenizaci√≥n: Verificaci√≥n de tokens con tiktoken")
print("   2. ‚úÖ Embeddings: Generaci√≥n con sentence-transformers/all-MiniLM-L6-v2 (modelo local, gratuito)")
print("   3. ‚úÖ Almacenamiento: Dos vectorstores FAISS (uno por segmentaci√≥n)")
print("   4. ‚úÖ Consulta: Herramientas RAG que retornan fragmento, documento y autor")
print("   5. ‚úÖ WebSearch: Herramienta disponible con restricci√≥n de uso")

print("\nüéØ Pr√≥ximos pasos (Compa√±ero 3):")
print("   - Integrar herramientas en un agente")
print("   - Comparar rendimiento de ambas segmentaciones")
print("   - Evaluar m√©tricas (recall@k, precisi√≥n, tiempo de respuesta)")

print("\n" + "="*70)
print("‚úÖ COMPA√ëERO 2 - TAREA COMPLETADA")
print("="*70)


‚úÖ RESUMEN DE LA PARTE DEL COMPA√ëERO 2

üìä Datos procesados:
   - Fragmentos Segmentaci√≥n A: 227
   - Fragmentos Segmentaci√≥n B: 349

üî® Bases vectoriales creadas:
   - Vectorstore A: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/vectorstore_a
   - Vectorstore B: /content/drive/MyDrive/Colab Notebooks/Tarea3-IA/dataset/vectorstore_b

üîß Herramientas disponibles:
   1. rag_search_A: B√∫squeda RAG con segmentaci√≥n A (chunks fijos)
   2. rag_search_B: B√∫squeda RAG con segmentaci√≥n B (encabezados)
   3. web_search: B√∫squeda web (solo cuando se solicite expl√≠citamente)

üìù Flujo implementado:
   1. ‚úÖ Tokenizaci√≥n: Verificaci√≥n de tokens con tiktoken
   2. ‚úÖ Embeddings: Generaci√≥n con sentence-transformers/all-MiniLM-L6-v2 (modelo local, gratuito)
   3. ‚úÖ Almacenamiento: Dos vectorstores FAISS (uno por segmentaci√≥n)
   4. ‚úÖ Consulta: Herramientas RAG que retornan fragmento, documento y autor
   5. ‚úÖ WebSearch: Herramienta disponible con restricci√≥n 

In [81]:
# ============================================================
# BONUS: Ejemplo de uso de las herramientas
# ============================================================

print("üìö EJEMPLO DE USO DE HERRAMIENTAS\n")

# Ejemplo 1: B√∫squeda RAG con segmentaci√≥n A
print("="*70)
print("Ejemplo 1: B√∫squeda RAG con segmentaci√≥n A (chunks fijos)")
print("="*70)
query1 = "aprendizaje supervisado"
print(f"\nüîç Consulta: '{query1}'")
print(f"\nüìã Resultados:")
result1 = rag_tool_a.run(query1)
print(result1[:800] + "..." if len(result1) > 800 else result1)

print("\n" + "="*70)
print("Ejemplo 2: B√∫squeda RAG con segmentaci√≥n B (encabezados)")
print("="*70)
print(f"\nüîç Consulta: '{query1}'")
print(f"\nüìã Resultados:")
result2 = rag_tool_b.run(query1)
print(result2[:800] + "..." if len(result2) > 800 else result2)

print("\n" + "="*70)
print("üí° Nota: Compara los resultados de ambas segmentaciones")
print("   para evaluar cu√°l proporciona mejor contexto.")
print("="*70)


üìö EJEMPLO DE USO DE HERRAMIENTAS

Ejemplo 1: B√∫squeda RAG con segmentaci√≥n A (chunks fijos)

üîç Consulta: 'aprendizaje supervisado'

üìã Resultados:
[Resultado 1 - Score: 0.0806]
Fragmento: en aprendizaje supervisado.
Documento de origen: DOC_019 (chunk: DOC_019_A_003)
Autor: Ashley V√°squez


[Resultado 2 - Score: 0.8452]
Fragmento: supervisado: el modelo aprende a partir de obtencio'n inicial de los datos hasta la puesta en datos que incluyen etiquetas, las cuales sirven marcha del sistema en produccio'n. como referencia durante el entrenamiento. un ejemplocomu'neslaclasificacio'ndeima'genes. iii. jerarqu'ƒ±adeconceptosenia - no supervisado:elmodelotrabajacondatossin etiquetas y se encarga de encontrar patrones en los datos ocultos. un ejemplo claro de esto son losclusters. - semi-supervisado: combina datos etiquetados y no...
Documento de origen: DOC_003 (chunk: DOC_003_A_003)
Autor: Priscilla Jim√©nez Salgado


[Resultado 3 - Score: 1...

Ejemplo 2: B√∫squeda RAG con segmen

In [None]:
# ============================================================
# COMPA√ëERO 3 ‚Äì AGENTE, ORQUESTACI√ìN, MEMORIA Y APP
# ============================================================
# Paso 1: Instalaci√≥n de dependencias necesarias
# ============================================================

# Resolver conflictos de dependencias: actualizar todas las versiones de LangChain
print("üîß Resolviendo conflictos de dependencias...")
!pip install --quiet --upgrade langchain langchain-core langchain-community langchain-openai

# Instalar dependencias del Compa√±ero 3
print("üì¶ Instalando dependencias del Compa√±ero 3...")
!pip install --quiet langchain-google-genai streamlit streamlit-chat

print("\n‚úÖ Dependencias instaladas correctamente")
print("üì¶ Gemini Flash (2.0 experimental o 1.5) para orquestaci√≥n del agente")
print("üì¶ Streamlit para interfaz web")
print("\nüí° Todas las versiones de LangChain est√°n actualizadas y compatibles")


In [None]:
# ============================================================
# Paso 2: Configuraci√≥n del modelo Gemini y definici√≥n del prompt base
# ============================================================

import os
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.agents import AgentExecutor, create_react_agent
from langchain.prompts import PromptTemplate
from langchain.memory import ConversationBufferWindowMemory

# Configurar API Key de Google (Gemini)
# IMPORTANTE: Configura GOOGLE_API_KEY en Colab Secrets o como variable de entorno
GOOGLE_API_KEY = os.getenv("GOOGLE_API_KEY", "")

if not GOOGLE_API_KEY:
    print("‚ö†Ô∏è  GOOGLE_API_KEY no configurada.")
    print("   Config√∫rala en Colab Secrets o como variable de entorno:")
    print("   - Ve a Colab Secrets (icono de candado en la barra lateral)")
    print("   - Agrega una nueva clave: GOOGLE_API_KEY")
    print("   - O usa: os.environ['GOOGLE_API_KEY'] = 'tu-api-key'")
else:
    print("‚úÖ Google API Key configurada")

# Definir el prompt base/perfil del agente
AGENT_PROMPT = """Eres un asistente acad√©mico especializado en el curso de Inteligencia Artificial.
Tu nombre es AsistenteIA y tu rol es ayudar a los estudiantes a encontrar informaci√≥n en los apuntes del curso.

**INSTRUCCIONES IMPORTANTES:**
1. SIEMPRE consulta primero los apuntes del curso usando las herramientas RAG disponibles antes de responder.
2. SIEMPRE cita el documento de origen y el autor cuando uses informaci√≥n de los apuntes.
3. Solo usa la b√∫squeda web (web_search) cuando:
   - El usuario expl√≠citamente lo solicite
   - La informaci√≥n no est√© disponible en los apuntes del curso
   - Sea necesario buscar informaci√≥n actual o externa al curso

**ESTILO DE RESPUESTA:**
- S√© claro, conciso y educativo
- Explica conceptos de manera accesible
- Usa ejemplos cuando sea √∫til
- Cita siempre tus fuentes: "Seg√∫n [Autor] en [Documento]..."

**HERRAMIENTAS DISPONIBLES:**
- rag_search_A: Busca en apuntes usando segmentaci√≥n por chunks fijos (m√°s preciso para fragmentos espec√≠ficos)
- rag_search_B: Busca en apuntes usando segmentaci√≥n por encabezados (mejor para temas completos)
- web_search: Busca en internet (solo usar cuando se solicite expl√≠citamente)

**EJEMPLO DE USO:**
Usuario: "¬øQu√© es el aprendizaje supervisado?"
1. Usa rag_search_A o rag_search_B para buscar en los apuntes
2. Responde bas√°ndote en los resultados encontrados
3. Cita: "Seg√∫n [Autor] en [Documento]..."

{history}

Pregunta: {input}
Piensa paso a paso y decide qu√© herramienta usar.

{agent_scratchpad}"""

print("‚úÖ Prompt base del agente definido")
print("\nüìã Perfil del agente:")
print("   - Nombre: AsistenteIA")
print("   - Rol: Asistente acad√©mico especializado en IA")
print("   - Estilo: Claro, educativo, con citas")
print("   - Prioridad: Primero apuntes, luego web (si se solicita)")


In [None]:
# ============================================================
# Paso 3: Configurar modelo Gemini 2.5 Flash y crear el agente
# ============================================================

if not GOOGLE_API_KEY:
    print("‚ö†Ô∏è  No se puede crear el agente sin GOOGLE_API_KEY")
    print("   Configura la API key antes de continuar")
    llm = None
    agent = None
    agent_executor = None
else:
    # Configurar modelo Gemini 2.5 Flash
    print("üîß Configurando Gemini 2.5 Flash...")
    # Intentar usar gemini-2.0-flash-exp (m√°s reciente) o gemini-1.5-flash como fallback
    try:
        llm = ChatGoogleGenerativeAI(
            model="gemini-2.0-flash-exp",  # Modelo experimental m√°s reciente
            google_api_key=GOOGLE_API_KEY,
            temperature=0.3,  # M√°s determinista para b√∫squedas
            convert_system_message_to_human=True
        )
        print("   Usando: gemini-2.0-flash-exp")
    except:
        # Fallback a gemini-1.5-flash si el experimental no est√° disponible
        llm = ChatGoogleGenerativeAI(
            model="gemini-1.5-flash",
            google_api_key=GOOGLE_API_KEY,
            temperature=0.3,
            convert_system_message_to_human=True
        )
        print("   Usando: gemini-1.5-flash (fallback)")
    print("‚úÖ Modelo Gemini 2.5 Flash configurado")
    
    # Preparar herramientas para el agente
    tools = [rag_tool_a, rag_tool_b, web_search_tool]
    
    print(f"\nüîß Herramientas disponibles para el agente:")
    for tool in tools:
        print(f"   - {tool.name}")
    
    # Crear prompt template
    prompt = PromptTemplate(
        template=AGENT_PROMPT,
        input_variables=["history", "input", "agent_scratchpad"]
    )
    
    # Crear memoria conversacional (ventana de contexto)
    # Mantiene las √∫ltimas 5 interacciones para coherencia
    memory = ConversationBufferWindowMemory(
        k=5,  # √öltimas 5 interacciones
        memory_key="history",
        return_messages=True,
        output_key="output"
    )
    
    print("\nüíæ Memoria conversacional configurada:")
    print("   - Tipo: Ventana de contexto (√∫ltimas 5 interacciones)")
    print("   - No se guarda historial permanente")
    
    # Crear agente usando ReAct pattern
    print("\nü§ñ Creando agente orquestador...")
    agent = create_react_agent(
        llm=llm,
        tools=tools,
        prompt=prompt
    )
    
    # Crear ejecutor del agente con memoria
    agent_executor = AgentExecutor(
        agent=agent,
        tools=tools,
        memory=memory,
        verbose=True,
        handle_parsing_errors=True,
        max_iterations=5,
        return_intermediate_steps=True
    )
    
    print("‚úÖ Agente creado exitosamente")
    print("\nüìä Configuraci√≥n del agente:")
    print("   - Modelo: Gemini 2.5 Flash")
    print("   - Patr√≥n: ReAct (Reasoning + Acting)")
    print("   - Memoria: Ventana de 5 interacciones")
    print("   - Max iteraciones: 5")


In [None]:
# ============================================================
# Paso 4: Probar el agente con ejemplos
# ============================================================

if agent_executor:
    print("üß™ Probando el agente con ejemplos...\n")
    
    # Ejemplo 1: Consulta sobre apuntes
    print("="*70)
    print("Ejemplo 1: Consulta sobre los apuntes")
    print("="*70)
    test_query_1 = "¬øQu√© es la inteligencia artificial seg√∫n los apuntes del curso?"
    print(f"\n‚ùì Pregunta: {test_query_1}\n")
    
    try:
        result_1 = agent_executor.invoke({"input": test_query_1})
        print(f"\n‚úÖ Respuesta del agente:")
        print(result_1["output"][:500] + "..." if len(result_1["output"]) > 500 else result_1["output"])
        print(f"\nüîß Herramientas usadas: {[step[0].tool for step in result_1.get('intermediate_steps', [])]}")
    except Exception as e:
        print(f"‚ùå Error: {e}")
    
    print("\n" + "="*70)
    print("Ejemplo 2: Consulta espec√≠fica")
    print("="*70)
    test_query_2 = "Expl√≠came sobre aprendizaje supervisado"
    print(f"\n‚ùì Pregunta: {test_query_2}\n")
    
    try:
        result_2 = agent_executor.invoke({"input": test_query_2})
        print(f"\n‚úÖ Respuesta del agente:")
        print(result_2["output"][:500] + "..." if len(result_2["output"]) > 500 else result_2["output"])
        print(f"\nüîß Herramientas usadas: {[step[0].tool for step in result_2.get('intermediate_steps', [])]}")
    except Exception as e:
        print(f"‚ùå Error: {e}")
        
else:
    print("‚ö†Ô∏è  El agente no est√° configurado. Configura GOOGLE_API_KEY primero.")


In [None]:
# ============================================================
# Paso 5: Crear aplicaci√≥n Streamlit
# ============================================================

import pickle

# Guardar objetos necesarios para Streamlit
STREAMLIT_DATA_PATH = os.path.join(OUT_DIR, "streamlit_data.pkl")

streamlit_data = {
    "agent_prompt": AGENT_PROMPT,
    "vectorstore_a_path": VECTORSTORE_DIR_A,
    "vectorstore_b_path": VECTORSTORE_DIR_B,
    "seg_a_path": SEG_A_JSONL,
    "seg_b_path": SEG_B_JSONL,
    "proyecto_dir": PROYECTO_DIR,
}

# Guardar configuraci√≥n
with open(STREAMLIT_DATA_PATH, "wb") as f:
    pickle.dump(streamlit_data, f)

print("‚úÖ Configuraci√≥n guardada para Streamlit")
print(f"üìÑ Archivo: {STREAMLIT_DATA_PATH}")

# Crear script Streamlit completo
STREAMLIT_APP_CODE = f'''import streamlit as st
import os
import pickle
from langchain_google_genai import ChatGoogleGenerativeAI
from langchain.agents import AgentExecutor, create_react_agent
from langchain.prompts import PromptTemplate
from langchain.memory import ConversationBufferWindowMemory
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import FAISS
from langchain.tools import Tool

# Configuraci√≥n de la p√°gina
st.set_page_config(
    page_title="AsistenteIA - Curso de IA",
    page_icon="ü§ñ",
    layout="wide"
)

st.title("ü§ñ AsistenteIA - Curso de Inteligencia Artificial")
st.markdown("Asistente acad√©mico especializado en apuntes del curso de IA")

# Rutas
BASE_DIR = "{PROYECTO_DIR}"
OUT_DIR = os.path.join(BASE_DIR, "dataset")
STREAMLIT_DATA_PATH = os.path.join(OUT_DIR, "streamlit_data.pkl")

# Cargar configuraci√≥n
@st.cache_resource
def load_config():
    try:
        with open(STREAMLIT_DATA_PATH, "rb") as f:
            return pickle.load(f)
    except:
        return None

# Inicializar recursos
@st.cache_resource
def load_embeddings():
    embeddings = HuggingFaceEmbeddings(
        model_name="sentence-transformers/all-MiniLM-L6-v2",
        model_kwargs={{'device': 'cpu'}},
        encode_kwargs={{'normalize_embeddings': True}}
    )
    return embeddings

@st.cache_resource
def load_vectorstores():
    embeddings = load_embeddings()
    config = load_config()
    if not config:
        return None, None
    
    try:
        vs_a = FAISS.load_local(
            config["vectorstore_a_path"],
            embeddings,
            allow_dangerous_deserialization=True
        )
        vs_b = FAISS.load_local(
            config["vectorstore_b_path"],
            embeddings,
            allow_dangerous_deserialization=True
        )
        return vs_a, vs_b
    except Exception as e:
        st.error(f"Error cargando vectorstores: {{e}}")
        return None, None

# Crear herramientas RAG
def create_rag_tool(vectorstore, name):
    def rag_search(query: str, k: int = 5) -> str:
        try:
            results = vectorstore.similarity_search_with_score(query, k=k)
            if not results:
                return "No se encontraron fragmentos relevantes."
            
            formatted = []
            for i, (doc, score) in enumerate(results, 1):
                formatted.append(
                    f"[Resultado {{i}} - Score: {{score:.4f}}]\\n"
                    f"Fragmento: {{doc.page_content[:500]}}...\\n"
                    f"Documento: {{doc.metadata.get('id_doc', 'N/A')}} ({{doc.metadata.get('chunk_id', 'N/A')}})\\n"
                    f"Autor: {{doc.metadata.get('autor', 'N/A')}}\\n"
                )
            return "\\n\\n".join(formatted)
        except Exception as e:
            return f"Error: {{str(e)}}"
    
    return Tool(
        name=f"rag_search_{{name}}",
        description=f"Busca informaci√≥n en apuntes usando segmentaci√≥n {{name}}.",
        func=rag_search
    )

# Inicializar sesi√≥n
if "messages" not in st.session_state:
    st.session_state.messages = []
if "agent_executor" not in st.session_state:
    st.session_state.agent_executor = None
if "tools_used" not in st.session_state:
    st.session_state.tools_used = []

# Sidebar
with st.sidebar:
    st.header("‚öôÔ∏è Configuraci√≥n")
    api_key = st.text_input(
        "Google API Key (Gemini)",
        type="password",
        value=os.getenv("GOOGLE_API_KEY", ""),
        help="Necesitas una API key de Google para usar Gemini"
    )
    
    if api_key:
        os.environ["GOOGLE_API_KEY"] = api_key
        
        if st.session_state.agent_executor is None:
            with st.spinner("Inicializando agente..."):
                try:
                    vs_a, vs_b = load_vectorstores()
                    if vs_a and vs_b:
                        # Crear herramientas
                        rag_tool_a = create_rag_tool(vs_a, "A")
                        rag_tool_b = create_rag_tool(vs_b, "B")
                        
                        # Tool web stub
                        web_tool = Tool(
                            name="web_search",
                            description="Busca en internet (solo cuando se solicite expl√≠citamente).",
                            func=lambda q: "B√∫squeda web no disponible en esta demo."
                        )
                        
                        tools = [rag_tool_a, rag_tool_b, web_tool]
                        
                                                 # LLM
                         # Intentar usar gemini-2.0-flash-exp o gemini-1.5-flash como fallback
                         try:
                             llm = ChatGoogleGenerativeAI(
                                 model="gemini-2.0-flash-exp",
                                 google_api_key=api_key,
                                 temperature=0.3,
                                 convert_system_message_to_human=True
                             )
                         except:
                             llm = ChatGoogleGenerativeAI(
                                 model="gemini-1.5-flash",
                                 google_api_key=api_key,
                                 temperature=0.3,
                                 convert_system_message_to_human=True
                             )
                        
                        # Memoria
                        memory = ConversationBufferWindowMemory(
                            k=5,
                            memory_key="history",
                            return_messages=True,
                            output_key="output"
                        )
                        
                        config = load_config()
                        prompt = PromptTemplate(
                            template=config["agent_prompt"] if config else "",
                            input_variables=["history", "input", "agent_scratchpad"]
                        )
                        
                        # Agente
                        agent = create_react_agent(llm=llm, tools=tools, prompt=prompt)
                        st.session_state.agent_executor = AgentExecutor(
                            agent=agent,
                            tools=tools,
                            memory=memory,
                            verbose=True,
                            handle_parsing_errors=True,
                            max_iterations=5
                        )
                        
                        st.success("‚úÖ Agente inicializado")
                    else:
                        st.error("Error cargando vectorstores")
                except Exception as e:
                    st.error(f"Error: {{e}}")
    
    st.markdown("---")
    st.markdown("### üìä √öltimas herramientas")
    if st.session_state.tools_used:
        for tool in st.session_state.tools_used[-5:]:
            st.text(f"‚Ä¢ {{tool}}")

# Chat
for message in st.session_state.messages:
    with st.chat_message(message["role"]):
        st.markdown(message["content"])
        if "tools" in message:
            st.caption(f"üîß {{', '.join(message['tools'])}}")

if prompt := st.chat_input("Haz una pregunta sobre el curso de IA..."):
    st.session_state.messages.append({{"role": "user", "content": prompt}})
    with st.chat_message("user"):
        st.markdown(prompt)
    
    if st.session_state.agent_executor:
        with st.chat_message("assistant"):
            with st.spinner("Pensando..."):
                try:
                    result = st.session_state.agent_executor.invoke({{"input": prompt}})
                    response = result["output"]
                    tools_used = [step[0].tool for step in result.get("intermediate_steps", [])]
                    st.session_state.tools_used.extend(tools_used)
                    
                    st.markdown(response)
                    if tools_used:
                        st.caption(f"üîß {{', '.join(tools_used)}}")
                    
                    st.session_state.messages.append({{
                        "role": "assistant",
                        "content": response,
                        "tools": tools_used
                    }})
                except Exception as e:
                    st.error(f"Error: {{e}}")
    else:
        with st.chat_message("assistant"):
            st.warning("‚ö†Ô∏è Configura la API key en el sidebar")
'''

# Guardar script Streamlit
STREAMLIT_APP_PATH = os.path.join(PROYECTO_DIR, "streamlit_app.py")
with open(STREAMLIT_APP_PATH, "w", encoding="utf-8") as f:
    f.write(STREAMLIT_APP_CODE)

print(f"\n‚úÖ Aplicaci√≥n Streamlit creada")
print(f"üìÑ Archivo: {STREAMLIT_APP_PATH}")
print(f"\nüöÄ Para ejecutar:")
print(f"   cd {PROYECTO_DIR}")
print(f"   streamlit run streamlit_app.py")


In [None]:
# ============================================================
# Paso 6: Resumen final y verificaci√≥n de Compa√±ero 3
# ============================================================

print("="*70)
print("‚úÖ RESUMEN DE LA PARTE DEL COMPA√ëERO 3")
print("="*70)

print("\nüìã Componentes implementados:")

print("\n1. ‚úÖ Prompt base/perfil del agente:")
print("   - Nombre: AsistenteIA")
print("   - Rol: Asistente acad√©mico especializado en IA")
print("   - Estilo: Claro, educativo, con citas")
print("   - Restricci√≥n: Primero apuntes, luego web (solo si se solicita)")

print("\n2. ‚úÖ Agente orquestador:")
print("   - Modelo: Gemini 2.0 Flash Experimental (gemini-2.0-flash-exp) o Gemini 1.5 Flash")
print("   - Patr√≥n: ReAct (Reasoning + Acting)")
print("   - Decisi√≥n: Entre RAG Tool A, RAG Tool B, WebSearch, o respuesta directa")
print("   - Max iteraciones: 5")

print("\n3. ‚úÖ Memoria conversacional:")
print("   - Tipo: ConversationBufferWindowMemory")
print("   - Ventana: √öltimas 5 interacciones")
print("   - Caracter√≠stica: No guarda historial permanente")

print("\n4. ‚úÖ Interfaz Streamlit:")
print("   - Aplicaci√≥n web completa")
print("   - Muestra conversaci√≥n en tiempo real")
print("   - Indica qu√© herramienta se us√≥")
print("   - Sidebar con configuraci√≥n y herramientas usadas")
print(f"   - Archivo: streamlit_app.py")

print("\n5. ‚úÖ Integraci√≥n completa:")
print("   - Agente + Tools + Memoria + Interfaz")
print("   - Listo para demostraci√≥n presencial")

print("\nüìä Herramientas disponibles para el agente:")
print("   1. rag_search_A: B√∫squeda en apuntes (segmentaci√≥n A - chunks fijos)")
print("   2. rag_search_B: B√∫squeda en apuntes (segmentaci√≥n B - encabezados)")
print("   3. web_search: B√∫squeda web (solo cuando se solicite expl√≠citamente)")

print("\nüöÄ Para ejecutar la aplicaci√≥n:")
print(f"   1. Configura GOOGLE_API_KEY")
print(f"   2. cd {PROYECTO_DIR}")
print(f"   3. streamlit run streamlit_app.py")

print("\n" + "="*70)
print("‚úÖ COMPA√ëERO 3 - TAREA COMPLETADA")
print("="*70)
print("\nüéØ El sistema est√° listo para:")
print("   - Comparar rendimiento de ambas segmentaciones")
print("   - Evaluar m√©tricas (recall@k, precisi√≥n, tiempo de respuesta)")
print("   - Demostraci√≥n presencial")
print("="*70)
