# Fase 1. Recolecci√≥n y organizaci√≥n de los datos

En docs "lineamientos_nomenclatura_y_citacion.md" est√° la informaci√≥n por si quieren guiarse y revisar.

# Fase 2. Procesamiento de texto

## Extracci√≥n del texto

In [1]:
from PyPDF2 import PdfReader
import os, re

# Directorio base del proyecto
BASE_DIR = "data"
RAW_PDF_DIR = os.path.join(BASE_DIR, "apuntes_raw")
OUT_RAW_DIR = os.path.join(BASE_DIR, "apuntes_clean", "raw")

# Crear la carpeta de salida si no existe
os.makedirs(OUT_RAW_DIR, exist_ok=True)

# Buscar todos los PDFs en la carpeta apuntes_raw
pdf_files = [f for f in os.listdir(RAW_PDF_DIR) if f.lower().endswith(".pdf")]

for pdf_file in pdf_files:
    pdf_path = os.path.join(RAW_PDF_DIR, pdf_file)
    txt_name = os.path.splitext(pdf_file)[0] + ".txt"
    out_txt_path = os.path.join(OUT_RAW_DIR, txt_name)

    reader = PdfReader(pdf_path)
    text_pages = []
    for page in reader.pages:
        text_pages.append(page.extract_text() or "")
    
    # Unir todas las p√°ginas con doble salto de l√≠nea
    full_text = "\n\n".join(text_pages)
    with open(out_txt_path, "w", encoding="utf-8") as f:
        f.write(full_text)

print(f"‚úÖ {len(pdf_files)} archivos extra√≠dos correctamente a {OUT_RAW_DIR}")


‚úÖ 46 archivos extra√≠dos correctamente a data/apuntes_clean/raw


## Normalizaci√≥n de txt

In [2]:
import os, re, unicodedata

BASE_DIR = "data"
CLEAN_IN_DIR  = os.path.join(BASE_DIR, "apuntes_clean", "raw")        # carpeta de entrada
CLEAN_OUT_DIR = os.path.join(BASE_DIR, "apuntes_clean", "normalized") # carpeta de salida
os.makedirs(CLEAN_OUT_DIR, exist_ok=True)

def quitar_tildes_y_reparar_espacios(texto: str) -> str:
    # 1) Normalizaci√≥n Unicode para exponer diacr√≠ticos combinantes
    t = unicodedata.normalize("NFD", texto)

    # 2) Reemplazos t√≠picos de PDF 
    t = (t.replace("\u00A0", " ")      # NBSP -> espacio normal
           .replace("\u00AD", "")      # soft hyphen -> nada
           .replace("Ô¨Å", "fi").replace("Ô¨Ç", "fl")  # ligaduras
           .replace("\u0131", "i")     # ƒ± (i sin punto) -> i
           .replace("Àô", "").replace("`", "").replace("¬®", "").replace("ÀÜ", ""))

    # 3) Unir SOLO cuando hay acento suelto entre letras: "implementaci ¬¥on" -> "implementacion"
    t = re.sub(r"([A-Za-z√±√ë])\s*[\u00B4\u0301]\s*([A-Za-z√±√ë])", r"\1\2", t)

    # 4) Convertir virgulilla suelta (~ o \u02DC) en √ë/√± cuando corresponde (p.ej. "tama Àúno" -> "tama√±o")
    #    a) letra + ~ + n/N
    t = re.sub(r"([A-Za-z√±√ë])\s*[\u02DC~]\s*([Nn])",
               lambda m: m.group(1) + ("√ë" if m.group(2).isupper() else "√±"),
               t)
    #    b) ~ al inicio o tras espacio antes de n/N + vocal (p.ej. " Àúno " -> " √±o ")
    t = re.sub(r"(?<!\S)[\u02DC~]\s*([Nn])(?=[aeiou√°√©√≠√≥√∫AEIOU√Å√â√ç√ì√ö])",
               lambda m: ("√ë" if m.group(1).isupper() else "√±"),
               t)

    # 5) Eliminar diacr√≠ticos (tildes) PERO conservar √±/√ë
    t = ''.join(c for c in t if unicodedata.category(c) != 'Mn' or c.lower() == '√±')

    # 6) Limpieza suave: colapsar espacios repetidos y limitar saltos
    t = re.sub(r"[ \t]+", " ", t)
    t = re.sub(r"\n{3,}", "\n\n", t)

    return t.strip()

# Aplicar a todos los .txt de entrada
count = 0
for fname in os.listdir(CLEAN_IN_DIR):
    if not fname.lower().endswith(".txt"):
        continue

    with open(os.path.join(CLEAN_IN_DIR, fname), "r", encoding="utf-8", errors="ignore") as f:
        raw = f.read()

    norm = quitar_tildes_y_reparar_espacios(raw)

    with open(os.path.join(CLEAN_OUT_DIR, fname), "w", encoding="utf-8") as f:
        f.write(norm)
    count += 1

print(f"‚úÖ {count} archivos corregidos y guardados en {CLEAN_OUT_DIR}")


‚úÖ 46 archivos corregidos y guardados en data/apuntes_clean/normalized


## Segmentaci√≥n (P√°rrafos y Ventanas Deslizantes)

In [3]:
import os, re, csv, shutil
from statistics import mean

BASE_DIR = "data"
INPUT_DIR = os.path.join(BASE_DIR, "apuntes_clean", "normalized")

# --- P√°rrafos ---
PAR_MIN_CHARS = 480
PAR_MAX_CHARS = 2000
MERGE_TITLES = True
TITLE_MAX_CHARS = 140

# --- Ventanas deslizantes ---
WIN_WORDS = 240
WIN_OVERLAP = 0.20
WIN_STRIDE = max(1, int(WIN_WORDS * (1 - WIN_OVERLAP)))

# --- Salidas ---
OUT_PAR_DIR = os.path.join(BASE_DIR, "chunks_paragraphs")
OUT_WIN_DIR = os.path.join(BASE_DIR, "chunks_sliding")

# Limpiar salidas anteriores para √≠ndices consistentes
for d in (OUT_PAR_DIR, OUT_WIN_DIR):
    if os.path.exists(d):
        shutil.rmtree(d)
    os.makedirs(d, exist_ok=True)

IDX_PAR_CSV = os.path.join(OUT_PAR_DIR, "index_paragraphs.csv")
IDX_WIN_CSV = os.path.join(OUT_WIN_DIR, "index_sliding.csv")
SUMMARY_CSV = os.path.join(BASE_DIR, "chunks_summary.csv")

# ===================== UTILIDADES =====================
def read_txt(path):
    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        return f.read()

def safe_filename_stem(fname):
    return os.path.splitext(os.path.basename(fname))[0]

def split_paragraphs(text):
    raw_pars = [p.strip() for p in re.split(r"\n\s*\n", text) if p.strip()]
    pars = []
    for p in raw_pars:
        p = re.sub(r"[ \t]+", " ", p).strip()
        pars.append(p)
    return pars

def split_sentences(p):
    parts = re.split(r"(?<=[\.\?\!])\s+", p)
    return [s.strip() for s in parts if s.strip()]

def repartition_long_paragraph(p, max_chars):
    if len(p) <= max_chars:
        return [p]
    sent = split_sentences(p)
    chunks, buf = [], ""
    for s in sent:
        if not buf:
            buf = s
        elif len(buf) + 1 + len(s) <= max_chars:
            buf = buf + " " + s
        else:
            chunks.append(buf.strip())
            buf = s
    if buf:
        chunks.append(buf.strip())
    final = []
    for c in chunks:
        if len(c) <= max_chars:
            final.append(c)
        else:
            for i in range(0, len(c), max_chars):
                final.append(c[i:i+max_chars].strip())
    return final

def fuse_short_paragraphs(pars, min_chars, merge_titles, title_max):
    out = []
    i = 0
    while i < len(pars):
        cur = pars[i]
        is_title_like = merge_titles and (len(cur) <= title_max and "\n" not in cur and len(cur.split()) <= 16)
        if is_title_like and i + 1 < len(pars):
            merged = (cur + " ‚Äî " + pars[i+1]).strip()
            out.append(merged)
            i += 2
            continue
        if len(cur) < min_chars and i + 1 < len(pars):
            merged = (cur + " " + pars[i+1]).strip()
            out.append(merged)
            i += 2
        else:
            out.append(cur)
            i += 1
    return out

def ensure_dir(d):
    if not os.path.exists(d):
        os.makedirs(d, exist_ok=True)

def write_chunk(path, text):
    ensure_dir(os.path.dirname(path))
    with open(path, "w", encoding="utf-8") as f:
        f.write(text.strip())

def word_tokenize(text):
    return re.findall(r"\S+", text)

# ===================== M√âTODO A: P√ÅRRAFOS =====================
par_rows = []
summary_rows = []

files = [f for f in os.listdir(INPUT_DIR) if f.lower().endswith(".txt")]
for fname in sorted(files):
    path_in = os.path.join(INPUT_DIR, fname)
    base = safe_filename_stem(fname)
    out_dir_doc = os.path.join(OUT_PAR_DIR, base)
    ensure_dir(out_dir_doc)

    txt = read_txt(path_in)
    pars = split_paragraphs(txt)
    pars = fuse_short_paragraphs(pars, PAR_MIN_CHARS, MERGE_TITLES, TITLE_MAX_CHARS)

    final_pars = []
    for p in pars:
        final_pars.extend(repartition_long_paragraph(p, PAR_MAX_CHARS))

    lengths = []
    for idx, chunk in enumerate(final_pars, start=1):
        chunk_name = f"chunk_{idx:04d}.txt"
        out_path = os.path.join(out_dir_doc, chunk_name)
        write_chunk(out_path, chunk)
        lengths.append(len(chunk))
        par_rows.append({
            "filename_base": base,
            "method": "paragraphs",
            "chunk_id": f"{base}-p-{idx:04d}",
            "chunk_path": os.path.relpath(out_path, BASE_DIR).replace("\\","/"),
            "char_len": len(chunk),
            "word_len": len(chunk.split()),
            "paragraph_idx": idx
        })

    summary_rows.append({
        "filename_base": base,
        "method": "paragraphs",
        "n_chunks": len(lengths),
        "char_mean": round(mean(lengths), 1) if lengths else 0,
        "pct_short_<300": round(100*sum(l<300 for l in lengths)/len(lengths), 1) if lengths else 0
    })

if par_rows:
    with open(IDX_PAR_CSV, "w", newline="", encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=list(par_rows[0].keys()))
        writer.writeheader()
        writer.writerows(par_rows)

# ===================== M√âTODO B: VENTANAS DESLIZANTES =====================
win_rows = []
for fname in sorted(files):
    path_in = os.path.join(INPUT_DIR, fname)
    base = safe_filename_stem(fname)
    out_dir_doc = os.path.join(OUT_WIN_DIR, base)
    ensure_dir(out_dir_doc)

    txt = read_txt(path_in)
    words = word_tokenize(txt)
    n = len(words)
    lengths = []

    if n == 0:
        summary_rows.append({
            "filename_base": base,
            "method": "sliding",
            "n_chunks": 0, "char_mean": 0, "pct_short_<300": 0
            })
        continue

    idx = 0
    win_id = 1
    while idx < n:
        end = min(n, idx + WIN_WORDS)
        w_chunk = words[idx:end]
        chunk = " ".join(w_chunk).strip()
        if not chunk:
            break

        chunk_name = f"chunk_{win_id:04d}.txt"
        out_path = os.path.join(out_dir_doc, chunk_name)
        write_chunk(out_path, chunk)

        lengths.append(len(chunk))
        win_rows.append({
            "filename_base": base,
            "method": "sliding",
            "chunk_id": f"{base}-w-{win_id:04d}",
            "chunk_path": os.path.relpath(out_path, BASE_DIR).replace("\\","/"),
            "char_len": len(chunk),
            "word_len": len(w_chunk),
            "start_word": idx,
            "end_word": end
        })

        win_id += 1
        if end == n:
            break
        idx += WIN_STRIDE

    summary_rows.append({
        "filename_base": base,
        "method": "sliding",
        "n_chunks": len(lengths),
        "char_mean": round(mean(lengths), 1) if lengths else 0,
        "pct_short_<300": round(100*sum(l<300 for l in lengths)/len(lengths), 1) if lengths else 0
    })

if win_rows:
    with open(IDX_WIN_CSV, "w", newline="", encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=list(win_rows[0].keys()))
        writer.writeheader()
        writer.writerows(win_rows)

# ===================== RESUMEN =====================
if summary_rows:
    with open(SUMMARY_CSV, "w", newline="", encoding="utf-8") as f:
        writer = csv.DictWriter(f, fieldnames=list(summary_rows[0].keys()))
        writer.writeheader()
        writer.writerows(summary_rows)

print("‚úÖ Segmentaci√≥n regenerada con par√°metros ajustados.")
print(f" - √çndice p√°rrafos:  {IDX_PAR_CSV}")
print(f" - √çndice ventanas:  {IDX_WIN_CSV}")
print(f" - Resumen:          {SUMMARY_CSV}")
print(f" - Carpeta chunks A: {OUT_PAR_DIR}")
print(f" - Carpeta chunks B: {OUT_WIN_DIR}")


‚úÖ Segmentaci√≥n regenerada con par√°metros ajustados.
 - √çndice p√°rrafos:  data/chunks_paragraphs/index_paragraphs.csv
 - √çndice ventanas:  data/chunks_sliding/index_sliding.csv
 - Resumen:          data/chunks_summary.csv
 - Carpeta chunks A: data/chunks_paragraphs
 - Carpeta chunks B: data/chunks_sliding


# Fase 3. Tokenizaci√≥n y Embeddings

In [9]:
import os, csv, time, math
from typing import List
from tqdm import tqdm

import chromadb
from chromadb.config import Settings

# (A) ‚Äî‚Äî CONFIGURACI√ìN GENERAL 
BASE_DIR       = "data"
INDEX_CSV      = os.path.join(BASE_DIR, "chunks_sliding", "index_sliding.csv")   # puedes cambiar a p√°rrafos si quieres
PERSIST_DIR    = os.path.join(BASE_DIR, "vectorstores", "chroma_sliding_openai_v1")
COLLECTION_NAME= "ai_apuntes_sliding_openai_v1"

# Proveedor de embeddings: "openai" o "local"
PROVIDER       = "openai"       
OPENAI_MODEL   = "text-embedding-3-small"      
LOCAL_MODEL    = "all-MiniLM-L6-v2"           

BATCH_SIZE     = 128            # tama√±o de lote para ingesti√≥n
MAX_RETRIES    = 5              # reintentos por rate-limit/errores transitorios
RETRY_BASE_SEC = 2              # backoff exponencial

# (B) ‚Äî‚Äî SETUP DE EMBEDDINGS 
embed_dims = None

if PROVIDER == "openai":
    from openai import OpenAI
    OPENAI_API_KEY = os.environ.get("OPENAI_API_KEY")
    if not OPENAI_API_KEY:
        raise ValueError("La variable de entorno OPENAI_API_KEY no est√° configurada.")
    
    oai_client = OpenAI(api_key=OPENAI_API_KEY)

    def embed_texts(texts: List[str]) -> List[List[float]]:
        """Embeddings con OpenAI + reintentos."""
        for attempt in range(MAX_RETRIES):
            try:
                resp = oai_client.embeddings.create(
                    model=OPENAI_MODEL,
                    input=texts
                )
                vecs = [d.embedding for d in resp.data]
                return vecs
            except Exception as e:
                wait = RETRY_BASE_SEC * (2 ** attempt)
                print(f"[WARN] Error {e}. Reintentando en {wait}s...")
                if attempt == MAX_RETRIES - 1:
                    raise
                time.sleep(wait)

elif PROVIDER == "local":
    from sentence_transformers import SentenceTransformer
    st_model = SentenceTransformer(LOCAL_MODEL)

    def embed_texts(texts: List[str]) -> List[List[float]]:
        return st_model.encode(texts, convert_to_numpy=False, normalize_embeddings=False).tolist()

else:
    raise ValueError("PROVIDER debe ser 'openai' o 'local'.")

# (C) ‚Äî‚Äî INICIALIZAR CHROMA PERSISTENTE 
os.makedirs(PERSIST_DIR, exist_ok=True)

client = chromadb.PersistentClient(
    path=PERSIST_DIR,
    settings=Settings(is_persistent=True)
)

# Crear o recuperar la colecci√≥n
try:
    collection = client.get_collection(COLLECTION_NAME)
except:
    collection = client.create_collection(
        name=COLLECTION_NAME,
        metadata={"hnsw:space": "cosine"}  # distancia coseno
    )

# (D) ‚Äî‚Äî UTILIDADES 
def read_index_rows(csv_path: str):
    rows = []
    with open(csv_path, "r", encoding="utf-8", newline="") as f:
        reader = csv.DictReader(f)
        for r in reader:
            rows.append(r)
    return rows

def load_chunk_text(chunk_path: str) -> str:
    """
    Abre el archivo de texto del chunk, corrigiendo rutas relativas.
    """
    # Si el path ya incluye "data/", se queda tal cual
    if not os.path.isabs(chunk_path):
        # Si empieza por "data/", lo consideramos relativo al proyecto
        if chunk_path.startswith("data/") or chunk_path.startswith(".\\data\\") or chunk_path.startswith(".\\chunks_"):
            path = os.path.normpath(chunk_path)
        else:
            # Si viene solo 'chunks_sliding/...', le anteponemos 'data/'
            path = os.path.join("data", chunk_path)
    else:
        path = chunk_path

    if not os.path.exists(path):
        raise FileNotFoundError(f"No se encontr√≥ el archivo: {path}")

    with open(path, "r", encoding="utf-8", errors="ignore") as f:
        return f.read().strip()


# (E) ‚Äî‚Äî CARGAR √çNDICE Y PREPARAR INGESTA 
rows = read_index_rows(INDEX_CSV)
print(f"Documentos (unique filename_base): {len(set(r['filename_base'] for r in rows))}")
print(f"Total de chunks en √≠ndice: {len(rows)}")

# (F) ‚Äî‚Äî INGESTA EN LOTES CON EMBEDDINGS 
ids, docs, metas = [], [], []

def flush_batch():
    if not ids:
        return
    # Calcula embeddings del batch actual
    vecs = embed_texts(docs)
    # upsert = idempotente: si ya existe el id, lo actualiza
    collection.upsert(ids=ids, documents=docs, metadatas=metas, embeddings=vecs)
    ids.clear(); docs.clear(); metas.clear()

for r in tqdm(rows, desc="Ingestando chunks en Chroma"):
    chunk_id   = r["chunk_id"]              # ej: <base>-w-0001
    chunk_path = r["chunk_path"]            # ej: data/chunks_sliding/<base>/chunk_0001.txt
    text       = load_chunk_text(chunk_path)
    if not text:
        continue

    ids.append(chunk_id)
    docs.append(text)
    metas.append({
        "filename_base": r.get("filename_base", ""),
        "method":       r.get("method", "sliding"),
        "chunk_path":   r.get("chunk_path", ""),
        "char_len":     int(r.get("char_len", 0)),
        "word_len":     int(r.get("word_len", 0)),
        "start_word":   int(r.get("start_word", 0)),
        "end_word":     int(r.get("end_word", 0)),
    })

    if len(ids) >= BATCH_SIZE:
        flush_batch()

# √∫ltimo lote
flush_batch()

print("‚úÖ Embeddings generados e indexados.")
print("üìö Collection:", COLLECTION_NAME, "| count =", collection.count())
print("üíæ Persist dir:", PERSIST_DIR)

Documentos (unique filename_base): 46
Total de chunks en √≠ndice: 386


Ingestando chunks en Chroma: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 386/386 [00:07<00:00, 48.65it/s]


‚úÖ Embeddings generados e indexados.
üìö Collection: ai_apuntes_sliding_openai_v1 | count = 386
üíæ Persist dir: data/vectorstores/chroma_sliding_openai_v1


## Prueba de Query

In [3]:
# Tooo este c√≥digo era una prueba para revisar si los embeddings se hab√≠an hecho bien

from openai import OpenAI
api_key = os.environ.get("OPENAI_API_KEY")
oai_client = OpenAI(api_key=api_key)
OPENAI_MODEL = "text-embedding-3-small"

QUESTION = "¬øCual es la formula de la distancia euclidiana?"
TOP_K = 5

# 1) Embeber la pregunta con OpenAI
qvec = oai_client.embeddings.create(
    model=OPENAI_MODEL,
    input=QUESTION
).data[0].embedding

# 2) Consultar 
res = collection.query(
    query_embeddings=[qvec],
    n_results=TOP_K,
    include=["metadatas", "distances", "documents"]
)

for rank, (doc, meta, dist) in enumerate(zip(res["documents"][0],
                                             res["metadatas"][0],
                                             res["distances"][0]), start=1):
    print(f"\n#{rank}  dist={dist:.4f}  base={meta.get('filename_base')}  palabras={meta.get('word_len')}")
    print(meta.get("chunk_path"))
    print(doc[:500].replace("\n"," ") + ("..." if len(doc)>500 else ""))



#1  dist=0.5520  base=3_Semana_AI_20250821_1_JulioVarelaVenegas_AlgebraLinealYProgramacionVectorial  palabras=240
chunks_sliding/3_Semana_AI_20250821_1_JulioVarelaVenegas_AlgebraLinealYProgramacionVectorial/chunk_0004.txt
los vectores son la base para representar conceptos en IA. III-C. Magnitud y Distancias La magnitud indica la distancia entre el punto inicial y final del vector, calculada con la norma ‚à•v‚à•. Distancia Manhattan (L1): suma de los valores abso- lutos de las diferencias en cada eje: d(x,y) =nX i=1|xi‚àíyi| Distancia Euclidiana (L2): hipotenusa del triangulo formado por los vectores: d(x,y) =vuutnX i=1(xi‚àíyi)2 Figura 2. Distancia Euclidiana entre dos puntos. III-D. Propiedades de la Norma La norma cum...

#2  dist=0.5734  base=3_Semana_AI_20250819_2_MarianaQuesadaSanchez_AlgebraLinealYAprendizajeSupervisado  palabras=240
chunks_sliding/3_Semana_AI_20250819_2_MarianaQuesadaSanchez_AlgebraLinealYAprendizajeSupervisado/chunk_0003.txt
Representacion grafica del vector 

# Fase 4. Herramientas

# RAG Tool

In [None]:
from langchain.tools import BaseTool
from typing import Any, Type
from pydantic import BaseModel, Field, PrivateAttr
import chromadb
from chromadb.config import Settings
from openai import OpenAI
import os

# ======== MODELO DE INPUT ========
class RAGInput(BaseModel):
    query: str = Field(..., description="Pregunta o frase a buscar en los apuntes")

# ======== TOOL ========
class RAGTool(BaseTool):
    name: str = "RAG_Tool"
    description: str = "Busca informaci√≥n en la base vectorial local de apuntes de Inteligencia Artificial"
    args_schema: Type[BaseModel] = RAGInput

    _client: Any = PrivateAttr()
    _collection: Any = PrivateAttr()
    _oai_client: Any = PrivateAttr()

    def __init__(self, collection_name: str, persist_dir: str, **kwargs):
        super().__init__(**kwargs)
        self._client = chromadb.PersistentClient(path=persist_dir, settings=Settings(is_persistent=True))
        self._collection = self._client.get_collection(collection_name)
        self._oai_client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

    def _run(self, query: str):
        """Consulta la base vectorial usando embeddings OpenAI"""
        embedding = self._oai_client.embeddings.create(
            model="text-embedding-3-small",
            input=query
        ).data[0].embedding

        results = self._collection.query(
            query_embeddings=[embedding],
            n_results=5,
            include=["documents",  "distances", "metadatas"]
        )
        docs = results["documents"][0]
        metas = results["metadatas"][0]

        combined = [
            f"Documento: {m.get('filename_base','')} | Fragmento: {d[:600]}..."
            for d, m in zip(docs, metas)
        ]
        return "\n".join(combined)

    async def _arun(self, query: str):
        raise NotImplementedError("RAGTool no soporta ejecuci√≥n as√≠ncrona.")


## Mini-Prueba

In [12]:
import os

collection_name = "ai_apuntes_sliding_openai_v1"
persist_dir = "data/vectorstores/chroma_sliding_openai_v1"

# ======== INICIALIZAR TOOL ========
rag_tool = RAGTool(collection_name=collection_name, persist_dir=persist_dir)

# ======== PRUEBAS ========
query = "¬øQu√© es una red neuronal convolucional?"
print("üîç Consulta:", query)
print("------------------------------------------------------")

response = rag_tool._run(query)

print("üìò Resultados:")
print(response)


üîç Consulta: ¬øQu√© es una red neuronal convolucional?
------------------------------------------------------
üìò Resultados:
Documento: 10_Semana_AI_20251007_1_GianmarcoOportaPerez_RedesNeuronalesConvolucionales | Fragmento: avanzan a traves de las capas convolucionales y de agrupamiento, se reduce su tama√±o espacial, pero aumenta la abstraccion de las caracteristicas aprendidas. Fig. 1. redes convolucionales C. Aplicaciones Comunes Las redes convolucionales se aplican ampliamente en diver- sas tareas de vision artificial, entre las que destacan: ‚Ä¢Clasificacion de imagenes. ‚Ä¢Segmentacion de objetos. ‚Ä¢Segmentacion de instancias. ‚Ä¢Procesamiento general de imagenes. Estas arquitecturas han demostrado una gran eficacia en problemas de reconocimiento visual, deteccion de patrones y procesamiento de se√±ales en el domini...
Documento: 11_Semana_AI_20251014_2_ LuisFernandoBenavidesVillegas_ConvolucionesPoolingAutoencoders | Fragmento: de un bloque, promoviendo la reutilizacion de

# Web Search Tool

In [6]:
from langchain_core.tools import Tool
from langchain_tavily import TavilySearch

def get_websearch_tool():
    search = TavilySearch(max_results=5)
    return Tool(
        name="WebSearch_Tool",
        description="Busca informaci√≥n en Internet usando Tavily",
        func=search.run
    )


## Mini-Prueba

In [10]:
# ======== Inicializar Tool ========
web_tool = get_websearch_tool()

# ======== Consulta ========
query = "√öltimos avances en inteligencia artificial en 2025"
print("üîç Consulta:", query)
print("------------------------------------------------------")

# Ejecutar b√∫squeda
response = web_tool.run(query)

print("üåê Resultados:")
print(response['query'])
print(response)
for i in range(len(response['results'])):
    print(f"\n--- Resultado {i+1} ---")
    print("T√≠tulo:", response['results'][i]['title'])
    print("URL:", response['results'][i]['url'])
    print("Contenido:", response['results'][i]['content'])

üîç Consulta: √öltimos avances en inteligencia artificial en 2025
------------------------------------------------------
üåê Resultados:
√öltimos avances en inteligencia artificial en 2025
{'query': '√öltimos avances en inteligencia artificial en 2025', 'follow_up_questions': None, 'answer': None, 'images': [], 'results': [{'url': 'https://www.bbc.com/mundo/articles/c4gxzx0kpp6o', 'title': 'IA: Qu√© se espera en 2025 de la inteligencia artificial, el ...', 'content': '**La inteligencia artificial (IA) est√° marcando un antes y un despu√©s en la historia de la tecnolog√≠a, y 2025 traer√° m√°s sorpresas.** Un "centauro doctor + un sistema de IA" mejora las decisiones que toman los humanos por su cuenta y los sistemas de IA por la suya. Los agentes de IA aut√≥nomos basados en modelos de lenguaje son el objetivo para 2025 de las grandes empresas tecnol√≥gicas como OpenAI (ChatGPT), Meta (LLaMA), Google (Gemini) o Anthropic (Claude). Nos enfrentamos a un dilema crucial: saber cu√°ndo es m

# Fase 5.  Perfil, orquestacion y memoria del agente LLM

In [7]:
# Perfil que va a tener el agente conversacional para dar respuestas especializadas.
AGENTE_PERFIL = """
Eres TEC-IA, un asistente especializado en Inteligencia Artificial,
entrenado con apuntes del curso del TEC (II Semestre 2025).
Tu prop√≥sito es responder de forma clara, concisa y t√©cnica.

Reglas:
- Usa primero la base de apuntes (RAG Tool) para responder.
- Solo usa la WebSearch Tool si el usuario lo solicita expl√≠citamente
  (por ejemplo: 'buscar en web:', 'web:', 'internet:', 'tavily:').
- Siempre cita de qu√© documento o autor proviene la informaci√≥n de los apuntes.
- No inventes citas ni digas 'no encontr√©'; si no hay suficiente informaci√≥n,
  pide una reformulaci√≥n.
- Mant√©n un tono explicativo y educativo, no rob√≥tico.
"""



#### Orquestador

El orquestador se encarga de coordinar las herramientas y el modelo principal para responder a las preguntas del usuario.

In [None]:
import os
from collections import deque
from langchain_openai import ChatOpenAI
from agente import AGENTE_PERFIL
from fase4_ragtool import RAGTool   
from fase4_webtool import get_websearch_tool
from dotenv import load_dotenv
load_dotenv()

# Inicializar modelo principal (orquestador) 
llm_orq = ChatOpenAI(model="gpt-3.5-turbo-0125", temperature=0.3)

# Inicializar las herramientas con la carpeta donde est√°n los vectores
collection_name = "ai_apuntes_sliding_openai_v1"
persist_dir = "data/vectorstores/chroma_sliding_openai_v1"
rag_tool = RAGTool(collection_name=collection_name, persist_dir=persist_dir)
web_tool = get_websearch_tool()

# Memoria de contexto limitada
MEMORIA = deque(maxlen=6)

def formatear_contexto():
    contexto = ""
    for rol, msg in MEMORIA:
        contexto += f"[{rol.upper()}]: {msg}\n"
    return contexto.strip()

# Detecci√≥n de uso de web
def usuario_pide_web(pregunta: str) -> bool:
    gatillos = ["buscar en web:", "web:", "internet:", "tavily:",
                 "buscar en internet:", "consulta en web:", "consulta en internet:", 
                 "investiga en web:", "investiga en internet:"]
    return any(g in pregunta.lower() for g in gatillos)

# Funci√≥n principal del agente 
def responder_agente(pregunta: str):
    usar_web = usuario_pide_web(pregunta)

    # 1. Recuperar contexto de memoria
    contexto = formatear_contexto()

    # 2. Consultar herramienta adecuada
    if usar_web:
        tool_output = web_tool.run(pregunta)
        tool_text = "\n".join([
            f"- {r.get('title','(sin t√≠tulo)')} ‚Äî {r.get('url','')}\n{r.get('content','')[:350]}..."
            for r in tool_output.get("results", [])
        ])
    else:
        tool_text = rag_tool._run(pregunta)

    # 3. Construir prompt final
    system_prompt = AGENTE_PERFIL
    user_prompt = f"""
Contexto previo:
{contexto}

Usuario pregunta:
{pregunta}

Informaci√≥n recuperada:
{tool_text}

Responde en espa√±ol de manera clara y t√©cnica.
Si la informaci√≥n viene de apuntes, cita el documento o autor.
Si la informaci√≥n viene de la web, cita la fuente (URL o medio).
"""

    completion = llm_orq.invoke([
        {"role": "system", "content": system_prompt},
        {"role": "user", "content": user_prompt}
    ])
    respuesta = completion.content

    # 4. Actualizar memoria
    MEMORIA.append(("user", pregunta))
    MEMORIA.append(("assistant", respuesta))

    return respuesta


NotFoundError: Collection [ai_apuntes_sliding_openai_v1] does not exist

# Fase 6. Aplicaci√≥n

Streamlit no puede ejecutarse en jupyter notebook, por lo que este c√≥digo debe ir en un archivo .py aparte

In [None]:
import streamlit as st
import time
import random
from orquestador import responder_agente

# CONFIGURACI√ìN DE P√ÅGINA 
st.set_page_config(page_title="TEC-IA Asistente", page_icon="üß†", layout="centered")

#  ESTILO LIMPIO Y ESTABLE 
st.markdown("""
<style>
.stApp {
    background: #f4f6fa;
    font-family: 'Segoe UI', sans-serif;
}

/* T√≠tulo */
h1 {
    text-align: center;
    font-size: 2.6rem;
    color: #002b5c;
    margin-bottom: 0.3rem;
    font-weight: 700;
}
.subtitle {
    text-align: center;
    color: #3b6ea8;
    font-size: 1.1rem;
    margin-bottom: 1.2rem;
}

/* Chat container */
.chat-box {
    background: white;
    padding: 18px;
    border-radius: 14px;
    max-height: 65vh;
    overflow-y: auto;
    border: 1px solid #d9e2ec;
    box-shadow: 0 4px 12px rgba(0,0,0,0.05);
    margin-bottom: 15px;
}

/* Mensajes */
.user-msg {
    background: #002b5c;
    color: white;
    padding: 10px 14px;
    border-radius: 16px 16px 4px 16px;
    margin-left: auto;
    max-width: 75%;
    margin-bottom: 12px;
}
.bot-msg {
    background: #e8f0fa;
    color: #002b5c;
    padding: 10px 14px;
    border-radius: 16px 16px 16px 4px;
    margin-right: auto;
    max-width: 75%;
    margin-bottom: 12px;
}

/* Input */
.stChatInput > div > div {
    background: white !important;
    border-radius: 18px !important;
    border: 1px solid #d9e2ec;
}
</style>
""", unsafe_allow_html=True)

#  ESTADO DEL CHAT 
if "messages" not in st.session_state:
    st.session_state.messages = [
        {"role": "assistant", "content": "¬°Hola! Soy **TEC-IA** ü§ñ. Estoy aqu√≠ para ayudarte con teor√≠a, pr√°ctica y conceptos de Inteligencia Artificial del TEC. Preg√∫ntame algo üëá."}
    ]

# ENCABEZADO 
st.markdown("""
<div style="text-align:center;">
    <img src="https://cdn-icons-png.flaticon.com/512/14313/14313824.png" width="85">
    <h1 style="margin-top: 10px; margin-bottom: 4px; font-weight: 700; color:#002b5c;">
        TEC-IA
    </h1>
    <div style="color:#3b6ea8; font-size: 1.1rem; margin-bottom: 14px;">
        Asistente para el curso de Inteligencia Artificial ‚Äî TEC
    </div>
</div>
<hr style="border: 0; height: 1px; background: #d9e2ec; margin-top: 4px; margin-bottom: 18px;">
""", unsafe_allow_html=True)
for msg in st.session_state.messages:
    if msg["role"] == "user":
        st.markdown(f"<div class='user-msg'>{msg['content']}</div>", unsafe_allow_html=True)
    else:
        st.markdown(f"<div class='bot-msg'>{msg['content']}</div>", unsafe_allow_html=True)

st.markdown("</div>", unsafe_allow_html=True)

# RESPUESTA SIMULADA 
def reply(prompt):
    time.sleep(1.0)
    respuestas = [
        f"Interesante pregunta sobre **{prompt}**. ¬øQuieres que lo explique paso a paso o con un ejemplo pr√°ctico?",
        f"**{prompt}** se estudia en IA porque ayuda a entender c√≥mo los sistemas pueden aprender patrones.",
        f"Te explico **{prompt}** de manera sencilla: ..."
    ]
    return random.choice(respuestas)

# INPUT DEL CHAT
prompt = st.chat_input("Escribe tu pregunta...")

if prompt:
    st.session_state.messages.append({"role": "user", "content": prompt})
    answer = responder_agente(prompt)
    st.session_state.messages.append({"role": "assistant", "content": answer})
    st.rerun()
