# Document Ingestion Pipeline
## Ingesta de Documentos PDF con Embeddings y Tags Autom√°ticos

Este notebook implementa un pipeline completo para:
1. Extraer texto de archivos PDF
2. Dividir en chunks procesables
3. Generar embeddings con Azure OpenAI
4. Clasificar autom√°ticamente con tags relevantes usando LLM
5. Guardar metadatos enriquecidos en JSON

## 1. Configuraci√≥n de Variables de Entorno y Dependencias

In [None]:
import json
import os
import pathlib
import openai
import pymupdf4llm
from dotenv import load_dotenv
from langchain_text_splitters import RecursiveCharacterTextSplitter
from typing import List, Dict, Any

# Cargar variables de entorno
load_dotenv(override=True)

# Inicializar cliente de OpenAI (GitHub Copilot Models)
API_HOST = os.getenv("API_HOST", "github")
client = openai.OpenAI(
    base_url="https://models.github.ai/inference", 
    api_key=os.environ.get("GITHUB_TOKEN")
)

# Definir directorios
data_dir = pathlib.Path.cwd() / "data"
data_dir.mkdir(exist_ok=True)

print(f"‚úì Librer√≠as importadas correctamente")
print(f"‚úì Variables de entorno cargadas")
print(f"‚úì Directorio de datos: {data_dir}")

## 2. Cargar y Extraer Texto de Archivos PDF

In [None]:
# Buscar todos los archivos PDF en el directorio de datos
filenames = [f.name for f in data_dir.glob("*.pdf")]

print(f"\nüìÑ Archivos PDF encontrados: {len(filenames)}")
for i, filename in enumerate(filenames, 1):
    print(f"   {i}. {filename}")

# Diccionario para almacenar el texto extra√≠do de cada archivo
extracted_documents = {}

for filename in filenames:
    file_path = data_dir / filename
    print(f"\nüîç Procesando: {filename}")
    
    try:
        # Extraer texto del PDF a formato markdown
        md_text = pymupdf4llm.to_markdown(file_path)
        extracted_documents[filename] = md_text
        
        print(f"   ‚úì Texto extra√≠do: {len(md_text)} caracteres")
        print(f"   Preview: {md_text[:150]}...")
    except Exception as e:
        print(f"   ‚úó Error al procesar: {e}")

## 3. Dividir Texto en Chunks

In [None]:
# Configurar el divisor de texto
text_splitter = RecursiveCharacterTextSplitter.from_tiktoken_encoder(
    model_name="gpt-4o",
    chunk_size=500,
    chunk_overlap=125
)

# Almacenar todos los chunks
all_chunks_raw = {}

print(f"\n‚úÇÔ∏è  Dividiendo documentos en chunks...")
for filename, md_text in extracted_documents.items():
    texts = text_splitter.create_documents([md_text])
    all_chunks_raw[filename] = texts
    
    print(f"   {filename}: {len(texts)} chunks")
    
    # Mostrar primer chunk como ejemplo
    if texts:
        print(f"      Ejemplo - Chunk 1: {texts[0].page_content[:100]}...")

print(f"\n‚úì Chunking completado")

## 4. Clasificar Chunks con LLM y Extraer Tags

Se usar√° un modelo LLM para analizar autom√°ticamente cada chunk y extraer tags relevantes de la lista predefinida.

**Tags disponibles:**
- introduccion
- barrios
- gastronomia
- museos
- eventos
- naturaleza
- vida_nocturna
- transporte
- excursiones

In [None]:
# Definir tags disponibles
AVAILABLE_TAGS = [
    "introduccion",
    "barrios",
    "gastronomia",
    "museos",
    "eventos",
    "naturaleza",
    "vida_nocturna",
    "transporte",
    "excursiones"
]

def extract_tags_from_chunk(text: str) -> List[str]:
    """
    Usa un LLM para extraer tags relevantes del contenido del chunk.
    
    Args:
        text: Contenido del chunk
    
    Returns:
        Lista de tags relevantes
    """
    try:
        prompt = f"""Analiza el siguiente texto y A√ëADE SOLO SI SE MENCIONA EXPLICITAMENTE algo relacionado con uno o mas de estos tags: 
{', '.join(AVAILABLE_TAGS)}

Texto: {text[:1000]}

Responde SOLO con una lista de tags en formato JSON, ejemplo: ["tag1", "tag2"]
Sin texto adicional, solo el JSON."""
        
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "user", "content": prompt}
            ],
            temperature=0.3,
            max_tokens=100
        )
        
        # Parsear la respuesta JSON
        response_text = response.choices[0].message.content.strip()
        tags = json.loads(response_text)
        
        # Validar que todos los tags est√©n en la lista permitida
        valid_tags = [tag for tag in tags if tag in AVAILABLE_TAGS]
        return valid_tags if valid_tags else ["introduccion"]
        
    except Exception as e:
        print(f"   ‚ö†Ô∏è  Error al extraer tags: {e}")
        return ["introduccion"]

print("‚úì Funci√≥n de extracci√≥n de tags definida")

## 5. Generar Embeddings con Azure OpenAI

In [None]:
def generate_embedding(text: str) -> List[float]:
    """
    Genera un embedding para un texto usando el modelo text-embedding-3-small.
    
    Args:
        text: Texto para el cual generar embedding
    
    Returns:
        Vector de embedding (lista de floats)
    """
    try:
        response = client.embeddings.create(
            model="text-embedding-3-small",
            input=text
        )
        return response.data[0].embedding
    except Exception as e:
        print(f"   ‚ö†Ô∏è  Error al generar embedding: {e}")
        return []

print("‚úì Funci√≥n de generaci√≥n de embeddings definida")

## 6. Estructurar Datos con Metadatos

Crear la estructura completa con: id, content, category (nombre del archivo), source, tags, embedding

In [None]:
all_chunks = []
chunk_counter = 1

print(f"\nüì¶ Procesando chunks con metadatos...")
print(f"‚ö†Ô∏è  Limitado a 3 chunks por PDF para conservar cuota de API\n")

for filename, chunks in all_chunks_raw.items():
    print(f"   üìÑ {filename}")
    
    for i, chunk in enumerate(chunks, 1):
        try:
            text_content = chunk.page_content
            
            # Solo procesar tags y embeddings para los primeros 3 chunks
            if i <= 3:
                # Extraer tags usando LLM
                print(f"      ‚Ä¢ Chunk {i}/{len(chunks)}: extrayendo tags...", end="")
                tags = extract_tags_from_chunk(text_content)
                print(f" ‚úì {tags}")
                
                # Generar embedding
                print(f"      ‚Ä¢ Chunk {i}/{len(chunks)}: generando embedding...", end="")
                embedding = generate_embedding(text_content)
                print(f" ‚úì")
            else:
                # Para chunks > 3, usar valores por defecto
                tags = ["introduccion"]
                embedding = []
                if i == 4:
                    print(f"      ‚Ä¢ Chunks restantes: usando valores por defecto (sin API calls)")
            
            # Crear estructura de chunk con todos los metadatos
            chunk_data = {
                "id": f"{filename.replace('.', '_')}-{i}",
                "content": text_content,
                "category": filename.replace(".pdf", ""),  # Nombre del archivo sin extensi√≥n
                "source": "pdf_ingestion",  # Fuente del documento
                "tags": tags,
                "embedding": embedding,
                "has_ai_processing": i <= 3  # Indicar si se proces√≥ con IA
            }
            
            all_chunks.append(chunk_data)
            chunk_counter += 1
            
        except Exception as e:
            print(f"      ‚úó Error al procesar chunk {i}: {e}")

print(f"\n‚úì Procesamiento completado: {len(all_chunks)} chunks generados")
print(f"‚úì Chunks con IA (embeddings + tags): m√°x 3 por PDF")

## 7. Guardar Chunks Procesados en JSON

In [None]:
# Guardar los chunks procesados en un archivo JSON
output_file = data_dir / "rag_ingested_chunks.json"

print(f"\nüíæ Guardando chunks en {output_file}...")

try:
    with open(output_file, "w", encoding="utf-8") as f:
        json.dump(all_chunks, f, indent=4, ensure_ascii=False)
    
    print(f"‚úì Archivo guardado exitosamente")
    print(f"‚úì Total de chunks: {len(all_chunks)}")
    print(f"‚úì Tama√±o del archivo: {output_file.stat().st_size / 1024:.2f} KB")
    
except Exception as e:
    print(f"‚úó Error al guardar archivo: {e}")

## Visualizaci√≥n de Resultados

Revisar ejemplos de chunks procesados

In [None]:
import pandas as pd

# Mostrar informaci√≥n resumen
print("üìä Resumen de Chunks Procesados:")
print("=" * 60)

if all_chunks:
    # Crear dataframe para an√°lisis
    df_summary = pd.DataFrame([
        {
            "ID": chunk["id"],
            "Categor√≠a": chunk["category"],
            "Tags": ", ".join(chunk["tags"]),
            "Longitud": len(chunk["content"]),
            "Has Embedding": len(chunk["embedding"]) > 0
        }
        for chunk in all_chunks[:10]  # Mostrar primeros 10
    ])
    
    print(df_summary.to_string(index=False))
    
    if len(all_chunks) > 10:
        print(f"\n... y {len(all_chunks) - 10} chunks m√°s")
    
    print("\n" + "=" * 60)
    print(f"‚úì Total de chunks: {len(all_chunks)}")
    
    # Estad√≠sticas por categor√≠a
    categories = {}
    for chunk in all_chunks:
        cat = chunk["category"]
        categories[cat] = categories.get(cat, 0) + 1
    
    print(f"\nDistribuci√≥n por categor√≠a:")
    for cat, count in sorted(categories.items()):
        print(f"   ‚Ä¢ {cat}: {count} chunks")
    
    # Estad√≠sticas de tags
    all_tags = {}
    for chunk in all_chunks:
        for tag in chunk["tags"]:
            all_tags[tag] = all_tags.get(tag, 0) + 1
    
    print(f"\nDistribuci√≥n de tags:")
    for tag, count in sorted(all_tags.items(), key=lambda x: x[1], reverse=True):
        print(f"   ‚Ä¢ {tag}: {count} veces")
else:
    print("‚ö†Ô∏è  No hay chunks para mostrar. Aseg√∫rate de que hay archivos PDF en el directorio /data")

## Ejemplo de Chunk Completo

Visualizar la estructura detallada de un chunk procesado

In [None]:
if all_chunks:
    # Mostrar el primer chunk como ejemplo
    example_chunk = all_chunks[0]
    
    print("üìå Ejemplo de Chunk Procesado:")
    print("=" * 60)
    print(f"ID: {example_chunk['id']}")
    print(f"Categor√≠a: {example_chunk['category']}")
    print(f"Source: {example_chunk['source']}")
    print(f"Tags: {example_chunk['tags']}")
    print(f"\nContenido (primeros 300 caracteres):")
    print(f"{example_chunk['content'][:300]}...")
    print(f"\nEmbedding (primeros 5 valores): {example_chunk['embedding'][:5]}")
    print(f"Dimensi√≥n del embedding: {len(example_chunk['embedding'])}")
else:
    print("‚ö†Ô∏è  No hay chunks disponibles para mostrar")