In [None]:
# Instalar las librerías necesarias para el proyecto RAG
# - transformers: modelos de NLP pre-entrenados
# - datasets: acceso a datasets de HuggingFace
# - accelerate: optimización para inferencia rápida
# - faiss-cpu: búsqueda similar de vectores (base de datos vectorial)
# - sentence-transformers: modelos para generar embeddings de oraciones
# - pymupdf: extracción de texto de archivos PDF
!pip install -q transformers datasets accelerate faiss-cpu sentence-transformers pymupdf

[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.3/31.3 MB[0m [31m44.0 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m24.1/24.1 MB[0m [31m48.8 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m193.6/193.6 kB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m0:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m664.8/664.8 MB[0m [31m2.4 MB/s[0m eta [36m0:00:00[0m0:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m211.5/211.5 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m56.3/56.3 MB[0m [31m8.7 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

# Load and Chunk pdf

In [None]:
import fitz  # PyMuPDF - librería para leer archivos PDF

def extract_text_from_pdf_by_sentences(path):
    """
    Extrae todo el texto de un archivo PDF.
    
    Args:
        path (str): ruta al archivo PDF
        
    Returns:
        str: texto completo extraído del PDF (todas las páginas juntas)
    """
    # Abre el archivo PDF
    doc = fitz.open(path)
    full_text = ""
    
    # Itera sobre cada página del PDF
    for page in doc:
        # Extrae el texto de cada página y lo añade al texto completo
        full_text += page.get_text()
    
    return full_text

# Chunk pdf into paragraphs or sentences

In [None]:
import nltk
# Descargar el tokenizador de NLTK (punto es necesario para dividir oraciones)
nltk.download("punkt")
from nltk.tokenize import sent_tokenize

def chunk_text(text, max_tokens=200):
    """
    Divide el texto en fragmentos pequeños (chunks) para procesar con el modelo.
    
    Args:
        text (str): texto a dividir
        max_tokens (int): número máximo de tokens por chunk (default: 200)
        
    Returns:
        list: lista de fragmentos de texto
    """
    # Importar tokenizador de transformers para contar tokens de forma consistente
    from transformers import AutoTokenizer
    # Usar el tokenizador del modelo all-MiniLM-L6-v2 (22 millones de parámetros)
    tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")
    
    # Dividir el texto en oraciones individuales
    sentences = sent_tokenize(text)
    chunks = []
    current_chunk = ""
    current_length = 0
    
    # Procesar cada oración
    for sentence in sentences:
        # Contar cuántos tokens tiene la oración actual
        length = len(tokenizer.tokenize(sentence))
        
        # Si la oración cabe en el chunk actual sin exceder max_tokens
        if current_length + length <= max_tokens:
            current_chunk += " " + sentence
            current_length += length
        else:
            # Si no cabe, guardar el chunk actual y comenzar uno nuevo
            chunks.append(current_chunk.strip())
            current_chunk = sentence
            current_length = length
    
    # Agregar el último chunk si hay contenido pendiente
    if current_chunk:
        chunks.append(current_chunk.strip())
    
    return chunks

[nltk_data] Downloading package punkt to /usr/share/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


# Embed chunks with sentence transformers

In [None]:
from sentence_transformers import SentenceTransformer
import numpy as np

# Cargar el modelo pre-entrenado para generar embeddings
# Este modelo convierte texto en vectores numéricos de 384 dimensiones
model = SentenceTransformer("all-MiniLM-L6-v2")

def embed_chunks(chunks):
    """
    Convierte los fragmentos de texto en vectores numéricos (embeddings).
    Estos vectores capturan el significado semántico del texto.
    
    Args:
        chunks (list): lista de fragmentos de texto
        
    Returns:
        np.ndarray: matriz de embeddings, una fila por chunk
    """
    # Codificar cada chunk en un vector de embedding
    # show_progress_bar=True muestra una barra de progreso durante el procesamiento
    return model.encode(chunks, show_progress_bar=True)

2025-06-20 22:18:57.843009: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1750457938.094156      35 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1750457938.171841      35 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

# Store embeddings with FAISS

In [None]:
import faiss

def build_faiss_index(embeddings):
    """
    Construye un índice FAISS (base de datos vectorial) para búsqueda rápida.
    FAISS permite encontrar embeddings similares de manera eficiente.
    
    Args:
        embeddings (np.ndarray): matriz de embeddings (n_chunks x dimensión)
        
    Returns:
        faiss.Index: índice FAISS configurado y poblado con los embeddings
    """
    # Obtener la dimensión del embedding (384 para all-MiniLM-L6-v2)
    dim = embeddings.shape[1]
    
    # Crear un índice de búsqueda con distancia L2 (Euclidiana)
    # IndexFlatL2 es una búsqueda exacta (sin aproximaciones)
    index = faiss.IndexFlatL2(dim)
    
    # Agregar los embeddings al índice
    index.add(embeddings)
    
    return index

# RAG query

In [None]:
from transformers import pipeline
from huggingface_hub import login
import json

# Cargar credenciales de HuggingFace desde archivo JSON
# Este token permite acceder a modelos privados o con cuota limitada
with open("/kaggle/input/autenti/AUTH nn.json", "r") as f:
    token_data = json.load(f)

HF_TOKEN = token_data["API_KEY"]

# Autenticarse en HuggingFace Hub
login(HF_TOKEN)

# Información del modelo a usar:
# - 7 mil millones de parámetros
# - Soporta múltiples idiomas: inglés, español, alemán, italiano, francés, portugués, etc.
# - Datos de entrenamiento: Common Crawl, código abierto de GitHub, Wikipedia, Project Gutenberg
#   Corpus multilingües (OSCAR, C4, The Pile), Q&A técnico, foros (Reddit, StackExchange)

# Cargar el pipeline para generación de texto
# Usando Nous-Hermes-2-Mistral-7B-DPO (o Mistral-7B-Instruct-v0.1 como alternativa)
qa_pipeline = pipeline("text-generation", model="NousResearch/Nous-Hermes-2-Mistral-7B-DPO")

def retrieve_and_answer(query, chunks, index, embeddings, top_k=3):
    """
    Implementa el pipeline RAG (Retrieval-Augmented Generation):
    1. Recupera los fragmentos más relevantes del documento
    2. Usa el LLM para responder basado en el contexto recuperado
    
    Args:
        query (str): pregunta del usuario
        chunks (list): fragmentos de texto del documento
        index (faiss.Index): índice FAISS para búsqueda
        embeddings (np.ndarray): embeddings de los fragmentos
        top_k (int): número de fragmentos relevantes a recuperar (default: 3)
        
    Returns:
        str: respuesta generada por el modelo
    """
    # Paso 1: Convertir la pregunta en un embedding
    query_vec = model.encode([query])
    
    # Paso 2: Buscar los top_k fragmentos más similares en FAISS
    # distances: distancias a los fragmentos encontrados
    # indices: índices de los fragmentos más similares
    distances, indices = index.search(query_vec, top_k)
    
    # Paso 3: Recuperar el texto de los fragmentos relevantes
    retrieved_texts = [chunks[i] for i in indices[0]]
    
    # Paso 4: Construir el prompt combinando contexto + pregunta
    context = "\n--------------------------------------------------\n".join(retrieved_texts)
    prompt = f"Answer this question based on the context below:\n\nContext:\n{context}\n\nQuestion: {query}\nAnswer:"
    
    # Paso 5: Generar respuesta usando el LLM
    # max_new_tokens: limitar la longitud de la respuesta
    # do_sample=True: usar muestreo (más creativo) en lugar de greedy decoding
    response = qa_pipeline(prompt, max_new_tokens=200, do_sample=True)[0]['generated_text']
    
    return response

config.json:   0%|          | 0.00/660 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 3 files:   0%|          | 0/3 [00:00<?, ?it/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/4.54G [00:00<?, ?B/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.94G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/120 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.65k [00:00<?, ?B/s]

tokenizer.model:   0%|          | 0.00/493k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/51.0 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/443 [00:00<?, ?B/s]

Device set to use cpu


# Run Full Pipeline

In [None]:
# Ruta al archivo PDF a procesar
pdf_path = "/kaggle/input/dataset/WWII_Key_Events_2pages.pdf"

# Ejecutar el pipeline RAG completo:

# 1. Extraer texto del PDF
text = extract_text_from_pdf_by_sentences(pdf_path)

# 2. Dividir el texto en fragmentos manejables
chunks = chunk_text(text)

# 3. Generar embeddings para cada fragmento
embeddings = embed_chunks(chunks)

# 4. Construir el índice FAISS para búsqueda rápida
index = build_faiss_index(np.array(embeddings))

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

In [None]:
import time

# Pregunta a responder basada en el documento PDF
question = "What caused the United States to enter World War II?"

# Registrar el tiempo de inicio
initial = time.time()

# Ejecutar el pipeline RAG para obtener la respuesta
answer = retrieve_and_answer(question, chunks, index, embeddings)

# Registrar el tiempo final
final = time.time()

# Mostrar el tiempo de ejecución en minutos
print("time in minutes:", (final-initial) / 60)

# Mostrar la respuesta generada
print(answer)

Batches:   0%|          | 0/1 [00:00<?, ?it/s]

time in minutes: 3.0092994372049966
Answer this question based on the context below:

Context:
Operation Barbarossa (1941)
In June 1941, Nazi Germany launched Operation Barbarossa, a massive invasion of the Soviet
Union. This marked a major escalation of the war and opened the Eastern Front, which became the
largest and bloodiest theater of conflict in World War II. Despite early successes, German forces
were eventually halted outside Moscow and faced fierce Soviet resistance, especially in Stalingrad. Pearl Harbor (1941)
On December 7, 1941, the Japanese navy launched a surprise attack on the U.S. naval base at
Pearl Harbor in Hawaii. The attack killed over 2,400 Americans and led the United States to declare
war on Japan the following day. This event brought the United States into the global conflict, which
shifted the balance of power among the Allied and Axis forces. Battle of Stalingrad (1942-1943)
One of the turning points of the war, the Battle of Stalingrad saw Soviet forces de

# Activity

1. Ask 5 questions and evaluate model answers qualitatively. Add brief comments.

2. Calculate BLEU score for the answers. Comment on the results.

3. Upload your own PDF, ask 5 new questions, and comment on the new answers.

4. Calculate BLEU score again and compare it with the previous results.