# Retrieval-Augmented Generation

## Versiones necesarias

In [1]:
import sys
import numpy as np
import scipy
import re
import torch
import shutil
import os
import transformers
import sentence_transformers
import faiss
import importlib.metadata
print("Torch:", torch.__version__)
print("Python:", sys.version)
print("Numpy:", np.__version__)
print("Scipy:", scipy.__version__)
print("re:", re.__version__)
print("shutil: módulo estándar, sin __version__")
print("os: módulo estándar, sin __version__")
print("Transformers:", transformers.__version__)
print("Sentence-Transformers:", sentence_transformers.__version__)
print(importlib.metadata.version("faiss-cpu"))

Torch: 2.3.0+cu121
Python: 3.11.13 | packaged by Anaconda, Inc. | (main, Jun  5 2025, 13:03:15) [MSC v.1929 64 bit (AMD64)]
Numpy: 1.26.4
Scipy: 1.10.1
re: 2.2.1
shutil: módulo estándar, sin __version__
os: módulo estándar, sin __version__
Transformers: 4.53.2
Sentence-Transformers: 5.0.0
1.11.0.post1


In [2]:
print("GPU disponible:", torch.cuda.is_available())
if torch.cuda.is_available():
    print("Nombre de la GPU:", torch.cuda.get_device_name(0))

GPU disponible: True
Nombre de la GPU: NVIDIA GeForce RTX 3050 Laptop GPU


In [54]:
from langchain_community.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.schema import Document
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
from langchain_community.llms import HuggingFacePipeline
from langchain_huggingface import HuggingFacePipeline 
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
import time
from langchain.vectorstores import FAISS
from langchain.docstore import InMemoryDocstore
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_core.documents import Document

In [15]:
try:
    print("faiss-cpu:", importlib.metadata.version("faiss-cpu"))
except Exception as e:
    print("No se pudo obtener versión de faiss-cpu:", e)

# LangChain versión
try:
    print("langchain:", importlib.metadata.version("langchain"))
except Exception as e:
    print("No se pudo obtener versión de langchain:", e)

try:
    print("langchain-community:", importlib.metadata.version("langchain-community"))
except Exception as e:
    print("No se pudo obtener versión de langchain-community:", e)

faiss-cpu: 1.11.0.post1
langchain: 0.3.26
langchain-community: 0.3.27


### Opcion #1

In [4]:
from sentence_transformers import SentenceTransformer
import numpy as np
import faiss

# Cargar modelo para embeddings (rápido y compatible con español)
embedder = SentenceTransformer("all-MiniLM-L6-v2")

# Obtener los embeddings para todos los chunks
chunk_embeddings = embedder.encode(chunks, convert_to_numpy=True)

# Crear índice FAISS para búsqueda rápida
dimension = chunk_embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(chunk_embeddings)

print("✅ Embeddings generados y FAISS index construido.")

✅ Embeddings generados y FAISS index construido.


  attn_output = torch.nn.functional.scaled_dot_product_attention(


In [3]:
# Cargar el texto desde archivo
with open("C:/Users/marce/Downloads/reglamento_solicitud_refugio_Guatemala.txt", "r", encoding="utf-8") as file:
    full_text = file.read()

# Unir líneas y limpiar espacios
clean_text = " ".join(full_text.split())

# Dividir por 'ARTICULO' (con o sin tilde, insensible a mayúsculas)
# ✅ Corrección aquí: \b para respetar la palabra completa, y permitir ARTICULO o ARTÍCULO
chunks_raw = re.split(r"\bART[IÍ]CULO\s+\d+\b", clean_text, flags=re.IGNORECASE)

# Volver a extraer los encabezados separados
matches = re.findall(r"\bART[IÍ]CULO\s+\d+\b", clean_text, flags=re.IGNORECASE)

# Reconstruir los chunks con su encabezado correspondiente
chunks = []
for i, content in enumerate(chunks_raw[1:]):  # Saltamos el encabezado inicial si existe
    header = matches[i]
    chunks.append(f"{header} {content.strip()}")

print(f"✅ Total de artículos detectados: {len(chunks)}")

✅ Total de artículos detectados: 49


In [5]:
from transformers import pipeline
import numpy as np

# Cargar el modelo multilingüe disponible
qa_pipeline = pipeline("question-answering", model="deepset/xlm-roberta-large-squad2")

config.json:   0%|          | 0.00/606 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/2.24G [00:00<?, ?B/s]

Some weights of the model checkpoint at deepset/xlm-roberta-large-squad2 were not used when initializing XLMRobertaForQuestionAnswering: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
- This IS expected if you are initializing XLMRobertaForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing XLMRobertaForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json:   0%|          | 0.00/179 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/150 [00:00<?, ?B/s]

Device set to use cuda:0


In [6]:
def ask_question(question, k=5):
    # 1. Generar el embedding de la pregunta
    question_embedding = embedder.encode([question])

    # 2. Buscar los k chunks más similares
    _, indices = index.search(np.array(question_embedding), k=k)

    # 3. Seleccionar y limpiar los chunks
    selected_chunks = [chunks[i] for i in indices[0]]
    context = "\n\n".join(selected_chunks)

    # 4. Ejecutar modelo QA
    result = qa_pipeline(question=question, context=context)

    # 5. Retornar solo la respuesta
    return result["answer"]

In [7]:
pregunta = "¿Qué documento debe presentar el solicitante al completar el formulario de extensión del Estatuto de Refugiado?"
respuesta = ask_question(pregunta)
print("📌 Respuesta:", respuesta)

📌 Respuesta:  Documento Personal de Identidad Especial.


In [8]:
pregunta = "¿Qué es la CONARE según el reglamento de refugio en Guatemala?"
respuesta = ask_question(pregunta)
print("📌 Respuesta:", respuesta)

📌 Respuesta:  Comisión Nacional para Refugiados.


In [9]:
pregunta = "¿Cuántos días o meses puede tomar la resolución de la solicitud de refugio según el reglamento de Guatemala?"
respuesta = ask_question(pregunta)
print("📌 Respuesta:", respuesta)

📌 Respuesta:  seis meses


In [10]:
pregunta = "¿Qué dice el reglamento sobre el derecho a la educación de niños solicitantes de refugio?"
respuesta = ask_question(pregunta)
print("📌 Respuesta:", respuesta)

📌 Respuesta: 
ARTICULO 9


In [11]:
pregunta = "¿Ante qué autoridad o institución puede presentarse una solicitud de asilo en Guatemala?"
respuesta = ask_question(pregunta)
print("📌 Respuesta:", respuesta)

📌 Respuesta:  AUTORIDAD MIGRATORIA NACIONAL


### Limpiar memoria y modelo

In [12]:
# Ruta de la caché del modelo en Hugging Face
modelo_cache_path = os.path.expanduser("~/.cache/huggingface/hub/models--deepset--xlm-roberta-large-squad2")

# Eliminar carpeta si existe
if os.path.exists(modelo_cache_path):
    shutil.rmtree(modelo_cache_path)
    print("✅ Modelo eliminado del disco.")
else:
    print("⚠️ El modelo no se encontró en la caché.")

✅ Modelo eliminado del disco.


In [13]:
torch.cuda.empty_cache()
torch.cuda.ipc_collect()
print("🧹 GPU limpia.")

🧹 GPU limpia.


### Opcion 2

In [22]:
# 🧱 1. Crear documentos desde los artículos
docs = [Document(page_content=chunk, metadata={"source": f"Artículo {i+1}"}) for i, chunk in enumerate(chunks)]

In [27]:
from huggingface_hub import login
login("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")

In [64]:
# 🧠 2. Cargar el modelo de lenguaje (LLM)
model_id = "mistralai/Mistral-7B-Instruct-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_id, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="auto",
    trust_remote_code=True
)

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=256,
    temperature=0.2,
    do_sample=False,
    pad_token_id=tokenizer.eos_token_id
)

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Some parameters are on the meta device because they were offloaded to the disk and cpu.
Device set to use cpu
The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


In [30]:
llm = HuggingFacePipeline(pipeline=pipe)

  llm = HuggingFacePipeline(pipeline=pipe)


In [50]:
# Envolver SentenceTransformer con el wrapper recomendado por LangChain
embedding_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

# Luego usa esto en FAISS
db = FAISS(
    embedding_function=embedding_model,
    index=index,
    docstore=docstore,
    index_to_docstore_id=index_to_docstore_id,
)


In [65]:
# 2. FAISS ya cargado previamente con los siguientes objetos:
# chunks          -> lista de artículos ("Artículo 1 texto...")
# chunk_embeddings -> np.array de embeddings
# embedder        -> SentenceTransformer("all-MiniLM-L6-v2")

# Crear diccionario con textos originales
documents = [Document(page_content=chunk) for chunk in chunks]

# Crear docstore e índice de mapeo
docstore = InMemoryDocstore({i: doc for i, doc in enumerate(documents)})
index_to_docstore_id = {i: i for i in range(len(documents))}

embedding_model = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")

# Crear la base de datos FAISS
db = FAISS(
    embedding_function=embedding_model,
    index=index,
    docstore=docstore,
    index_to_docstore_id=index_to_docstore_id,
)

In [59]:
# 1. Definir el prompt en español
prompt_es = PromptTemplate.from_template("""
Contesta la siguiente pregunta de forma clara, precisa y en español, usando el contexto proporcionado si es útil.

Contexto:
{context}

Pregunta:
{question}

Respuesta:
""")

# 2. Crear la cadena QA con recuperación de contexto
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,  # Asegúrate de que esto sea HuggingFacePipeline o similar
    retriever=db.as_retriever(
        search_type="similarity",
        search_kwargs={"k": 3}  # Puedes ajustar este valor
    ),
    chain_type="stuff",  # método más simple
    chain_type_kwargs={"prompt": prompt_es},
    return_source_documents=False
)


In [58]:
# 3. Realizar pregunta y medir tiempo
pregunta = "¿Qué debe hacer un solicitante si desea desistir de la solicitud de refugio en Guatemala?"

inicio = time.time()
output = qa_chain.invoke({"query": pregunta})
respuesta = output["result"]
fin = time.time()

# 4. Mostrar resultado
print(f"💬 Pregunta: {pregunta}")
print(f"🧠 Respuesta: {respuesta}")
print(f"⏱️ Tiempo: {fin - inicio:.2f} segundos")

The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


💬 Pregunta: ¿Qué debe hacer un solicitante si desea desistir de la solicitud de refugio en Guatemala?
🧠 Respuesta: 
Contesta la siguiente pregunta de forma clara, precisa y en español, usando el contexto proporcionado si es útil.

Contexto:
ARTICULO 26 . Procedimiento para solicitar extensión del reconocimiento de Estatuto de Refugiado. Las personas refugiadas reconocidas por el Estado de Guatemala, tendrán derecho a solicitar la extensión del reconocimiento, dicha solicitud se presentará ante el personal de apoyo, la que deberá realizar el procedimiento respectivo y posteriormente trasladar a la CONARE el expediente a efecto de recomendar, opinar o sugerir a la AMN lo correspondiente. El procedimiento para que se declare la extensión es el siguiente: a) Solicitud formal. Una vez recibida la solicitud inicial de extensión la CONARE proporcionará un formulario para que sea completado por el solicitante en su calidad de refugiado en el Estado de Guatemala, lo cual acreditará con el origi

In [60]:
# Comparacion 1
pregunta = "¿Qué documento debe presentar el solicitante al completar el formulario de extensión del Estatuto de Refugiado?"

inicio = time.time()
output = qa_chain.invoke({"query": pregunta})
respuesta = output["result"]
fin = time.time()

# 4. Mostrar resultado
print(f"💬 Pregunta: {pregunta}")
print(f"🧠 Respuesta: {respuesta}")
print(f"⏱️ Tiempo: {fin - inicio:.2f} segundos")

The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


💬 Pregunta: ¿Qué documento debe presentar el solicitante al completar el formulario de extensión del Estatuto de Refugiado?
🧠 Respuesta: 
Contesta la siguiente pregunta de forma clara, precisa y en español, usando el contexto proporcionado si es útil.

Contexto:
ARTICULO 26 . Procedimiento para solicitar extensión del reconocimiento de Estatuto de Refugiado. Las personas refugiadas reconocidas por el Estado de Guatemala, tendrán derecho a solicitar la extensión del reconocimiento, dicha solicitud se presentará ante el personal de apoyo, la que deberá realizar el procedimiento respectivo y posteriormente trasladar a la CONARE el expediente a efecto de recomendar, opinar o sugerir a la AMN lo correspondiente. El procedimiento para que se declare la extensión es el siguiente: a) Solicitud formal. Una vez recibida la solicitud inicial de extensión la CONARE proporcionará un formulario para que sea completado por el solicitante en su calidad de refugiado en el Estado de Guatemala, lo cual a

In [61]:
# Comparacion 2
pregunta = "¿Cuántos días o meses puede tomar la resolución de la solicitud de refugio según el reglamento de Guatemala?"

inicio = time.time()
output = qa_chain.invoke({"query": pregunta})
respuesta = output["result"]
fin = time.time()

# 4. Mostrar resultado
print(f"💬 Pregunta: {pregunta}")
print(f"🧠 Respuesta: {respuesta}")
print(f"⏱️ Tiempo: {fin - inicio:.2f} segundos")

The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


💬 Pregunta: ¿Cuántos días o meses puede tomar la resolución de la solicitud de refugio según el reglamento de Guatemala?
🧠 Respuesta: 
Contesta la siguiente pregunta de forma clara, precisa y en español, usando el contexto proporcionado si es útil.

Contexto:
Artículo 4 y 27 del presente Reglamento, así como con los elementos y motivos establecidos en la legislación nacional y arreglos internacionales de los que Guatemala sea parte, relacionados con el reconocimiento y protección de los refugiados; b. Notificar sobre las solicitudes del Estatuto de Refugiado a la Subdirección de Atención y Protección de Derechos Fundamentales de los Migrantes del Instituto y a la Subdirección de Extranjería del Instituto en el caso de niñas, niños y adolescentes, para lo correspondiente; c. Notificar a la Subdirección de Extranjería del Instituto sobre las personas que han sido reconocidas bajo el Estatuto de Refugiado, para lo correspondiente; d. Emitir recomendaciones, opiniones y sugerencias a la AM

In [62]:
# Comparacion 3
pregunta = "¿Qué dice el reglamento sobre el derecho a la educación de niños solicitantes de refugio?"

inicio = time.time()
output = qa_chain.invoke({"query": pregunta})
respuesta = output["result"]
fin = time.time()

# 4. Mostrar resultado
print(f"💬 Pregunta: {pregunta}")
print(f"🧠 Respuesta: {respuesta}")
print(f"⏱️ Tiempo: {fin - inicio:.2f} segundos")

The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


💬 Pregunta: ¿Qué dice el reglamento sobre el derecho a la educación de niños solicitantes de refugio?
🧠 Respuesta: 
Contesta la siguiente pregunta de forma clara, precisa y en español, usando el contexto proporcionado si es útil.

Contexto:
Artículo 4 y 27 del presente Reglamento, así como con los elementos y motivos establecidos en la legislación nacional y arreglos internacionales de los que Guatemala sea parte, relacionados con el reconocimiento y protección de los refugiados; b. Notificar sobre las solicitudes del Estatuto de Refugiado a la Subdirección de Atención y Protección de Derechos Fundamentales de los Migrantes del Instituto y a la Subdirección de Extranjería del Instituto en el caso de niñas, niños y adolescentes, para lo correspondiente; c. Notificar a la Subdirección de Extranjería del Instituto sobre las personas que han sido reconocidas bajo el Estatuto de Refugiado, para lo correspondiente; d. Emitir recomendaciones, opiniones y sugerencias a la AMN, respecto a la fu

In [63]:
# Comparacion 4
pregunta = "¿Ante qué autoridad o institución puede presentarse una solicitud de asilo en Guatemala?"

inicio = time.time()
output = qa_chain.invoke({"query": pregunta})
respuesta = output["result"]
fin = time.time()

# 4. Mostrar resultado
print(f"💬 Pregunta: {pregunta}")
print(f"🧠 Respuesta: {respuesta}")
print(f"⏱️ Tiempo: {fin - inicio:.2f} segundos")

The following generation flags are not valid and may be ignored: ['temperature']. Set `TRANSFORMERS_VERBOSITY=info` for more details.


💬 Pregunta: ¿Ante qué autoridad o institución puede presentarse una solicitud de asilo en Guatemala?
🧠 Respuesta: 
Contesta la siguiente pregunta de forma clara, precisa y en español, usando el contexto proporcionado si es útil.

Contexto:
ARTICULO 34 . Vigencia. El presente reglamento empieza a regir treinta días después de su publicación en el Diario de Centro América. Dado en la ciudad de Guatemala, el cuatro de marzo de dos mil diecinueve. JAFETH ERNESTO CABRERA FRANCO VICEPRESIDENTE DE LA REPÚBLICA DE GUATEMALA DIRECTOR AUTORIDAD MIGRATORIA NACIONAL ENRIQUE ANTONIO DEGENHART ASTURIAS MINISTRO DE GOBERNACIÓN MIEMBRO AUTORIDAD MIGRATORIA NACIONAL FRANCISCO ABRAHAM SANDOVAL GARCÍA VICEMINISTRO DE ADMINISTRACIÓN DE TRABAJO ENCARGADO DE DESPACHO SANDRA ERICA JOVEL POLANCO MINISTRA DE RELACIONES EXTERIORES MIEMBRO AUTORIDAD MIGRATORIA NACIONAL CARLOS VELÁSQUEZ MONGE MINISTRO DE DESARROLLO SOCIAL MIEMBRO AUTORIDAD MIGRATORIA NACIONAL CARLOS ROLANDO NAREZ NORIEGA SECRETARIO EJECUTIVO CONS

### Limpiar memoria y modelo

In [None]:
# Ruta de la caché del modelo Hugging Face (ajustada al nuevo modelo)
modelo_cache_path = os.path.expanduser("~/.cache/huggingface/hub/models--sentence-transformers--all-MiniLM-L6-v2")

# Eliminar carpeta si existe
if os.path.exists(modelo_cache_path):
    shutil.rmtree(modelo_cache_path)
    print("✅ Modelo eliminado del disco.")
else:
    print("⚠️ El modelo no se encontró en la caché.")

# Limpiar memoria GPU
torch.cuda.empty_cache()
torch.cuda.ipc_collect()
print("🧹 GPU limpia.")