In [3]:
#pip install pymupdf pdfplumber

# INDEXACIÓN DE PDF'S

In [79]:
import os
import fitz  # PyMuPDF
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer

# 🔹 Configurar directorio de PDFs
pdf_directory = "data"

# 🔹 Cargar el modelo de embeddings
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# 🔹 Obtener lista de archivos PDF
pdf_files = [f for f in os.listdir(pdf_directory) if f.endswith(".pdf")]

# 🔹 Listas para almacenar textos y IDs
texts = []
doc_ids = []

for pdf_file in pdf_files:
    pdf_path = os.path.join(pdf_directory, pdf_file)
    
    # Extraer texto del PDF
    text = ""
    with fitz.open(pdf_path) as doc:
        for page in doc:
            text += page.get_text("text") + "\n"  # Extrae texto de cada página
    
    # 🔹 DIVIDIR POR PÁRRAFOS
    paragraphs = [p.strip() for p in text.split("\n\n") if len(p.strip()) > 50]  # Filtramos párrafos pequeños
    
    for i, paragraph in enumerate(paragraphs):
        texts.append(paragraph)
        doc_ids.append(f"{pdf_file} | párrafo {i}")  # Guardamos el nombre del PDF + número de párrafo
        
        # 🔹 Imprimir los párrafos generados
        print(f"\n📜 Documento: {pdf_file} | Párrafo {i}:\n{paragraph}\n{'-'*80}")

# 🔹 Convertir textos en embeddings
embeddings = embedding_model.encode(texts, convert_to_numpy=True)

# 🔹 Crear un índice FAISS
embedding_dim = embeddings.shape[1]
index = faiss.IndexFlatL2(embedding_dim)
index.add(embeddings)

# 🔹 Guardar el índice en disco
faiss.write_index(index, "vector_index.faiss")

# 🔹 Guardar los IDs asociados a cada vector
np.save("vector_ids.npy", np.array(doc_ids))

print(f"✅ Se han indexado {len(texts)} fragmentos en FAISS.")


📜 Documento: 20250226_CCGG_AZ_ Comunidades_V_Reducida.pdf | Párrafo 0:
Internal  
Internal 
  
SUMARIO  
CONDICIONES PARTICULARES Y GENERALES  
CAPÍTULO I  
Datos identificativos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3  
CAPÍTULO II  
Objeto y alcance del Seguro Daños materiales ......................................................................................... ¡Error! Marcador no definido. 
Responsabilidad civil ................................................................................................................................................................................. 2 
Responsabilidad Civil y Administrativa por Contaminación ................................................................................................................... 3 
 
Asistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 

# PRUEBAS

In [3]:
#pip install sentence-transformers faiss-cpu

In [1]:

import os
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer


  from .autonotebook import tqdm as notebook_tqdm


In [5]:

# Cargar el modelo de embeddings
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# Directorio de metadatos
metadata_directory = "metadata"

# Leer archivos de metadatos
metadata_files = [f for f in os.listdir(metadata_directory) if f.startswith("metadata_") and f.endswith(".txt")]

# Lista para almacenar textos y sus IDs
texts = []
doc_ids = []

# Leer y almacenar información de los metadatos
for metadata_file in metadata_files:
    metadata_path = os.path.join(metadata_directory, metadata_file)
    
    with open(metadata_path, "r", encoding="utf-8") as f:
        content = f.read()
    
    # Extraer el ID del archivo
    doc_id = metadata_file.split("_")[1].replace(".txt", "")
    
    # Guardar el texto y su ID
    texts.append(content)
    doc_ids.append(doc_id)

# Convertir textos en embeddings
embeddings = embedding_model.encode(texts, convert_to_numpy=True)


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [6]:

# Crear un índice FAISS para búsqueda eficiente
embedding_dim = embeddings.shape[1]
index = faiss.IndexFlatL2(embedding_dim)
index.add(embeddings)

# Guardar el índice en disco
faiss.write_index(index, "vector_index.faiss")

# Guardar los IDs asociados a cada vector
np.save("vector_ids.npy", np.array(doc_ids))

# Confirmar que el proceso se completó
index.ntotal

6

In [6]:
# Cargar el índice FAISS
index = faiss.read_index("vector_index.faiss")
doc_ids = np.load("vector_ids.npy")

# Ingresar una consulta y obtener su embedding
query = "Ejemplo de consulta sobre seguros"
query_embedding = embedding_model.encode([query], convert_to_numpy=True)

# Buscar los documentos más similares
k = 3  # Número de resultados a obtener
distances, indices = index.search(query_embedding, k)

# Mostrar los documentos más relevantes
for i, idx in enumerate(indices[0]):
    print(f"Resultado {i+1}: Documento ID {doc_ids[idx]} con distancia {distances[0][i]}")

Resultado 1: Documento ID 57c21aa3 con distancia 1.2454451322555542
Resultado 2: Documento ID de00a840 con distancia 1.3092319965362549
Resultado 3: Documento ID 602db374 con distancia 1.31174898147583


In [None]:
#!pip install --no-cache-dir openai

Collecting openai
  Downloading openai-1.66.3-py3-none-any.whl.metadata (25 kB)
Collecting anyio<5,>=3.5.0 (from openai)
  Downloading anyio-4.8.0-py3-none-any.whl.metadata (4.6 kB)
Collecting distro<2,>=1.7.0 (from openai)
  Downloading distro-1.9.0-py3-none-any.whl.metadata (6.8 kB)
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.28.1-py3-none-any.whl.metadata (7.1 kB)
Collecting jiter<1,>=0.4.0 (from openai)
  Downloading jiter-0.9.0-cp312-cp312-win_amd64.whl.metadata (5.3 kB)
Collecting sniffio (from openai)
  Downloading sniffio-1.3.1-py3-none-any.whl.metadata (3.9 kB)
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.7-py3-none-any.whl.metadata (21 kB)
Collecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl.metadata (8.2 kB)
Downloading openai-1.66.3-py3-none-any.whl (567 kB)
   ---------------------------------------- 0.0/567.4 kB ? eta -:--:--
   ------ ----------------


[notice] A new release of pip is available: 24.0 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [56]:
import requests

HF_API_KEY  = "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"
# Modelo de Hugging Face (elige uno)
MODEL_NAME = "mistralai/Mistral-7B-Instruct-v0.1"  # O puedes usar "meta-llama/Meta-Llama-3-8B"

# Cargar el modelo de embeddings
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# Cargar el índice FAISS
index = faiss.read_index("vector_index.faiss")
doc_ids = np.load("vector_ids.npy")



In [None]:
# Directorio donde están los metadatos
metadata_directory = "metadata"

# 🔹 FUNCIÓN PARA RECUPERAR DOCUMENTOS USANDO EMBEDDINGS
def retrieve_relevant_documents(query, k=3):
    """Convierte la consulta en embeddings y busca en FAISS los documentos más relevantes."""
    query_embedding = embedding_model.encode([query], convert_to_numpy=True)
    distances, indices = index.search(query_embedding, k)  # Buscar en FAISS

    relevant_docs = []
    for idx in indices[0]:
        doc_id = doc_ids[idx]
        metadata_path = os.path.join(metadata_directory, f"metadata_{doc_id}.txt")
        
        with open(metadata_path, "r", encoding="utf-8") as f:
            relevant_docs.append(f.read())  # Extraer el contenido del documento

    return relevant_docs


In [62]:

# 🔹 FUNCIÓN PARA CONSULTAR EL MODELO USANDO LOS DOCUMENTOS RECUPERADOS
def query_huggingface(user_query):
    """Convierte la consulta en embeddings, busca en FAISS y luego envía la información al modelo."""
    retrieved_docs = retrieve_relevant_documents(user_query)  # 🔹 1️⃣ Recuperar documentos con embeddings

    # 🔹 2️⃣ Unir el contenido de los documentos en una sola variable
    context = "\n\n".join([doc.split("\n", 5)[-1] for doc in retrieved_docs])  # Filtramos metadatos innecesarios

    # 🔹 3️⃣ Construimos el prompt para el modelo
    prompt = f"""Usa la siguiente información para responder la pregunta. No incluyas el contexto en la respuesta.

{context}

Pregunta: {user_query}

Respuesta:"""  # Forzamos al modelo a empezar directamente la respuesta

    # 🔹 4️⃣ Llamamos al modelo en Hugging Face
    response = requests.post(
        f"https://api-inference.huggingface.co/models/google/gemma-2b-it",
        headers={"Authorization": f"Bearer {HF_API_KEY}"},
        json={"inputs": prompt, "parameters": {"max_length": 200, "temperature": 0.7}}
    )

    # 🔹 5️⃣ Procesamos la respuesta
    if response.status_code == 200:
        raw_output = response.json()[0]["generated_text"]
        answer = raw_output.split("\n")[0].strip()  # Solo tomamos la parte relevante
        return answer
    else:
        return f"Error: {response.json()}"


In [11]:
# Ejemplo de uso
user_query = "¿Qué coberturas me da el seguro de comunidades???"
response = query_huggingface(user_query)

print(response)

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

In [51]:
response[0]

{'generated_text': ' Eres un asesor de seguros que ayuda a los clientes a entender los detalles de su seguro\n    \n    Se te entregará un contexto y una pregunta.\n\nEste es el contexto que puedes usar para responder:\n    Título en metadata: \n    \n    Descripción resumida:\n    www.allianz.es Auto Condiciones de su Contrato de Seguro Póliza   Nº xxxxxxxxx Allianz Seguros Allianz Moto xxxxxxxxx Allianz Seguros y Reaseguros, S.A. www.allianz.es/eCliente Contigo de la A a la Z A CORUÑA 2 Enero 2024 Tomador de la Póliza xxxxxxxxx Estas son las condiciones de su Contrato de Seguro. Es muy importante que las lea atentamente y verifique que sus expectativas de seguro están plenamente cubiertas. Para nosotros, es un placer poder asesorarle y dar cobertura a todas sus necesidad\n\n    Título en metadata: \n    \n    Descripción resumida:\n    www.allianz.es Auto Condiciones de su Contrato de Seguro Póliza   Nº xxxxxxxxx Allianz Seguros Allianz Moto xxxxxxxxx Allianz Seguros y Reaseguros, S.

In [64]:
from transformers import pipeline

nlp = pipeline(
    "document-question-answering",
    model="impira/layoutlm-document-qa",
)

Device set to use cpu


In [77]:
retrieve_relevant_documents("Qué coberturas tiene el seguro de moto???", k=3)


🔍 FAISS ha recuperado los siguientes fragmentos:
✅ Documento: Moto (1234) PTotal.pdf | Párrafo: 0
✅ Documento: Moto (1234) Robo.pdf | Párrafo: 0
✅ Documento: Moto (1234) TR con franq.pdf | Párrafo: 0

📂 Archivos recuperados: {'Moto (1234) Robo.pdf', 'Moto (1234) PTotal.pdf', 'Moto (1234) TR con franq.pdf'}


[{'filename': 'Moto (1234) PTotal.pdf',
  'paragraph_id': '0',
  'content': 'www.allianz.es\nAuto\nCondiciones de su \nContrato de Seguro\nPóliza   Nº\nxxxxxxxxx\nAllianz Seguros\nAllianz Moto\nxxxxxxxxx\nAllianz Seguros y Reaseguros, S.A.\nwww.allianz.es/eCliente\nContigo de la A a la Z\nCORDOBA 2 Enero 2024\nTomador de la Póliza\nxxxxxxxxx\nEstas son las condiciones de su Contrato de Seguro. Es muy importante \nque las lea atentamente y verifique que sus expectativas de seguro están \nplenamente cubiertas. Para nosotros, es un placer poder asesorarle y dar \ncobertura a todas sus necesidades de previsión y aseguramiento.\nAtentamente'},
 {'filename': 'Moto (1234) Robo.pdf',
  'paragraph_id': '0',
  'content': 'www.allianz.es\nAuto\nCondiciones de su\nContrato de Seguro\nPóliza   Nº\nxxxxxxxxx\nAllianz Seguros\nAllianz Moto\nxxxxxxxxx\nAllianz Seguros y Reaseguros, S.A.\nwww.allianz.es/eCliente\nContigo de la A a la Z\nOVIEDO 2 Enero 2024\nTomador de la Póliza\nxxxxxxxxx\nEstas son la

# RAG

### QWQ modelo 17b

In [None]:
import os
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer
from transformers import pipeline

# 🔹 Cargar el modelo de embeddings para FAISS
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# 🔹 Cargar el índice FAISS y los IDs de los documentos
index = faiss.read_index("vector_index.faiss")
doc_ids = np.load("vector_ids.npy")

# 🔹 Directorio donde están los datos
metadata_directory = "data"

# 🔹 Cargar el modelo de Hugging Face para document-question-answering
nlp = pipeline(
    "question-answering",
    model="deepset/roberta-base-squad2"
)

def retrieve_relevant_documents(query, k=3):
    """Convierte la consulta en embeddings y busca en FAISS los fragmentos más relevantes en la carpeta data/."""
    query_embedding = embedding_model.encode([query], convert_to_numpy=True)
    distances, indices = index.search(query_embedding, k)  # 🔹 Búsqueda en FAISS

    relevant_docs = []
    retrieved_filenames = []

    print("\n🔍 FAISS ha recuperado los siguientes fragmentos:")

    for idx in indices[0]:  # Iterar sobre los fragmentos más relevantes
        if idx >= len(doc_ids):
            continue
        
        doc_info = doc_ids[idx]  # 🔹 Nombre del PDF + número de párrafo
        pdf_filename, paragraph_id = doc_info.split(" | párrafo ")

        retrieved_filenames.append(pdf_filename)

        print(f"✅ Documento: {pdf_filename} | Párrafo: {paragraph_id}")

        # Añadir el texto del fragmento recuperado
        relevant_docs.append({
            "filename": pdf_filename,
            "paragraph_id": paragraph_id,
            "content": texts[idx]  # Recuperamos el párrafo indexado
        })

    print("\n📂 Archivos recuperados:", set(retrieved_filenames))
    
    return relevant_docs if relevant_docs else ["No se encontró información relevante."]

# 🔹 FUNCIÓN PARA RESPONDER PREGUNTAS USANDO RETRIEVAL + LAYOUTLM
def query_document_qa(user_query, k=3):
    """Recupera párrafos usando FAISS y responde la pregunta con `deepset/roberta-base-squad2`."""
    retrieved_docs = retrieve_relevant_documents(user_query, k)

    if not retrieved_docs or retrieved_docs == ["No se encontró información relevante."]:
        return "No encontré información relevante.", []

    # Concatenar los párrafos recuperados
    context = "\n\n".join([doc["content"] for doc in retrieved_docs])

    # Usar el pipeline de question-answering con la pregunta y el contexto separados
    response = nlp(question=user_query, context=context)
    answer = response.get("answer", "No encontré una respuesta clara.")

    return answer, retrieved_docs


Device set to use cpu


In [88]:
user_query = "¿Para qué sirve el seguro de moto?"
response, retrieved_docs = query_document_qa(user_query)

print("\n🤖 Respuesta del modelo:")
print(response)


🔍 FAISS ha recuperado los siguientes fragmentos:
✅ Documento: Moto (1234) Robo.pdf | Párrafo: 26
✅ Documento: Moto (1234) PTotal.pdf | Párrafo: 27
✅ Documento: Moto (1234) TR con franq.pdf | Párrafo: 27

📂 Archivos recuperados: {'Moto (1234) Robo.pdf', 'Moto (1234) PTotal.pdf', 'Moto (1234) TR con franq.pdf'}

🤖 Respuesta del modelo:

vigor para el comprador


In [81]:
response[0]

'cubiertas'

In [None]:
user_query = "¿Qué cubre el seguro de auto?"
retrieved_docs = retrieve_relevant_documents(user_query)

print("🔍 Documentos recuperados desde FAISS:")
for doc in retrieved_docs:
    print(doc[:500])  # Muestra los primeros 500 caracteres de cada documento

response = query_document_qa(user_query)
print("\n🤖 Respuesta del modelo:")
print(response)

🔍 Documentos recuperados desde FAISS:
ID: 47514724
    Nombre del documento: Moto (1234) Basico.pdf
    Número de páginas: 36
    Tamaño del archivo: 276 KB
    Autor: TargetStream Technologies
    Título en metadata: 
    
    Descripción resumida:
    www.allianz.es Auto Condiciones de su Contrato de Seguro Póliza   Nº xxxxxxxxx Allianz Seguros Allianz Moto xxxxxxxxx Allianz Seguros y Reaseguros, S.A. www.allianz.es/eCliente Contigo de la A a la Z SANTANDER 8 Enero 2024 Tomador de la Póliza xxxxxxxxx Estas son las condiciones de s
ID: ba7e335d
    Nombre del documento: Moto (1234) Robo.pdf
    Número de páginas: 36
    Tamaño del archivo: 255 KB
    Autor: TargetStream Technologies
    Título en metadata: 
    
    Descripción resumida:
    www.allianz.es Auto Condiciones de su Contrato de Seguro Póliza   Nº xxxxxxxxx Allianz Seguros Allianz Moto xxxxxxxxx Allianz Seguros y Reaseguros, S.A. www.allianz.es/eCliente Contigo de la A a la Z OVIEDO 2 Enero 2024 Tomador de la Póliza xxxxxx

TypeError: DocumentQuestionAnsweringPipeline.__call__() missing 1 required positional argument: 'image'