In [3]:
#pip install pymupdf pdfplumber

In [8]:
import os
import fitz  # PyMuPDF
import hashlib

# Directorio donde están los PDFs y donde guardaremos los metadatos
pdf_directory = "data"
metadata_directory = "metadata"

# Crear carpeta de metadatos si no existe
os.makedirs(metadata_directory, exist_ok=True)

# Obtener lista de archivos PDF
pdf_files = [f for f in os.listdir(pdf_directory) if f.endswith(".pdf")]

# Procesar cada archivo PDF
for index, pdf_file in enumerate(pdf_files):
    pdf_path = os.path.join(pdf_directory, pdf_file)
    
    # Generar un ID único basado en el hash del nombre del archivo
    doc_id = hashlib.md5(pdf_file.encode()).hexdigest()[:8]  # 8 caracteres del hash
    
    # Leer el PDF y extraer texto
    text = ""
    metadata = {}
    with fitz.open(pdf_path) as doc:
        metadata["num_pages"] = len(doc)  # Número de páginas
        metadata["title"] = doc.metadata.get("title", "Desconocido")
        metadata["author"] = doc.metadata.get("author", "Desconocido")
        
        for page in doc:
            text += page.get_text("text")  # Extraer texto
        
    # Generar una descripción breve usando las primeras 500 caracteres
    description = text[:500].replace("\n", " ").strip() if text else "No se pudo extraer texto del documento."

    # Obtener tamaño del archivo en KB
    file_size_kb = os.path.getsize(pdf_path) // 1024

    # Construir contenido del archivo de metadata
    metadata_content = f"""
    ID: {doc_id}
    Nombre del documento: {pdf_file}
    Número de páginas: {metadata['num_pages']}
    Tamaño del archivo: {file_size_kb} KB
    Autor: {metadata['author']}
    Título en metadata: {metadata['title']}
    
    Descripción resumida:
    {description}
    """

    # Guardar el archivo de metadatos
    metadata_filename = f"metadata_{doc_id}.txt"
    metadata_path = os.path.join(metadata_directory, metadata_filename)
    with open(metadata_path, "w", encoding="utf-8") as f:
        f.write(metadata_content.strip())

# Confirmación de finalización
metadata_files = os.listdir(metadata_directory)
metadata_files

['metadata_23369c7d.txt',
 'metadata_47514724.txt',
 'metadata_57c21aa3.txt',
 'metadata_602db374.txt',
 'metadata_ba7e335d.txt',
 'metadata_de00a840.txt']

In [3]:
#pip install sentence-transformers faiss-cpu

In [4]:

import os
import faiss
import numpy as np
from sentence_transformers import SentenceTransformer


  from .autonotebook import tqdm as notebook_tqdm


In [5]:

# Cargar el modelo de embeddings
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# Directorio de metadatos
metadata_directory = "metadata"

# Leer archivos de metadatos
metadata_files = [f for f in os.listdir(metadata_directory) if f.startswith("metadata_") and f.endswith(".txt")]

# Lista para almacenar textos y sus IDs
texts = []
doc_ids = []

# Leer y almacenar información de los metadatos
for metadata_file in metadata_files:
    metadata_path = os.path.join(metadata_directory, metadata_file)
    
    with open(metadata_path, "r", encoding="utf-8") as f:
        content = f.read()
    
    # Extraer el ID del archivo
    doc_id = metadata_file.split("_")[1].replace(".txt", "")
    
    # Guardar el texto y su ID
    texts.append(content)
    doc_ids.append(doc_id)

# Convertir textos en embeddings
embeddings = embedding_model.encode(texts, convert_to_numpy=True)


To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [6]:

# Crear un índice FAISS para búsqueda eficiente
embedding_dim = embeddings.shape[1]
index = faiss.IndexFlatL2(embedding_dim)
index.add(embeddings)

# Guardar el índice en disco
faiss.write_index(index, "vector_index.faiss")

# Guardar los IDs asociados a cada vector
np.save("vector_ids.npy", np.array(doc_ids))

# Confirmar que el proceso se completó
index.ntotal

6

In [6]:
# Cargar el índice FAISS
index = faiss.read_index("vector_index.faiss")
doc_ids = np.load("vector_ids.npy")

# Ingresar una consulta y obtener su embedding
query = "Ejemplo de consulta sobre seguros"
query_embedding = embedding_model.encode([query], convert_to_numpy=True)

# Buscar los documentos más similares
k = 3  # Número de resultados a obtener
distances, indices = index.search(query_embedding, k)

# Mostrar los documentos más relevantes
for i, idx in enumerate(indices[0]):
    print(f"Resultado {i+1}: Documento ID {doc_ids[idx]} con distancia {distances[0][i]}")

Resultado 1: Documento ID 57c21aa3 con distancia 1.2454451322555542
Resultado 2: Documento ID de00a840 con distancia 1.3092319965362549
Resultado 3: Documento ID 602db374 con distancia 1.31174898147583


In [None]:
#!pip install --no-cache-dir openai

Collecting openai
  Downloading openai-1.66.3-py3-none-any.whl.metadata (25 kB)
Collecting anyio<5,>=3.5.0 (from openai)
  Downloading anyio-4.8.0-py3-none-any.whl.metadata (4.6 kB)
Collecting distro<2,>=1.7.0 (from openai)
  Downloading distro-1.9.0-py3-none-any.whl.metadata (6.8 kB)
Collecting httpx<1,>=0.23.0 (from openai)
  Downloading httpx-0.28.1-py3-none-any.whl.metadata (7.1 kB)
Collecting jiter<1,>=0.4.0 (from openai)
  Downloading jiter-0.9.0-cp312-cp312-win_amd64.whl.metadata (5.3 kB)
Collecting sniffio (from openai)
  Downloading sniffio-1.3.1-py3-none-any.whl.metadata (3.9 kB)
Collecting httpcore==1.* (from httpx<1,>=0.23.0->openai)
  Downloading httpcore-1.0.7-py3-none-any.whl.metadata (21 kB)
Collecting h11<0.15,>=0.13 (from httpcore==1.*->httpx<1,>=0.23.0->openai)
  Downloading h11-0.14.0-py3-none-any.whl.metadata (8.2 kB)
Downloading openai-1.66.3-py3-none-any.whl (567 kB)
   ---------------------------------------- 0.0/567.4 kB ? eta -:--:--
   ------ ----------------


[notice] A new release of pip is available: 24.0 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [7]:
import requests

HF_API_KEY  = "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"
# Modelo de Hugging Face (elige uno)
MODEL_NAME = "mistralai/Mistral-7B-Instruct-v0.1"  # O puedes usar "meta-llama/Meta-Llama-3-8B"

# Cargar el modelo de embeddings
embedding_model = SentenceTransformer("all-MiniLM-L6-v2")

# Cargar el índice FAISS
index = faiss.read_index("vector_index.faiss")
doc_ids = np.load("vector_ids.npy")



In [8]:
# Directorio donde están los metadatos
metadata_directory = "metadata"

# Función para recuperar documentos relevantes
def retrieve_relevant_documents(query, k=3):
    """Dado un query, busca en FAISS los documentos más relevantes."""
    query_embedding = embedding_model.encode([query], convert_to_numpy=True)
    distances, indices = index.search(query_embedding, k)
    
    relevant_docs = []
    for idx in indices[0]:
        doc_id = doc_ids[idx]
        metadata_path = os.path.join(metadata_directory, f"metadata_{doc_id}.txt")
        with open(metadata_path, "r", encoding="utf-8") as f:
            relevant_docs.append(f.read())
    
    return relevant_docs


In [9]:

# Función para interactuar con el modelo de Hugging Face API
def query_huggingface(user_query):
    """Consulta el modelo de Hugging Face con documentos relevantes como contexto."""
    retrieved_docs = retrieve_relevant_documents(user_query)
    context = "\n\n".join(retrieved_docs)  # Unimos los textos recuperados

    prompt = f"""
    Contexto:
    {context}

    Pregunta del usuario:
    {user_query}

    Responde de manera clara y precisa en base al contexto. Si no tienes suficiente información, dilo explícitamente.
    """

    response = requests.post(
        f"https://api-inference.huggingface.co/models/{MODEL_NAME}",
        headers={"Authorization": f"Bearer {HF_API_KEY}"},
        json={"inputs": prompt, "parameters": {"max_length": 300}}
    )

    if response.status_code == 200:
        return response.json()[0]["generated_text"]
    else:
        return f"Error: {response.json()}"


In [11]:

# Ejemplo de uso
user_query = "¿Qué tipos de seguros están disponibles?"
response = query_huggingface(user_query)

print(response)

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

In [32]:
import requests
HF_API_KEY = "TU_API_KEY_AQUÍ"
response = requests.get(
    "https://api-inference.huggingface.co/models/mistralai/Mistral-7B-Instruct-v0.1",
    headers={"Authorization": f"Bearer {HF_API_KEY}"}
)
print(response.status_code, response.json())

JSONDecodeError: Expecting value: line 1 column 1 (char 0)

In [None]:

# Ejemplo de uso
user_query = "¿Qué tipos de seguros están disponibles?"
response = query_huggingface(user_query)

print(response)

In [None]:
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

In [11]:
!pip install --upgrade openai




[notice] A new release of pip is available: 24.0 -> 25.0.1
[notice] To update, run: python.exe -m pip install --upgrade pip
