# Generacion de Datasets utilizando RLHF para fine tunning

## Procedimiento

- Recoleccion de Datos: Obtener Informacion mediante documentos de textos seleccionables (no escaneados), mediante web, redes sociales, scrapping,etc
- Extraer Texto: Usa PyMuPDF para extraer texto de PDFs no escaneados, procesando en paralelo con ProcessPoolExecutor para manejar grandes volúmenes (>100, >10,000).
- Limpiar Datos: Elimina espacios múltiples y caracteres no deseados con expresiones regulares, asegurando texto coherente.
- Validar: Verifica que los fragmentos extraídos no estén vacíos y tengan una longitud mínima (por ejemplo, 50 caracteres).
- Generar Conversaciones: Divide el texto en párrafos, usa un modelo como meta-llama/Llama-3.2-1B-Instruct para generar diálogos conversacionales específicos al contenido, con al menos 4 intercambios por conversación, en formato {"messages": [{"role": "user", "content": "..."}, {"role": "assistant", "content": "..."}], "topic": "..."}.
- Estructurar Dataset: Guarda las conversaciones en archivos JSONL con dos columnas: "messages" y "topic".
Cargar y Subir: Carga el dataset con load_dataset("json", data_files="path/*.jsonl") y súbelo a un repositorio privado en Hugging Face Hub con push_to_hub("username/dataset_name", private=True).

In [1]:
%pip install --upgrade pymupdf nltk ollama openai


Collecting ollama
  Downloading ollama-0.5.3-py3-none-any.whl.metadata (4.3 kB)
Collecting openai
  Downloading openai-1.99.3-py3-none-any.whl.metadata (29 kB)
Downloading ollama-0.5.3-py3-none-any.whl (13 kB)
Downloading openai-1.99.3-py3-none-any.whl (785 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m785.8/785.8 kB[0m [31m187.4 MB/s[0m  [33m0:00:00[0m
[?25hInstalling collected packages: openai, ollama
[2K  Attempting uninstall: openai
[2K    Found existing installation: openai 1.99.1
[2K    Uninstalling openai-1.99.1:━━━━━━━━━━━━━━━━━[0m [32m0/2[0m [openai]
[2K      Successfully uninstalled openai-1.99.1━━━━[0m [32m0/2[0m [openai]
[2K  Attempting uninstall: ollama━━━━━━━━━━━━━━━━━━[0m [32m0/2[0m [openai]
[2K    Found existing installation: ollama 0.5.10m━━━━━━━━━━━━━━━━━━━[0m [32m1/2[0m [ollama]
[2K    Uninstalling ollama-0.5.1:90m╺[0m[90m━━━━━━━━━━━━━━━━━━━[0m [32m1/2[0m [ollama]
[2K      Successfully uninstalled ollama-0.5.1━━━━━━━

In [5]:
import torch

torch.cuda.is_available()

True

In [1]:
import os

OLLAMA_MODEL = "llama3.1:8b"
TEMPERATURE = 0.7  # Equilibrio entre creatividad y coherencia
TOP_P = 0.9  # Filtrado de núcleo para diversidad
MIN_CONVERSATION_LENGTH = 3 

# Constantes
MIN_FRAGMENT_LENGTH = 500
MAX_FRAGMENT_LENGTH = 2000
REPEAT_THRESHOLD = 0.3
MIN_BLOCK_LENGTH = 30  # Reducido de 50 a 30 para incluir bloques más cortos

### Recoleccion de Datos

In [2]:
from pathlib import Path

# Verificar si la carpeta existe

def get_files():
    folder_url = "./docs"
    folder = Path(folder_url)


    if not folder.exists() or not folder.is_dir():
        print("Invalid Folder")
        
    # Obtener todos los archivos de la carpeta
    files = [f for f in folder.rglob("*") if f.is_file()]

    return files

### Extraccion de Texto y Limpieza de Datos

In [3]:
import pymupdf
import re
import os
import hashlib
from collections import Counter



def clean_text(text, repeated_blocks=None):
    """Limpia el texto, eliminando caracteres repetitivos, texto redundante y caracteres no deseados."""
    # Eliminar caracteres de control no deseados (excepto \n)
    text = re.sub(r'[\x00-\x08\x0B\x0C\x0E-\x1F\x7F]', '', text)
    # Eliminar patrones repetitivos como ----, ...., ****
    text = re.sub(r'([^\w\s])\1{2,}|\s*[.]{3,}\s*', '', text)
    # Normalizar espacios múltiples
    text = re.sub(r'[ \t]+', ' ', text)
    # Eliminar espacios al inicio y final de cada línea
    lines = [line.strip() for line in text.splitlines() if line.strip()]
    # Filtrar líneas duplicadas, números, correos y contenido administrativo
    seen_lines = set()
    unique_lines = []
    for line in lines:
        if line not in seen_lines and \
           not re.match(r'^\d+$', line) and \
           not re.match(r'.*@(.*\.)+.*', line) and \
           not re.match(r'^(Tel|Fax|E-mail|www\.).*', line, re.IGNORECASE) and \
           (repeated_blocks is None or line not in repeated_blocks):
            unique_lines.append(line)
            seen_lines.add(line)
    return '\n'.join(unique_lines)

def extract_text_from_pdf(pdf_path):
    """
    Extrae texto de un PDF en una sola pasada, preservando el texto del inicio de la página,
    eliminando encabezados, pies de página y contenido irrelevante,
    dividiendo en fragmentos de 500 a 2000 caracteres con metadata corregida.
    """
    try:
        doc = pymupdf.open(pdf_path)
        total_pages = len(doc)
        chunks = []
        current_chunk = []  # Lista de (párrafo, página)
        current_chunk_length = 0
        filename = os.path.basename(pdf_path)
        block_counter = Counter()

        for page_number in range(1, total_pages + 1):
            page = doc[page_number - 1]
            page_height = page.rect.height
            blocks = page.get_text("blocks")
            page_text = []

            # Procesar bloques y filtrar encabezados/pies de página
            for block in blocks:
                text = block[4]
                y0, y1 = block[1], block[3]
                # Excluir pies de página (parte inferior de la página)
                if y1 > 0.95 * page_height:  # Relajado de 0.95 a 0.9
                    continue
                # Excluir encabezados solo si son repetitivos
                if y0 < 0.05 * page_height:  # Relajado de 0.05 a 0.1
                    block_counter[text] += 1
                    if block_counter[text] > total_pages * REPEAT_THRESHOLD:
                        continue
                if text and len(text) >= MIN_BLOCK_LENGTH:
                    block_counter[text] += 1
                    page_text.append((text, page_number))

            # Si no hay texto válido en la página, continuar
            if not page_text:
                continue

            # Acumular párrafos con su número de página
            for paragraph, page in page_text:
                current_chunk.append((paragraph, page))
                current_chunk_length += len(paragraph) + 2  # +2 por "\n\n"

                # Si el fragmento alcanza la longitud mínima, procesarlo
                if current_chunk_length >= MIN_FRAGMENT_LENGTH:
                    chunk_text = "\n\n".join(p for p, _ in current_chunk)
                    cleaned_chunk = clean_text(chunk_text, None)
                    cleaned_length = len(cleaned_chunk)

                    # Obtener el rango de páginas del fragmento
                    page_numbers = sorted(set(page for _, page in current_chunk))
                    start_page = page_numbers[0] if page_numbers else page_number
                    end_page = page_numbers[-1] if page_numbers else page_number

                    # Dividir fragmentos largos
                    while cleaned_length > MAX_FRAGMENT_LENGTH:
                        sub_chunk = cleaned_chunk[:MAX_FRAGMENT_LENGTH]
                        last_paragraph_end = sub_chunk.rfind("\n\n")
                        if last_paragraph_end == -1:
                            last_paragraph_end = MAX_FRAGMENT_LENGTH
                        chunk_to_add = cleaned_chunk[:last_paragraph_end].strip()

                        # Calcular el número de páginas para el subfragmento
                        chars_so_far = 0
                        sub_chunk_pages = []
                        for paragraph, page in current_chunk:
                            chars_so_far += len(paragraph) + 2
                            if chars_so_far <= last_paragraph_end:
                                sub_chunk_pages.append(page)
                            else:
                                break
                        sub_start_page = min(sub_chunk_pages) if sub_chunk_pages else page_number
                        sub_end_page = max(sub_chunk_pages) if sub_chunk_pages else page_number

                        metadata = (
                            f"# FILENAME: {filename} | CHARACTERS: {len(chunk_to_add)} | "
                            f"PAGES: {sub_start_page}-{sub_end_page}/{total_pages}\n\n"
                        )
                        chunks.append((metadata + chunk_to_add, hashlib.md5(chunk_to_add.encode()).hexdigest()))
                        cleaned_chunk = cleaned_chunk[last_paragraph_end:].strip()
                        cleaned_length = len(cleaned_chunk)

                        # Actualizar current_chunk para los párrafos restantes
                        remaining_chunk = []
                        chars_so_far = 0
                        for paragraph, page in current_chunk:
                            chars_so_far += len(paragraph) + 2
                            if chars_so_far > last_paragraph_end:
                                remaining_chunk.append((paragraph, page))
                        current_chunk = remaining_chunk
                        current_chunk_length = cleaned_length
                        page_numbers = sorted(set(page for _, page in current_chunk))
                        start_page = page_numbers[0] if page_numbers else page_number

                    # Añadir el fragmento completo
                    if cleaned_length >= MIN_FRAGMENT_LENGTH:
                        metadata = (
                            f"# FILENAME: {filename} | CHARACTERS: {cleaned_length} | "
                            f"PAGES: {start_page}-{end_page}/{total_pages}\n\n"
                        )
                        chunks.append((metadata + cleaned_chunk, hashlib.md5(cleaned_chunk.encode()).hexdigest()))
                        current_chunk = []
                        current_chunk_length = 0

                    else:
                        current_chunk = [(cleaned_chunk, page_numbers[-1])] if page_numbers else []
                        current_chunk_length = cleaned_length

        # Añadir el fragmento final si cumple con la longitud mínima
        if current_chunk and current_chunk_length >= MIN_FRAGMENT_LENGTH:
            chunk_text = "\n\n".join(p for p, _ in current_chunk)
            cleaned_chunk = clean_text(chunk_text, None)
            cleaned_length = len(cleaned_chunk)
            if cleaned_length >= MIN_FRAGMENT_LENGTH:
                page_numbers = sorted(set(page for _, page in current_chunk))
                start_page = page_numbers[0] if page_numbers else total_pages
                end_page = page_numbers[-1] if page_numbers else total_pages
                metadata = (
                    f"# FILENAME: {filename} | CHARACTERS: {cleaned_length} | "
                    f"PAGES: {start_page}-{end_page}/{total_pages}\n\n"
                )
                chunks.append((metadata + cleaned_chunk, hashlib.md5(cleaned_chunk.encode()).hexdigest()))

        doc.close()

        # Filtrar bloques repetitivos y duplicados
        repeated_blocks = {text for text, count in block_counter.items() if count > total_pages * REPEAT_THRESHOLD}
        final_chunks = []
        seen_hashes = set()

        for chunk, chunk_hash in chunks:
            chunk_text = '\n'.join(line for line in chunk.splitlines() if not line.startswith('#'))
            cleaned_chunk = clean_text(chunk_text, repeated_blocks)
            if len(cleaned_chunk) >= MIN_FRAGMENT_LENGTH and chunk_hash not in seen_hashes:
                # Actualizar la longitud en la metadata después de la limpieza final
                metadata_lines = chunk.splitlines()[0]
                metadata = re.sub(r'CHARACTERS: \d+', f'CHARACTERS: {len(cleaned_chunk)}', metadata_lines)
                final_chunks.append(f"{metadata}\n\n{cleaned_chunk}")
                seen_hashes.add(chunk_hash)

        return final_chunks if final_chunks else None
    except Exception as e:
        print(f"Error procesando {pdf_path}: {e}")
        return None

### Generar Conversaciones

In [4]:
from pydantic import BaseModel, Field
from typing import List
from dotenv import load_dotenv
load_dotenv()

class Message(BaseModel):
    role: str = Field(..., pattern="^(user|assistant)$")
    content: str

class Conversation(BaseModel):
    messages: List[Message] = Field(..., min_items=MIN_CONVERSATION_LENGTH)
    topic: str

In [5]:
def get_prompts(fragment: str):
  INSTRUCTIONS = """
  Eres un generador de conversaciones optimizadas para entrenamiento supervisado (SFT) con técnicas avanzadas de prompt engineering. 
Tu objetivo es producir diálogos profesionales, coherentes y progresivos basados en fragmentos de texto, orientados al ámbito laboral. 
Cada conversación debe tener continuidad entre turnos y mantener un estilo claro, formal pero natural.

<instrucciones>

1. **Formato de salida**:
- Devuelve un JSON válido con:
  - `messages`: Lista con { "role": "user" | "assistant", "content": "..." }
  - `topic`: cadena breve (máx. 50 caracteres)
- **No incluir rol "system"** en la salida final.

2. **Estructura de la conversación**:
- 3 a 4 intercambios (mínimo 4 y máximo 8 mensajes).
- Siempre empieza con "user" y alterna roles.
- Cada mensaje del usuario debe partir del contexto previo y avanzar el tema.
- Respuestas del asistente con razonamiento paso a paso (chain-of-thought) y ejemplos prácticos.
- Usa Markdown para estructurar la respuesta: títulos, listas, negritas, etc.

3. **Tono y estilo**:
- Profesional y aplicable en contextos de trabajo (consultoría, gestión de proyectos, análisis técnico, comunicación corporativa).
- Lenguaje formal pero natural, evitando jerga innecesaria.
- Respuestas concisas pero completas, con enfoque en resultados y acciones concretas.

4. **Patrones de pregunta** (adaptados a entornos laborales):
- "Me gustaría implementar {tema} en la empresa. ¿Qué pasos sugieres?"
- "Basado en {contexto}, propón un plan detallado para {objetivo}."
- "Genera un cronograma para {proyecto}, asignando responsables."
- "Identifica riesgos y métricas para {iniciativa}."
- "Crea un documento de recomendaciones sobre {tema}."
- "Evalúa ventajas y desventajas de {opción1} frente a {opción2}."
- "Desglosa en fases el proceso para {tarea}."
- "Propón mejoras para optimizar {área o proceso}."
- "Dame indicadores clave para medir {resultado}."
- "Elabora un resumen ejecutivo sobre {tema} para la gerencia."

5. **Criterios de calidad**:
- Coherencia en todos los turnos.
- Uso de información previa en las respuestas siguientes.
- Evitar repeticiones innecesarias.
- Claridad en la explicación y aplicabilidad práctica.


<PROMPT_PATTERNS>
- "Me intriga {tema}. ¿Puedes explicármelo detalladamente?"
- "En pocas palabras, resúmeme cómo funciona {tema}."
- "Crea una carta formal sobre {tema} dirigida a {destinatario}."
- "Basado en {contexto}, explícame qué significa {tema}."
- "Quiero mejorar en {tema}. ¿Qué consejos prácticos me das?"
- "Agrega una sección sobre {tema} a este informe: {contexto}."
- "No entiendo {tema}. ¿Puedes desglosarlo en pasos simples?"
- "Imagina que soy nuevo en {tema}. ¿Cómo me lo explicarías?"
- "Podrías darme un resumen sobre {tema} y sus implicaciones?"
- "Estoy preocupado por {tema}. ¿Qué debería saber al respecto?"
- "Explícame {tema} como si fuera un niño de 10 años."
- "Redacta un correo informal sobre {tema} para un colega."
</PROMPT_PATTERNS>
"""

  BASE_EXAMPLE = """"

**Ejemplo n — Gestión Documental**
<fragment>
Implementar un sistema de gestión documental para mejorar la búsqueda y control de versiones.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Necesito un plan para implementar un sistema de gestión documental en la empresa. Tenemos problemas con la búsqueda de archivos y duplicación de versiones."
    },
    {
      "role": "assistant",
      "content": "Claro. Vamos a estructurarlo paso a paso:\\n\\n**1. Análisis inicial**\\n- Auditar los flujos actuales de manejo documental.\\n- Identificar carpetas duplicadas y problemas de control de versiones.\\n\\n**2. Selección de plataforma**\\n- Comparar opciones como SharePoint, Alfresco o Google Workspace.\\n- Priorizar integración, seguridad y facilidad de búsqueda.\\n\\n**3. Migración y normalización**\\n- Definir nomenclatura estándar.\\n- Centralizar repositorios.\\n\\n**4. Capacitación y seguimiento**\\n- Formación en la plataforma elegida.\\n- Revisión mensual para detectar desviaciones."
    },
    {
      "role": "user",
      "content": "Sí, dame el cronograma y asigna responsables para un equipo de 5 personas en administración."
    },
    {
      "role": "assistant",
      "content": "**Cronograma — Implementación Gestión Documental**\\n\\n**Semana 1-2 — Auditoría**\\n- Responsable: Laura (Jefa de administración)\\n\\n**Semana 3 — Selección de plataforma**\\n- Responsable: Jorge (Analista de sistemas)\\n\\n**Semana 4-6 — Migración inicial**\\n- Responsables: Ana y Ricardo\\n\\n**Semana 7 — Capacitación**\\n- Responsable: Mariana\\n\\n**Semana 8-9 — Seguimiento**\\n- Responsable: Laura"
    },
    {
      "role": "user",
      "content": "Perfecto. ¿Puedes incluir métricas para evaluar si la implementación fue exitosa?"
    },
    {
      "role": "assistant",
      "content": "**Métricas de éxito**:\\n- Tiempo de búsqueda reducido en 50%.\\n- Menos del 5% de duplicados.\\n- 90% de cumplimiento en nomenclatura.\\n- 95% de adopción entre usuarios.\\n- Satisfacción ≥ 8/10 en encuestas internas."
    }
  ],
  "topic": "Implementación de gestión documental"
}
</response>

  """

  EXAMPLES = """
<ejemplos>

Ejemplo Base:
%s

Otros Ejemplos:

**Ejemplo 1 — Técnico (dispersión de luz, patrón: explicación detallada, fragmento largo)**:
<fragment>
La dispersión de Rayleigh explica por qué el cielo aparece azul durante el día. Las partículas en la atmósfera dispersan preferentemente las longitudes de onda cortas, como el azul, debido a su interacción con la luz solar. Durante el atardecer, el cielo adquiere tonos rojos porque la luz atraviesa más atmósfera, dispersando el azul y dejando predominar las longitudes de onda largas. Este fenómeno depende de la densidad atmosférica y el ángulo de incidencia de la luz solar.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Me intriga por qué el cielo es azul de día y rojo al atardecer. ¿Puedes explicármelo detalladamente?"
    },
    {
      "role": "assistant",
      "content": "# Dispersión de Rayleigh y el Color del Cielo\n\nPara entender por qué el cielo cambia de color, desglosemos el fenómeno paso a paso:\n\n1. **Composición de la luz solar**: La luz del sol parece blanca, pero está formada por todas las longitudes de onda visibles, desde el rojo (largo) hasta el violeta (corto).\n\n2. **Dispersión de Rayleigh**: En la atmósfera, las partículas (como moléculas de nitrógeno y oxígeno) dispersan la luz. La dispersión es más intensa para longitudes de onda cortas, como el azul, porque es inversamente proporcional a la **cuarta potencia** de la longitud de onda. Esto significa que el azul se esparce mucho más que el rojo.\n\n3. **Cielo diurno**: Durante el día, la luz solar atraviesa una capa relativamente delgada de atmósfera. El azul se dispersa en todas direcciones, haciendo que el cielo se vea azul. Aunque el violeta se dispersa más, nuestros ojos son menos sensibles a él, y parte es absorbida, por lo que el azul domina.\n\n4. **Atardecer**: Al atardecer, el sol está más bajo, y la luz atraviesa una capa más gruesa de atmósfera. Esto dispersa casi todo el azul, permitiendo que las longitudes de onda largas (rojo, naranja) lleguen a nuestros ojos, dando tonos cálidos.\n\n5. **Factores adicionales**: La densidad atmosférica y el ángulo de incidencia afectan la intensidad del fenómeno. Por ejemplo, más partículas (como polvo) pueden intensificar los colores del atardecer.\n\nEn resumen, la dispersión de Rayleigh explica el azul diurno y los tonos rojos del atardecer, influenciada por la física de la luz y la geometría de la Tierra."
    },
    {
      "role": "user",
      "content": "¿Por qué a veces el cielo se ve más violeta en ciertos atardeceres?"
    },
    {
      "role": "assistant",
      "content": "A veces, el cielo puede parecer violeta en el atardecer por la presencia de partículas adicionales, como polvo o contaminación, que dispersan más longitudes de onda cortas, incluyendo el violeta. Además, si la atmósfera está muy limpia y el sol está en un ángulo específico, el violeta puede ser más visible porque menos se absorbe. Sin embargo, nuestros ojos suelen percibir más el azul, así que el violeta es menos común."
    }
  ],
  "topic": "Dispersión de luz y color del cielo"
}
</response>

**Ejemplo 2 — Técnico (dispersión de luz, patrón: resumen breve, fragmento corto)**:
<fragment>
La dispersión de Rayleigh hace que el cielo sea azul al dispersar más las longitudes de onda cortas.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "En pocas palabras, resúmeme cómo funciona la dispersión de luz en el cielo."
    },
    {
      "role": "assistant",
      "content": "La dispersión de Rayleigh ocurre cuando las partículas atmosféricas dispersan más las longitudes de onda cortas, como el azul, haciendo que el cielo se vea azul durante el día."
    }
  ],
  "topic": "Dispersión de luz en el cielo"
}
</response>

**Ejemplo 3 — Contextual (política monetaria, patrón: carta formal, fragmento largo)**:
<fragment>
Subir las tasas de interés es una herramienta del banco central para controlar la inflación. Al encarecer los préstamos, se reduce el consumo y la inversión, lo que desacelera la economía y disminuye la presión sobre los precios. Sin embargo, un aumento excesivo puede llevar a una recesión, afectando el empleo y el crecimiento económico. Los bancos centrales deben monitorear indicadores como el consumo y el desempleo para ajustar las tasas cuidadosamente.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Crea una carta formal sobre el impacto de las tasas de interés, dirigida al director de mi banco."
    },
    {
      "role": "assistant",
      "content": "**Asunto**: Preocupación por el Impacto de las Tasas de Interés\n\nEstimado Director,\n\nMe dirijo a usted para expresar mi preocupación sobre el reciente aumento de las tasas de interés y su impacto en los clientes. Entiendo que el banco central sube las tasas para controlar la inflación, encareciendo los préstamos, lo que reduce el consumo y la presión sobre los precios. Sin embargo, esto afecta directamente a los consumidores, elevando el costo de hipotecas y créditos, y podría desencadenar una recesión si las tasas suben demasiado.\n\nSolicito información sobre cómo el banco planea apoyar a los clientes en este contexto, como opciones de refinanciamiento o asesoramiento financiero. Espero su respuesta en un plazo de 7 días hábiles.\n\nAtentamente,  \n[Nombre del Cliente]"
    },
    {
      "role": "user",
      "content": "Agrega una mención sobre el impacto en las pequeñas empresas."
    },
    {
      "role": "assistant",
      "content": "**Asunto**: Preocupación por el Impacto de las Tasas de Interés\n\nEstimado Director,\n\nMe dirijo a usted para expresar mi preocupación sobre el aumento de las tasas de interés. Estas medidas, destinadas a controlar la inflación al encarecer los préstamos, reducen el consumo y la inversión, afectando tanto a los consumidores como a las pequeñas empresas, que enfrentan mayores costos de financiamiento. Esto podría desencadenar una recesión, impactando el empleo y el crecimiento económico.\n\nSolicito información sobre cómo el banco apoyará a los clientes, incluyendo a pequeñas empresas, con opciones como refinanciamiento o asesoramiento financiero. Espero su respuesta en 7 días hábiles.\n\nAtentamente,  \n[Nombre del Cliente]"
    }
  ],
  "topic": "Impacto de tasas de interés"
}
</response>

**Ejemplo 4 — Incoherente (fragmento ambiguo, patrón: contexto adicional, fragmento corto)**:
<fragment>
...fluctuaciones de energía... inestabilidad...
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Basado en problemas con el parpadeo de luces en mi casa, explícame qué significan fluctuaciones de energía."
    },
    {
      "role": "assistant",
      "content": "Las fluctuaciones de energía son cambios en el voltaje eléctrico, causando inestabilidad como el parpadeo de luces. Pueden deberse a cableado defectuoso o sobrecarga en la red. Usa un regulador de voltaje o consulta a un electricista."
    }
  ],
  "topic": "Fluctuaciones de energía"
}
</response>

**Ejemplo 5 — Casual (salud visual, patrón: consejos prácticos, fragmento largo)**:
<fragment>
La exposición prolongada a la luz azul de pantallas puede interrumpir la producción de melatonina, afectando el ciclo de sueño. Esto ocurre porque la luz azul engaña al cerebro, haciéndole creer que es de día, lo que retrasa el inicio del sueño. También puede causar fatiga visual y molestias como sequedad ocular.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Quiero mejorar mi sueño porque paso mucho tiempo frente a pantallas. ¿Qué consejos prácticos me das?"
    },
    {
      "role": "assistant",
      "content": "# Mejorar el Sueño y Proteger la Vista frente a Pantallas\n\nLa luz azul de las pantallas puede afectar tu sueño y ojos, pero hay formas prácticas de mitigar esto. Aquí van algunos consejos:\n\n- **Usa el modo nocturno**: Activa el filtro de luz azul en tus dispositivos para reducir su emisión, especialmente por la noche.\n- **Evita pantallas antes de dormir**: Intenta no usar dispositivos al menos 1 hora antes de acostarte para que la melatonina, la hormona del sueño, se produzca normalmente.\n- **Aplica la regla 20-20-20**: Cada 20 minutos, mira algo a 20 pies de distancia durante 20 segundos para descansar tus ojos y evitar fatiga visual.\n- **Considera gafas con filtro**: Si trabajas mucho con pantallas, unas gafas con filtro de luz azul pueden reducir molestias como sequedad ocular.\n- **Mantén un ambiente adecuado**: Usa iluminación suave en tu espacio de trabajo para reducir el contraste con la pantalla.\n\n*Por qué funciona*: La luz azul engaña al cerebro, haciéndole creer que es de día, lo que inhibe la melatonina y retrasa el sueño. Estos pasos ayudan a proteger tu ciclo de sueño y la salud de tus ojos."
    },
    {
      "role": "user",
      "content": "¿Qué hago si no puedo evitar las pantallas por trabajo?"
    },
    {
      "role": "assistant",
      "content": "Si no puedes evitar pantallas, refuerza las medidas: usa siempre el modo nocturno, haz pausas frecuentes con la regla 20-20-20, y considera gafas con filtro de luz azul. También ajusta el brillo de la pantalla para que sea similar al de tu entorno y evita trabajar en completa oscuridad."
    }
  ],
  "topic": "Luz azul y sueño"
}
</response>

**Ejemplo 6 — Contextual (criptografía, patrón: informe, fragmento largo)**:
<fragment>
La criptografía de clave pública utiliza un par de claves: una pública para cifrar y una privada para descifrar. Esto asegura que solo el destinatario con la clave privada pueda acceder al mensaje, garantizando confidencialidad y autenticidad. Es ampliamente usada en transacciones seguras en línea.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Agrega una sección sobre criptografía de clave pública a este informe: 'Seguridad en transacciones digitales'."
    },
    {
      "role": "assistant",
      "content": "## Criptografía de Clave Pública en Transacciones Digitales\n\nLa **criptografía de clave pública** es un pilar fundamental para la seguridad en transacciones digitales. Funciona mediante un par de claves:\n\n- **Clave pública**: Se comparte libremente y permite cifrar mensajes, convirtiéndolos en texto ilegible.\n- **Clave privada**: Solo la posee el destinatario y permite descifrar el mensaje.\n\nEste mecanismo asegura:\n\n1. **Confidencialidad**: Solo el destinatario con la clave privada puede leer el mensaje.\n2. **Autenticidad**: Si el remitente firma con su clave privada, el receptor verifica su identidad con la clave pública.\n\n*Ejemplo práctico*: En compras online, la criptografía de clave pública protege los datos de tu tarjeta, asegurando que solo el vendedor autorizado los descifre. Es esencial para protocolos como HTTPS y sistemas de pago seguro."
    }
  ],
  "topic": "Criptografía en transacciones"
}
</response>

**Ejemplo 7 — Técnico (cambio climático, patrón: pasos simples, fragmento corto)**:
<fragment>
El cambio climático aumenta las temperaturas globales debido a los gases de efecto invernadero.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "No entiendo el cambio climático. ¿Puedes desglosarlo en pasos simples?"
    },
    {
      "role": "assistant",
      "content": "1. Quemamos combustibles como carbón y petróleo.\n2. Esto libera gases de efecto invernadero, como el dióxido de carbono.\n3. Los gases atrapan calor en la atmósfera.\n4. El planeta se calienta, causando cambio climático."
    }
  ],
  "topic": "Cambio climático explicado"
}
</response>

**Ejemplo 8 — Casual (nutrición, patrón: explicación para principiantes, fragmento largo)**:
<fragment>
El consumo excesivo de azúcar puede aumentar el riesgo de diabetes tipo 2 y obesidad. Reducir la ingesta de bebidas azucaradas y alimentos procesados es clave para una dieta saludable. Los azúcares añadidos en productos como refrescos, dulces y salsas comerciales suelen ser los principales culpables.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Imagina que soy nuevo en nutrición. ¿Cómo me explicarías lo del azúcar?"
    },
    {
      "role": "assistant",
      "content": "Piénsalo como gasolina para tu cuerpo: el azúcar te da energía, pero demasiada puede hacerte daño. Hay azúcar natural, como en las frutas, que está bien en moderación. Pero el problema es el **azúcar añadido**, que encuentras en refrescos, dulces o salsas. Comer mucho de esto puede subir tu peso y aumentar el riesgo de diabetes tipo 2, porque tu cuerpo lucha para manejar tanto azúcar. Para comer mejor, cambia refrescos por agua, elige snacks como nueces y lee etiquetas para evitar productos con azúcares ocultos."
    }
  ],
  "topic": "Azúcar y salud"
}
</response>

**Ejemplo 9 — Incoherente (fragmento sin contexto, patrón: resumen e implicaciones, fragmento corto)**:
<fragment>
...error crítico en el núcleo...
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Podrías darme un resumen sobre un error crítico en el núcleo y sus implicaciones?"
    },
    {
      "role": "assistant",
      "content": "# Error Crítico en el Núcleo\n\n**Resumen**: Un error crítico en el núcleo es un fallo grave en el sistema operativo, que actúa como el cerebro de tu computadora. Puede ocurrir por hardware defectuoso, software corrupto o malware.\n\n**Implicaciones**:\n- **Pérdida de datos**: Los archivos pueden perderse si el sistema no guarda correctamente.\n- **Interrupciones**: El sistema puede congelarse o reiniciarse.\n- **Costos**: Reparaciones o recuperación de datos pueden ser necesarias.\n\n**Acción**: Usa software de recuperación como TestDisk y haz backups regulares para minimizar riesgos."
    }
  ],
  "topic": "Error crítico en sistema"
}
</response>

**Ejemplo 10 — Contextual (economía, patrón: preocupación, fragmento largo)**:
<fragment>
La inflación persistente puede erosionar el poder adquisitivo, haciendo que los bienes y servicios sean más caros. Los bancos centrales intentan controlarla con políticas monetarias, pero esto puede tener efectos secundarios en el empleo y el crecimiento económico.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Estoy preocupado por la inflación. ¿Qué debería saber al respecto?"
    },
    {
      "role": "assistant",
      "content": "# Entendiendo la Inflación\n\nLa inflación ocurre cuando los precios de bienes y servicios suben, reduciendo tu **poder adquisitivo** (es decir, con el mismo dinero compras menos). Aquí está lo que debes saber:\n\n- **Causas**: Puede ser por alta demanda, costos de producción elevados o políticas monetarias expansivas.\n- **Impacto**: Tus ahorros valen menos, y cosas como alimentos o gasolina se encarecen.\n- **Control**: Los bancos centrales suben tasas de interés para reducir el gasto, pero esto puede ralentizar la economía, afectando empleos.\n\n**Qué hacer**:\n- **Ahorra inteligentemente**: Invierte en activos que superen la inflación, como bonos ajustados.\n- **Presupuesto**: Prioriza gastos esenciales y reduce los no necesarios.\n- **Infórmate**: Sigue las políticas del banco central para anticipar cambios.\n\nHabla con un asesor financiero si quieres estrategias específicas."
    }
  ],
  "topic": "Inflación y poder adquisitivo"
}
</response>

**Ejemplo 11 — Técnico (energía renovable, patrón: explicación para niño, fragmento corto)**:
<fragment>
La energía solar usa paneles para convertir la luz del sol en electricidad.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Explícame la energía solar como si fuera un niño de 10 años."
    },
    {
      "role": "assistant",
      "content": "Imagina que el sol es como una lámpara gigante que brilla todo el día. La **energía solar** usa placas especiales, como espejos mágicos, que atrapan la luz del sol y la convierten en electricidad para encender luces, televisions o cargar tu tablet. ¡Es como usar el poder del sol para hacer cosas cool!"
    }
  ],
  "topic": "Energía solar simplificada"
}
</response>

**Ejemplo 12 — Casual (trabajo remoto, patrón: correo informal, fragmento largo)**:
<fragment>
El trabajo remoto puede aumentar la productividad, pero también presenta desafíos como la falta de interacción social y dificultades para desconectarse del trabajo. Herramientas como Zoom y Slack facilitan la colaboración, pero requieren una buena gestión del tiempo.
</fragment>
<response>
{
  "messages": [
    {
      "role": "user",
      "content": "Redacta un correo informal sobre trabajo remoto para un colega."
    },
    {
      "role": "assistant",
      "content": "**Asunto**: Tips para el Trabajo Remoto\n\nHola [Nombre],\n\nEstuve pensando en cómo sacarle provecho al trabajo desde casa. Puede ser súper productivo porque evitas el tráfico, pero a veces se siente raro sin las charlas en la oficina, ¿no? Herramientas como Zoom o Slack ayudan a mantenernos conectados, pero la clave está en organizarse bien. Intenta poner horarios fijos para trabajar y desconectarte, así no terminas respondiendo correos a medianoche. ¿Tú cómo lo llevas? ¡Cuéntame si tienes algún truco!\n\nSaludos,  \n[Tu Nombre]"
    }
  ],
  "topic": "Trabajo remoto y productividad"
}
</response>

</ejemplos>
"""
  system_examples = EXAMPLES % BASE_EXAMPLE
  system_content = f"{INSTRUCTIONS}\n{system_examples}"
  return [
        {
            "role": "system",
            "content": system_content
        },
        {
            "role": "user",
            "content": fragment
        }
    ]

In [6]:
def validate_genterated_conv(conversation:Conversation):
  # Validar que la conversación tenga al menos un intercambio completo
  if len(conversation.messages) < 2:
      print(f"Error: Conversación inválida, número de mensajes insuficiente: {len(conversation.messages)}")
      return None
  # Si el número de mensajes es impar, eliminar el último (asumiendo que es del usuario)
  if len(conversation.messages) % 2 != 0 and len(conversation.messages) > 2:
      conversation.messages = conversation.messages[:-1]
      
  return conversation

In [7]:
from ollama import AsyncClient

ollama_client = AsyncClient()

async def generate_ollama_conversations(messages):
    try:
        # Llama a Ollama con roles system y user
        response = await ollama_client.chat(
            model=OLLAMA_MODEL,
            messages=messages,
            options={
                "temperature": TEMPERATURE,
                "top_p": TOP_P,
                
                
            },
            format=Conversation.model_json_schema()  # Especifica el esquema JSON
            
        )
        conversation = Conversation.model_validate_json(response.message.content)

        return validate_genterated_conv(conversation)
    except Exception as e:
        print(f"Error generando conversación con Ollama: {e}")
        return None


In [8]:
from openai import AsyncClient, RateLimitError

openai_client = AsyncClient(api_key=os.environ.get("OPENAI_API_KEY"))

async def generate_openai_conversations(messages, model="gpt-4o-mini"):
    try:
        response = await openai_client.responses.parse(
            model=model,
            input=messages,
            text_format=Conversation
        )
        conversation = response.output_parsed
        return validate_genterated_conv(conversation) if conversation else None
    except RateLimitError as e:
        print(f"Rate limit hit for {model}: {e}")
        next_model = "gpt-5-nano"
        if next_model != model:
            return await generate_openai_conversations(messages, next_model)
        return None
    except Exception as e:
        print(f"Error generating conversation with OpenAI {model}: {e}")
        return None

In [9]:
from typing import Literal
async def generate_conversation(fragment:str, provider: Literal["ollama", "openai"]):
    """
    Genera una conversación estructurada en formato JSON usando Ollama, basada en un fragmento de texto.
    Optimizado para múltiples iteraciones en la generación de datasets para fine-tuning.
    """
    if not fragment or len(fragment) < MIN_FRAGMENT_LENGTH:
        print(f"Error: Fragmento demasiado corto ({len(fragment)} caracteres).")
        return None

    # Extraer el texto sin la metadata (líneas que comienzan con '#')
    fragment_content = '\n'.join(line for line in fragment.splitlines() if not line.startswith('#')).strip()
    if len(fragment_content) < MIN_FRAGMENT_LENGTH:
        print(f"Error: Contenido útil del fragmento demasiado corto ({len(fragment_content)} caracteres).")
        return None

    # Prompt optimizado para múltiples iteraciones
    messages = get_prompts(fragment_content)

    try:
        if provider=='ollama':
            return await generate_ollama_conversations(messages)
        elif provider=='openai':
            return await generate_openai_conversations(messages)
        else: return None
    except Exception as e:
        print(f"Error generando conversación con Ollama: {e}")
        return None

In [10]:
import logging

# Configuración del logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(levelname)s - %(message)s',
    handlers=[
        logging.FileHandler('pdf_processing.log'),
        logging.StreamHandler()
    ]
)

In [11]:
import json
import os
from filelock import FileLock
import asyncio
from typing import Literal


OUTPUT_FOLDER = "data"

class MetadataManager:
    """Clase para manejar archivos de metadatos JSON."""
    def __init__(self, index: int, output_dir: str):
        self.folder = os.path.join(output_dir, "metadata")
        self.metadata_file = os.path.join(self.folder, f"metadata_{index:04d}.json")
        self.lock_file = f"{self.metadata_file}.lock"
        self.index = index
        os.makedirs(self.folder, exist_ok=True)

    def exists(self) -> bool:
        """Verifica si el archivo de metadatos existe."""
        return os.path.exists(self.metadata_file)

    def get(self, param: str):
        """Obtiene chunks, conversations, fileName, num_chunks, num_messages o num_exchanges desde el archivo de metadatos."""
        if not self.exists():
            return [] if param in ["chunks", "conversations"] else 0 if param in ["num_chunks", "num_messages", "num_exchanges"] else ""
        try:
            with FileLock(self.lock_file):
                with open(self.metadata_file, "r", encoding="utf-8") as f:
                    metadata = json.load(f)
                
                updated = False
                if param == "conversations":
                    conversations = metadata.get("conversations", [])
                    for i, conv in enumerate(conversations):
                        if isinstance(conv, dict) and "chunk_index" not in conv:
                            conv["chunk_index"] = i
                            updated = True
                    conversations.sort(key=lambda x: x.get("chunk_index", 0))
                    metadata["conversations"] = conversations
                
                if "num_chunks" not in metadata and "chunks" in metadata:
                    metadata["num_chunks"] = len(metadata.get("chunks", []))
                    updated = True
                
                if "num_exchanges" not in metadata and "conversations" in metadata:
                    metadata["num_exchanges"] = sum(len(conv["messages"]) // 2 for conv in metadata.get("conversations", []))
                    updated = True
                
                if "num_messages" not in metadata and "conversations" in metadata:
                    metadata["num_messages"] = sum(len(conv["messages"]) for conv in metadata.get("conversations", []))
                    updated = True
                    
                if "total_conversations" not in metadata and "conversations" in metadata:
                    metadata["total_conversations"] = len(conversations)
                    updated = True
                
                if updated:
                    with open(self.metadata_file, "w", encoding="utf-8") as f:
                        json.dump(metadata, f, ensure_ascii=False, indent=2)
                
                return metadata.get(param, []) if param in ["chunks", "conversations"] else metadata.get(param, 0 if param in ["num_chunks", "num_messages", "num_exchanges"] else metadata.get(param,""))
        except Exception as e:
            print(f"Error al leer {param} desde {self.metadata_file}: {e}")
            return [] if param in ["chunks", "conversations"] else 0 if param in ["num_chunks", "num_messages", "num_exchanges"] else ""

    def set(self, param: str, value):
        """Establece chunks, conversations, fileName, num_chunks, num_messages o num_exchanges en el archivo de metadatos."""
        try:
            with FileLock(self.lock_file):
                metadata = {"chunks": [], "fileName": "", "conversations": [], "num_chunks": 0, "num_messages": 0, "num_exchanges": 0}
                if self.exists():
                    with open(self.metadata_file, "r", encoding="utf-8") as f:
                        metadata = json.load(f)
                
                metadata[param] = value
                if param == "conversations":
                    metadata["conversations"].sort(key=lambda x: x.get("chunk_index", 0))
                    metadata["num_messages"] = sum(len(conv["messages"]) for conv in metadata["conversations"])
                    metadata["num_exchanges"] = sum(len(conv["messages"]) // 2 for conv in metadata["conversations"])
                    metadata["total_conversations"] = len(metadata["conversations"])
                if param == "chunks":
                    metadata["num_chunks"] = len(value)
                with open(self.metadata_file, "w", encoding="utf-8") as f:
                    json.dump(metadata, f, ensure_ascii=False, indent=2)
        except Exception as e:
            print(f"Error al escribir {param} en {self.metadata_file}: {e}")

    def append_conversation(self, conversation: dict):
        """Añade una conversación al array de conversaciones en el archivo de metadatos."""
        try:
            with FileLock(self.lock_file):
                metadata = {"chunks": [], "fileName": "", "conversations": [], "num_chunks": 0, "num_messages": 0, "num_exchanges": 0}
                if self.exists():
                    with open(self.metadata_file, "r", encoding="utf-8") as f:
                        metadata = json.load(f)
                
                for i, conv in enumerate(metadata["conversations"]):
                    if isinstance(conv, dict) and "chunk_index" not in conv:
                        conv["chunk_index"] = i
                
                if "num_chunks" not in metadata:
                    metadata["num_chunks"] = len(metadata.get("chunks", []))
                
                if "num_exchanges" not in metadata:
                    metadata["num_exchanges"] = sum(len(conv["messages"]) // 2 for conv in metadata.get("conversations", []))
                
                if "num_messages" not in metadata:
                    metadata["num_messages"] = sum(len(conv["messages"]) for conv in metadata.get("conversations", []))
                
                metadata["conversations"].append(conversation)
                metadata["conversations"].sort(key=lambda x: x.get("chunk_index", 0))
                metadata["num_messages"] = sum(len(conv["messages"]) for conv in metadata["conversations"])
                metadata["num_exchanges"] = sum(len(conv["messages"]) // 2 for conv in metadata["conversations"])
                metadata["total_conversations"] = len(metadata["conversations"])
                
                with open(self.metadata_file, "w", encoding="utf-8") as f:
                    json.dump(metadata, f, ensure_ascii=False, indent=2)
        except Exception as e:
            print(f"Error al añadir conversación a {self.metadata_file}: {e}")

def get_text_from_pdf(index: int, pdf_path: str, output_dir: str) -> list:
    """Obtiene el texto de un PDF desde la caché (JSON) o lo extrae si no existe."""
    metadata_manager = MetadataManager(index, output_dir)
    
    if metadata_manager.exists():
        chunks = metadata_manager.get("chunks")
        file_name = metadata_manager.get("fileName")
        if chunks and file_name == os.path.basename(pdf_path):
            return chunks
    
    try:
        pages_text = extract_text_from_pdf(pdf_path)
        if pages_text:
            metadata_manager.set("chunks", pages_text)
            metadata_manager.set("fileName", os.path.basename(pdf_path))
            metadata_manager.set("conversations", [])
        return pages_text
    except Exception as e:
        print(f"Error al extraer texto del PDF {pdf_path}: {e}")
        return []
    
def get_conv_from_jsonl(index, output_dir):
    metadata_manager = MetadataManager(index, output_dir)
    jsonl_file = os.path.join(output_dir, OUTPUT_FOLDER, f"pdf_{index:04d}.jsonl")
    if os.path.exists(jsonl_file):
        try:
            chunks = metadata_manager.get("chunks")
            with open(jsonl_file, "r", encoding="utf-8") as f:
                conversations = []
                for i, line in enumerate(f):
                    if line.strip():
                        conv = json.loads(line)
                        conv["source_chunk"] = chunks[i]
                        conv["chunk_index"] = i
                        conversations.append(conv)
                conversations.sort(key=lambda x: x.get("chunk_index", 0))
                metadata_manager.set("conversations", conversations)
                metadata_manager.set("num_messages", sum(len(conv["messages"]) for conv in conversations))
                metadata_manager.set("num_exchanges", sum(len(conv["messages"]) // 2 for conv in conversations))
                metadata_manager.set("total_conversations", len(conversations))
                return conversations
        except Exception as e:
            print(f"Error al leer conversaciones desde {jsonl_file}: {e}")
    return []

async def get_conversation_from_chunk(index: int, output_dir: str, chunk: str, chunk_index: int, provider: Literal["ollama", "openai"]):
    """Obtiene o genera una conversación para un fragmento de texto."""
    metadata_manager = MetadataManager(index, output_dir)
    existing_conversations = metadata_manager.get("conversations")
    
    if not existing_conversations:
        existing_conversations = get_conv_from_jsonl(index, output_dir)
    
    for conv in existing_conversations:
        if isinstance(conv, dict) and conv.get("source_chunk") == chunk and conv.get("chunk_index") == chunk_index:
            return conv
    try:
        conversation = await generate_conversation(chunk, provider)
        if conversation:
            conv_dict = conversation.model_dump()
            conv_dict["source_chunk"] = chunk
            conv_dict["chunk_index"] = chunk_index
            conv_dict["provider"]= provider
            from datetime import datetime
            conv_dict["created_at"] = datetime.now().strftime('%Y-%m-%d %H:%M:%S')
            metadata_manager.append_conversation(conv_dict)
            return conv_dict
        return None
    except Exception as e:
        print(f"Error al generar conversación para chunk_index {chunk_index} en PDF #{index} con {provider}: {e}")
        return None

async def get_conv(index: int, output_dir: str, chunk: str, chunk_index: int, provider: Literal["ollama", "openai"]):
    result = await get_conversation_from_chunk(index, output_dir, chunk, chunk_index, provider)
    return result if result is not None else []

async def process_pdf(index: int, pdf_path: str, output_dir: str):
    """Procesa un PDF, genera conversaciones y las guarda en JSONL."""
    logger = logging.getLogger()
    logger.info(f"[PDF {index}] Procesando PDF: {Path(pdf_path).name}")
    try:
        pages_text = get_text_from_pdf(index, pdf_path, output_dir)
        
        if not pages_text:
            logger.warning(f"[PDF {index}] No se encontraron fragmentos de texto")
            return
        
        data_dir = os.path.join(output_dir, OUTPUT_FOLDER)
        os.makedirs(data_dir, exist_ok=True)
        jsonl_file = os.path.join(data_dir, f"pdf_{index:04d}.jsonl")
        
        tasks = [(i, fragment) for i, fragment in enumerate(pages_text) if len(fragment) > 20]
        if not tasks:
            logger.warning(f"[PDF {index}] No hay fragmentos válidos para procesar")
            return
        
        logger.info(f"[PDF {index}] Procesando {len(tasks)} fragmentos")
        
        # Dividir tareas entre providers (50% openai, 50% ollama)
        total_tasks = len(tasks)
        half_tasks = total_tasks // 2
        openai_tasks = [get_conv(index, output_dir, fragment, i, "openai") for i, fragment in tasks[:half_tasks]]
        ollama_tasks = [get_conv(index, output_dir, fragment, i, "ollama") for i, fragment in tasks[half_tasks:]]
        
        # Ejecutar tareas en paralelo con límite de concurrencia
        from asyncio import Semaphore
        async def limited_gather(tasks, limit=10):
            semaphore = Semaphore(limit)
            async def sem_task(task):
                async with semaphore:
                    return await task
            return await asyncio.gather(*[sem_task(task) for task in tasks], return_exceptions=True)
        
        task_results = await limited_gather(openai_tasks + ollama_tasks)
        
        if task_results:
            valid_conversations = [conv for conv in task_results if conv is not None and conv is not TypeError]
            if valid_conversations:
                valid_conversations.sort(key=lambda x: x["chunk_index"])
                
                actual_indices = [conv["chunk_index"] for conv in valid_conversations]
                if actual_indices != sorted(actual_indices):
                    logger.warning(f"[PDF {index}] El orden de las conversaciones no coincide con el esperado")
                
                with open(jsonl_file, "w", encoding="utf-8") as f:
                    output_str = "\n".join(json.dumps({"messages": conv["messages"], "topic": conv["topic"]}, ensure_ascii=False) 
                                        for conv in valid_conversations)
                    f.write(output_str + "\n")
                    logger.info(f"[PDF {index}] Dataset conversacional generado y guardado en JSONL")
            else:
                logger.warning(f"[PDF {index}] No se generaron conversaciones")
    except Exception as e:
        logger.error(f"[PDF {index}] Error al procesar el PDF: {e}")

In [12]:
from concurrent.futures import ProcessPoolExecutor
from tqdm import tqdm
import asyncio
import os
from pathlib import Path
import math


def process_pdf_wrapper(args):
    index, pdf_path, output_dir = args
    logger = logging.getLogger()
    logger.info(f"[PDF {index}] Inicio del procesamiento del PDF: {Path(pdf_path).name}")
    try:
        asyncio.run(process_pdf(index, pdf_path, output_dir))
        logger.info(f"[PDF {index}] Procesamiento del PDF completado")
    except Exception as e:
        logger.error(f"[PDF {index}] Error durante el procesamiento: {str(e)}")
        raise

def generate(pdf_files,max_workers=12):
    output_dir = "outputs_2"
    output_folder_path = Path(output_dir)
    os.makedirs(output_folder_path, exist_ok=True)
    
    logger = logging.getLogger()
    logger.info(f"Generando Datasets - max_workers={max_workers}, # Files: {len(pdf_files)}")
    
    # Dividir archivos en lotes para optimizar el uso de memoria
    batch_size = max(1, math.ceil(len(pdf_files) / max_workers))
    batches = [pdf_files[i:i + batch_size] for i in range(0, len(pdf_files), batch_size)]
    
    with ProcessPoolExecutor(max_workers=max_workers) as executor:
        for batch_idx, batch in enumerate(batches):
            logger.info(f"Procesando lote {batch_idx + 1}/{len(batches)} con {len(batch)} archivos")
            tasks = [(i + batch_idx * batch_size, p, output_dir) for i, p in enumerate(batch)]
            for _ in tqdm(
                executor.map(process_pdf_wrapper, tasks),
                total=len(batch),
                desc=f"Batch {batch_idx + 1}/{len(batches)}"
            ):
                pass
            logger.info(f"Lote {batch_idx + 1}/{len(batches)} completado")
    logger.info("Generación de datasets finalizada")

In [None]:
%%time
files = get_files()
generate(files,max_workers=15)

2025-08-12 16:55:54,873 - INFO - Generando Datasets - max_workers=15, # Files: 89
2025-08-12 16:55:54,879 - INFO - Procesando lote 1/15 con 6 archivos
Batch 1/15:   0%|          | 0/6 [00:00<?, ?it/s]2025-08-12 16:55:55,009 - INFO - [PDF 0] Inicio del procesamiento del PDF: L1_XVII_cap_IV.pdf
2025-08-12 16:55:55,010 - INFO - [PDF 1] Inicio del procesamiento del PDF: L1_IX_cap_III.pdf
2025-08-12 16:55:55,010 - INFO - [PDF 2] Inicio del procesamiento del PDF: manual-para-la-gestion-de-riesgos-lavados-de-activos-y-financiacion-del-terrorismo (1).pdf
2025-08-12 16:55:55,011 - INFO - [PDF 4] Inicio del procesamiento del PDF: Modelo_de_Administracion_del_Riesgo_de_LAFT_y_Contrabando_web.pdf
2025-08-12 16:55:55,011 - INFO - [PDF 5] Inicio del procesamiento del PDF: manual-para-la-gestion-de-riesgos-lavados-de-activos-y-financiacion-del-terrorismo.pdf
2025-08-12 16:55:55,010 - INFO - [PDF 3] Inicio del procesamiento del PDF: L1_XVII_cap_III.pdf
2025-08-12 16:55:55,017 - INFO - [PDF 1] Procesan

2025-08-12 16:55:55,072 - INFO - [PDF 3] Procesando 90 fragmentos
2025-08-12 16:55:55,157 - INFO - [PDF 4] Procesando 592 fragmentos
2025-08-12 16:56:03,586 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:03,590 - INFO - Retrying request to /responses in 0.485141 seconds
2025-08-12 16:56:03,701 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:03,711 - INFO - Retrying request to /responses in 0.486123 seconds
2025-08-12 16:56:04,938 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:04,943 - INFO - Retrying request to /responses in 0.452966 seconds
2025-08-12 16:56:09,076 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:09,082 - INFO - Retrying request to /responses in 0.859895 seconds
2025-08-12 16:56:09,305 - INFO - HTTP Request: 

Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 199041, Requested 5723. Please try again in 1.429s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:14,964 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 198648, Requested 5741. Please try again in 1.316s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:15,569 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:15,575 - INFO - Retrying request to /responses in 0.921792 seconds
2025-08-12 16:56:16,008 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:16,184 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:16,190 - INFO - Retrying request to /responses in 0.991614 seconds
2025-08-12 16:56:16,234 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:16,240 - INFO - Retrying request to /responses in 0.963053 seconds
2025-08-12 16:56:16,313 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:16,326 - INFO - Retrying request to /responses in 0.847851 seconds
2025-08-12 16:56:16,722 - INFO - HTTP Request: POST https://api.openai.com

Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 195616, Requested 5795. Please try again in 423ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:22,280 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 194542, Requested 5703. Please try again in 73ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:23,016 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:23,022 - INFO - Retrying request to /responses in 0.452677 seconds
2025-08-12 16:56:23,126 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 197449, Requested 5731. Please try again in 954ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:23,153 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 197379, Requested 5722. Please try again in 930ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:23,297 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 196826, Requested 5723. Please try again in 764ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:23,533 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:23,540 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:23,593 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:23,599 - INFO - Retrying request to /responses in 0.395657 seconds
2025-08-12 16:56:23,616 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 197079, Requested 5758. Please try again in 851ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:23,958 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 198286, Requested 5746. Please try again in 1.209s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:24,030 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:24,037 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:24,186 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:24,209 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:24,214 - INFO - Retrying request to /responses in 0.458854 seconds
2025-08-12 16:56:24,521 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:24,529 - INFO - Retrying request to /responses in 0.451153 seconds
2025-08-12 16:56:24,676 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:24,733 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:24,781 - INFO - HTTP Request: POST https://

Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 196129, Requested 5725. Please try again in 556ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:32,386 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:32,711 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:33,215 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:33,220 - INFO - Retrying request to /responses in 0.813419 seconds
2025-08-12 16:56:34,588 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 200000, Requested 5747. Please try again in 1.724s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:34,597 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:34,704 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:56:34,714 - INFO - Retrying request to /responses in 0.801961 seconds
2025-08-12 16:56:35,332 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:35,402 - INFO - [PDF 2] Dataset conversacional generado y guardado en JSONL
2025-08-12 16:56:35,420 - INFO - [PDF 2] Procesamiento del PDF completado
2025-08-12 16:56:35,615 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:35,616 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 200000, Requested 5786. Please try again in 1.735s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:35,782 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 200000, Requested 5724. Please try again in 1.717s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:36,316 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:37,127 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:38,649 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:38,655 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:38,761 - INFO - [PDF 3] Dataset conversacional generado y guardado en JSONL
2025-08-12 16:56:38,778 - INFO - [PDF 3] Procesamiento del PDF completado
2025-08-12 16:56:39,747 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 194946, Requested 5813. Please try again in 227ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:56:39,861 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:40,673 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:43,250 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:43,910 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:44,698 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:44,759 - INFO - [PDF 5] Dataset conversacional generado y guardado en JSONL
2025-08-12 16:56:44,771 - INFO - [PDF 5] Procesamiento del PDF completado
2025-08-12 16:56:47,269 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:52,959 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:56:53,875 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HT

Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 196252, Requested 5748. Please try again in 600ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:57:54,640 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:57:54,803 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:57:56,028 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:57:56,620 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:57:57,040 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:57:57,182 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:57:57,938 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:57:57,944 - INFO - Retrying request to /responses in 0.472860 seconds
2025-08-12 16:57:58,124 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 195282, Requested 5851. Please try again in 339ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:57:58,407 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:57:58,640 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:57:58,646 - INFO - Retrying request to /responses in 0.409081 seconds
2025-08-12 16:57:59,404 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:57:59,412 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:57:59,418 - INFO - Retrying request to /responses in 0.454397 seconds
2025-08-12 16:57:59,847 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:01,051 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:01,313 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:01,348 - INFO - HTTP Request: POST https://

Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 198649, Requested 5808. Please try again in 1.337s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:10,733 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:10,738 - INFO - Retrying request to /responses in 0.472274 seconds
2025-08-12 16:58:10,749 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:10,755 - INFO - Retrying request to /responses in 0.777986 seconds
2025-08-12 16:58:11,097 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:11,102 - INFO - Retrying request to /responses in 0.478651 seconds
2025-08-12 16:58:11,437 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:11,488 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:11,493 - INFO - Retrying request to /responses in 0.420535 seconds
2025-08-12 16:58:11,560 - INFO - HTTP Request: POST https://api.openai.com

Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 195423, Requested 5731. Please try again in 346ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:12,462 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:12,467 - INFO - Retrying request to /responses in 0.918916 seconds
2025-08-12 16:58:12,555 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 194658, Requested 5749. Please try again in 122ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:12,603 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 194503, Requested 5722. Please try again in 67ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:12,952 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 16:58:13,439 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:13,506 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:13,527 - INFO - Retrying request to /responses in 0.985667 seconds
2025-08-12 16:58:13,861 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:13,865 - INFO - Retrying request to /responses in 0.493563 seconds
2025-08-12 16:58:14,400 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 200000, Requested 5726. Please try again in 1.717s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:14,582 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:14,587 - INFO - Retrying request to /responses in 0.425876 seconds
2025-08-12 16:58:14,923 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 199913, Requested 5829. Please try again in 1.722s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:15,529 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:15,533 - INFO - Retrying request to /responses in 0.812869 seconds
2025-08-12 16:58:15,558 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:15,564 - INFO - Retrying request to /responses in 0.494165 seconds
2025-08-12 16:58:15,907 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 196625, Requested 5998. Please try again in 786ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:16,380 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:16,383 - INFO - Retrying request to /responses in 0.933142 seconds
2025-08-12 16:58:16,458 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:16,462 - INFO - Retrying request to /responses in 0.926381 seconds
2025-08-12 16:58:16,850 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:16,962 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:16,966 - INFO - Retrying request to /responses in 0.838781 seconds
2025-08-12 16:58:17,405 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:17,411 - INFO - Retrying request to /responses in 0.856894 seconds
2025-08-12 16:58:17,431 - INFO - HTTP Request: POST https://api.openai.com

Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 200000, Requested 5772. Please try again in 1.731s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:18,333 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:18,338 - INFO - Retrying request to /responses in 0.471990 seconds
2025-08-12 16:58:19,014 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 200000, Requested 6056. Please try again in 1.816s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:19,029 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 200000, Requested 5791. Please try again in 1.737s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:19,759 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 16:58:20,266 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:20,272 - INFO - Retrying request to /responses in 0.946404 seconds
2025-08-12 16:58:20,476 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 197959, Requested 5750. Please try again in 1.112s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:20,792 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:20,798 - INFO - Retrying request to /responses in 0.768847 seconds
2025-08-12 16:58:20,829 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:21,210 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:21,216 - INFO - Retrying request to /responses in 0.841086 seconds
2025-08-12 16:58:21,553 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:21,669 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 195113, Requested 5793. Please try again in 271ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:21,860 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 194380, Requested 6008. Please try again in 116ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:21,942 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:21,948 - INFO - Retrying request to /responses in 0.390970 seconds
2025-08-12 16:58:22,759 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:23,062 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 198613, Requested 5796. Please try again in 1.322s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}

2025-08-12 16:58:23,066 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"





2025-08-12 16:58:23,200 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 198240, Requested 6048. Please try again in 1.286s. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:23,585 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:23,590 - INFO - Retrying request to /responses in 0.973505 seconds
2025-08-12 16:58:24,212 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 196616, Requested 5732. Please try again in 704ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:24,288 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:24,490 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 196327, Requested 5751. Please try again in 623ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:24,706 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 16:58:25,473 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:26,347 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 195214, Requested 5775. Please try again in 296ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:26,473 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:26,479 - INFO - Retrying request to /responses in 0.472683 seconds
2025-08-12 16:58:26,584 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"
2025-08-12 16:58:26,590 - INFO - Retrying request to /responses in 0.394022 seconds
2025-08-12 16:58:27,664 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 429 Too Many Requests"


Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 196636, Requested 5716. Please try again in 705ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:58:28,440 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:29,208 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 16:58:34,164 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:34,465 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:35,802 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 16:58:37,055 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:38,759 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:42,398 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:58:44,525 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 16:58:44,750 - INFO - HTTP Request: POST https:

Rate limit hit for gpt-4o-mini: Error code: 429 - {'error': {'message': 'Rate limit reached for gpt-4o-mini in organization org-1SttmZMm9hEuBw7UWMxZimku on tokens per min (TPM): Limit 200000, Used 196724, Requested 5974. Please try again in 809ms. Visit https://platform.openai.com/account/rate-limits to learn more.', 'type': 'tokens', 'param': None, 'code': 'rate_limit_exceeded'}}


2025-08-12 16:59:05,874 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:59:09,321 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:59:11,232 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:59:12,392 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 16:59:12,969 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:59:14,417 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:59:14,980 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:59:16,990 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 16:59:19,308 - INFO - HTTP Request: POST https://api.openai.com/v1/responses "HTTP/1.1 200 OK"
2025-08-12 16:59:20,221 - INFO - HTTP Request: POST ht

Error generando conversación con Ollama: 1 validation error for Conversation
  Invalid JSON: EOF while parsing a value at line 2419 column 17 [type=json_invalid, input_value='{ "messages": [\n{ "role... ,\n\n{ "role": "user",', input_type=str]
    For further information visit https://errors.pydantic.dev/2.11/v/json_invalid


2025-08-12 17:10:57,729 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:11:08,712 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:11:12,749 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:11:24,717 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:11:29,257 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:11:34,598 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:11:41,681 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:11:45,439 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:11:51,782 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:11:57,895 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/cha

Error generando conversación con Ollama: 1 validation error for Conversation
  Invalid JSON: EOF while parsing a string at line 5418 column 1 [type=json_invalid, input_value='{"messages": [{\n\n"role...árrafo?"\n\n} , {\n\n"', input_type=str]
    For further information visit https://errors.pydantic.dev/2.11/v/json_invalid


2025-08-12 17:30:03,584 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:30:28,307 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:30:57,182 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:31:03,359 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:31:19,713 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:31:19,778 - ERROR - [PDF 12] Error al procesar el PDF: list indices must be integers or slices, not str
2025-08-12 17:31:19,786 - INFO - [PDF 12] Procesamiento del PDF completado
Batch 3/15:  17%|█▋        | 1/6 [33:45<2:48:45, 2025.09s/it]2025-08-12 17:31:42,157 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:31:57,221 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:32:09,690 - INFO -

Error generando conversación con Ollama: 1 validation error for Conversation
  Invalid JSON: EOF while parsing a string at line 238 column 1464 [type=json_invalid, input_value='{"messages": [ {\n"role"...to y monitoreo.</li>\\n', input_type=str]
    For further information visit https://errors.pydantic.dev/2.11/v/json_invalid


2025-08-12 17:54:17,676 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:54:30,216 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:54:39,853 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:54:51,781 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:55:02,713 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:55:30,018 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:55:35,943 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:55:50,252 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:55:57,366 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/chat "HTTP/1.1 200 OK"
2025-08-12 17:56:22,546 - INFO - HTTP Request: POST http://127.0.0.1:11434/api/cha

### Saving

In [24]:
%pip install --upgrade datasets huggingface_hub ipywidgets pandas


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [1]:
from datasets import load_dataset


dataset = load_dataset("json", data_files="./outputs/data/*.jsonl")

dataset


  from .autonotebook import tqdm as notebook_tqdm
Downloading data: 100%|██████████| 64/64 [00:00<00:00, 374909.85files/s]
Generating train split: 4682 examples [00:00, 17601.63 examples/s]


DatasetDict({
    train: Dataset({
        features: ['messages', 'topic'],
        num_rows: 4682
    })
})

In [4]:
import os
hf_token = os.environ.get("HUGGING_FACE_KEY")
dataset.push_to_hub("jeanmcm/b_risks",token=hf_token)

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ?it/s]

Creating parquet from Arrow format: 100%|██████████| 5/5 [00:00<00:00, 55.02ba/s]
Processing Files (0 / 0)                : |          |  0.00B /  0.00B            
[A
Processing Files (0 / 1)                :  14%|█▎        |  524kB / 3.86MB, 1.31MB/s  
Processing Files (0 / 1)                :  27%|██▋       | 1.05MB / 3.86MB, 1.75MB/s  
Processing Files (0 / 1)                :  95%|█████████▌| 3.67MB / 3.86MB, 4.59MB/s  
[A
Processing Files (1 / 1)                : 100%|██████████| 3.86MB / 3.86MB, 3.21MB/s  
[A
Processing Files (1 / 1)                : 100%|██████████| 3.86MB / 3.86MB, 2.76MB/s  
New Data Upload                         : 100%|██████████| 3.86MB / 3.86MB, 2.76MB/s  
                                        : 100%|██████████| 3.86MB / 3.86MB            
Uploading the dataset shards: 100%|██████████| 1/1 [00:03<00:00,  3.87s/it]


CommitInfo(commit_url='https://huggingface.co/datasets/jeanmcm/b_risks/commit/6f625bb43e6b588893a70d8769613ed11130179a', commit_message='Upload dataset', commit_description='', oid='6f625bb43e6b588893a70d8769613ed11130179a', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/jeanmcm/b_risks', endpoint='https://huggingface.co', repo_type='dataset', repo_id='jeanmcm/b_risks'), pr_revision=None, pr_num=None)

# Testing RAG with Open WebUI 

In [None]:
import requests
import json
import sys
import time
from IPython.display import display, clear_output, HTML

url = "https://vwlppjjfa98c9x-8080.proxy.runpod.net"
api_key ="sk-05568562f28844fe997cadf960a346cd"

messages =  [{"role": "user", "content": "Que es el Riesgo Financiero?"}]

try:
    # Realizar la solicitud con stream=True
    with requests.post(f"{url}/api/chat/completions", stream=True,headers={
      "Content-Type": "application/json",
      "Authorization": f"Bearer {api_key}"
    },json={
      "model":"bosft-riesgos-rag-model",
      "messages":messages,
      "stream":True
      }) as response:
        response.raise_for_status()
        # Variable para almacenar la salida acumulada
        accumulated_output = ""

        # Iterar sobre las líneas de la respuesta
        for line in response.iter_lines():
            if line:
                # Decodificar la línea
                decoded_line = line.decode('utf-8').strip()
                # Si la línea comienza con "data:", extraer el contenido
                if decoded_line.startswith("data:"):
                    decoded_line = decoded_line[5:].strip()  # Quitar "data: "

                # Ignorar líneas vacías o marcadores de fin como "[DONE]"
                if not decoded_line or decoded_line == "[DONE]" :
                    continue
                
                
                try:
                    # Parsear si es JSON
                    data = json.loads(decoded_line)
                    if "choices" not in data: continue
                    
                    delta = data['choices'][0]['delta']
                    if "content" in delta: new_data = delta['content']
                except json.JSONDecodeError:
                    # Si no es JSON, usar la línea como texto
                    new_data = decoded_line

                # Acumular y mostrar la salida dinámicamente
                if new_data:
                    accumulated_output += new_data
                    # Limpiar la salida anterior y mostrar la nueva
                    clear_output(wait=True)
                    display(HTML(f"<b>Respuesta en streaming:</b> {accumulated_output}"))
                    time.sleep(0.1)  # Pequeña pausa para visibilidad
                    

except requests.exceptions.RequestException as e:
    print(f"\nError en la solicitud: {e}")

# Testing with Flowise