Skip to content

Agregar procesamiento automático de referencias y soporte markuplib para análisis estructural de DOCX #59

@eduranm

Description

@eduranm

Descrição da nova funcionalidade

Incorporar soporte de procesamiento automático para referencias bibliográficas y utilidades de lectura estructural de archivos DOCX dentro del flujo de markup_doc, para que al cargar un documento se puedan identificar bloques del texto, detectar referencias, enviarlas al modelo correspondiente y persistir el resultado estructurado en el documento de marcación.

Critérios de aceitação

  • La app markuplib debe estar registrada.

  • Debe existir el paquete markuplib

  • Proporcionar una clase utilitaria para lectura y análisis de DOCX, incluyendo al menos soporte para:

    • apertura del documento;
    • extracción de numeraciones;
    • extracción de hipervínculos;
    • extracción estructurada del contenido;
    • normalización de ciertos fragmentos MathML.
  • Debe existir Utilidades para:

    • determinar el tipo de modelo LLM a utilizar;
    • dividir bloques de referencias para procesamiento;
    • procesar una referencia individual;
    • procesar lotes de referencias;
    • buscar referencias por autor y año;
    • extraer citas APA desde texto;
    • limpiar etiquetas;
    • mapear texto etiquetado;
    • restaurar etiquetas sobre citas detectadas;
    • generar objetos etiquetados base para el flujo de marcación.
  • Funciones para:

    • marcar metadatos de artículo;
    • marcar una referencia individual;
    • marcar bloques de referencias.
  • Incorporar la tarea para:

    • recuperar el documento DOCX cargado;
    • abrir y analizar el archivo;
    • detectar y acumular referencias;
    • procesar referencias usando LLaMA o Gemini según la configuración disponible;
    • persistir el resultado estructurado en el documento de marcación;
    • actualizar el estado del documento al finalizar.
  • Disparar el procesamiento automático después de crear el documento.

Anexos

  • Este issue incorpora el soporte base para análisis estructural de DOCX y el procesamiento automático de referencias dentro del flujo de marcación documental.

Referências

  • Django settings
  • Celery tasks
  • Wagtail admin hooks
  • python-docx
  • lxml

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions