Descrição da nova funcionalidade
Incorporar soporte de procesamiento automático para referencias bibliográficas y utilidades de lectura estructural de archivos DOCX dentro del flujo de markup_doc, para que al cargar un documento se puedan identificar bloques del texto, detectar referencias, enviarlas al modelo correspondiente y persistir el resultado estructurado en el documento de marcación.
Critérios de aceitação
-
La app markuplib debe estar registrada.
-
Debe existir el paquete markuplib
-
Proporcionar una clase utilitaria para lectura y análisis de DOCX, incluyendo al menos soporte para:
- apertura del documento;
- extracción de numeraciones;
- extracción de hipervínculos;
- extracción estructurada del contenido;
- normalización de ciertos fragmentos MathML.
-
Debe existir Utilidades para:
- determinar el tipo de modelo LLM a utilizar;
- dividir bloques de referencias para procesamiento;
- procesar una referencia individual;
- procesar lotes de referencias;
- buscar referencias por autor y año;
- extraer citas APA desde texto;
- limpiar etiquetas;
- mapear texto etiquetado;
- restaurar etiquetas sobre citas detectadas;
- generar objetos etiquetados base para el flujo de marcación.
-
Funciones para:
- marcar metadatos de artículo;
- marcar una referencia individual;
- marcar bloques de referencias.
-
Incorporar la tarea para:
- recuperar el documento DOCX cargado;
- abrir y analizar el archivo;
- detectar y acumular referencias;
- procesar referencias usando LLaMA o Gemini según la configuración disponible;
- persistir el resultado estructurado en el documento de marcación;
- actualizar el estado del documento al finalizar.
-
Disparar el procesamiento automático después de crear el documento.
Anexos
- Este issue incorpora el soporte base para análisis estructural de DOCX y el procesamiento automático de referencias dentro del flujo de marcación documental.
Referências
- Django settings
- Celery tasks
- Wagtail admin hooks
- python-docx
- lxml
Descrição da nova funcionalidade
Incorporar soporte de procesamiento automático para referencias bibliográficas y utilidades de lectura estructural de archivos DOCX dentro del flujo de
markup_doc, para que al cargar un documento se puedan identificar bloques del texto, detectar referencias, enviarlas al modelo correspondiente y persistir el resultado estructurado en el documento de marcación.Critérios de aceitação
La app
markuplibdebe estar registrada.Debe existir el paquete
markuplibProporcionar una clase utilitaria para lectura y análisis de DOCX, incluyendo al menos soporte para:
Debe existir Utilidades para:
Funciones para:
Incorporar la tarea para:
Disparar el procesamiento automático después de crear el documento.
Anexos
Referências