Descrição da nova funcionalidade
Incorporar al flujo de markup_doc la identificación y estructuración de contenido especial dentro del cuerpo del documento, para procesar imágenes, tablas, listas y fórmulas extraídas desde DOCX y convertirlas en bloques estructurados reutilizables.
Critérios de aceitação
-
Incorporar soporte para construir objetos estructurados de contenido especial
-
Soportar los tipos:
image
table
list
compound
-
Para el tipo image, debe:
- incrementar el contador de figuras;
- generar un identificador
figid;
- asignar la etiqueta
<fig>;
- conservar la referencia a la imagen;
- intentar recuperar
figlabel y title.
-
Para el tipo table, debe:
- incrementar el contador de tablas;
- generar un identificador
tabid;
- asignar la etiqueta
<table>;
- conservar el contenido HTML de la tabla;
- intentar recuperar
tablabel y title.
-
Para el tipo list, debe generar un bloque paragraph con la etiqueta <list>.
-
Para el tipo compound, debe:
- incrementar el contador de ecuaciones;
- generar un identificador
eid;
- clasificar el contenido como
<inline-formula> o <disp-formula> según la estructura del contenido;
- normalizar expresiones del tipo
(1) cuando correspondan a fórmulas desplegadas.
-
Resolver referencias cruzadas para:
- figuras;
- tablas;
- fórmulas.
-
Detectar referencias textuales a contenido especial, incluyendo variantes de:
- imagen;
- figura;
- tabla;
- ecuación;
- fórmula;
y devolver la etiqueta detectada, el identificador asociado y el tipo de referencia (reftype).
Anexos
- Incorpora el soporte base para detectar y estructurar contenido especial del cuerpo del documento, como figuras, tablas, listas y fórmulas, a partir de archivos DOCX.
Referências
- Wagtail images
- python-docx / OOXML
- lxml
- MathML
Descrição da nova funcionalidade
Incorporar al flujo de
markup_docla identificación y estructuración de contenido especial dentro del cuerpo del documento, para procesar imágenes, tablas, listas y fórmulas extraídas desde DOCX y convertirlas en bloques estructurados reutilizables.Critérios de aceitação
Incorporar soporte para construir objetos estructurados de contenido especial
Soportar los tipos:
imagetablelistcompoundPara el tipo
image, debe:figid;<fig>;figlabelytitle.Para el tipo
table, debe:tabid;<table>;tablabelytitle.Para el tipo
list, debe generar un bloqueparagraphcon la etiqueta<list>.Para el tipo
compound, debe:eid;<inline-formula>o<disp-formula>según la estructura del contenido;(1)cuando correspondan a fórmulas desplegadas.Resolver referencias cruzadas para:
Detectar referencias textuales a contenido especial, incluyendo variantes de:
y devolver la etiqueta detectada, el identificador asociado y el tipo de referencia (
reftype).Anexos
Referências