Skip to content

Identificación de otos elementos especiales en el texto #63

@eduranm

Description

@eduranm

Descrição da nova funcionalidade

Incorporar al flujo de markup_doc la identificación y estructuración de contenido especial dentro del cuerpo del documento, para procesar imágenes, tablas, listas y fórmulas extraídas desde DOCX y convertirlas en bloques estructurados reutilizables.

Critérios de aceitação

  • Incorporar soporte para construir objetos estructurados de contenido especial

  • Soportar los tipos:

    • image
    • table
    • list
    • compound
  • Para el tipo image, debe:

    • incrementar el contador de figuras;
    • generar un identificador figid;
    • asignar la etiqueta <fig>;
    • conservar la referencia a la imagen;
    • intentar recuperar figlabel y title.
  • Para el tipo table, debe:

    • incrementar el contador de tablas;
    • generar un identificador tabid;
    • asignar la etiqueta <table>;
    • conservar el contenido HTML de la tabla;
    • intentar recuperar tablabel y title.
  • Para el tipo list, debe generar un bloque paragraph con la etiqueta <list>.

  • Para el tipo compound, debe:

    • incrementar el contador de ecuaciones;
    • generar un identificador eid;
    • clasificar el contenido como <inline-formula> o <disp-formula> según la estructura del contenido;
    • normalizar expresiones del tipo (1) cuando correspondan a fórmulas desplegadas.
  • Resolver referencias cruzadas para:

    • figuras;
    • tablas;
    • fórmulas.
  • Detectar referencias textuales a contenido especial, incluyendo variantes de:

    • imagen;
    • figura;
    • tabla;
    • ecuación;
    • fórmula;
      y devolver la etiqueta detectada, el identificador asociado y el tipo de referencia (reftype).

Anexos

  • Incorpora el soporte base para detectar y estructurar contenido especial del cuerpo del documento, como figuras, tablas, listas y fórmulas, a partir de archivos DOCX.

Referências

  • Wagtail images
  • python-docx / OOXML
  • lxml
  • MathML

Metadata

Metadata

Assignees

No one assigned

    Labels

    enhancementNew feature or request

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions