In [49]:
from docx import Document
from lxml import etree
from docx_parser.utils import (
    contains_mathml,
    xml_to_text,
    extract_toc_entries,
    table_to_plain_text,
    create_element_index_dict
)

In [115]:
doc_path = 'test_document.docx'
doc_path = r'C:\Users\fazli.mr\Projects\Chat-Bot\docs\cleaned\14590.final.docx'
document_obj = Document(doc_path)

# Specific elements

## TOC

In [3]:
tree = document_obj._body._element[0]
print(extract_toc_entries(tree))

Table of Contents
Paragraphs		Page 1
Lists		Page 1
Tables		Page 1
Images		Page 2
Hyperlinks		Page 2
Bookmarks		Page 2
Formulas		Page 2
Sections		Page 2
Styles		Page 3
Comments		Page 3


## Formula

In [4]:
print(contains_mathml(document_obj._body._element[36]))

print(xml_to_text(document_obj._body._element[36]))

True
$A\=(\sqrt3x+4)/(mc^2\)+\sum_(i=1)^4\of8i$


## Tables

In [111]:
print(table_to_plain_text(document_obj.tables[0]))
print(table_to_plain_text(document_obj.tables[1]))

[ Cell 1,1 | Cell 1,2 ]
[ Cell 2,1 | Cell 2,2 ]
[ Cell 3,1 | Cell 3,2,1 ]
[ 	 | Cell 3,2,2 ]
[ Cell 4 ]

[ (1) | $E\=\mc^2$ ]



# Test

In [116]:
index_dict = create_element_index_dict(document_obj)

PARAGRAPH_TAG = 'p'
TABLE_TAG = 'tbl'
SECTPR_TAG = 'sectPr'
SDT_TAG = 'sdt'

In [117]:
for key, (tag, index) in index_dict.items():
    if tag == SDT_TAG:
        text = extract_toc_entries(document_obj._body._element[key])

    elif tag == PARAGRAPH_TAG:
        if contains_mathml(document_obj._body._element[key]):
            document_obj.paragraphs[index].text = xml_to_text(document_obj._body._element[key])
        text = document_obj.paragraphs[index].text
    
    elif tag == TABLE_TAG:
        text = table_to_plain_text(document_obj.tables[index])

    else:
        text = document_obj._body._element[key].text

    if text is None or text == '':
        continue
    print(f'{len(text)}:\n{text}', end='\n\n')

521:
[  | جمهوری اسلامی ایران
Islamic Republic of Iran
سازمان ملی استاندارد ایران |  ]
[ استاندارد ملی ایران | 	 | INSO ]
[ 18346 | 	 | 18346 ]
[ تجدیدنظر اول | Iran National Standards Organization | 1st Revision  ]
[ 1401 |  | 2023  ]
[  | 
ورق فولادی سرد کاسته با استحکام کششی بالا و نقطه تسلیم پایین با شکلپذیری
بهبودیافته |  ]
[  | 	 | Identical with
ISO 14590:2016
 ]
[ 
 | 



 |  ]
[  | Cold-reduced steel sheet of high
tensile strength and low yield point
with improved formability





 |  ]
[  | ICS: 77.140.50 |  ]


26:
سازمان ملی استاندارد ایران

56:
تهران، ضلع جنوب غربی میدان ونک، خیابان ولیعصر، پلاک 2592

35:
صندوق‌پستی: 6139-14155 تهران- ایران

16:
تلفن: 5-88879461

28:
دورنگار: 88887080 و 88887103

32:
کرج، شهر صنعتی، میدان استاندارد 

33:
صندوق پستی: 163-31585 کرج - ایران

22:
تلفن: 8-32806031 (026)

23:
دورنگار: 32808114 (026)

31:
رایانامه:standard@inso.gov.ir  

29:
وبگاه: http://www.inso.gov.ir

45:
Iran National Standards Organization (INSO)  

70:
No. 2592 Valiasr Ave