# Word Documents Parsing showcase

<sup>This notebook is a part of Natural Language Processing class at the University of Ljubljana, Faculty for computer and information science. Please contact [slavko.zitnik@fri.uni-lj.si](mailto:slavko.zitnik@fri.uni-lj.si) for any comments.</sub>

In this notebook we will use [Aspose.Words](https://products.aspose.com/words/) library. For usage a license needs to be bought. Library documentation is available [here](https://docs.aspose.com/words/python-net/).

In [1]:
import aspose.words as aw
from ExtractContentHelper import ExtractContentHelper

In [2]:
def clean_text(text):
    return text

In [3]:
def extract_comments(doc: aw.Document):
    # Izgradnja slovarja za comment.id -> range.start
    starts = {}
    for s in doc.get_child_nodes(aw.NodeType.COMMENT_RANGE_START, True) :
        range_start = s.as_comment_range_start()
        starts[range_start.id] = range_start

    # Izgradnja slovarja za comment.id -> range.end
    ends = {}
    for e in doc.get_child_nodes(aw.NodeType.COMMENT_RANGE_END, True) :
        range_end = e.as_comment_range_end()
        ends[range_end.id] = range_end

    comments = doc.get_child_nodes(aw.NodeType.COMMENT, True)

    print("Komentarji: ")
    for node in comments:
        comment = node.as_comment()
        # Preskočimo odgovore na komentarje
        if comment.ancestor:
            continue

        print(f"---------------------\n   KOMENTAR START\n---------------------")


        author = comment.author
        author_time = comment.date_time.strftime("%Y-%m-%d %H:%M:%S")
        comment_text = comment.to_string(aw.SaveFormat.TEXT)

        # Pridobivanje teksta med komentarji
        comment_start = starts[comment.id]
        comment_end = ends[comment.id]
        extracted_nodes_exclusive = ExtractContentHelper.extract_content(comment_start, comment_end, False)
        dst_doc = ExtractContentHelper.generate_document(doc, extracted_nodes_exclusive)
        marked_text = dst_doc.to_string(aw.SaveFormat.TEXT).strip()
        marked_text = clean_text(marked_text)

        print(f"\tAvtor: {author}\n\tDatum in čas: {author_time}\n\tKomentar: {comment_text}\n\tOznačeno besedilo: '{marked_text}'")



        # Odgovori
        if comment.replies.count > 0:
            print(f"\tOdgovori:")
        for reply in comment.replies:
            reply_comment = reply.as_comment()

            reply_author = reply_comment.author
            reply_author_time = reply_comment.date_time.strftime("%Y-%m-%d %H:%M:%S")
            reply_comment_text = reply_comment.to_string(aw.SaveFormat.TEXT)
            print(f"\t\tAvtor: {reply_author}\n\t\tDatum in čas: {reply_author_time}\n\t\tKomentar: {reply_comment_text}")

        print(f"---------------------\n   KOMENTAR END\n---------------------")


V Aspose dokument naložimo Word dokument. Kot primer uporabimo dokument z ljudsko zgodbico Pšenica najlepši cvet (glej dokument v mapi). 

In [4]:
doc = aw.Document("./Ljudska - Pšenica najlepši cvet.docx")

Pokličemo funkcijo, ki nam bo izpisala komentarje.

In [5]:
# Pridobi osnovne podatke o komentarjih v dokumentu.
extract_comments(doc)

Komentarji: 
---------------------
   KOMENTAR START
---------------------
	Avtor: Slavko Žitnik
	Datum in čas: 2024-04-29 10:47:00
	Komentar: Ubiti

	Označeno besedilo: 'Evaluation Only. Created with Aspose.Words. Copyright 2003-2024 Aspose Pty Ltd.
pomoriti
Created with an evaluation copy of Aspose.Words. To discover the full versions of our APIs please visit: https://products.aspose.com/words/'
	Odgovori:
		Avtor: Slavko Žitnik
		Datum in čas: 2024-04-29 11:19:00
		Komentar: Hm, ali je to res pravi izraz?


		Avtor: Slavko Žitnik
		Datum in čas: 2024-04-29 11:19:00
		Komentar: Ali ne bi bilo bolje uporabiti kaj drugega?

---------------------
   KOMENTAR END
---------------------
---------------------
   KOMENTAR START
---------------------
	Avtor: Slavko Žitnik
	Datum in čas: 2024-04-29 10:48:00
	Komentar: Goro

	Označeno besedilo: 'Evaluation Only. Created with Aspose.Words. Copyright 2003-2024 Aspose Pty Ltd.
hrib
Created with an evaluation copy of Aspose.Words. To discover the f

Pokličemo funkcijo, ki nam bo izpisala celoten dokument.

In [6]:
# Izpiši besedilo celega dokumenta
print(f"---------------------\n   DOKUMENT START\n---------------------")
print(clean_text(doc.to_string(aw.SaveFormat.TEXT)))
print(f"---------------------\n   DOKUMENT END\n---------------------")

---------------------
   DOKUMENT START
---------------------
Evaluation Only. Created with Aspose.Words. Copyright 2003-2024 Aspose Pty Ltd.
Ljudska: PŠENICA – NAJLEPŠI CVET
V prastarih časih je neki kralj ukazal, da morajo pomoriti
Ubiti
Hm, ali je to res pravi izraz?

Ali ne bi bilo bolje uporabiti kaj drugega?
 vse stare ljudi, ki ne morejo več delati.
Živel pa je sin, ki je imel svojega očeta nadvse rad. Ko so kraljevi sli preiskovali deželo, je skril svojega očeta na dvorišču pod velik čeber in skrivaj mu je nosil hrano. Ta velika otroška ljubezen je bila kmalu bogato poplačana.
Kralj tiste dežele je imel lepo hčer, pa nobenega sina. Mislil je in mislil, kako bi poročil kraljično z najpametnejšim mladeničem svojega kraljestva, ki naj bi postal tudi njegov naslednik. In izmislil si je tri uganke.
Zapovedal je, naj se naslednje jutro zberejo vsi mladeniči njegovega kraljestva navsezgodaj zjutraj pred sončnim vzhodom na visoki gori. Kdor bo prvi zagledal vzhajajoče sonce, bo rešil u