In [16]:
from typing import Any
import re
from pathlib import Path

from docx import Document
from docx.text.paragraph import Paragraph

from lib.translate import translate

In [17]:
def log_reason(reason: str, obj: Any, verbose):
    if verbose:
        print(f"Filtered ({reason})", repr(obj), flush=True)

pattern_is_number = re.compile(r"^\s*\d+(?:[\,\.]\d+)*\s*$")
def paragraph_filter(paragraph: Paragraph, verbose=True) -> bool:
    if len(paragraph.text) == 0: 
        log_reason("length", paragraph.text, verbose)
        return False
    
    if paragraph.text.isspace(): 
        log_reason("whitespace", paragraph.text, verbose)
        return False
    
    if re.match(pattern_is_number, paragraph.text):
        log_reason("numeric", paragraph.text, verbose)
        return False
    
    return True

In [18]:
# Load Document
document_path = "./docs/Rapport.docx"
doc = Document(document_path)

# Handle pages
paragraphs = doc.paragraphs
paragraphs = list(filter(paragraph_filter, paragraphs))

for paragraph in paragraphs:
    text = paragraph.text
    print("Text:", text, flush=True)
    result = translate(text)
    paragraph.text = result

# Save modified document
doc_path = Path(document_path)
annotated_path =str(doc_path.parent / "translated" / doc_path.name)
doc.save(annotated_path)


Filtered (length) ''
Filtered (length) ''
Filtered (length) ''
Filtered (length) ''
Text: KURSUSNAVN
Text: RAPPORTTITEL
Text: DETTE ER EN UNDERTITEL
Text: Introduktion
Text: US Open 2024 er en tennisturnering, der bliver spillet udendørs på hardcourt-baner i perioden 26. august - 8. september 2024 i USTA Billie Jean King National Tennis Center i New York City, USA. Det er den 144. udgave af mesterskabet og den fjerde og sidste grand slam-turnering i 2024. Kvalifikationen i singlerækkerne spilles samme sted den 19. - 22. august 2024.
Text: Siden Ruslands invasion af Ukraine i begyndelsen af 2022 havde tennissportens styrende organer, WTA, ATP, ITF og de fire grand slam-turneringer, tilladt, at spillere fra Rusland og Hviderusland fortsat kunne deltage i grand slam-turneringer samt turneringer på ATP Tour og WTA Tour, men de kunne ikke stille op under landenes navne eller flag, og spillerne fra de to lande deltog derfor i turneringen under neutralt flag.[2]
Text: Et maleri af verdensklas