In [None]:
import os
import re
from docx import Document

def limpar_texto_paragrafo(texto: str) -> str:
    """
    Aplica todos os filtros de limpeza diretamente no texto do parágrafo.
    Remove:
    - 'The end' isolado com ou sem ponto
    - Comentários como 'Corrected:', 'Edited:', etc.
    """
    texto = texto.strip()

    # Remove "The end" sozinho na linha (com ou sem ponto)
    texto = re.sub(r"(?i)^\s*the end\.?\s*$", "", texto, flags=re.MULTILINE)

    # Remove linhas tipo 'Corrected: ...'
    texto = re.sub(r"(?i)^ *(corrected|edited|fixes|changes|modifications):.*$", "", texto, flags=re.MULTILINE)

    return texto.strip()

def remover_artefatos_docx(caminho_arquivo: str) -> str:
    """
    Remove artefatos comuns de revisão LLM de um .docx (e.g. 'The end', 'Corrected:')
    Salva uma nova cópia com sufixo '_te' no nome.

    Args:
        caminho_arquivo (str): Caminho completo do .docx original.

    Returns:
        str: Caminho do novo arquivo salvo com '_te.docx'.
    """
    doc = Document(caminho_arquivo)
    novo_doc = Document()

    for par in doc.paragraphs:
        texto_limpo = limpar_texto_paragrafo(par.text)
        if texto_limpo:
            novo_par = novo_doc.add_paragraph(texto_limpo)
            novo_par.style = par.style

    dir_base, nome = os.path.split(caminho_arquivo)
    nome_base, _ = os.path.splitext(nome)
    novo_nome = f"{nome_base}_te.docx"
    novo_caminho = os.path.join(dir_base, novo_nome)

    novo_doc.save(novo_caminho)
    return novo_caminho



In [None]:
remover_artefatos_docx("Divine Emperor of Death 1801-1900_revisado.docx")
remover_artefatos_docx("Divine Emperor of Death 1901-2000_revisado.docx")

'Divine Emperor of Death 1901-2000_revisado_te.docx'