# Processamento Automatizado de Documentos T√©cnicos ‚Äì Projeto IAVS
Este notebook re√∫ne todos os scripts utilizados no processo de extra√ß√£o, limpeza e organiza√ß√£o dos documentos t√©cnicos normativos no √¢mbito do projeto IAVS (Intelig√™ncia Artificial para Vigil√¢ncia em Sa√∫de).

O objetivo geral √© estruturar uma base textual confi√°vel e padronizada que possa ser utilizada em processos de classifica√ß√£o, an√°lise e apoio a modelos de intelig√™ncia artificial.

Etapas contempladas:

- Prepara√ß√£o do Ambiente

- Importa√ß√£o dos pacotes necess√°rios.

- Defini√ß√£o dos caminhos e cria√ß√£o autom√°tica das pastas que comp√µem o fluxo de trabalho.

- Fun√ß√µes Utilit√°rias

- Fun√ß√£o de normaliza√ß√£o de texto para padronizar nomes de arquivos.

- Fun√ß√£o para localiza√ß√£o automatizada de arquivos PDF por similaridade textual (fuzzy matching).

- Fun√ß√£o de limpeza textual para corrigir formata√ß√µes e eliminar ru√≠dos t√≠picos de extra√ß√£o.

- Classifica√ß√£o e Renomea√ß√£o

- Leitura da planilha de controle (controle_documentos.xlsx).

- Localiza√ß√£o, categoriza√ß√£o e c√≥pia dos arquivos PDF com nomes padronizados por doen√ßa e tipo de documento.

- Convers√£o de PDFs para Texto

- Extra√ß√£o do conte√∫do textual dos documentos PDF.

- Gera√ß√£o de arquivos .txt para cada documento localizado.

- Limpeza dos Arquivos de Texto

- Remo√ß√£o de quebras de linha indesejadas, espa√ßos repetidos e artefatos como marca√ß√µes de p√°gina.

- Verifica√ß√£o dos Arquivos Gerados

- Listagem final dos arquivos tratados e prontos para uso, como etapa de valida√ß√£o visual.

**Observa√ß√µes:**
Todas as opera√ß√µes s√£o feitas de forma automatizada, com verifica√ß√µes para evitar retrabalho e perdas de informa√ß√£o.

O pipeline √© compat√≠vel com bases documentais de grande volume e pode ser reaplicado para outras √°reas tem√°ticas da vigil√¢ncia em sa√∫de.

## Etapa 1 ‚Äì Defini√ß√£o de Estrutura e Prepara√ß√£o do Ambiente
Este trecho do c√≥digo realiza a prepara√ß√£o inicial do ambiente de trabalho para o processamento automatizado de documentos no projeto IAVS (Intelig√™ncia Artificial para Vigil√¢ncia em Sa√∫de).

**Objetivos:**
- Importar os m√≥dulos necess√°rios para manipula√ß√£o de arquivos, textos, planilhas e PDFs;

- Definir o diret√≥rio base do projeto e as subpastas que organizam os arquivos em diferentes est√°gios do fluxo (originais, convertidos, limpos e organizados);

- Criar automaticamente as pastas exigidas pelo pipeline, garantindo que a estrutura esteja pronta mesmo em execu√ß√µes futuras ou em novos ambientes.

Essa etapa garante uma organiza√ß√£o padronizada dos arquivos e prepara o caminho para a execu√ß√£o segura e escal√°vel dos scripts de extra√ß√£o, limpeza e categoriza√ß√£o dos documentos normativos da √°rea da sa√∫de.



In [1]:
# Importa√ß√£o dos m√≥dulos necess√°rios
%pip install pdfplumber pandas openpyxl
# Importando bibliotecas essenciais
import os   # Opera√ß√µes com diret√≥rios e caminhos de arquivos
import pandas as pd        # Leitura e manipula√ß√£o de planilhas (DataFrames)
import re # Express√µes regulares para manipula√ß√£o de texto
import hashlib
import csv
from pathlib import Path
import pdfplumber          # Extra√ß√£o de texto de arquivos PDF
import time  # M√≥dulo para medir tempo de execu√ß√£o
import shutil      # Opera√ß√µes de c√≥pia e movimenta√ß√£o de arquivos
import unicodedata # Manipula√ß√£o de acentua√ß√£o e caracteres Unicode
import difflib     # Compara√ß√£o de similaridade entre strings
from collections import Counter  # Contagem de elementos (como palavras ou erros)

Note: you may need to restart the kernel to use updated packages.


In [2]:
# Defini√ß√£o do diret√≥rio base do projeto
BASE_DIR = r"C:\Users\isisi\Documents\IAVS_PROJETO"

# Caminho da planilha de controle dos documentos
PLANILHA = os.path.join(BASE_DIR, "controle_documentos.xlsx")

# Defini√ß√£o das pastas utilizadas no fluxo de trabalho
PASTA_BRUTOS = os.path.join(BASE_DIR, "pdfs_brutos")           # PDF originais, sem tratamento
PASTA_CONVERTIDOS = os.path.join(BASE_DIR, "textos_convertidos")  # Arquivos .txt gerados a partir dos PDFs
PASTA_LIMPOS = os.path.join(BASE_DIR, "textos_limpos")         # Textos tratados e limpos (sem cabe√ßalho, rodap√© etc.)
PASTA_FINAL = os.path.join(BASE_DIR, "organizados")            # Textos organizados por doen√ßa e tema

# Cria√ß√£o autom√°tica das pastas, se ainda n√£o existirem
for pasta in [PASTA_BRUTOS, PASTA_CONVERTIDOS, PASTA_LIMPOS, PASTA_FINAL]:
    os.makedirs(pasta, exist_ok=True)

## Etapa 2 ‚Äì Fun√ß√µes de Normaliza√ß√£o, Localiza√ß√£o e Limpeza de Texto
Esta etapa define fun√ß√µes auxiliares fundamentais para garantir a padroniza√ß√£o dos nomes de arquivos, a localiza√ß√£o dos PDFs corretos e a limpeza dos textos extra√≠dos.

Fun√ß√µes implementadas:
- normalizar_texto(texto)
- Padroniza o nome de documentos ou qualquer outro texto, tornando-o uniforme para fins de compara√ß√£o e nomenclatura. Remove acentos, converte para min√∫sculas e substitui - caracteres especiais por underline (_). Essa fun√ß√£o √© essencial para que os nomes de arquivos e t√≠tulos da planilha sejam compar√°veis de forma robusta.

- localizar_pdf_local(nome_documento_original)
Busca, dentro das subpastas do projeto, o arquivo PDF correspondente ao nome fornecido na planilha. Para isso, utiliza a fun√ß√£o normalizar_texto e a t√©cnica de fuzzy matching (semelhan√ßa textual aproximada) via difflib.get_close_matches, permitindo identificar arquivos mesmo que existam pequenas varia√ß√µes no nome.

- limpar_texto(texto)

- Remove ru√≠dos comuns nos textos extra√≠dos de PDFs, como cabe√ßalhos, rodap√©s e quebras de linha desnecess√°rias. 

A fun√ß√£o:

- Elimina linhas muito repetidas no corpo do texto;

- Junta quebras de linha isoladas (geralmente causadas por limites de p√°gina);

- Mant√©m as separa√ß√µes entre par√°grafos com duplas quebras de linha.

*Estas fun√ß√µes s√£o reutilizadas em diversas etapas do pipeline e garantem a qualidade e a organiza√ß√£o dos dados processados para uso posterior em an√°lises, indexa√ß√£o e treinamento da IA.*

In [3]:
# === CONFIGURA√á√ÉO DO CAMINHO DO ARQUIVO DE CONTROLE ===
CAMINHO_PLANILHA = r"C:\Users\isisi\Documents\IAVS_PROJETO\controle_documentos.xlsx"
NOME_ABA = "docs"
LOG_DIAGNOSTICO = r"C:\Users\isisi\Documents\IAVS_PROJETO\log_diagnostico_etapa2.csv"

# === FUN√á√ïES AUXILIARES ===

def calcular_hash(caminho_arquivo, limite=1024*1024):
    """Calcula hash de uma parte do arquivo (1 MB por padr√£o) para diagn√≥stico r√°pido."""
    sha256 = hashlib.sha256()
    with open(caminho_arquivo, 'rb') as f:
        sha256.update(f.read(limite))
    return sha256.hexdigest()

def normalizar_nome(nome):
    """Remove repeti√ß√µes consecutivas de sufixos no nome."""
    padrao = r'(txt_\w+\d{4})+'
    return re.sub(padrao, lambda m: m.group(1), nome)

def diagnosticar_planilha(planilha_path, aba, log_path):
    df = pd.read_excel(planilha_path, sheet_name=aba)
    hash_map = {}
    log_linhas = []

    # üîÑ Carrega os caminhos j√° processados anteriormente (se houver log salvo)
    arquivos_ja_processados = set()
    if os.path.exists(log_path):
        log_antigo = pd.read_csv(log_path)
        arquivos_ja_processados = set(log_antigo["Arquivo/Caminho"].dropna().unique())

    # üîÅ Loop sobre cada linha da planilha
    for idx, row in df.iterrows():
        caminho = str(row.get("Caminho", "")).strip()
        nome = str(row.get("Nome do arquivo", "")).strip()

        # ‚è≠Ô∏è Pula arquivos j√° processados antes
        if caminho in arquivos_ja_processados:
            continue

        if not caminho or not nome:
            log_linhas.append(["ERRO", f"Linha {idx+2}", "Caminho ou Nome do arquivo vazio", ""])
            continue

        if not os.path.isfile(caminho):
            log_linhas.append(["N√ÉO ENCONTRADO", caminho, "Arquivo n√£o localizado", ""])
            continue

        # üîé Diagn√≥stico de duplicidade por hash
        hash_arquivo = calcular_hash(caminho)
        if hash_arquivo in hash_map:
            log_linhas.append(["DUPLICADO", caminho, "Hash igual a", hash_map[hash_arquivo]])
        else:
            hash_map[hash_arquivo] = caminho

        # üßπ Diagn√≥stico de nome corrompido
        nome_base = os.path.basename(caminho).replace(".pdf", "")
        nome_normalizado = normalizar_nome(nome_base)
        if nome != nome_normalizado:
            log_linhas.append(["NOME_CORROMPIDO", caminho, "Nome informado difere do sugerido", nome_normalizado])

    # üíæ Salva ou atualiza o log
    if os.path.exists(log_path) and log_linhas:
        log_df_antigo = pd.read_csv(log_path)
        log_df_novo = pd.DataFrame(log_linhas, columns=["Tipo", "Arquivo/Caminho", "Info", "Refer√™ncia/Sugest√£o"])
        log_df_final = pd.concat([log_df_antigo, log_df_novo], ignore_index=True)
        log_df_final.to_csv(log_path, index=False, encoding='utf-8')
        print(f"‚úÖ Diagn√≥stico conclu√≠do. {len(log_linhas)} novos registros adicionados ao log.")
        print(f"üìÑ Log atualizado em: {log_path}")

    elif log_linhas:
        with open(log_path, mode='w', newline='', encoding='utf-8') as log_csv:
            writer = csv.writer(log_csv)
            writer.writerow(["Tipo", "Arquivo/Caminho", "Info", "Refer√™ncia/Sugest√£o"])
            writer.writerows(log_linhas)
        print(f"‚úÖ Diagn√≥stico conclu√≠do. {len(log_linhas)} registros salvos no log novo.")
        print(f"üìÑ Log salvo em: {log_path}")
    
    else:
        print("‚ÑπÔ∏è Nenhum novo arquivo a processar. Log mantido inalterado.")

# === EXECUTAR ===
if __name__ == "__main__":
    diagnosticar_planilha(CAMINHO_PLANILHA, NOME_ABA, LOG_DIAGNOSTICO)


‚ÑπÔ∏è Nenhum novo arquivo a processar. Log mantido inalterado.


##  Etapa 3 ‚Äì Classifica√ß√£o e Renomea√ß√£o dos Documentos por Doen√ßa e Tipo
Este trecho do script realiza a leitura da planilha de controle (controle_documentos.xlsx) e organiza os documentos PDF brutos em uma estrutura padronizada baseada nas doen√ßas abordadas e no tipo de documento.

**Objetivos:**
- Ler os metadados dos documentos a partir da planilha preenchida manualmente;

- Ignorar registros incompletos ou gen√©ricos (como documentos marcados com ‚ÄúDiversas doen√ßas‚Äù);

- Utilizar a fun√ß√£o localizar_pdf_local() para encontrar, via fuzzy matching, o caminho correto do PDF nas subpastas do projeto;

- Para cada doen√ßa mencionada no documento:

- Criar uma chave √∫nica combinando o nome da doen√ßa com o tipo de documento (ex: tuberculose_protocolo);

- Utilizar um contador para evitar sobrescri√ß√µes (ex: tuberculose_protocolo_1.pdf, tuberculose_protocolo_2.pdf...);

- Copiar o arquivo PDF correspondente para a pasta pdfs_brutos, j√° com o novo nome padronizado.

**Resultado esperado:**
Ao final da execu√ß√£o, a pasta pdfs_brutos conter√° todos os documentos localizados e renomeados de forma padronizada e rastre√°vel, facilitando os pr√≥ximos passos de extra√ß√£o de texto, organiza√ß√£o tem√°tica e posterior uso pela IA.

In [4]:
# === CONFIGURA√á√ïES ===
PLANILHA = r"C:\Users\isisi\Documents\IAVS_PROJETO\controle_documentos.xlsx"
NOME_ABA = "docs"
PASTA_BRUTOS = r"C:\Users\isisi\Documents\IAVS_PROJETO\pdfs_brutos"

# Garante que a pasta de destino existe
os.makedirs(PASTA_BRUTOS, exist_ok=True)

# Carrega a planilha de controle com os metadados dos documentos
df = pd.read_excel(PLANILHA, sheet_name=NOME_ABA)

# Dicion√°rio para contar quantas vezes uma combina√ß√£o (doen√ßa + tipo) j√° foi usada no nome de arquivos
contador_map = {}

# Itera sobre cada linha da planilha
for _, row in df.iterrows():
    nome_doc = str(row.get("Nome do Documento", "")).strip()
    tipo = str(row.get("Tipo", "")).lower().replace(" ", "_").strip()
    doencas_raw = str(row.get("Doen√ßas abordadas", "")).strip()
    caminho_pdf = str(row.get("Caminho", "")).strip()

    # Ignora entradas incompletas ou gen√©ricas
    if not nome_doc or not tipo or not doencas_raw or not caminho_pdf:
        continue
    if doencas_raw.lower().startswith("diversas") or not os.path.isfile(caminho_pdf):
        continue

    # Separa m√∫ltiplas doen√ßas por delimitadores comuns
    doencas_lista = [d.strip().lower().replace(" ", "_") for d in re.split(r'[;,/]', doencas_raw)]

    for doenca in doencas_lista:
        chave = (doenca, tipo)
        contador_map[chave] = contador_map.get(chave, 0) + 1
        novo_nome = f"{doenca}_{tipo}_{contador_map[chave]}.pdf"
        destino = os.path.join(PASTA_BRUTOS, novo_nome)

        if os.path.exists(destino):
            print(f"‚è≠Ô∏è J√° existente, ignorado: {novo_nome}")
            continue

        try:
            shutil.copy(caminho_pdf, destino)
            print(f"‚úÖ Copiado: {novo_nome}")
        except Exception as e:
            print(f"‚ùå Erro ao copiar {caminho_pdf} ‚Üí {destino}: {e}")


‚è≠Ô∏è J√° existente, ignorado: dengue_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: chikungunya_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: zika_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: febre_amarela_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: febre_do_nilo_ocidental_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: arboviroses_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: covid-19_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: dengue_protocolo_1.pdf
‚è≠Ô∏è J√° existente, ignorado: sarampo_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: rub√©ola_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: coqueluche_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: difteria_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: t√©tano_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: hepatites_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: varicela_nota_t√©cnica_1.pdf
‚è≠Ô∏è J√° existente, ignorado: entre_outras_doen√ßas_imunopreven√≠vei

**Etapa 4 ‚Äì Convers√£o de PDFs para Texto (.txt)**
Este bloco realiza a convers√£o dos arquivos PDF classificados na etapa anterior para arquivos de texto simples (.txt), permitindo que seu conte√∫do possa ser tratado, limpo e analisado posteriormente.

Objetivos:
- Ler os PDFs localizados na pasta pdfs_brutos;

- Verificar se a convers√£o j√° foi feita anteriormente para evitar retrabalho;

- Utilizar a biblioteca pdfplumber para extrair o texto de cada p√°gina;

- Salvar o conte√∫do textual extra√≠do em arquivos .txt com codifica√ß√£o UTF-8;

- Exibir mensagens de progresso, avisos de falhas e medir o tempo total da opera√ß√£o.

*Essa etapa √© fundamental para garantir que todo o conte√∫do dos documentos esteja dispon√≠vel em formato edit√°vel, possibilitando sua limpeza e categoriza√ß√£o por intelig√™ncia artificial.*

In [5]:
# === CONFIGURA√á√ïES ===
PASTA_BRUTOS = r"C:\Users\isisi\Documents\IAVS_PROJETO\pdfs_brutos"
PASTA_CONVERTIDOS = r"C:\Users\isisi\Documents\IAVS_PROJETO\textos_convertidos"

# Garante que a pasta de destino existe
os.makedirs(PASTA_CONVERTIDOS, exist_ok=True)

# ‚è±Ô∏è In√≠cio da contagem de tempo
start = time.time()

# Itera sobre todos os arquivos da pasta de PDFs brutos
for arquivo in os.listdir(PASTA_BRUTOS):
    if arquivo.endswith(".pdf"):
        # Define o nome e caminho do arquivo .txt correspondente
        nome_txt = arquivo.replace(".pdf", ".txt")
        caminho_txt = os.path.join(PASTA_CONVERTIDOS, nome_txt)

        # ‚úÖ Pula se o arquivo j√° foi convertido anteriormente
        if os.path.exists(caminho_txt):
            print(f"‚è≠Ô∏è J√° convertido: {nome_txt}")
            continue

        # Caminho completo do PDF de origem
        caminho_pdf = os.path.join(PASTA_BRUTOS, arquivo)
        print(f"üîÑ Convertendo: {arquivo}")

        try:
            # Abre o PDF com pdfplumber e extrai o texto de cada p√°gina
            with pdfplumber.open(caminho_pdf) as pdf:
                texto = "\n".join(page.extract_text() or '' for page in pdf.pages)

            # Verifica se o texto extra√≠do est√° vazio
            if not texto.strip():
                print(f"‚ö†Ô∏è Texto vazio: {arquivo}")
                continue

            # Salva o texto extra√≠do em um arquivo .txt
            with open(caminho_txt, "w", encoding="utf-8") as f:
                f.write(texto)

            print(f"‚úÖ Texto salvo: {nome_txt}")

        except Exception as e:
            # Exibe erro caso a convers√£o falhe
            print(f"‚ùå Erro ao converter {arquivo}: {e}")

# ‚è±Ô∏è Exibe tempo total de execu√ß√£o da convers√£o
print(f"‚è±Ô∏è Convers√£o finalizada em {time.time() - start:.2f} segundos")


‚è≠Ô∏è J√° convertido: adenov√≠rus_guia_1.txt
‚è≠Ô∏è J√° convertido: arboviroses_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° convertido: cancro_mole_protocolo_1.txt
‚è≠Ô∏è J√° convertido: chikungunya_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° convertido: chikungunya_protocolo_1.txt
‚è≠Ô∏è J√° convertido: chikungunya_protocolo_2.txt
‚è≠Ô∏è J√° convertido: chikungunya_protocolo_3.txt
‚è≠Ô∏è J√° convertido: clam√≠dia_protocolo_1.txt
‚è≠Ô∏è J√° convertido: coinfec√ß√£o_com_hepatite_b_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° convertido: coqueluche_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° convertido: coqueluche_nota_t√©cnica_2.txt
‚è≠Ô∏è J√° convertido: coqueluche_nota_t√©cnica_3.txt
‚è≠Ô∏è J√° convertido: covid-19_guia_1.txt
‚è≠Ô∏è J√° convertido: covid-19_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° convertido: c√≥lera_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° convertido: dengue_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° convertido: dengue_protocolo_1.txt
‚è≠Ô∏è J√° convertido: dengue_protocolo_2.txt
‚è≠Ô∏è J√° convertido: dengue_protocolo_3.txt
‚è≠Ô∏è J√° convertido: d

## Etapa 5 ‚Äì Limpeza dos Textos Extra√≠dos
Ap√≥s a convers√£o dos PDFs em arquivos .txt, esta etapa realiza uma limpeza estruturada do conte√∫do textual para remover ru√≠dos t√≠picos da extra√ß√£o, como espa√ßos excessivos, quebras de linha desnecess√°rias, artefatos de pagina√ß√£o e formata√ß√µes indesejadas.

**Objetivos:**
- Processar todos os arquivos .txt gerados anteriormente;

- Aplicar uma fun√ß√£o de limpeza que corrige:

- Quebras de linha duplas ou m√∫ltiplas;

- Espa√ßos repetidos e tabula√ß√µes;

- Espa√ßos no in√≠cio de linhas;

- Padr√µes comuns de numera√ß√£o de p√°ginas (‚ÄúP√°gina X de Y‚Äù);

- Salvar os textos tratados na pasta textos_limpos, preservando o nome do arquivo original.

*Essa limpeza √© essencial para garantir que o conte√∫do esteja formatado de maneira uniforme e pronto para ser classificado, indexado e posteriormente analisado por modelos de intelig√™ncia artificial.*

In [6]:
# === CONFIGURA√á√ïES ===
PASTA_CONVERTIDOS = r"C:\Users\isisi\Documents\IAVS_PROJETO\textos_convertidos"
PASTA_LIMPOS = r"C:\Users\isisi\Documents\IAVS_PROJETO\textos_limpos"
LOG_DIAGNOSTICO = os.path.join(PASTA_LIMPOS, "log_diagnostico.csv")
os.makedirs(PASTA_LIMPOS, exist_ok=True)

def limpar_texto(texto):
    """
    Realiza limpeza b√°sica do texto extra√≠do:
    - Remove m√∫ltiplas quebras de linha
    - Substitui espa√ßos e tabula√ß√µes repetidas por um √∫nico espa√ßo
    - Remove espa√ßos no in√≠cio das linhas
    - Elimina marca√ß√µes de p√°gina como "P√°gina 3 de 12"
    """
    texto = re.sub(r'\n{2,}', '\n\n', texto)
    texto = re.sub(r'[ \t]+', ' ', texto)
    texto = re.sub(r'^\s+', '', texto, flags=re.MULTILINE)
    texto = re.sub(r'P√°gina\s+\d+\s+de\s+\d+', '', texto, flags=re.IGNORECASE)
    return texto.strip()

def calcular_hash(caminho_arquivo, limite=1024*1024):
    """Calcula hash parcial (1MB) de um arquivo."""
    sha256 = hashlib.sha256()
    with open(caminho_arquivo, 'rb') as f:
        sha256.update(f.read(limite))
    return sha256.hexdigest()

# === CARREGA HASHES J√Å PROCESSADOS DO LOG ===
hash_map = {}
if os.path.exists(LOG_DIAGNOSTICO):
    with open(LOG_DIAGNOSTICO, newline='', encoding='utf-8') as f:
        reader = csv.reader(f)
        next(reader)  # pula o cabe√ßalho
        for linha in reader:
            if linha[0] == "DUPLICADO":
                continue
            hash_map[linha[1]] = linha[3]  # caminho ‚Üí hash salvo

# === PROCESSA ARQUIVOS .TXT ===
log_linhas = []

print(f"Limpando arquivos em: {PASTA_CONVERTIDOS}")
for arquivo in os.listdir(PASTA_CONVERTIDOS):
    if arquivo.endswith(".txt"):
        caminho_origem = os.path.join(PASTA_CONVERTIDOS, arquivo)
        caminho_destino = os.path.join(PASTA_LIMPOS, arquivo)

        hash_origem = calcular_hash(caminho_origem)

        # Se j√° processado e hash bate, pula
        if caminho_origem in hash_map and hash_map[caminho_origem] == hash_origem:
            print(f"‚è≠Ô∏è J√° limpo: {arquivo}")
            continue

        try:
            with open(caminho_origem, "r", encoding="utf-8", errors="ignore") as f:
                conteudo = f.read()

            texto_limpo = limpar_texto(conteudo)

            with open(caminho_destino, "w", encoding="utf-8") as f:
                f.write(texto_limpo)

            print(f"‚úÖ Limpo e salvo: {arquivo}")
            log_linhas.append(["LIMPO", caminho_origem, "Hash original", hash_origem])

        except Exception as e:
            print(f"‚ùå Erro ao processar {arquivo}: {e}")
            log_linhas.append(["ERRO", caminho_origem, "Exce√ß√£o", str(e)])

# === SALVA LOG FINAL ===
with open(LOG_DIAGNOSTICO, mode='a', newline='', encoding='utf-8') as log_csv:
    writer = csv.writer(log_csv)
    if os.stat(LOG_DIAGNOSTICO).st_size == 0:
        writer.writerow(["Tipo", "Arquivo", "Info", "Refer√™ncia/Sugest√£o"])
    writer.writerows(log_linhas)

print("üèÅ Finalizado.")


Limpando arquivos em: C:\Users\isisi\Documents\IAVS_PROJETO\textos_convertidos
‚è≠Ô∏è J√° limpo: adenov√≠rus_guia_1.txt
‚è≠Ô∏è J√° limpo: arboviroses_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° limpo: cancro_mole_protocolo_1.txt
‚è≠Ô∏è J√° limpo: chikungunya_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° limpo: chikungunya_protocolo_1.txt
‚è≠Ô∏è J√° limpo: chikungunya_protocolo_2.txt
‚è≠Ô∏è J√° limpo: chikungunya_protocolo_3.txt
‚è≠Ô∏è J√° limpo: clam√≠dia_protocolo_1.txt
‚è≠Ô∏è J√° limpo: coinfec√ß√£o_com_hepatite_b_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° limpo: coqueluche_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° limpo: coqueluche_nota_t√©cnica_2.txt
‚è≠Ô∏è J√° limpo: coqueluche_nota_t√©cnica_3.txt
‚è≠Ô∏è J√° limpo: covid-19_guia_1.txt
‚è≠Ô∏è J√° limpo: covid-19_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° limpo: c√≥lera_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° limpo: dengue_nota_t√©cnica_1.txt
‚è≠Ô∏è J√° limpo: dengue_protocolo_1.txt
‚è≠Ô∏è J√° limpo: dengue_protocolo_2.txt
‚è≠Ô∏è J√° limpo: dengue_protocolo_3.txt
‚è≠Ô∏è J√° limpo: dengue_protocolo_4.txt

In [7]:
# === CONFIGURA√á√ïES ===
PASTA_ORIGEM = r"C:\Users\isisi\Documents\IAVS_PROJETO\textos_convertidos"
PASTA_DESTINO = r"C:\Users\isisi\Documents\IAVS_PROJETO\textos_limpos"
os.makedirs(PASTA_DESTINO, exist_ok=True)

# === PADR√ïES E S√çMBOLOS A REMOVER ===
CARACTERES_CORROMPIDOS = ['¬É', '¬ñ', '¬ó']

PADROES_LINHAS_REMOVER = [
    r'^P√°gina\s+\d+\s+de\s+\d+',
    r'^ISBN\s+',
    r'^202\d+.*',
    r'^\d{1,3}$',
    r'^[A-Z√Ä-√ö\s]{2,}$',
    r'^http[s]?://',
    r'^Minist√©rio da Sa√∫de',
    r'^Coordena√ß√£o-Geral|^Departamento|^Secretaria|^Editora|^Projeto gr√°fico',
    r'^Ficha Catalogr√°fica',
    r'^Cataloga√ß√£o na fonte',
    r'^Lista de abreviaturas e siglas$',
    r'^Sum√°rio$',
    r'^.*TABELA\s+\d+.*$',
    r'^[^\w\s]*$',
    r'^.{5,}\.{3,}\s*\d{1,3}$',
]

PADROES_TRECHOS_REMOVER = [
    r'Minist√©rio da Sa√∫de.*?www\.saude\.gov\.br.*?\n\n',
    r'¬©? ?202\d+.*?(Creative Commons|Licen√ßa|Reprodu√ß√£o|Distribui√ß√£o).*?\n\n',
    r'Projeto gr√°fico:.*?Revis√£o:.*?\n\n',
]

# === FUN√á√ïES ===

def remover_blocos_de_sumario(texto): #remover blocos de sum√°rio
    """
    Remove linhas que parecem ser sum√°rios, mantendo apenas as linhas recentes.
    Um sum√°rio √© identificado por um padr√£o espec√≠fico de numera√ß√£o e texto.
    """
    linhas = texto.splitlines()
    linhas_filtradas = []
    padrao_sumario = re.compile(r'^\d+(\.\d+)*\s+.+?\.{3,}\s*\d{1,3}$')
    linhas_recentes = []

    for linha in linhas:
        linha_strip = linha.strip()
        if padrao_sumario.match(linha_strip):
            linhas_recentes.append(linha_strip)
            continue
        elif linhas_recentes:
            linhas_recentes = []
        linhas_filtradas.append(linha)

    return "\n".join(linhas_filtradas)

def remover_bloco_institucional(texto): #remover bloco institucional
    match = re.search(r'(?i)\n\s*(1[\.\s]|INTRODU√á√ÉO|APRESENTA√á√ÉO)\b', texto)
    if match:
        return texto[match.start():]
    return texto

def limpar_texto_avancado(texto):
    for char in CARACTERES_CORROMPIDOS:
        texto = texto.replace(char, '')

    for padrao in PADROES_TRECHOS_REMOVER:
        texto = re.sub(padrao, '', texto, flags=re.DOTALL | re.IGNORECASE)

    linhas = texto.splitlines()
    linhas_filtradas = []
    for linha in linhas:
        if any(re.match(p, linha.strip(), re.IGNORECASE) for p in PADROES_LINHAS_REMOVER):
            continue
        if len(linha.strip()) < 3:
            continue
        linhas_filtradas.append(linha)

    texto_base = "\n".join(linhas_filtradas)
    texto_sem_sumario = remover_blocos_de_sumario(texto_base)
    texto_sem_cabecalho = remover_bloco_institucional(texto_sem_sumario)
    texto_final = re.sub(r'\n{2,}', '\n\n', texto_sem_cabecalho)

    return texto_final.strip()

# === EXECU√á√ÉO ===

print(f"üîç Limpando arquivos em: {PASTA_ORIGEM}")
for arquivo in os.listdir(PASTA_ORIGEM):
    if arquivo.endswith(".txt"):
        origem = os.path.join(PASTA_ORIGEM, arquivo)
        destino = os.path.join(PASTA_DESTINO, arquivo)

        with open(origem, "r", encoding="utf-8", errors="ignore") as f:
            conteudo = f.read()

        texto_limpo = limpar_texto_avancado(conteudo)

        with open(destino, "w", encoding="utf-8") as f:
            f.write(texto_limpo)

        print(f"‚úÖ Arquivo limpo e salvo: {arquivo}")

print("üèÅ Limpeza avan√ßada com sum√°rio, ficha institucional e cabe√ßalho finalizada.")


üîç Limpando arquivos em: C:\Users\isisi\Documents\IAVS_PROJETO\textos_convertidos
‚úÖ Arquivo limpo e salvo: adenov√≠rus_guia_1.txt
‚úÖ Arquivo limpo e salvo: arboviroses_nota_t√©cnica_1.txt
‚úÖ Arquivo limpo e salvo: cancro_mole_protocolo_1.txt
‚úÖ Arquivo limpo e salvo: chikungunya_nota_t√©cnica_1.txt
‚úÖ Arquivo limpo e salvo: chikungunya_protocolo_1.txt
‚úÖ Arquivo limpo e salvo: chikungunya_protocolo_2.txt
‚úÖ Arquivo limpo e salvo: chikungunya_protocolo_3.txt
‚úÖ Arquivo limpo e salvo: clam√≠dia_protocolo_1.txt
‚úÖ Arquivo limpo e salvo: coinfec√ß√£o_com_hepatite_b_nota_t√©cnica_1.txt
‚úÖ Arquivo limpo e salvo: coqueluche_nota_t√©cnica_1.txt
‚úÖ Arquivo limpo e salvo: coqueluche_nota_t√©cnica_2.txt
‚úÖ Arquivo limpo e salvo: coqueluche_nota_t√©cnica_3.txt
‚úÖ Arquivo limpo e salvo: covid-19_guia_1.txt
‚úÖ Arquivo limpo e salvo: covid-19_nota_t√©cnica_1.txt
‚úÖ Arquivo limpo e salvo: c√≥lera_nota_t√©cnica_1.txt
‚úÖ Arquivo limpo e salvo: dengue_nota_t√©cnica_1.txt
‚úÖ Arquivo li

In [8]:
# === CONFIGURA√á√ïES ===
# Pasta onde os arquivos limpos est√£o armazenados
PASTA_LIMPOS = r"C:\Users\isisi\Documents\IAVS_PROJETO\textos_limpos" # Pasta de destino para os arquivos limpos
# Caminho do log de sa√≠da
LOG_SAIDA = r"C:\Users\isisi\Documents\IAVS_PROJETO\log_qualidade_limpos.csv" # Garante que a pasta de destino existe

dados = [] # Cria uma lista para armazenar os dados dos arquivos

for arquivo in os.listdir(PASTA_LIMPOS):#para cada arquivo na pasta de arquivos limpos
    # Verifica se o arquivo √© um .txt
    if arquivo.endswith(".txt"):# se o arquivo termina com .txt
        # Define o caminho completo do arquivo
        caminho = os.path.join(PASTA_LIMPOS, arquivo)#concatena o caminho da pasta com o nome do arquivo

        # L√™ o conte√∫do do arquivo
        with open(caminho, "r", encoding="utf-8", errors="ignore") as f:# abre o arquivo para leitura
            # L√™ o conte√∫do do arquivo
            conteudo = f.read()

        n_linhas = len(conteudo.strip().splitlines())# conta o n√∫mero de linhas no conte√∫do
        # Conta o n√∫mero de palavras e o tamanho total do conte√∫do
        # Usa split() para contar palavras, que separa por espa√ßos em branco
        # e len() para contar o n√∫mero total de caracteres
        n_palavras = len(conteudo.split())
        tamanho = len(conteudo)

        status = "‚úÖ OK"
        if tamanho < 500 or n_linhas < 5:
            status = "‚ö†Ô∏è Suspeito (vazio ou ruidoso)"# se o tamanho do conte√∫do for menor que 500 caracteres ou o n√∫mero de linhas for menor que 5, marca como suspeito

        # Adiciona os dados do arquivo √† lista

        dados.append({
            "Arquivo": arquivo,
            "Linhas": n_linhas,
            "Palavras": n_palavras,
            "Caracteres": tamanho,
            "Status": status
        })

# Salva log como CSV
df = pd.DataFrame(dados)
df.to_csv(LOG_SAIDA, index=False, encoding="utf-8")

print(f"üìÑ Log de qualidade salvo em: {LOG_SAIDA}")


üìÑ Log de qualidade salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\log_qualidade_limpos.csv


## Etapa 6 ‚Äì Verifica√ß√£o dos Arquivos Limpos
Esta etapa realiza uma verifica√ß√£o simples e r√°pida para conferir se os arquivos .txt limpos foram gerados corretamente e est√£o dispon√≠veis na pasta de destino (textos_limpos).

**Objetivos:**
- Listar todos os arquivos presentes na pasta textos_limpos;

- Garantir visualmente que o processo de limpeza foi conclu√≠do com sucesso para cada documento convertido.

*Essa etapa funciona como um checkpoint antes de seguir para a organiza√ß√£o final por doen√ßa e tema. Ela ajuda a identificar rapidamente eventuais falhas ou aus√™ncias de arquivos.*

In [9]:
# Exibe no terminal os arquivos que foram salvos ap√≥s a limpeza
print("Arquivos encontrados em PASTA_LIMPOS:")

# Lista o conte√∫do da pasta de textos limpos
print(os.listdir(PASTA_LIMPOS))

Arquivos encontrados em PASTA_LIMPOS:
['adenov√≠rus_guia_1.txt', 'arboviroses_nota_t√©cnica_1.txt', 'cancro_mole_protocolo_1.txt', 'chikungunya_nota_t√©cnica_1.txt', 'chikungunya_protocolo_1.txt', 'chikungunya_protocolo_2.txt', 'chikungunya_protocolo_3.txt', 'clam√≠dia_protocolo_1.txt', 'coinfec√ß√£o_com_hepatite_b_nota_t√©cnica_1.txt', 'coqueluche_nota_t√©cnica_1.txt', 'coqueluche_nota_t√©cnica_2.txt', 'coqueluche_nota_t√©cnica_3.txt', 'covid-19_guia_1.txt', 'covid-19_nota_t√©cnica_1.txt', 'c√≥lera_nota_t√©cnica_1.txt', 'dengue_nota_t√©cnica_1.txt', 'dengue_protocolo_1.txt', 'dengue_protocolo_2.txt', 'dengue_protocolo_3.txt', 'dengue_protocolo_4.txt', 'difteria_nota_t√©cnica_1.txt', 'entre_outras_doen√ßas_imunopreven√≠veis_nota_t√©cnica_1.txt', 'entre_outras_protocolo_1.txt', 'entre_outras_protocolo_2.txt', 'febre_amarela_nota_t√©cnica_1.txt', 'febre_amarela_protocolo_1.txt', 'febre_amarela_protocolo_2.txt', 'febre_amarela_protocolo_3.txt', 'febre_do_nilo_ocidental_nota_t√©cnica_1.txt