# Etapa 5 ‚Äì Apoio √† Avalia√ß√£o da IA

<p align="center">
    <img src="https://img.icons8.com/ios-filled/100/artificial-intelligence.png" width="80" alt="√çcone IA"/>
</p>
Subetapa: Filtragem dos Par√°grafos para Gera√ß√£o de Perguntas

<img src="https://img.icons8.com/ios-filled/50/000000/right--v1.png" width="24" style="vertical-align:middle; margin-right:8px;"/> Objetivo da Subetapa
Durante a prepara√ß√£o do corpus para a gera√ß√£o autom√°tica de perguntas, observou-se que alguns arquivos .txt, mesmo ap√≥s as etapas anteriores de limpeza, ainda continham trechos irrelevantes. Esses trechos, quando enviados ao modelo de NLP, causavam lentid√£o no processamento e geravam perguntas mal formuladas, com baixa utilidade para fins de valida√ß√£o.

Para resolver esse gargalo, foi desenvolvido um script de filtragem sem√¢ntica automatizada. Ele identifica e remove par√°grafos com conte√∫do n√£o t√©cnico ou administrativo, como nomes de autores, contatos institucionais, fichas catalogr√°ficas, endere√ßos e notas editoriais.

**O que o Script Faz**
O script executa as seguintes tarefas:

- L√™ o arquivo `paragrafos_validos_corpus.xlsx`, que cont√©m todos os par√°grafos extra√≠dos dos arquivos .txt considerados v√°lidos estruturalmente.
- Aplica uma fun√ß√£o de filtragem sem√¢ntica (`paragrafo_relevante`):
    - Remove par√°grafos curtos (com menos de 6 palavras).
    - Exclui par√°grafos que contenham padr√µes de texto como:
        - Nomes de autores e respons√°veis t√©cnicos;
        - Endere√ßos e e-mails;
        - Informa√ß√µes de publica√ß√£o (tiragem, edi√ß√£o, vers√£o);
        - Trechos gen√©ricos como ‚Äúanexo‚Äù, ‚Äú√≠ndice‚Äù, ‚Äúap√™ndice‚Äù;
        - Informa√ß√µes institucionais repetitivas (ex: ‚ÄúMinist√©rio da Sa√∫de‚Äù).

**Cria dois novos arquivos:** <img src="https://img.icons8.com/ios-filled/50/000000/document--v1.png" width="24" style="vertical-align:middle; margin-left:8px;"/>

*paragrafos_filtrados_corpus.xlsx: apenas com os par√°grafos considerados relevantes.

relatorio_filtragem_paragrafos.xlsx: com estat√≠sticas da filtragem (totais e percentuais) e amostras dos par√°grafos exclu√≠dos e mantidos.*

# Diagn√≥stico Visual de Duplicados e Nomes Corrompidos

Este script realiza uma varredura completa nos arquivos `.txt` localizados na pasta `corpus_final` (ou outra indicada pelo usu√°rio), com o objetivo de identificar:

- **Arquivos duplicados por conte√∫do**: a partir do c√°lculo de hash parcial dos arquivos (1 MB inicial), o script detecta textos que possuem exatamente o mesmo conte√∫do, ainda que estejam com nomes diferentes.
- **Arquivos com nomes suspeitos ou corrompidos**: s√£o detectadas repeti√ß√µes an√¥malas em nomes como `arquivo_txt_txt_txt_2023.txt`, sugerindo um nome mais limpo.

### Funcionalidades principais

- **Interface gr√°fica interativa**: o usu√°rio escolhe a pasta desejada via bot√£o e visualiza os resultados diretamente na tela.
- **Log autom√°tico**: os resultados do diagn√≥stico s√£o salvos em um arquivo `log_diagnostico.csv`, contendo os arquivos suspeitos de duplica√ß√£o ou com nomes inconsistentes.
- **Execu√ß√£o segura**: o script apenas **l√™** os arquivos ‚Äî nenhuma altera√ß√£o √© feita nos nomes ou conte√∫dos durante o diagn√≥stico.

### Principais fun√ß√µes do script

- `calcular_hash()`: gera uma hash para os primeiros 1MB do conte√∫do do arquivo, permitindo identificar duplica√ß√µes de forma eficiente.
- `normalizar_nome()`: detecta e prop√µe corre√ß√µes para nomes de arquivos com repeti√ß√µes incorretas de padr√µes.
- `diagnosticar_pasta()`: realiza a varredura dos arquivos e imprime os resultados na interface, al√©m de registrar um log.
- `iniciar_interface()`: cria a interface gr√°fica com campos de entrada, bot√µes e √°rea de visualiza√ß√£o dos resultados.

Essa etapa √© essencial para garantir que a base de dados textual final n√£o contenha arquivos redundantes nem nomes mal formatados, facilitando a organiza√ß√£o e os pr√≥ximos passos do projeto.


In [3]:
#carrega as bibliotecas necess√°rias
%pip install transformers sentencepiece tqdm

import pandas as pd # Importa a biblioteca pandas para manipula√ß√£o de dados
import re # Importa a biblioteca re para express√µes regulares
import os # Importa a biblioteca os para intera√ß√µes com o sistema operacional
import hashlib # Importa a biblioteca hashlib para calcular hashes de arquivos
import csv # Importa a biblioteca csv para manipula√ß√£o de arquivos CSV
from pathlib import Path # Importa a classe Path da biblioteca pathlib para manipula√ß√£o de caminhos de arquivos
import tkinter as tk # Importa a biblioteca tkinter para criar interfaces gr√°ficas
from tkinter import filedialog, messagebox, scrolledtext # Importa componentes espec√≠ficos da biblioteca tkinter para di√°logos de arquivos, mensagens e caixas de texto rol√°veis
from openpyxl.cell.cell import ILLEGAL_CHARACTERS_RE # Importa a express√£o regular para caracteres ilegais em nomes de arquivos do openpyxl
import torch # Importa a biblioteca torch para computa√ß√£o em tensores
from transformers import T5Tokenizer, T5ForConditionalGeneration # Importa o tokenizador e o modelo T5 da biblioteca transformers
from datetime import datetime# Importa a classe datetime da biblioteca datetime para manipula√ß√£o de datas e horas
from tqdm import tqdm # Importa a biblioteca tqdm para exibir barras de progresso

Note: you may need to restart the kernel to use updated packages.


In [None]:
#Extra√ß√£o e limpeza de texto Diagn√≥stico visual de duplicados e nomes corrompidos
# === FUN√á√ïES AUXILIARES ===

def calcular_hash(caminho_arquivo, limite=1024*1024):#esta etapa tem como iobjetivo calcular o hash de um arquivo para identificar duplicados
    """Calcula hash de uma parte do arquivo (1 MB por padr√£o) para diagn√≥stico r√°pido."""
    sha256 = hashlib.sha256()
    with open(caminho_arquivo, 'rb') as f:
        sha256.update(f.read(limite))
    return sha256.hexdigest()

def normalizar_nome(nome):#essa etapa busca corrigir nomes de arquivos que podem estar corrompidos ou com formata√ß√£o estranha
    """Remove repeti√ß√µes consecutivas de sufixos."""
    padrao = r'(txt_\w+\d{4})+'
    return re.sub(padrao, lambda m: m.group(1), nome)

def diagnosticar_pasta(pasta_raiz, saida_texto):
    pasta_raiz = Path(pasta_raiz)
    hash_map = {}
    log_linhas = []
    log_path = pasta_raiz / "log_diagnostico.csv"

    saida_texto.insert(tk.END, f"üîç Diagn√≥stico em: {pasta_raiz}\n")
    saida_texto.insert(tk.END, "Apenas leitura ‚Äî nenhum arquivo ser√° alterado.\n\n")
    saida_texto.update()

    for caminho_arquivo in pasta_raiz.rglob("*.txt"):
        hash_arquivo = calcular_hash(caminho_arquivo)
        nome_original = caminho_arquivo.name
        caminho_pasta = caminho_arquivo.parent

        # Verifica duplicidade de conte√∫do
        if hash_arquivo in hash_map:
            saida_texto.insert(tk.END, f"‚ö†Ô∏è Poss√≠vel duplicado: {nome_original} (igual a {hash_map[hash_arquivo].name})\n")
            log_linhas.append(["DUPLICADO", str(caminho_arquivo), "Mesma hash de", str(hash_map[hash_arquivo])])
        else:
            hash_map[hash_arquivo] = caminho_arquivo

        # Verifica nome corrompido
        nome_corrigido = normalizar_nome(nome_original)
        if nome_corrigido != nome_original:
            saida_texto.insert(tk.END, f"üîÅ Nome suspeito: {nome_original} ‚Üí Sugerido: {nome_corrigido}\n")
            log_linhas.append(["NOME_CORROMPIDO", str(caminho_arquivo), "Sugerido", nome_corrigido])

    with open(log_path, mode='w', newline='', encoding='utf-8') as log_csv:
        writer = csv.writer(log_csv)
        writer.writerow(["Tipo", "Arquivo", "Info", "Refer√™ncia/Sugest√£o"])
        writer.writerows(log_linhas)

    saida_texto.insert(tk.END, f"\nüìÑ Log salvo em: {log_path}\n")
    saida_texto.insert(tk.END, "‚úÖ Diagn√≥stico conclu√≠do.\n")
    saida_texto.update()

# === INTERFACE GR√ÅFICA ===

def iniciar_interface():
    def escolher_pasta():
        pasta = filedialog.askdirectory(title="Selecione a pasta 'corpus_final'")
        if pasta:
            entrada_pasta.delete(0, tk.END)
            entrada_pasta.insert(0, pasta)

    def executar_diagnostico():
        pasta_escolhida = entrada_pasta.get()
        if not os.path.isdir(pasta_escolhida):
            messagebox.showerror("Erro", "Selecione uma pasta v√°lida.")
            return
        saida_texto.delete(1.0, tk.END)
        diagnosticar_pasta(pasta_escolhida, saida_texto)

    janela = tk.Tk()
    janela.title("üîé Diagn√≥stico de Arquivos Duplicados e Nomes Corrompidos")

    tk.Label(janela, text="üìÅ Pasta Base:").pack(pady=5)
    entrada_pasta = tk.Entry(janela, width=60)
    entrada_pasta.pack()
    tk.Button(janela, text="Selecionar Pasta", command=escolher_pasta).pack(pady=5)

    tk.Button(janela, text="üîç Executar Diagn√≥stico", command=executar_diagnostico, bg="blue", fg="white").pack(pady=10)

    saida_texto = scrolledtext.ScrolledText(janela, width=100, height=25)
    saida_texto.pack(padx=10, pady=10)

    janela.mainloop()

# Rodar
if __name__ == "__main__":
    iniciar_interface()


#  A√ß√µes de Corre√ß√£o com Base no Diagn√≥stico

<p align="center">
    <img src="https://img.icons8.com/fluency/96/checked--v1.png" width="80" alt="Corre√ß√£o"/>
</p>

Este script executa as a√ß√µes sugeridas pelo diagn√≥stico anterior (`log_diagnostico.csv`), removendo arquivos duplicados reais e renomeando aqueles com nomes corrompidos. Ele deve ser rodado **logo ap√≥s a Etapa 4**.

### O que o script faz

- **L√™ o arquivo de log** gerado na etapa anterior (`log_diagnostico.csv`), que cont√©m os arquivos identificados como duplicados ou com nomes suspeitos.
- **Remove arquivos duplicados** de fato, com base no conte√∫do (hash), mantendo apenas uma c√≥pia.
- **Renomeia arquivos** com nomes corrompidos, normalizando sufixos repetidos. Se o nome sugerido j√° existir, o script adiciona um sufixo incremental (`_1`, `_2`, etc.) para evitar sobrescrita.
- **Gera um novo log (`log_execucao.csv`)**, registrando todas as a√ß√µes realizadas ou ignoradas (com justificativa).

### Detalhes t√©cnicos

- Os caminhos dos arquivos s√£o tratados com `Path` para garantir compatibilidade e seguran√ßa.
- Em caso de erro (como falha ao excluir ou renomear), o erro √© capturado e registrado no log de execu√ß√£o.
- O script imprime no terminal as a√ß√µes realizadas para acompanhamento visual.

### Exemplo de a√ß√µes realizadas

| Tipo           | Descri√ß√£o                                               |
|----------------|----------------------------------------------------------|
| REMOVIDO       | Arquivo duplicado foi deletado                          |
| RENOMEADO      | Arquivo com nome corrompido foi renomeado corretamente  |
| IGNORADO       | Arquivo n√£o encontrado no caminho indicado              |
| ERRO           | Algum erro impediu a a√ß√£o (detalhes no log)             |

Esta etapa complementa o diagn√≥stico anterior ao aplicar efetivamente as corre√ß√µes necess√°rias na pasta `corpus_final`, preparando os arquivos para uso limpo e padronizado no projeto IAVS.


In [None]:
#executar_log_diagnostico remove duplicatas reais e renomeia arquivos com nome corrompido.Logo ap√≥s o diagn√≥stico

# === CONFIGURA√á√ÉO ===
PASTA_BASE = Path(r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final")  # ajuste se necess√°rio
CAMINHO_LOG_DIAGNOSTICO = PASTA_BASE / "log_diagnostico.csv"# caminho do log de diagn√≥stico
CAMINHO_LOG_EXECUCAO = PASTA_BASE / "log_execucao.csv" # caminho do log de execu√ß√£o

# === LEITURA DO LOG ===
with open(CAMINHO_LOG_DIAGNOSTICO, encoding='utf-8') as f: # abre o arquivo de log de diagn√≥stico
    leitor = csv.DictReader(f)
    acoes = list(leitor)

# === EXECU√á√ÉO DAS A√á√ïES ===
log_execucao = [] # lista para armazenar o log de execu√ß√£o

for linha in acoes: # itera sobre cada linha do log de diagn√≥stico
    tipo = linha['Tipo']
    caminho_str = linha['Arquivo']
    caminho_arquivo = Path(caminho_str)

    if not caminho_arquivo.exists(): # verifica se o arquivo existe
        log_execucao.append(["IGNORADO", caminho_str, "Arquivo n√£o encontrado"])
        continue

    if tipo == "DUPLICADO": # se o tipo for duplicado
        try:
            caminho_arquivo.unlink()
            log_execucao.append(["REMOVIDO", caminho_str, "Duplicata removida"])
            print(f"üóëÔ∏è Removido: {caminho_str}")
        except Exception as e: # tenta remover o arquivo
            log_execucao.append(["ERRO", caminho_str, f"Erro ao remover: {e}"])

    elif tipo == "NOME_CORROMPIDO": # se o tipo for nome corrompido
        sugestao = linha['Refer√™ncia/Sugest√£o']
        novo_caminho = caminho_arquivo.parent / sugestao
        contador = 1
        while novo_caminho.exists(): # verifica se o novo caminho j√° existe
            novo_caminho = caminho_arquivo.parent / f"{sugestao}_{contador}.txt"
            contador += 1
        try:# tenta renomear o arquivo
            caminho_arquivo.rename(novo_caminho)
            log_execucao.append(["RENOMEADO", caminho_str, f"Novo nome: {novo_caminho.name}"])
            print(f"‚úèÔ∏è Renomeado: {caminho_arquivo.name} ‚Üí {novo_caminho.name}")
        except Exception as e:
            log_execucao.append(["ERRO", caminho_str, f"Erro ao renomear: {e}"])

# === SALVA LOG FINAL ===
with open(CAMINHO_LOG_EXECUCAO, mode='w', newline='', encoding='utf-8') as f: # abre o arquivo de log de execu√ß√£o
    writer = csv.writer(f)
    writer.writerow(["A√ß√£o", "Arquivo", "Detalhes"])
    writer.writerows(log_execucao)

print(f"\n‚úÖ Execu√ß√£o conclu√≠da. Log salvo em: {CAMINHO_LOG_EXECUCAO}")


‚úÖ Execu√ß√£o conclu√≠da. Log salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\log_execucao.csv


# Extra√ß√£o e Valida√ß√£o de Par√°grafos V√°lidos

<p align="center">
    <img src="https://img.icons8.com/fluency/96/checked-checkbox.png" width="80" alt="Valida√ß√£o de Par√°grafos"/>
</p>

Este script percorre todos os arquivos `.txt` na pasta `corpus_final`, extrai os par√°grafos brutos e filtra apenas os **par√°grafos considerados v√°lidos**, com o objetivo de construir uma base estruturada para an√°lise e gera√ß√£o de perguntas.

### Objetivos da etapa

- Quebrar corretamente os textos em par√°grafos sem ru√≠dos de quebra de linha mal formatada.
- Eliminar blocos irrelevantes como fichas t√©cnicas, autoria, licen√ßas e se√ß√µes institucionais.
- Salvar os par√°grafos limpos em formatos compat√≠veis com an√°lise tabular (Excel e CSV).

### Crit√©rios de validade de par√°grafos

Um par√°grafo √© considerado **inv√°lido** se:
- Cont√©m menos de 5 palavras;
- √â composto apenas por n√∫meros ou bullets (ex: "‚Ä¢", "*");
- Cont√©m **dois ou mais termos institucionais** como "minist√©rio", "licen√ßa", "tiragem", "autores", etc.

### Funcionalidades do script

- `quebrar_paragrafos_brutos()`: divide o texto com base em pontua√ß√£o e letras mai√∫sculas, simulando a quebra natural de par√°grafos.
- `paragrafo_valido()`: aplica os filtros para garantir que apenas conte√∫do relevante permane√ßa.
- `limpar_caracteres_invalidos()`: remove s√≠mbolos que podem causar erro na exporta√ß√£o para Excel.

### Arquivos gerados

- **`paragrafos_validos_corpus.xlsx`**: cont√©m os par√°grafos v√°lidos organizados por arquivo e n√∫mero do par√°grafo.
- **`paragrafos_validos_corpus.csv`**: vers√£o em CSV dos mesmos dados.
- **`diagnostico_paragrafos_por_arquivo.xlsx`**: relat√≥rio com o total de par√°grafos lidos, quantos foram mantidos e quantos foram descartados por arquivo.

### Exemplo de estrutura da sa√≠da:

| Arquivo               | N√∫mero do par√°grafo | Par√°grafo                            |
|-----------------------|---------------------|--------------------------------------|
| dengue_guia2023.txt   | 1                   | A dengue √© uma doen√ßa viral...       |
| dengue_guia2023.txt   | 2                   | A transmiss√£o ocorre pela picada... |

| Arquivo               | Total lidos | V√°lidos mantidos | Descartados |
|-----------------------|-------------|------------------|-------------|
| dengue_guia2023.txt   | 150         | 87               | 63          |

Essa etapa garante que o corpus textual a ser utilizado em an√°lises futuras esteja **limpo, bem segmentado e sem conte√∫dos irrelevantes**, servindo como base s√≥lida para tarefas como gera√ß√£o autom√°tica de perguntas e avalia√ß√£o de IA.


In [None]:
# === CONFIGURA√á√ÉO ===
PASTA_CORPUS = Path(r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final")
ARQUIVO_SAIDA = PASTA_CORPUS / "paragrafos_validos_corpus.xlsx"
ARQUIVO_DIAGNOSTICO = PASTA_CORPUS / "diagnostico_paragrafos_por_arquivo.xlsx"

# === FUN√á√ïES ===
def paragrafo_valido(paragrafo):
    paragrafo = paragrafo.strip()
    if len(paragrafo.split()) < 5:
        return False
    if re.match(r'^(\d+|[‚Ä¢*])$', paragrafo):  # apenas n√∫mero ou bullet
        return False
    if sum(1 for palavra in ["minist√©rio", "licen√ßa", "tiragem", "elabora√ß√£o", "cep", "autores", "vers√£o", "editora√ß√£o"] if palavra in paragrafo.lower()) >= 2:
        return False
    return True

def limpar_caracteres_invalidos(texto):
    return ILLEGAL_CHARACTERS_RE.sub("", texto)

def quebrar_paragrafos_brutos(texto):
    # Substitui quebras de linha simples por espa√ßo (evita quebra errada)
    texto = texto.replace("\n", " ")
    # Insere quebra for√ßada ap√≥s ponto final seguido de espa√ßo e letra mai√∫scula
    texto = re.sub(r'\. (?=[A-Z√Å√â√ç√ì√ö√á])', '.\n\n', texto)
    # Divide onde houver \n\n for√ßado
    return [p.strip() for p in texto.split('\n\n') if p.strip()]

# === PROCESSAMENTO ===
dados = []
diagnostico = []

for caminho_txt in PASTA_CORPUS.rglob("*.txt"):
    try:
        with open(caminho_txt, "r", encoding="utf-8") as f:
            conteudo = f.read()

        # Divide usando segmenta√ß√£o for√ßada
        paragrafos_raw = quebrar_paragrafos_brutos(conteudo)
        paragrafos_validos = [p for p in paragrafos_raw if paragrafo_valido(p)]

        for i, paragrafo in enumerate(paragrafos_validos, 1):
            dados.append({
                "Arquivo": caminho_txt.name,
                "Par√°grafo": limpar_caracteres_invalidos(paragrafo),
                "N√∫mero do par√°grafo": i
            })

        diagnostico.append({
            "Arquivo": caminho_txt.name,
            "Total lidos": len(paragrafos_raw),
            "V√°lidos mantidos": len(paragrafos_validos),
            "Descartados": len(paragrafos_raw) - len(paragrafos_validos)
        })

    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao processar {caminho_txt.name}: {e}")

# === EXPORTA√á√ÉO ===
df_paragrafos = pd.DataFrame(dados)
df_paragrafos.to_excel(ARQUIVO_SAIDA, index=False)

df_diag = pd.DataFrame(diagnostico)
df_diag.to_excel(ARQUIVO_DIAGNOSTICO, index=False)

ARQUIVO_CSV = PASTA_CORPUS / "paragrafos_validos_corpus.csv"
df_paragrafos.to_csv(ARQUIVO_CSV, index=False, encoding="utf-8")
print(f"üìÑ Par√°grafos v√°lidos salvos em {ARQUIVO_SAIDA}")
print(f"‚úÖ {len(df_paragrafos)} par√°grafos v√°lidos salvos em {ARQUIVO_SAIDA}")
print(f"ü©∫ Diagn√≥stico salvo em {ARQUIVO_DIAGNOSTICO}")

üìÑ Par√°grafos v√°lidos salvos em C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\paragrafos_validos_corpus.xlsx
‚úÖ 20106 par√°grafos v√°lidos salvos em C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\paragrafos_validos_corpus.xlsx
ü©∫ Diagn√≥stico salvo em C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\diagnostico_paragrafos_por_arquivo.xlsx


# Consolida√ß√£o e Resumo dos Arquivos √önicos (.CSV)

<p align="center">
    <img src="https://img.icons8.com/ios-filled/100/document--v1.png" width="80" alt="Arquivos √önicos"/>
</p>

Esta etapa realiza a consolida√ß√£o e an√°lise dos arquivos presentes em `corpus_final`, utilizando o arquivo de entrada `resumo_corpus_final.csv`, que cont√©m metadados como tamanho, n√∫mero de linhas e caracteres por arquivo.

### Objetivos da etapa

- **Identificar e manter apenas arquivos √∫nicos**, mesmo quando h√° nomes duplicados ou corrompidos (ex: `dengue_txttxt.txt`).
- **Agrupar e sumarizar por subpasta**, fornecendo uma vis√£o geral da distribui√ß√£o de documentos por tema ou doen√ßa.

### O que o script faz

- **Importa o CSV de entrada** com os metadados de todos os arquivos `.txt`.
- **Normaliza os nomes de arquivo**, criando a coluna `Arquivo_base` para eliminar duplica√ß√µes.
- **Filtra os arquivos √∫nicos** por subpasta e nome base.
- **Agrupa por subpasta**, calculando:
  - Total de arquivos √∫nicos
  - Tamanho total (bytes)
  - M√©dia de linhas por arquivo
  - M√©dia de caracteres por arquivo

### Arquivos gerados

- `resumo_arquivos_unicos.csv`: lista dos arquivos √∫nicos por subpasta.
- `resumo_por_subpasta.csv`: tabela de resumo consolidado por subpasta.

| Subpasta    | Total de arquivos √∫nicos | Tamanho total (bytes) | M√©dia de linhas | M√©dia de caracteres |
|-------------|---------------------------|------------------------|------------------|----------------------|
| dengue      | 8                         | 153000                 | 117              | 5300                 |
| tuberculose | 6                         | 94000                  | 98               | 4100                 |

### Observa√ß√µes

- A deduplica√ß√£o considera tanto o nome quanto a subpasta.
- Os arquivos finais est√£o em formato `.csv`, permitindo f√°cil importa√ß√£o por sistemas externos, planilhas e pain√©is.
- Esta etapa depende da consist√™ncia dos nomes gerados nas etapas anteriores (corre√ß√£o e diagn√≥stico).

O resultado √© um panorama claro e confi√°vel da composi√ß√£o do corpus final, essencial para valida√ß√µes e planejamentos posteriores.


In [None]:
# === CONFIGURA√á√ÉO ===
PASTA_BASE = Path(r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final") #identifica a pasta base onde os arquivos est√£o localizados
ARQUIVO_ENTRADA = PASTA_BASE / "resumo_corpus_final.csv"# caminho do arquivo CSV de entrada com o resumo dos arquivos
ARQUIVO_UNICOS = PASTA_BASE / "resumo_arquivos_unicos.csv"# caminho do arquivo de sa√≠da com os arquivos √∫nicos
ARQUIVO_AGREGADO = PASTA_BASE / "resumo_por_subpasta.csv" # caminho do arquivo de sa√≠da com o resumo por subpasta

# === LEITURA DO ARQUIVO DE RESUMO ===
df = pd.read_csv(ARQUIVO_ENTRADA)

# === REMOVER DUPLICATAS POR NOME BASE DO ARQUIVO ===
# Extrai o nome base (sem partes repetidas)
df["Arquivo_base"] = df["Arquivo"].str.extract(r"^(.+?)(?:_?txt)+(?:\.txt)?$", expand=False).str.strip()#aqui, usamos uma express√£o regular para extrair o nome base do arquivo, removendo partes repetidas como "_txt" ou ".txt". Isso ajuda a identificar arquivos com nomes semelhantes.
df_unicos = df.drop_duplicates(subset=["Subpasta", "Arquivo_base"])#j√° aqui, removemos duplicatas com base na subpasta e no nome base do arquivo. Isso garante que apenas um arquivo por subpasta e nome base seja mantido.

# === AGRUPAMENTO POR SUBPASTA ===
# Agrupa os dados por subpasta e calcula as estat√≠sticas desejadas
df_grupo = df_unicos.groupby("Subpasta").agg({
    "Arquivo": "count",
    "Tamanho (bytes)": "sum",
    "N¬∫ de linhas": "mean",
    "N¬∫ de caracteres": "mean"
}).reset_index()

df_grupo = df_grupo.rename(columns={
    "Arquivo": "Total de arquivos √∫nicos",
    "Tamanho (bytes)": "Tamanho total (bytes)",
    "N¬∫ de linhas": "M√©dia de linhas",
    "N¬∫ de caracteres": "M√©dia de caracteres"
})

# === EXPORTA√á√ÉO ===
# (Removido: df_unicos.to_excel(ARQUIVO_UNICOS, index=False))
df_unicos.to_csv(ARQUIVO_UNICOS, index=False, encoding="utf-8")
df_grupo.to_csv(ARQUIVO_AGREGADO, index=False, encoding="utf-8")

print(f"‚úÖ Arquivo √∫nico salvo em: {ARQUIVO_UNICOS}")
print(f"üìä Resumo por subpasta salvo em: {ARQUIVO_AGREGADO}")

ERROR! Session/line number was not unique in database. History logging moved to new session 39
‚úÖ Arquivo √∫nico salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\resumo_arquivos_unicos.xlsx
üìä Resumo por subpasta salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\resumo_por_subpasta.xlsx


# Gera√ß√£o do Corpus Unificado (`corpus_unificado.txt`)

<p align="center">
  <img src="https://img.icons8.com/ios-filled/100/idea.png" width="80" alt="L√¢mpada - Ideia"/>
</p>

Ap√≥s as etapas de extra√ß√£o, limpeza, deduplica√ß√£o e valida√ß√£o dos arquivos `.txt`, esta etapa consolida todo o conte√∫do textual da pasta `corpus_final` em um √∫nico arquivo chamado `corpus_unificado.txt`.

### Objetivos da etapa

- **Agrupar todos os arquivos limpos** em um √∫nico arquivo de texto.
- **Preservar a estrutura organizacional** dos documentos, mantendo a identifica√ß√£o por subpasta (tema/doen√ßa) e nome do arquivo.
- **Facilitar a inspe√ß√£o visual**, revis√£o manual ou busca textual do corpus consolidado.

### O que o script faz

- Percorre recursivamente todos os arquivos `.txt` da pasta `corpus_final`.
- Ignora arquivos muito curtos (menos de 50 caracteres), que provavelmente s√£o inv√°lidos ou vazios.
- Para cada arquivo v√°lido:
  - L√™ o conte√∫do e remove espa√ßos em branco no in√≠cio e fim.
  - Identifica o nome do arquivo e a subpasta a que pertence.
  - Adiciona ao `corpus_unificado.txt` com um cabe√ßalho no formato:

    ### Arquivo: nome_do_arquivo.txt | Subpasta: nome_da_subpasta
    ```

- Salva o resultado em `corpus_final/corpus_unificado.txt`.

### Finalidade do arquivo `corpus_unificado.txt`

- Permite uma **valida√ß√£o r√°pida do conte√∫do final** do corpus.
- Pode ser aberto em qualquer editor de texto para:
  - Revis√£o por especialistas;
  - Busca de termos relevantes;
  - Confer√™ncia de organiza√ß√£o e integridade textual;
  - Gera√ß√£o de √≠ndices ou relat√≥rios.

### Exemplo de estrutura no arquivo final

Arquivo: dengue_transmissao.txt | Subpasta: dengue
A dengue √© uma doen√ßa viral transmitida principalmente por mosquitos do g√™nero Aedes...

Arquivo: hanseniase_tratamento.txt | Subpasta: hanseniase
O tratamento da hansen√≠ase √© ofertado gratuitamente pelo SUS e baseado na poliquimioterapia...


### Observa√ß√µes

- O script pode ser executado sempre que houver atualiza√ß√£o nos textos limpos.
- Ele n√£o altera os arquivos originais, apenas l√™ e concatena.
- √ötil para revisar o corpus como um todo sem precisar abrir os arquivos individualmente.

Esta etapa finaliza a constru√ß√£o do corpus textual unificado, sendo um ponto de partida para processos de an√°lise autom√°tica, revis√£o qualitativa ou auditorias de conte√∫do.

In [None]:
# === CONFIGURA√á√ïES ===
PASTA_CORPUS = Path(r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final")# identifica a pasta base onde os arquivos est√£o localizados
ARQUIVO_SAIDA = PASTA_CORPUS / "corpus_unificado.txt"# caminho do arquivo de sa√≠da onde o corpus unificado ser√° salvo

# === UNIFICAR CONTE√öDO ===
with open(ARQUIVO_SAIDA, "w", encoding="utf-8") as arquivo_saida: # abre o arquivo de sa√≠da para escrita
    for caminho_txt in PASTA_CORPUS.rglob("*.txt"):
        try:
            with open(caminho_txt, "r", encoding="utf-8") as f:
                conteudo = f.read().strip()

            if len(conteudo) < 50:
                continue  # ignora arquivos muito curtos

            nome_arquivo = caminho_txt.name
            subpasta = caminho_txt.parent.name

            bloco = f"\n\n### Arquivo: {nome_arquivo} | Subpasta: {subpasta}\n\n{conteudo}\n\n"
            arquivo_saida.write(bloco)

        except Exception as e:
            print(f"Erro ao ler {caminho_txt.name}: {e}") # ignora erros de leitura

print(f"‚úÖ Corpus unificado salvo em: {ARQUIVO_SAIDA}")

‚úÖ Corpus unificado salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\corpus_unificado.txt


# <img src="https://img.icons8.com/ios-filled/100/document--v1.png" width="40" style="vertical-align:middle; margin-right:8px;"/> Filtragem Sem√¢ntica R√≠gida dos Par√°grafos


Esta etapa aplica uma filtragem sem√¢ntica rigorosa ao conjunto de par√°grafos v√°lidos previamente extra√≠dos, com o objetivo de manter **apenas os trechos realmente relevantes para an√°lise textual ou treinamento de modelos de IA**.

### Objetivos da etapa

- **Descartar par√°grafos institucionais ou t√©cnicos irrelevantes**, como autoria, endere√ßo, ficha catalogr√°fica e licenciamento.
- **Evitar par√°grafos com conte√∫do residual**, como listas de anexo, sum√°rio ou campos vazios.
- **Aplicar um filtro mais protetivo para seguran√ßa e qualidade** do corpus final.

### Funcionalidades do script

- **Leitura do arquivo `paragrafos_validos_corpus.csv`**, que cont√©m todos os par√°grafos classificados como v√°lidos em etapas anteriores.
- **Aplica√ß√£o de filtros baseados em regras lingu√≠sticas e estruturais**, incluindo:
  - Tamanho m√°ximo de 3000 caracteres.
  - Exclus√£o por presen√ßa de padr√µes indesej√°veis (ex: ‚Äúnome do autor‚Äù, ‚Äúwww.‚Äù, ‚Äúminist√©rio da sa√∫de‚Äù, ‚Äútiragem‚Äù, ‚Äú√≠ndice‚Äù, etc.).
  - Exclus√£o de par√°grafos com menos de 6 palavras.

- **Separa√ß√£o dos dados** em dois conjuntos:
  - `paragrafos_filtrados_corpus.csv`: apenas os par√°grafos considerados relevantes.
  - `paragrafos_descartados.csv`: par√°grafos eliminados por n√£o atenderem aos crit√©rios.

- **Gera√ß√£o de um relat√≥rio quantitativo (`relatorio_filtragem_paragrafos.csv`)** com estat√≠sticas resumidas do processo de filtragem.

### Exemplo de padr√µes que s√£o filtrados

| Tipo de conte√∫do exclu√≠do           | Exemplo de padr√£o identificado                     |
|-------------------------------------|----------------------------------------------------|
| Identifica√ß√£o institucional         | `Minist√©rio da Sa√∫de`, `Coordena√ß√£o-Geral`        |
| Autoria ou ficha t√©cnica            | `Autores:`, `Revis√£o:`, `Nome do autor:`          |
| Informa√ß√µes log√≠sticas e endere√ßo  | `CEP:`, `Quadra`, `www.saude.gov.br`              |
| Refer√™ncias editoriais             | `Esta obra √© licenciada...`, `Edi√ß√£o 2023`        |
| T√≥picos n√£o informativos           | `Anexo`, `√çndice`, `Ap√™ndice`                     |

### Arquivos gerados

- **`paragrafos_filtrados_corpus.csv`** ‚Äì Corpus final com apenas par√°grafos relevantes.
- **`paragrafos_descartados.csv`** ‚Äì Arquivo com todos os par√°grafos exclu√≠dos na filtragem.
- **`relatorio_filtragem_paragrafos.csv`** ‚Äì Relat√≥rio estat√≠stico com o total de par√°grafos, mantidos, exclu√≠dos e suas respectivas propor√ß√µes.

| M√©trica         | Valor     |
|-----------------|-----------|
| Total original  | 12.000    |
| Total mantido   | 7.400     |
| Total exclu√≠do  | 4.600     |
| % mantido       | 61.67%    |
| % exclu√≠do      | 38.33%    |

### Observa√ß√µes

- O filtro √© propositalmente conservador, priorizando precis√£o em detrimento de abrang√™ncia.
- Os crit√©rios podem ser ajustados posteriormente conforme o feedback da equipe t√©cnica ou dos especialistas em conte√∫do.

Esta etapa garante que o corpus final esteja limpo, consistente e focado no conte√∫do t√©cnico-informativo, evitando ru√≠dos que comprometam a qualidade da an√°lise ou da aplica√ß√£o de intelig√™ncia artificial.


In [None]:
# === CAMINHOS ===
PASTA = r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final" # identifica a pasta base onde os arquivos est√£o localizados
ARQUIVO_ENTRADA = os.path.join(PASTA, "paragrafos_validos_corpus.csv") # caminho do arquivo CSV de entrada com os par√°grafos v√°lidos
ARQUIVO_SAIDA = os.path.join(PASTA, "paragrafos_filtrados_corpus.csv") # caminho do arquivo CSV de sa√≠da com os par√°grafos filtrados
ARQUIVO_RELATORIO = os.path.join(PASTA, "relatorio_filtragem_paragrafos.csv") # caminho do arquivo de relat√≥rio com estat√≠sticas da filtragem

# === FILTRO SEM√ÇNTICO COM PROTE√á√ïES R√çGIDAS ===
def paragrafo_relevante(texto):
    texto_limpo = str(texto).strip()

    if len(texto_limpo) > 3000:  # ainda mais seguro
        return False
    if ILLEGAL_CHARACTERS_RE.search(texto_limpo):
        return False

    texto_limpo = texto_limpo.lower()
    padroes_excluir = [
        r'nomes?[:\-]',
        r'e-mail|site:|www\.',
        r'cep:|quadra|srtv|endere',
        r'coordena√ß√£o-geral|departamento',
        r'minist√©rio da sa√∫de',
        r'esta obra.*licen√ßa',
        r'(nome|cargo) do autor',
        r'sa√∫de p√∫blica brasileira.*acesso',
        r'\b(anexo|ap√™ndice|√≠ndice)\b',
        r'(autores?|vers√£o|tiragem|edi√ß√£o).*202[0-9]',
        r'(sigla|significado) de ',
        r'(organizador|respons√°vel|revis√£o)',
    ]
    for padrao in padroes_excluir:
        if re.search(padrao, texto_limpo):
            return False
    if len(texto_limpo.split()) < 6:
        return False
    return True

# === LEITURA ===
df = pd.read_csv(ARQUIVO_ENTRADA)
df["Relevante"] = df["Par√°grafo"].astype(str).apply(paragrafo_relevante)

# === SEPARA√á√ÉO ===
df_filtrado = df[df["Relevante"]].drop(columns=["Relevante"])
df_excluido = df[~df["Relevante"]].drop(columns=["Relevante"])

# === SALVAR RESULTADOS EM .CSV ===
df_filtrado.to_csv(ARQUIVO_SAIDA, index=False, encoding="utf-8")
df_excluido.to_csv(PASTA + "/paragrafos_descartados.csv", index=False, encoding="utf-8")

# === RELAT√ìRIO RESUMIDO ===
resumo = pd.DataFrame([{
    "Total original": len(df),
    "Total mantido": len(df_filtrado),
    "Total exclu√≠do": len(df_excluido),
    "% mantido": round(100 * len(df_filtrado) / len(df), 2),
    "% exclu√≠do": round(100 * len(df_excluido) / len(df), 2),
}])
resumo.to_csv(ARQUIVO_RELATORIO, index=False)

print(f"‚úÖ CSV salvo com {len(df_filtrado)} par√°grafos: {ARQUIVO_SAIDA}")
print(f"üìä Relat√≥rio salvo: {ARQUIVO_RELATORIO}")



‚úÖ CSV salvo com 17640 par√°grafos: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\paragrafos_filtrados_corpus.csv
üìä Relat√≥rio salvo: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\relatorio_filtragem_paragrafos.csv


# <img src="https://img.icons8.com/ios-filled/100/ask-question.png" width="40" style="vertical-align:middle; margin-right:8px;"/> Gera√ß√£o de Perguntas com Modelo T5

Esta etapa aplica **gera√ß√£o autom√°tica de perguntas** a partir dos par√°grafos previamente filtrados, utilizando o modelo de linguagem `valhalla/t5-base-qg-hl`. O objetivo √© criar uma base de quest√µes que poder√° ser usada para treinamento, avalia√ß√£o de IA ou an√°lise de compreens√£o textual.

O **T5 (Text-to-Text Transfer Transformer)** √© um modelo de linguagem desenvolvido pelo Google que converte todas as tarefas de processamento de linguagem natural em um formato de entrada e sa√≠da de texto para texto. Isso significa que, para tarefas como tradu√ß√£o, resumo, resposta a perguntas ou gera√ß√£o de perguntas, o T5 recebe uma instru√ß√£o textual e retorna uma resposta tamb√©m em texto. Sua arquitetura baseada em transformers permite grande flexibilidade e desempenho em m√∫ltiplas tarefas, sendo amplamente utilizado para aplica√ß√µes avan√ßadas de NLP.

### Objetivos da etapa

- Gerar uma pergunta para cada par√°grafo considerado relevante no corpus.
- Dividir o processo em blocos para **evitar sobrecarga de mem√≥ria e facilitar retomadas**.
- Salvar os resultados em arquivos separados por lote.

### Funcionalidades do script

- **Carregamento do modelo T5** e tokenizer (`valhalla/t5-base-qg-hl`) com suporte a GPU (caso dispon√≠vel).
- **Leitura do arquivo `paragrafos_filtrados_corpus.csv`**, contendo os textos-base para gera√ß√£o.
- **Divis√£o do corpus em blocos de 1000 par√°grafos**, controlando o tamanho dos lotes para evitar falhas em m√°quinas com menos mem√≥ria.
- **Gera√ß√£o de perguntas** com base na instru√ß√£o `generate question: <texto>`, em que o modelo entende que deve formular uma pergunta sobre o conte√∫do apresentado.
- **Exporta√ß√£o dos blocos** em arquivos CSV nomeados sequencialmente, por exemplo: `perguntas_001.csv`, `perguntas_002.csv`, etc.
- **Verifica√ß√£o autom√°tica de blocos j√° processados**, evitando retrabalho em execu√ß√µes futuras.

### Estrutura do arquivo gerado por bloco

| Par√°grafo                                                     | Pergunta                                      |
|---------------------------------------------------------------|-----------------------------------------------|
| A dengue √© uma doen√ßa viral transmitida por mosquitos...      | Qual √© o modo de transmiss√£o da dengue?       |
| O tratamento da tuberculose dura no m√≠nimo seis meses...      | Quanto tempo dura o tratamento da tuberculose?|

### Organiza√ß√£o dos resultados

- As perguntas s√£o salvas em uma subpasta com data do dia de execu√ß√£o, ex:  
  `corpus_final/perguntas_geradas_20250803/`
- Cada arquivo cont√©m at√© 1000 pares de par√°grafo/pergunta.
- A pasta de sa√≠da √© criada automaticamente, se ainda n√£o existir.

### Observa√ß√µes

- A gera√ß√£o √© feita com **m√°ximo de 64 tokens** por pergunta para garantir objetividade.
- O script pode ser executado novamente sem sobrescrever resultados j√° salvos, tornando-o seguro para execu√ß√µes parciais.
- O modelo `valhalla/t5-base-qg-hl` foi escolhido por seu bom desempenho em tarefas de question generation em portugu√™s e ingl√™s, mas pode ser substitu√≠do se necess√°rio.

Essa etapa transforma o corpus textual em uma base estruturada de perguntas, pronta para ser usada em avalia√ß√µes manuais, benchmarking de IA, ou sistemas de apoio ao ensino e treinamento.


In [None]:
%pip install --upgrade torch --index-url https://download.pytorch.org/whl/cu121

In [None]:
import time
# === CONFIGURA√á√ïES ===
PASTA = r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final" # Identifica a pasta base onde os arquivos est√£o localizados
ARQUIVO_ENTRADA = os.path.join(PASTA, "paragrafos_filtrados_corpus.csv") # Caminho do arquivo CSV de entrada com os par√°grafos filtrados
DATA = datetime.today().strftime('%Y%m%d') # Obt√©m a data atual no formato YYYYMMDD
PASTA_SAIDA = os.path.join(PASTA, f"perguntas_geradas_{DATA}")# Caminho da pasta de sa√≠da onde as perguntas geradas ser√£o salvas
os.makedirs(PASTA_SAIDA, exist_ok=True)# Cria a pasta de sa√≠da se n√£o existir

BLOCO_TAMANHO = 1000 #define o tamanho do bloco de processamento, ou seja, quantas linhas ser√£o processadas por vez

# === MODELO DE PERGUNTAS ===
modelo = "mrm8488/t5-base-finetuned-question-generation-ap"
tokenizer = T5Tokenizer.from_pretrained(modelo) 
model = T5ForConditionalGeneration.from_pretrained(modelo) 
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device) 

# === FUN√á√ÉO DE GERA√á√ÉO ===
def gerar_pergunta(texto):
    entrada = f"generate question: {texto}"
    inputs = tokenizer(entrada, return_tensors="pt", truncation=True).to(device)
    outputs = model.generate(inputs["input_ids"], max_length=64)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# === CARREGAR DADOS ===
df = pd.read_csv(ARQUIVO_ENTRADA).reset_index(drop=True)
total_linhas = len(df)
num_blocos = (total_linhas + BLOCO_TAMANHO - 1) // BLOCO_TAMANHO  # Arredonda para cima

# === PROCESSAMENTO POR BLOCO ===
# === PROCESSAMENTO POR BLOCO ===
for i in range(num_blocos):
    inicio_tempo = time.time()
    inicio = i * BLOCO_TAMANHO
    fim = min((i + 1) * BLOCO_TAMANHO, total_linhas)
    bloco_df = df.iloc[inicio:fim].copy()
    saida_parcial = os.path.join(PASTA_SAIDA, f"perguntas_{i+1:03}.csv")

    # Libera mem√≥ria da GPU ANTES
    torch.cuda.empty_cache()

    # Pular se j√° existir
    if os.path.exists(saida_parcial):
        print(f"‚è≠Ô∏è Bloco {i+1} j√° processado: {saida_parcial}")
        continue

    print(f"üîÑ Gerando perguntas para bloco {i+1} ({inicio}‚Äì{fim})...")

    perguntas = []
    for paragrafo in tqdm(bloco_df["Par√°grafo"].astype(str), desc=f"Bloco {i+1}"):
        try:
            pergunta = gerar_pergunta(paragrafo)
        except Exception as e:
            pergunta = f"[Erro: {str(e)}]"
        perguntas.append(pergunta)

        # Libera GPU entre cada gera√ß√£o, se necess√°rio
        torch.cuda.empty_cache()

    fim_tempo = time.time()
    print(f"‚è±Ô∏è Tempo gasto no bloco {i+1}: {fim_tempo - inicio_tempo:.2f} segundos")

    bloco_df["Pergunta"] = perguntas
    bloco_df.to_csv(saida_parcial, index=False, encoding="utf-8")
    print(f"‚úÖ Perguntas salvas em: {saida_parcial}")

‚è≠Ô∏è Bloco 1 j√° processado: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\perguntas_geradas_20250804\perguntas_001.csv
‚è≠Ô∏è Bloco 2 j√° processado: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\perguntas_geradas_20250804\perguntas_002.csv
‚è≠Ô∏è Bloco 3 j√° processado: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\perguntas_geradas_20250804\perguntas_003.csv
‚è≠Ô∏è Bloco 4 j√° processado: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\perguntas_geradas_20250804\perguntas_004.csv
‚è≠Ô∏è Bloco 5 j√° processado: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\perguntas_geradas_20250804\perguntas_005.csv
‚è≠Ô∏è Bloco 6 j√° processado: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\perguntas_geradas_20250804\perguntas_006.csv
‚è≠Ô∏è Bloco 7 j√° processado: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\perguntas_geradas_20250804\perguntas_007.csv
‚è≠Ô∏è Bloco 8 j√° processado: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\perguntas_geradas_20250804\pe

Bloco 11:   4%|‚ñé         | 36/1000 [00:13<04:33,  3.52it/s]