# Etapa 5 ‚Äì Apoio √† Avalia√ß√£o da IA

<p align="center">
    <img src="https://img.icons8.com/ios-filled/100/artificial-intelligence.png" width="80" alt="√çcone IA"/>
</p>
Subetapa: Filtragem dos Par√°grafos para Gera√ß√£o de Perguntas

<img src="https://img.icons8.com/ios-filled/50/000000/right--v1.png" width="24" style="vertical-align:middle; margin-right:8px;"/> Objetivo da Subetapa
Durante a prepara√ß√£o do corpus para a gera√ß√£o autom√°tica de perguntas, observou-se que alguns arquivos .txt, mesmo ap√≥s as etapas anteriores de limpeza, ainda continham trechos irrelevantes. Esses trechos, quando enviados ao modelo de NLP, causavam lentid√£o no processamento e geravam perguntas mal formuladas, com baixa utilidade para fins de valida√ß√£o.

Para resolver esse gargalo, foi desenvolvido um script de filtragem sem√¢ntica automatizada. Ele identifica e remove par√°grafos com conte√∫do n√£o t√©cnico ou administrativo, como nomes de autores, contatos institucionais, fichas catalogr√°ficas, endere√ßos e notas editoriais.

**O que o Script Faz**
O script executa as seguintes tarefas:

- L√™ o arquivo `paragrafos_validos_corpus.xlsx`, que cont√©m todos os par√°grafos extra√≠dos dos arquivos .txt considerados v√°lidos estruturalmente.
- Aplica uma fun√ß√£o de filtragem sem√¢ntica (`paragrafo_relevante`):
    - Remove par√°grafos curtos (com menos de 6 palavras).
    - Exclui par√°grafos que contenham padr√µes de texto como:
        - Nomes de autores e respons√°veis t√©cnicos;
        - Endere√ßos e e-mails;
        - Informa√ß√µes de publica√ß√£o (tiragem, edi√ß√£o, vers√£o);
        - Trechos gen√©ricos como ‚Äúanexo‚Äù, ‚Äú√≠ndice‚Äù, ‚Äúap√™ndice‚Äù;
        - Informa√ß√µes institucionais repetitivas (ex: ‚ÄúMinist√©rio da Sa√∫de‚Äù).

**Cria dois novos arquivos:** <img src="https://img.icons8.com/ios-filled/50/000000/document--v1.png" width="24" style="vertical-align:middle; margin-left:8px;"/>

*paragrafos_filtrados_corpus.xlsx: apenas com os par√°grafos considerados relevantes.

relatorio_filtragem_paragrafos.xlsx: com estat√≠sticas da filtragem (totais e percentuais) e amostras dos par√°grafos exclu√≠dos e mantidos.*

In [1]:
import pandas as pd
import re
import os

In [23]:
# === CONFIGURA√á√ïES DE CAMINHO ===
PASTA = r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final"
ARQUIVO_ENTRADA = os.path.join(PASTA, "paragrafos_validos_corpus.xlsx")
ARQUIVO_SAIDA = os.path.join(PASTA, "paragrafos_filtrados_corpus.xlsx")
ARQUIVO_RELATORIO = os.path.join(PASTA, "relatorio_filtragem_paragrafos.xlsx")

# === FUN√á√ÉO DE FILTRAGEM ===
def paragrafo_relevante(texto):
    texto_limpo = texto.lower().strip()
    padroes_excluir = [
        r'nomes?[:\-]',
        r'e-mail|site:|www\.',
        r'cep:|quadra|srtv|endere',
        r'coordena√ß√£o-geral|departamento',
        r'minist√©rio da sa√∫de',
        r'esta obra.*licen√ßa',
        r'(nome|cargo) do autor',
        r'sa√∫de p√∫blica brasileira.*acesso',
        r'\b(anexo|ap√™ndice|√≠ndice)\b',
        r'(autores?|vers√£o|tiragem|edi√ß√£o).*202[0-9]',
        r'(sigla|significado) de ',
        r'(organizador|respons√°vel|revis√£o)',
    ]
    for padrao in padroes_excluir:
        if re.search(padrao, texto_limpo):
            return False
    if len(texto_limpo.split()) < 6:
        return False
    return True

# === EXECU√á√ÉO ===
print("üîç Lendo arquivo...")
df = pd.read_excel(ARQUIVO_ENTRADA)

print("‚öôÔ∏è Aplicando filtro sem√¢ntico...")
df["Relevante"] = df["Texto"].astype(str).apply(paragrafo_relevante)

df_filtrado = df[df["Relevante"]].drop(columns=["Relevante"])
df_excluido = df[~df["Relevante"]].drop(columns=["Relevante"])

print(f"‚úÖ Par√°grafos mantidos: {len(df_filtrado)}")
print(f"üö´ Par√°grafos exclu√≠dos: {len(df_excluido)}")

# === SALVAR RESULTADO FILTRADO ===
print("üíæ Salvando arquivo com par√°grafos filtrados...")
df_filtrado.to_excel(ARQUIVO_SAIDA, index=False)

# === GERAR RELAT√ìRIO EM EXCEL COM AMOSTRAS ===
print("üìù Gerando relat√≥rio...")
resumo = {
    "Total original": [len(df)],
    "Total mantido": [len(df_filtrado)],
    "Total exclu√≠do": [len(df_excluido)],
    "% mantido": [round(100 * len(df_filtrado) / len(df), 2)],
    "% exclu√≠do": [round(100 * len(df_excluido) / len(df), 2)],
}
df_resumo = pd.DataFrame(resumo)

amostra_mantido = df_filtrado.sample(min(5, len(df_filtrado)), random_state=1)
amostra_excluido = df_excluido.sample(min(5, len(df_excluido)), random_state=1)

with pd.ExcelWriter(ARQUIVO_RELATORIO) as writer:
    df_resumo.to_excel(writer, sheet_name="Resumo", index=False)
    amostra_mantido.to_excel(writer, sheet_name="Amostra Mantido", index=False)
    amostra_excluido.to_excel(writer, sheet_name="Amostra Exclu√≠do", index=False)

print("üìä Relat√≥rio salvo com sucesso!")
print(f"üìÅ Arquivo filtrado: {ARQUIVO_SAIDA}")
print(f"üìÑ Relat√≥rio: {ARQUIVO_RELATORIO}")


üîç Lendo arquivo...


TypeError: string argument expected, got 'ExpatError'

TypeError: string argument expected, got 'ExpatError'

In [None]:
#diagnosticar_pasta Antes da Etapa 2 ‚Äì Extra√ß√£o e limpeza de texto Diagn√≥stico visual de duplicados e nomes corrompidos
#COME√áA AQUI

import os
import hashlib
import re
import csv
from pathlib import Path
import tkinter as tk
from tkinter import filedialog, messagebox, scrolledtext

# === FUN√á√ïES AUXILIARES ===

def calcular_hash(caminho_arquivo, limite=1024*1024):
    """Calcula hash de uma parte do arquivo (1 MB por padr√£o) para diagn√≥stico r√°pido."""
    sha256 = hashlib.sha256()
    with open(caminho_arquivo, 'rb') as f:
        sha256.update(f.read(limite))
    return sha256.hexdigest()

def normalizar_nome(nome):
    """Remove repeti√ß√µes consecutivas de sufixos."""
    padrao = r'(txt_\w+\d{4})+'
    return re.sub(padrao, lambda m: m.group(1), nome)

def diagnosticar_pasta(pasta_raiz, saida_texto):
    pasta_raiz = Path(pasta_raiz)
    hash_map = {}
    log_linhas = []
    log_path = pasta_raiz / "log_diagnostico.csv"

    saida_texto.insert(tk.END, f"üîç Diagn√≥stico em: {pasta_raiz}\n")
    saida_texto.insert(tk.END, "Apenas leitura ‚Äî nenhum arquivo ser√° alterado.\n\n")
    saida_texto.update()

    for caminho_arquivo in pasta_raiz.rglob("*.txt"):
        hash_arquivo = calcular_hash(caminho_arquivo)
        nome_original = caminho_arquivo.name
        caminho_pasta = caminho_arquivo.parent

        # Verifica duplicidade de conte√∫do
        if hash_arquivo in hash_map:
            saida_texto.insert(tk.END, f"‚ö†Ô∏è Poss√≠vel duplicado: {nome_original} (igual a {hash_map[hash_arquivo].name})\n")
            log_linhas.append(["DUPLICADO", str(caminho_arquivo), "Mesma hash de", str(hash_map[hash_arquivo])])
        else:
            hash_map[hash_arquivo] = caminho_arquivo

        # Verifica nome corrompido
        nome_corrigido = normalizar_nome(nome_original)
        if nome_corrigido != nome_original:
            saida_texto.insert(tk.END, f"üîÅ Nome suspeito: {nome_original} ‚Üí Sugerido: {nome_corrigido}\n")
            log_linhas.append(["NOME_CORROMPIDO", str(caminho_arquivo), "Sugerido", nome_corrigido])

    with open(log_path, mode='w', newline='', encoding='utf-8') as log_csv:
        writer = csv.writer(log_csv)
        writer.writerow(["Tipo", "Arquivo", "Info", "Refer√™ncia/Sugest√£o"])
        writer.writerows(log_linhas)

    saida_texto.insert(tk.END, f"\nüìÑ Log salvo em: {log_path}\n")
    saida_texto.insert(tk.END, "‚úÖ Diagn√≥stico conclu√≠do.\n")
    saida_texto.update()

# === INTERFACE GR√ÅFICA ===

def iniciar_interface():
    def escolher_pasta():
        pasta = filedialog.askdirectory(title="Selecione a pasta 'corpus_final'")
        if pasta:
            entrada_pasta.delete(0, tk.END)
            entrada_pasta.insert(0, pasta)

    def executar_diagnostico():
        pasta_escolhida = entrada_pasta.get()
        if not os.path.isdir(pasta_escolhida):
            messagebox.showerror("Erro", "Selecione uma pasta v√°lida.")
            return
        saida_texto.delete(1.0, tk.END)
        diagnosticar_pasta(pasta_escolhida, saida_texto)

    janela = tk.Tk()
    janela.title("üîé Diagn√≥stico de Arquivos Duplicados e Nomes Corrompidos")

    tk.Label(janela, text="üìÅ Pasta Base:").pack(pady=5)
    entrada_pasta = tk.Entry(janela, width=60)
    entrada_pasta.pack()
    tk.Button(janela, text="Selecionar Pasta", command=escolher_pasta).pack(pady=5)

    tk.Button(janela, text="üîç Executar Diagn√≥stico", command=executar_diagnostico, bg="blue", fg="white").pack(pady=10)

    saida_texto = scrolledtext.ScrolledText(janela, width=100, height=25)
    saida_texto.pack(padx=10, pady=10)

    janela.mainloop()

# Rodar
if __name__ == "__main__":
    iniciar_interface()


In [11]:
#executar_log_diagnostico remove duplicatas reais e renomeia arquivos com nome corrompido.Logo ap√≥s o diagn√≥stico, ainda na Etapa 2
import os
import csv
from pathlib import Path

# === CONFIGURA√á√ÉO ===
PASTA_BASE = Path(r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final")  # ajuste se necess√°rio
CAMINHO_LOG_DIAGNOSTICO = PASTA_BASE / "log_diagnostico.csv"
CAMINHO_LOG_EXECUCAO = PASTA_BASE / "log_execucao.csv"

# === LEITURA DO LOG ===
with open(CAMINHO_LOG_DIAGNOSTICO, encoding='utf-8') as f:
    leitor = csv.DictReader(f)
    acoes = list(leitor)

# === EXECU√á√ÉO DAS A√á√ïES ===
log_execucao = []

for linha in acoes:
    tipo = linha['Tipo']
    caminho_str = linha['Arquivo']
    caminho_arquivo = Path(caminho_str)

    if not caminho_arquivo.exists():
        log_execucao.append(["IGNORADO", caminho_str, "Arquivo n√£o encontrado"])
        continue

    if tipo == "DUPLICADO":
        try:
            caminho_arquivo.unlink()
            log_execucao.append(["REMOVIDO", caminho_str, "Duplicata removida"])
            print(f"üóëÔ∏è Removido: {caminho_str}")
        except Exception as e:
            log_execucao.append(["ERRO", caminho_str, f"Erro ao remover: {e}"])

    elif tipo == "NOME_CORROMPIDO":
        sugestao = linha['Refer√™ncia/Sugest√£o']
        novo_caminho = caminho_arquivo.parent / sugestao
        contador = 1
        while novo_caminho.exists():
            novo_caminho = caminho_arquivo.parent / f"{sugestao}_{contador}.txt"
            contador += 1
        try:
            caminho_arquivo.rename(novo_caminho)
            log_execucao.append(["RENOMEADO", caminho_str, f"Novo nome: {novo_caminho.name}"])
            print(f"‚úèÔ∏è Renomeado: {caminho_arquivo.name} ‚Üí {novo_caminho.name}")
        except Exception as e:
            log_execucao.append(["ERRO", caminho_str, f"Erro ao renomear: {e}"])

# === SALVA LOG FINAL ===
with open(CAMINHO_LOG_EXECUCAO, mode='w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(["A√ß√£o", "Arquivo", "Detalhes"])
    writer.writerows(log_execucao)

print(f"\n‚úÖ Execu√ß√£o conclu√≠da. Log salvo em: {CAMINHO_LOG_EXECUCAO}")


‚úÖ Execu√ß√£o conclu√≠da. Log salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\log_execucao.csv


In [21]:
import os
import pandas as pd
from pathlib import Path
import re
from openpyxl.cell.cell import ILLEGAL_CHARACTERS_RE

# === CONFIGURA√á√ÉO ===
PASTA_CORPUS = Path(r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final")
ARQUIVO_SAIDA = PASTA_CORPUS / "paragrafos_validos_corpus.xlsx"
ARQUIVO_DIAGNOSTICO = PASTA_CORPUS / "diagnostico_paragrafos_por_arquivo.xlsx"

# === FUN√á√ïES ===
def paragrafo_valido(paragrafo):
    paragrafo = paragrafo.strip()
    if len(paragrafo.split()) < 5:
        return False
    if re.match(r'^(\d+|[‚Ä¢*])$', paragrafo):  # apenas n√∫mero ou bullet
        return False
    if sum(1 for palavra in ["minist√©rio", "licen√ßa", "tiragem", "elabora√ß√£o", "cep", "autores", "vers√£o", "editora√ß√£o"] if palavra in paragrafo.lower()) >= 2:
        return False
    return True

def limpar_caracteres_invalidos(texto):
    return ILLEGAL_CHARACTERS_RE.sub("", texto)

def quebrar_paragrafos_brutos(texto):
    # Substitui quebras de linha simples por espa√ßo (evita quebra errada)
    texto = texto.replace("\n", " ")
    # Insere quebra for√ßada ap√≥s ponto final seguido de espa√ßo e letra mai√∫scula
    texto = re.sub(r'\. (?=[A-Z√Å√â√ç√ì√ö√á])', '.\n\n', texto)
    # Divide onde houver \n\n for√ßado
    return [p.strip() for p in texto.split('\n\n') if p.strip()]

# === PROCESSAMENTO ===
dados = []
diagnostico = []

for caminho_txt in PASTA_CORPUS.rglob("*.txt"):
    try:
        with open(caminho_txt, "r", encoding="utf-8") as f:
            conteudo = f.read()

        # Divide usando segmenta√ß√£o for√ßada
        paragrafos_raw = quebrar_paragrafos_brutos(conteudo)
        paragrafos_validos = [p for p in paragrafos_raw if paragrafo_valido(p)]

        for i, paragrafo in enumerate(paragrafos_validos, 1):
            dados.append({
                "Arquivo": caminho_txt.name,
                "Par√°grafo": limpar_caracteres_invalidos(paragrafo),
                "N√∫mero do par√°grafo": i
            })

        diagnostico.append({
            "Arquivo": caminho_txt.name,
            "Total lidos": len(paragrafos_raw),
            "V√°lidos mantidos": len(paragrafos_validos),
            "Descartados": len(paragrafos_raw) - len(paragrafos_validos)
        })

    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao processar {caminho_txt.name}: {e}")

# === EXPORTA√á√ÉO ===
df_paragrafos = pd.DataFrame(dados)
df_paragrafos.to_excel(ARQUIVO_SAIDA, index=False)

df_diag = pd.DataFrame(diagnostico)
df_diag.to_excel(ARQUIVO_DIAGNOSTICO, index=False)

ARQUIVO_CSV = PASTA_CORPUS / "paragrafos_validos_corpus.csv"
df_paragrafos.to_csv(ARQUIVO_CSV, index=False, encoding="utf-8")
print(f"üìÑ Par√°grafos v√°lidos salvos em {ARQUIVO_SAIDA}")
print(f"‚úÖ {len(df_paragrafos)} par√°grafos v√°lidos salvos em {ARQUIVO_SAIDA}")
print(f"ü©∫ Diagn√≥stico salvo em {ARQUIVO_DIAGNOSTICO}")





üìÑ Par√°grafos v√°lidos salvos em C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\paragrafos_validos_corpus.xlsx
‚úÖ 20106 par√°grafos v√°lidos salvos em C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\paragrafos_validos_corpus.xlsx
ü©∫ Diagn√≥stico salvo em C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\diagnostico_paragrafos_por_arquivo.xlsx


In [22]:
import pandas as pd
from pathlib import Path

# === CONFIGURA√á√ÉO ===
PASTA_BASE = Path(r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final")
ARQUIVO_ENTRADA = PASTA_BASE / "resumo_corpus_final.csv"
ARQUIVO_UNICOS = PASTA_BASE / "resumo_arquivos_unicos.xlsx"
ARQUIVO_AGREGADO = PASTA_BASE / "resumo_por_subpasta.xlsx"

# === LEITURA DO ARQUIVO DE RESUMO ===
df = pd.read_csv(ARQUIVO_ENTRADA)

# === REMOVER DUPLICATAS POR NOME BASE DO ARQUIVO ===
# Extrai o nome base (sem partes repetidas)
df["Arquivo_base"] = df["Arquivo"].str.extract(r"^(.+?)(?:txt|\.txt)", expand=False).str.strip()
df_unicos = df.drop_duplicates(subset=["Subpasta", "Arquivo_base"])

# === AGRUPAMENTO POR SUBPASTA ===
df_grupo = df_unicos.groupby("Subpasta").agg({
    "Arquivo": "count",
    "Tamanho (bytes)": "sum",
    "N¬∫ de linhas": "mean",
    "N¬∫ de caracteres": "mean"
}).reset_index()

df_grupo = df_grupo.rename(columns={
    "Arquivo": "Total de arquivos √∫nicos",
    "Tamanho (bytes)": "Tamanho total (bytes)",
    "N¬∫ de linhas": "M√©dia de linhas",
    "N¬∫ de caracteres": "M√©dia de caracteres"
})

# === EXPORTA√á√ÉO ===
df_unicos.to_excel(ARQUIVO_UNICOS, index=False)
df_grupo.to_excel(ARQUIVO_AGREGADO, index=False)

print(f"‚úÖ Arquivo √∫nico salvo em: {ARQUIVO_UNICOS}")
print(f"üìä Resumo por subpasta salvo em: {ARQUIVO_AGREGADO}")


ERROR! Session/line number was not unique in database. History logging moved to new session 39
‚úÖ Arquivo √∫nico salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\resumo_arquivos_unicos.xlsx
üìä Resumo por subpasta salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\resumo_por_subpasta.xlsx


In [None]:
####Gera√ß√£o de corpus unificado (`corpus_unificado.txt`)
#Ap√≥s as etapas de extra√ß√£o e filtragem dos textos normativos, √© gerado um arquivo final contendo todos os `.txt` limpos, organizados por subpasta e nome de arquivo.
# O texto abaixo √© apenas explicativo, n√£o execut√°vel.
# Esta etapa permite ao usu√°rio validar rapidamente o corpus unificado, inspecionando o conte√∫do final dos arquivos .txt j√° limpos e organizados.
# O arquivo corpus_unificado.txt pode ser aberto em qualquer editor de texto para confer√™ncia visual, busca de termos, ou revis√£o por especialistas.


import os
from pathlib import Path

# === CONFIGURA√á√ïES ===
PASTA_CORPUS = Path(r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final")
ARQUIVO_SAIDA = PASTA_CORPUS / "corpus_unificado.txt"

# === UNIFICAR CONTE√öDO ===
with open(ARQUIVO_SAIDA, "w", encoding="utf-8") as arquivo_saida:
    for caminho_txt in PASTA_CORPUS.rglob("*.txt"):
        try:
            with open(caminho_txt, "r", encoding="utf-8") as f:
                conteudo = f.read().strip()

            if len(conteudo) < 50:
                continue  # ignora arquivos muito curtos

            nome_arquivo = caminho_txt.name
            subpasta = caminho_txt.parent.name

            bloco = f"\n\n### Arquivo: {nome_arquivo} | Subpasta: {subpasta}\n\n{conteudo}\n\n"
            arquivo_saida.write(bloco)

        except Exception as e:
            print(f"Erro ao ler {caminho_txt.name}: {e}")

print(f"‚úÖ Corpus unificado salvo em: {ARQUIVO_SAIDA}")


‚úÖ Corpus unificado salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\corpus_unificado.txt


In [27]:
import pandas as pd
import re
import os
from openpyxl.cell.cell import ILLEGAL_CHARACTERS_RE

# === CAMINHOS ===
PASTA = r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final"
ARQUIVO_ENTRADA = os.path.join(PASTA, "paragrafos_validos_corpus.csv")
ARQUIVO_SAIDA = os.path.join(PASTA, "paragrafos_filtrados_corpus.csv")
ARQUIVO_RELATORIO = os.path.join(PASTA, "relatorio_filtragem_paragrafos.csv")

# === FILTRO SEM√ÇNTICO COM PROTE√á√ïES R√çGIDAS ===
def paragrafo_relevante(texto):
    texto_limpo = str(texto).strip()

    if len(texto_limpo) > 3000:  # ainda mais seguro
        return False
    if ILLEGAL_CHARACTERS_RE.search(texto_limpo):
        return False

    texto_limpo = texto_limpo.lower()
    padroes_excluir = [
        r'nomes?[:\-]',
        r'e-mail|site:|www\.',
        r'cep:|quadra|srtv|endere',
        r'coordena√ß√£o-geral|departamento',
        r'minist√©rio da sa√∫de',
        r'esta obra.*licen√ßa',
        r'(nome|cargo) do autor',
        r'sa√∫de p√∫blica brasileira.*acesso',
        r'\b(anexo|ap√™ndice|√≠ndice)\b',
        r'(autores?|vers√£o|tiragem|edi√ß√£o).*202[0-9]',
        r'(sigla|significado) de ',
        r'(organizador|respons√°vel|revis√£o)',
    ]
    for padrao in padroes_excluir:
        if re.search(padrao, texto_limpo):
            return False
    if len(texto_limpo.split()) < 6:
        return False
    return True

# === LEITURA ===
df = pd.read_csv(ARQUIVO_ENTRADA)
df["Relevante"] = df["Par√°grafo"].astype(str).apply(paragrafo_relevante)

# === SEPARA√á√ÉO ===
df_filtrado = df[df["Relevante"]].drop(columns=["Relevante"])
df_excluido = df[~df["Relevante"]].drop(columns=["Relevante"])

# === SALVAR RESULTADOS EM .CSV ===
df_filtrado.to_csv(ARQUIVO_SAIDA, index=False, encoding="utf-8")
df_excluido.to_csv(PASTA + "/paragrafos_descartados.csv", index=False, encoding="utf-8")

# === RELAT√ìRIO RESUMIDO ===
resumo = pd.DataFrame([{
    "Total original": len(df),
    "Total mantido": len(df_filtrado),
    "Total exclu√≠do": len(df_excluido),
    "% mantido": round(100 * len(df_filtrado) / len(df), 2),
    "% exclu√≠do": round(100 * len(df_excluido) / len(df), 2),
}])
resumo.to_csv(ARQUIVO_RELATORIO, index=False)

print(f"‚úÖ CSV salvo com {len(df_filtrado)} par√°grafos: {ARQUIVO_SAIDA}")
print(f"üìä Relat√≥rio salvo: {ARQUIVO_RELATORIO}")



‚úÖ CSV salvo com 17640 par√°grafos: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\paragrafos_filtrados_corpus.csv
üìä Relat√≥rio salvo: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\relatorio_filtragem_paragrafos.csv


In [32]:
# Instala√ß√£o dos pacotes necess√°rios
%pip install torch transformers tqdm sentencepiece

import pandas as pd
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
from datetime import datetime
import os
from tqdm import tqdm

# === CONFIGURA√á√ïES ===
PASTA = r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final"
ARQUIVO_ENTRADA = os.path.join(PASTA, "paragrafos_filtrados_corpus.csv")
DATA = datetime.today().strftime('%Y%m%d')
ARQUIVO_SAIDA = os.path.join(PASTA, f"perguntas_geradas_{DATA}.csv")

# === CARREGAR MODELO T5 DE GERA√á√ÉO DE PERGUNTAS ===
modelo = "valhalla/t5-base-qg-hl"
tokenizer = T5Tokenizer.from_pretrained(modelo)
model = T5ForConditionalGeneration.from_pretrained(modelo)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# === FUN√á√ÉO PARA GERAR PERGUNTA COM TRATAMENTO DE ERRO ===
def gerar_pergunta(texto):
    try:
        entrada = f"generate question: {texto}"
        inputs = tokenizer(entrada, return_tensors="pt", truncation=True).to(device)
        outputs = model.generate(inputs["input_ids"], max_length=64)
        return tokenizer.decode(outputs[0], skip_special_tokens=True)
    except Exception as e:
        return f"[ERRO] {str(e)}"

# === LEITURA DO CSV ===
df = pd.read_csv(ARQUIVO_ENTRADA)

# (Opcional) limitar para teste:
# df = df.head(50)

# === GERA√á√ÉO DAS PERGUNTAS COM BARRA DE PROGRESSO ===
tqdm.pandas()
df["Pergunta"] = df["Par√°grafo"].astype(str).progress_apply(gerar_pergunta)

# === SALVAR SA√çDA ===
df.to_csv(ARQUIVO_SAIDA, index=False, encoding="utf-8")
print(f"‚úÖ Perguntas geradas salvas em: {ARQUIVO_SAIDA}")



Collecting sentencepiece
  Downloading sentencepiece-0.2.0-cp312-cp312-win_amd64.whl.metadata (8.3 kB)
Downloading sentencepiece-0.2.0-cp312-cp312-win_amd64.whl (991 kB)
   ---------------------------------------- 0.0/992.0 kB ? eta -:--:--
   --------------------------------------- 992.0/992.0 kB 11.8 MB/s eta 0:00:00
Installing collected packages: sentencepiece
Successfully installed sentencepiece-0.2.0
Note: you may need to restart the kernel to use updated packages.


ImportError: 
T5Tokenizer requires the SentencePiece library but it was not found in your environment. Check out the instructions on the
installation page of its repo: https://github.com/google/sentencepiece#installation and follow the ones
that match your environment. Please note that you may need to restart your runtime after installation.


In [32]:
#filtro_paragrafos_relevantes Filtra semanticamente os par√°grafos
import pandas as pd
import os
import re
from collections import Counter
from datetime import datetime

# === CAMINHOS ===
PASTA_CORPUS = r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final"
ARQUIVO_PARAGRAFOS = os.path.join(PASTA_CORPUS, "paragrafos_validos_corpus.xlsx")
ARQUIVO_SAIDA = os.path.join(PASTA_CORPUS, f"perguntas_geradas_{datetime.today().strftime('%Y%m%d')}.xlsx")

# === FUN√á√ÉO PARA GERAR PERGUNTAS COMUNS ===
def gerar_perguntas(texto):
    perguntas = []

    # Baixo n√≠vel de NLP, apenas heur√≠stico (foco em utilidade pr√°tica)
    if re.search(r"\bprocedimento[s]?\b", texto, re.IGNORECASE):
        perguntas.append("Quais s√£o os procedimentos recomendados?")
    if re.search(r"\bexame[s]?\b", texto, re.IGNORECASE):
        perguntas.append("Como √© realizado o exame?")
    if re.search(r"\btratamento\b", texto, re.IGNORECASE):
        perguntas.append("Qual √© o tratamento indicado?")
    if re.search(r"\bnotifica(√ß√£o|r)\b", texto, re.IGNORECASE):
        perguntas.append("Quando o caso deve ser notificado?")
    if re.search(r"\bmedicamento[s]?\b", texto, re.IGNORECASE):
        perguntas.append("Quais medicamentos devem ser utilizados?")
    if re.search(r"\bsintoma[s]?\b", texto, re.IGNORECASE):
        perguntas.append("Quais s√£o os sintomas?")
    if re.search(r"\bmonitoramento\b", texto, re.IGNORECASE):
        perguntas.append("Como √© feito o monitoramento?")
    if re.search(r"\bvigil√¢ncia\b", texto, re.IGNORECASE):
        perguntas.append("Quais s√£o as a√ß√µes de vigil√¢ncia indicadas?")
    if re.search(r"\bsurto[s]?\b", texto, re.IGNORECASE):
        perguntas.append("O que deve ser feito em caso de surto?")

    return perguntas

# === CARGA DE PAR√ÅGRAFOS ===
df = pd.read_excel(ARQUIVO_PARAGRAFOS)

# === GERAR PERGUNTAS POR PAR√ÅGRAFO ===
linhas_saida = []

for _, row in df.iterrows():
    arquivo = row["Arquivo"]
    texto = str(row["Texto"])
    perguntas = gerar_perguntas(texto)

    for pergunta in perguntas:
        linhas_saida.append({
            "Arquivo (Tema)": arquivo,
            "Pergunta sugerida": pergunta,
            "Texto de origem": texto
        })

# === SALVAR RESULTADO ===
df_resultado = pd.DataFrame(linhas_saida)
df_resultado.to_excel(ARQUIVO_SAIDA, index=False)

print("‚úÖ Perguntas geradas com sucesso!")
print(f"üìÑ Arquivo salvo em: {ARQUIVO_SAIDA}")


TypeError: string argument expected, got 'ExpatError'

TypeError: string argument expected, got 'ExpatError'

In [14]:
# === TESTE COM AMOSTRA DE 100 PAR√ÅGRAFOS ===
df = pd.read_excel(ARQUIVO_PARAGRAFOS).sample(100, random_state=42)

ValueError: Cannot take a larger sample than population when 'replace=False'

In [33]:
print(df.head(100))

                                 Arquivo  \
0   adenovirus_guia_1txt_guiavsa2023.txt   
1   adenovirus_guia_1txt_guiavsa2023.txt   
2   adenovirus_guia_1txt_guiavsa2023.txt   
3   adenovirus_guia_1txt_guiavsa2023.txt   
4   adenovirus_guia_1txt_guiavsa2023.txt   
..                                   ...   
95  adenovirus_guia_1txt_guiavsa2023.txt   
96  adenovirus_guia_1txt_guiavsa2023.txt   
97  adenovirus_guia_1txt_guiavsa2023.txt   
98  adenovirus_guia_1txt_guiavsa2023.txt   
99  adenovirus_guia_1txt_guiavsa2023.txt   

                                            Par√°grafo  N√∫mero do par√°grafo  \
0   1 VIGIL√ÇNCIA INTEGRADA DA COVID-19, INFLUENZA ...                    1   
1   Diversas fam√≠lias de v√≠rus respirat√≥rios est√£o...                    2   
2   Os v√≠rus influenza, v√≠rus sincicial respirat√≥r...                    3   
3   A vigil√¢ncia de influenza foi implantada em 20...                    4   
4   Pela caracter√≠stica sindr√¥mica da doen√ßa, outr...             

ERROR! Session/line number was not unique in database. History logging moved to new session 44


In [35]:
#gerador_perguntas_t5
# === CONTINUAR AQUI COM O MESMO SCRIPT ===
linhas = []

for idx, row in tqdm(df.iterrows(), total=len(df), desc="Gerando perguntas - Amostra"):
    texto = str(row.get("Texto", "")).strip()
    if not texto:
        continue
    try:
        perguntas = gerar_perguntas_t5(texto)
        for pergunta in perguntas:
            linhas.append({
                "Arquivo (Tema)": row.get("Arquivo", ""),
                "Pergunta sugerida": pergunta,
                "Texto de origem": texto
            })
    except Exception as e:
        print(f"‚ö†Ô∏è Erro na linha {idx}: {e}")

# === SALVAR RESULTADO FINAL ===
ARQUIVO_TESTE = os.path.join(PASTA_CORPUS, "perguntas_amostra.xlsx")
df_resultado = pd.DataFrame(linhas)
df_resultado.to_excel(ARQUIVO_TESTE, index=False)

print("‚úÖ Perguntas da amostra geradas com sucesso!")
print(f"üìÑ Arquivo salvo em: {ARQUIVO_TESTE}")


Gerando perguntas - Amostra: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 20106/20106 [00:00<00:00, 40881.95it/s]

‚úÖ Perguntas da amostra geradas com sucesso!
üìÑ Arquivo salvo em: C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final\perguntas_amostra.xlsx





In [36]:
# Instala√ß√£o dos pacotes necess√°rios (pode deixar s√≥ na primeira c√©lula do notebook)
%pip install transformers torch pandas openpyxl tqdm sentencepiece

# === IMPORTA√á√ïES ===
import pandas as pd
import torch
from transformers import T5ForConditionalGeneration, T5Tokenizer
from datetime import datetime
from tqdm import tqdm
import os

# === CONFIGURA√á√ÉO DE CAMINHOS ===
PASTA_CORPUS = r"C:\Users\isisi\Documents\IAVS_PROJETO\corpus_final"
ARQUIVO_PARAGRAFOS = os.path.join(PASTA_CORPUS, "paragrafos_validos_corpus.xlsx")
ARQUIVO_SAIDA = os.path.join(PASTA_CORPUS, f"perguntas_avancadas_{datetime.today().strftime('%Y%m%d')}.xlsx")

# === CARREGAR MODELO E TOKENIZER ===
MODELO = "valhalla/t5-base-qg-hl"
tokenizer = T5Tokenizer.from_pretrained(MODELO)
model = T5ForConditionalGeneration.from_pretrained(MODELO)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# === FUN√á√ÉO DE GERA√á√ÉO DE PERGUNTAS ===
def gerar_perguntas_t5(texto):
    entrada = f"generate question: {texto} </s>"
    input_ids = tokenizer.encode(entrada, return_tensors="pt").to(device)
    with torch.no_grad():  # otimiza uso de mem√≥ria
        saida_ids = model.generate(
            input_ids=input_ids,
            max_length=64,
            num_beams=4,
            num_return_sequences=3,
            early_stopping=True
        )
    perguntas = [tokenizer.decode(g, skip_special_tokens=True) for g in saida_ids]
    return list(set(perguntas))  # remove duplicadas

# === CARREGAR PAR√ÅGRAFOS ===
df = pd.read_excel(ARQUIVO_PARAGRAFOS)
linhas = []

# === PERCORRER PAR√ÅGRAFOS COM BARRA DE PROGRESSO ===
for idx, row in tqdm(df.iterrows(), total=len(df), desc="Gerando perguntas"):
    texto = str(row.get("Texto", "")).strip()
    if not texto:
        continue
    try:
        perguntas = gerar_perguntas_t5(texto)
        for pergunta in perguntas:
            linhas.append({
                "Arquivo (Tema)": row.get("Arquivo", ""),
                "Pergunta sugerida": pergunta,
                "Texto de origem": texto
            })
        # Checkpoint: salva a cada 100 par√°grafos
        if idx % 100 == 0 and idx != 0:
            pd.DataFrame(linhas).to_excel(ARQUIVO_SAIDA, index=False)
    except Exception as e:
        print(f"‚ö†Ô∏è Erro na linha {idx}: {e}")

# === SALVAR RESULTADO FINAL ===
df_resultado = pd.DataFrame(linhas)
df_resultado.to_excel(ARQUIVO_SAIDA, index=False)

print("‚úÖ Perguntas geradas com sucesso!")
print(f"üìÑ Arquivo salvo em: {ARQUIVO_SAIDA}")

Note: you may need to restart the kernel to use updated packages.


ImportError: 
T5Tokenizer requires the SentencePiece library but it was not found in your environment. Check out the instructions on the
installation page of its repo: https://github.com/google/sentencepiece#installation and follow the ones
that match your environment. Please note that you may need to restart your runtime after installation.
