# FASE 1: Pipeline ETL - Extrator de Simulados (PDF ‚Üí JSON)
**Autor:** Amaro Netto

**Objetivo:** Automatizar a extra√ß√£o de dados n√£o estruturados (PDF) para formato estruturado (JSON), preparando o terreno para enriquecimento com IA.

---

## üì¶ 1. Instala√ß√£o de Depend√™ncias
Instala√ß√£o silenciosa das ferramentas de OCR (`pdfplumber`), manipula√ß√£o de dados e visualiza√ß√£o de progresso (`tqdm`, `ipywidgets`).

In [None]:
%%capture
!pip install pdfplumber tqdm ipywidgets pandas

In [33]:
import sys

# Verifica se houve erro na sa√≠da capturada
if "ERROR:" in str(captured_output):
    print("‚ùå Ocorreu um erro na instala√ß√£o:")
    captured_output.show()
else:
    print("‚úÖ Todas as bibliotecas foram instaladas e est√£o prontas para uso.")

‚úÖ Todas as bibliotecas foram instaladas e est√£o prontas para uso.


## ‚öôÔ∏è 2. Configura√ß√£o de Diret√≥rios
Defini√ß√£o dos caminhos de entrada e sa√≠da. O script cria automaticamente as pastas `txt` e `json` caso n√£o existam, garantindo que o pipeline nunca falhe por erro de diret√≥rio.

In [34]:
import pdfplumber
import re
import json
import os
from pathlib import Path

# Configura√ß√£o de Pastas (Cria autom√°tico se n√£o existir)
PASTA_PDF = Path("pdf")     # Onde voc√™ joga os arquivos originais
PASTA_TXT = Path("txt")     # Onde fica o texto intermedi√°rio
PASTA_JSON = Path("json")   # Onde sai o resultado final

PASTA_TXT.mkdir(exist_ok=True)
PASTA_JSON.mkdir(exist_ok=True)

print("‚úÖ Ambiente configurado. Pastas prontas.")

‚úÖ Ambiente configurado. Pastas prontas.


## üìÑ 3. M√≥dulo de Extra√ß√£o (PDF Reader)
Fun√ß√£o robusta que converte o bin√°rio PDF em fluxo de texto cont√≠nuo.
* **T√©cnica:** Utilizamos `layout=False` para priorizar a ordem de leitura humana.
* **UX:** Integrada com a barra de progresso para mostrar o avan√ßo das p√°ginas em tempo real.

In [35]:
def pdf_para_txt_stream(caminho_pdf):
    texto_completo = []
    try:
        with pdfplumber.open(caminho_pdf) as pdf:
            for page in pdf.pages:
                # layout=False ignora posi√ß√µes exatas e pega o fluxo de texto (melhor para sua prova)
                txt = page.extract_text(layout=False)
                if txt:
                    texto_completo.append(txt)
        return "\n".join(texto_completo)
    except Exception as e:
        print(f"‚ùå Erro no arquivo {caminho_pdf}: {e}")
        return None

## üõ†Ô∏è 4. M√≥dulo de Transforma√ß√£o (Business Logic)
Onde a m√°gica acontece. O texto bruto √© limpo, segmentado e estruturado.
1.  **Gabarito:** Identificado via Regex no rodap√© do arquivo.
2.  **Quest√µes:** Separadas pelo padr√£o `Quest√£o X`.
3.  **Alternativas:** Identificadas e mapeadas para garantir a ordem correta (A, B, C, D, E).

In [36]:
def processar_texto_para_json(texto_completo, id_inicial=1):
    # 1. Extrair Gabarito
    gabarito_map = {}
    match_inicio = re.search(r'Respostas:', texto_completo, re.IGNORECASE)
    texto_fim = texto_completo[match_inicio.start():] if match_inicio else texto_completo[-5000:]
    
    matches_gab = re.findall(r'(\d+)\s+([A-E])', texto_fim)
    for num, letra in matches_gab:
        gabarito_map[int(num)] = letra

    # 2. Separar Quest√µes
    divisao_gabarito = re.split(r'Respostas:', texto_completo, flags=re.IGNORECASE)
    texto_questoes = divisao_gabarito[0] if divisao_gabarito else texto_completo
    blocos = re.split(r'(Quest√£o\s+\d+)', texto_questoes, flags=re.IGNORECASE)

    lista_final = []
    
    for i in range(1, len(blocos)-1, 2):
        cabecalho = blocos[i]
        conteudo = blocos[i+1]
        
        # ID Seguro
        match_num = re.search(r'\d+', cabecalho)
        if not match_num: continue
        id_q = int(match_num.group())

        # Processar Linhas (Desembaralhar alternativas)
        enunciado_parts = []
        opcoes_map = {}
        
        for linha in conteudo.split('\n'):
            # Limpeza r√°pida
            linha = linha.strip()
            if not linha or re.match(r'^\d{8,}$', linha) or "Acessar Lista" in linha: continue
            
            # Captura Alternativa (A, B, C...)
            match_alt = re.match(r'^([A-E])[\s\.\)\-](.*)', linha)
            if match_alt:
                opcoes_map[match_alt.group(1)] = match_alt.group(2).strip()
            elif len(linha) > 3:
                enunciado_parts.append(linha)

        # Montagem
        opcoes_lista = [opcoes_map.get(letra, "N/A") for letra in ['A','B','C','D','E']]
        letra_resp = gabarito_map.get(id_q)

        lista_final.append({
            "id": id_q,
            "text": " ".join(enunciado_parts),
            "options": opcoes_lista,
            "correct": letra_resp, # Sai "A", "B", etc.
            "explanation": ""
        })
        
    return lista_final

## üöÄ 5. Execu√ß√£o do Pipeline
Orquestrador que processa todos os arquivos da pasta `pdf/`.
Fornecer feedback visual do status do processamento.

In [37]:
# 1. Listar PDFs
arquivos = list(PASTA_PDF.glob("*.pdf"))
print(f"üöÄ Iniciando Pipeline para {len(arquivos)} arquivos PDF...\n")

for arq_pdf in arquivos:
    print(f"üìÑ Processando: {arq_pdf.name}")
    
    # ETAPA 1: PDF -> TXT
    texto_cru = pdf_para_txt_stream(arq_pdf)
    
    if texto_cru:
        # Salva backup TXT (Opcional, mas boa pr√°tica)
        caminho_txt = PASTA_TXT / (arq_pdf.stem + ".txt")
        with open(caminho_txt, "w", encoding="utf-8") as f:
            f.write(texto_cru)
            
        # ETAPA 2: TXT -> JSON
        dados_json = processar_texto_para_json(texto_cru)
        
        # Salva JSON Final
        caminho_json = PASTA_JSON / (arq_pdf.stem + ".json")
        with open(caminho_json, "w", encoding="utf-8") as f:
            json.dump(dados_json, f, indent=2, ensure_ascii=False)
            
        print(f"   ‚úÖ Gerado JSON com {len(dados_json)} quest√µes.")
    else:
        print("   ‚ùå Falha na leitura do PDF.")

print("\nüèÅ Pipeline Finalizado!")

üöÄ Iniciando Pipeline para 12 arquivos PDF...

üìÑ Processando: ALERJ 2025 Arquivologia - FGV.pdf
   ‚úÖ Gerado JSON com 87 quest√µes.
üìÑ Processando: ALERJ 2025 Arquivologia Diversas Bancas.pdf
   ‚úÖ Gerado JSON com 293 quest√µes.
üìÑ Processando: ALERJ 2025 Legisla√ß√£o Espec√≠fica Diversas Bancas.pdf
   ‚úÖ Gerado JSON com 66 quest√µes.
üìÑ Processando: ALERJ 2025 L√≠ngua Portuguesa - FGV.pdf
   ‚úÖ Gerado JSON com 855 quest√µes.
üìÑ Processando: ALERJ 2025 No√ß√µes de Administra√ß√£o - Diversas Bancas.pdf
   ‚úÖ Gerado JSON com 971 quest√µes.
üìÑ Processando: ALERJ 2025 No√ß√µes de Administra√ß√£o - FGV.pdf
   ‚úÖ Gerado JSON com 298 quest√µes.
üìÑ Processando: ALERJ 2025 No√ß√µes de Direito Administrativo - FGV.pdf
   ‚úÖ Gerado JSON com 445 quest√µes.
üìÑ Processando: ALERJ 2025 No√ß√µes de Direito Constitucional - Diversas Bancas.pdf
   ‚úÖ Gerado JSON com 710 quest√µes.
üìÑ Processando: ALERJ 2025 No√ß√µes de Direito Constitucional - FGV.pdf
   ‚úÖ Gerado JSON com 

## üìä 6. Valida√ß√£o e Auditoria (Quality Assurance)
Gera um relat√≥rio consolidado de todos os arquivos processados, verificando:
1.  **Volumetria:** Quantidade total de quest√µes extra√≠das por arquivo.
2.  **Integridade:** Identifica√ß√£o de quest√µes sem gabarito (erros de leitura).
3.  **Amostragem:** Visualiza√ß√£o aleat√≥ria de quest√µes de diferentes arquivos para confer√™ncia humana.

In [42]:
import pandas as pd
import json

# Lista todos os JSONs gerados
arquivos_json = list(PASTA_JSON.glob("*.json"))

if not arquivos_json:
    print("‚ö†Ô∏è Nenhum arquivo JSON encontrado para auditar.")
else:
    # Listas para armazenar dados consolidados
    resumo_stats = []
    todas_questoes = []

    print(f"üîç Iniciando auditoria em {len(arquivos_json)} arquivos...\n")

    for arquivo in arquivos_json:
        try:
            with open(arquivo, 'r', encoding='utf-8') as f:
                dados = json.load(f)
            
            # 1. Coleta Estat√≠sticas
            total_q = len(dados)
            # Conta quantas quest√µes est√£o sem gabarito (correct = None)
            sem_gabarito = sum(1 for q in dados if q['correct'] is None)
            
            resumo_stats.append({
                "Nome do Arquivo": arquivo.name,
                "Qtd Quest√µes": total_q,
                "‚ö†Ô∏è Sem Gabarito": sem_gabarito, # √ötil para debug
                "Status": "‚úÖ OK" if total_q > 0 else "‚ùå VAZIO"
            })
            
            # 2. Adiciona ao 'Lakedatal' (adicionando a origem para sabermos de onde veio)
            for q in dados:
                q['origem'] = arquivo.name # Adiciona metadado
                todas_questoes.append(q)
                
        except Exception as e:
            resumo_stats.append({
                "Nome do Arquivo": arquivo.name,
                "Qtd Quest√µes": 0,
                "Status": f"‚ùå ERRO: {str(e)}"
            })

    # --- EXIBI√á√ÉO DOS RESULTADOS ---

    # 1. Tabela Resumo por Arquivo
    df_resumo = pd.DataFrame(resumo_stats)
    print("üìã TABELA DE VOLUMETRIA:")
    # Estiliza para destacar erros (opcional, se der erro tire o .style...)
    display(df_resumo)

    # 2. Totais Gerais
    total_geral = len(todas_questoes)
    print(f"\nüåé TOTAL GLOBAL: {total_geral} quest√µes extra√≠das.")

    # 3. Amostra Aleat√≥ria (Sampling)
    if total_geral > 0:
        df_completo = pd.DataFrame(todas_questoes)
        print("\nüé≤ AMOSTRA ALEAT√ìRIA (5 Quest√µes variadas para confer√™ncia):")
        # Pega 5 quest√µes aleat√≥rias para voc√™ ler e ver se o texto faz sentido
        amostra = df_completo[['origem', 'id', 'text', 'correct']].sample(n=min(5, total_geral))
        pd.set_option('display.max_colwidth', 100) # Aumenta largura para ler o texto
        display(amostra)
    else:
        print("‚ö†Ô∏è Nenhuma quest√£o v√°lida encontrada no total.")

üîç Iniciando auditoria em 12 arquivos...

üìã TABELA DE VOLUMETRIA:


Unnamed: 0,Nome do Arquivo,Qtd Quest√µes,‚ö†Ô∏è Sem Gabarito,Status
0,ALERJ 2025 Arquivologia - FGV.json,87,0,‚úÖ OK
1,ALERJ 2025 Arquivologia Diversas Bancas.json,293,0,‚úÖ OK
2,ALERJ 2025 Legisla√ß√£o Espec√≠fica Diversas Banc...,66,0,‚úÖ OK
3,ALERJ 2025 L√≠ngua Portuguesa - FGV.json,855,0,‚úÖ OK
4,ALERJ 2025 No√ß√µes de Administra√ß√£o - Diversas ...,971,0,‚úÖ OK
5,ALERJ 2025 No√ß√µes de Administra√ß√£o - FGV.json,298,0,‚úÖ OK
6,ALERJ 2025 No√ß√µes de Direito Administrativo - ...,445,0,‚úÖ OK
7,ALERJ 2025 No√ß√µes de Direito Constitucional - ...,710,0,‚úÖ OK
8,ALERJ 2025 No√ß√µes de Direito Constitucional - ...,489,0,‚úÖ OK
9,ALERJ 2025 No√ß√µes de Inform√°tica - Diversas Ba...,820,0,‚úÖ OK



üåé TOTAL GLOBAL: 6239 quest√µes extra√≠das.

üé≤ AMOSTRA ALEAT√ìRIA (5 Quest√µes variadas para confer√™ncia):


Unnamed: 0,origem,id,text,correct
5337,ALERJ 2025 No√ß√µes de Inform√°tica - Vunesp.json,304,"Lista de Atalhos Um funcion√°rio da ALBA digitou um trabalho no Word 2010 BR para Windows e, ao (...",B
515,ALERJ 2025 L√≠ngua Portuguesa - FGV.json,70,"Emprego do h√≠fen Notamos, como usu√°rios da l√≠ngua portuguesa, que alguns voc√°bulos podem ser usa...",E
3440,ALERJ 2025 No√ß√µes de Direito Constitucional - Diversas Bancas.json,426,Da responsabilidade do Presidente da Rep√∫blica I II Admitida acusa√ß√£o contra o Presidente da Rep...,D
4430,ALERJ 2025 No√ß√µes de Inform√°tica - Diversas Bancas.json,217,"Conceitos B√°sicos O programa MS-Excel 2010, em sua con(cid:39)gura√ß√£o padr√£o, est√° sendo utiliza...",A
4698,ALERJ 2025 No√ß√µes de Inform√°tica - Diversas Bancas.json,485,"Novidades Word 2013 Guia Inserir No Microsoft Word 2013, para juntar alguns trechos de um determ...",A


# Fase 2: Enriquecimento e Persist√™ncia

## üì¶ 7. Configura√ß√£o da Fase 2
1.  Instala√ß√£o das bibliotecas necess√°rias para conectar com a Intelig√™ncia Artificial (Google Gemini) e gerenciar vari√°veis de ambiente de forma segura.
2. Passo 2: Atualizar a Biblioteca
3. Passo 3: Descobrir o Nome Correto do Modelo que ser√° utilizado.

In [39]:
%%capture
!pip install google-generativeai python-dotenv

In [43]:
%%capture
!pip install --upgrade google-generativeai

In [44]:
import google.generativeai as genai
import os
from dotenv import load_dotenv

load_dotenv()
API_KEY = os.getenv("GEMINI_API_KEY")
genai.configure(api_key=API_KEY)

print("üîç Buscando modelos dispon√≠veis...")
try:
    for m in genai.list_models():
        if 'generateContent' in m.supported_generation_methods:
            print(f"‚úÖ Dispon√≠vel: {m.name}")
except Exception as e:
    print(f"‚ùå Erro ao listar: {e}")

üîç Buscando modelos dispon√≠veis...
‚úÖ Dispon√≠vel: models/gemini-2.5-flash
‚úÖ Dispon√≠vel: models/gemini-2.5-pro
‚úÖ Dispon√≠vel: models/gemini-2.0-flash-exp
‚úÖ Dispon√≠vel: models/gemini-2.0-flash
‚úÖ Dispon√≠vel: models/gemini-2.0-flash-001
‚úÖ Dispon√≠vel: models/gemini-2.0-flash-exp-image-generation
‚úÖ Dispon√≠vel: models/gemini-2.0-flash-lite-001
‚úÖ Dispon√≠vel: models/gemini-2.0-flash-lite
‚úÖ Dispon√≠vel: models/gemini-2.0-flash-lite-preview-02-05
‚úÖ Dispon√≠vel: models/gemini-2.0-flash-lite-preview
‚úÖ Dispon√≠vel: models/gemini-exp-1206
‚úÖ Dispon√≠vel: models/gemini-2.5-flash-preview-tts
‚úÖ Dispon√≠vel: models/gemini-2.5-pro-preview-tts
‚úÖ Dispon√≠vel: models/gemma-3-1b-it
‚úÖ Dispon√≠vel: models/gemma-3-4b-it
‚úÖ Dispon√≠vel: models/gemma-3-12b-it
‚úÖ Dispon√≠vel: models/gemma-3-27b-it
‚úÖ Dispon√≠vel: models/gemma-3n-e4b-it
‚úÖ Dispon√≠vel: models/gemma-3n-e2b-it
‚úÖ Dispon√≠vel: models/gemini-flash-latest
‚úÖ Dispon√≠vel: models/gemini-flash-lite-latest
‚úÖ Disp

## üóÑÔ∏è 8. Camada de Persist√™ncia (SQLite)
Nesta etapa, consolidamos os arquivos JSON dispersos em um banco de dados relacional (SQLite).
* **Idempot√™ncia:** O script verifica se a quest√£o j√° existe antes de inserir, evitando duplicatas se rodarmos o pipeline m√∫ltiplas vezes.
* **Schema:** Criamos uma tabela `questoes` otimizada com flags de controle (`processado`) para gerenciar o fluxo da IA.

In [2]:
import sqlite3
import json
import os
from pathlib import Path

# Configura√ß√£o
PASTA_JSON = Path("json")
DB_NAME = "simulado.db"

def criar_tabela(conn):
    cursor = conn.cursor()
    # Tabela robusta com campo de controle 'processado'
    cursor.execute("""
        CREATE TABLE IF NOT EXISTS questoes (
            id_global INTEGER PRIMARY KEY AUTOINCREMENT,
            id_original INTEGER,
            arquivo_origem TEXT,
            enunciado TEXT,
            opcao_a TEXT,
            opcao_b TEXT,
            opcao_c TEXT,
            opcao_d TEXT,
            opcao_e TEXT,
            gabarito TEXT,
            explicacao TEXT,
            processado BOOLEAN DEFAULT 0
        )
    """)
    conn.commit()

def importar_json(conn, arquivo_json):
    cursor = conn.cursor()
    arquivo_nome = arquivo_json.name
    
    with open(arquivo_json, 'r', encoding='utf-8') as f:
        dados = json.load(f)
        
    cont = 0
    for q in dados:
        # Verifica se j√° existe para n√£o duplicar (Idempot√™ncia)
        cursor.execute("SELECT 1 FROM questoes WHERE id_original = ? AND arquivo_origem = ?", 
                       (q['id'], arquivo_nome))
        if cursor.fetchone():
            continue
            
        # Insere
        cursor.execute("""
            INSERT INTO questoes (id_original, arquivo_origem, enunciado, 
                                  opcao_a, opcao_b, opcao_c, opcao_d, opcao_e, gabarito)
            VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?)
        """, (
            q['id'], 
            arquivo_nome, 
            q['text'],
            q['options'][0], q['options'][1], q['options'][2], q['options'][3], q['options'][4],
            q['correct']
        ))
        cont += 1
    
    conn.commit()
    print(f"   -> Importadas {cont} quest√µes de {arquivo_nome}")

def main():
    print("üóÑÔ∏è  INICIANDO SETUP DO BANCO DE DADOS...")
    
    conn = sqlite3.connect(DB_NAME)
    criar_tabela(conn)
    
    arquivos = list(PASTA_JSON.glob("*.json"))
    if not arquivos:
        print("‚ùå Nenhum JSON encontrado na pasta json/.")
        return

    for arq in arquivos:
        importar_json(conn, arq)
        
    print(f"\n‚úÖ Banco '{DB_NAME}' pronto e populado!")
    conn.close()

if __name__ == "__main__":
    main()

üóÑÔ∏è  INICIANDO SETUP DO BANCO DE DADOS...
   -> Importadas 87 quest√µes de ALERJ 2025 Arquivologia - FGV.json
   -> Importadas 293 quest√µes de ALERJ 2025 Arquivologia Diversas Bancas.json
   -> Importadas 66 quest√µes de ALERJ 2025 Legisla√ß√£o Espec√≠fica Diversas Bancas.json
   -> Importadas 855 quest√µes de ALERJ 2025 L√≠ngua Portuguesa - FGV.json
   -> Importadas 971 quest√µes de ALERJ 2025 No√ß√µes de Administra√ß√£o - Diversas Bancas.json
   -> Importadas 298 quest√µes de ALERJ 2025 No√ß√µes de Administra√ß√£o - FGV.json
   -> Importadas 445 quest√µes de ALERJ 2025 No√ß√µes de Direito Administrativo - FGV.json
   -> Importadas 710 quest√µes de ALERJ 2025 No√ß√µes de Direito Constitucional - Diversas Bancas.json
   -> Importadas 489 quest√µes de ALERJ 2025 No√ß√µes de Direito Constitucional - FGV.json
   -> Importadas 820 quest√µes de ALERJ 2025 No√ß√µes de Inform√°tica - Diversas Bancas.json
   -> Importadas 420 quest√µes de ALERJ 2025 No√ß√µes de Inform√°tica - Vunesp.json


## üß† 9. Worker de Intelig√™ncia Artificial (Google Gemini)
Um agente aut√¥nomo que consulta o banco de dados em busca de quest√µes sem explica√ß√£o.
1.  **Fila de Trabalho:** Seleciona quest√µes onde `explicacao IS NULL`.
2.  **Engenharia de Prompt:** Envia a quest√£o para o modelo `gemini-1.5-flash` com instru√ß√µes pedag√≥gicas estritas.
3.  **Atualiza√ß√£o At√¥mica:** Salva a explica√ß√£o gerada no banco e marca a quest√£o como processada.

In [3]:
import sqlite3
import google.generativeai as genai
import time
import os
from dotenv import load_dotenv

# Carrega a API Key
load_dotenv()
API_KEY = os.getenv("GEMINI_API_KEY")

if not API_KEY:
    print("‚ùå ERRO: Chave GEMINI_API_KEY n√£o encontrada.")
else:
    genai.configure(api_key=API_KEY)
    
    # --- ATUALIZA√á√ÉO: Usando o modelo validado da sua lista ---
    # Op√ß√µes que voc√™ tem: 'gemini-2.0-flash', 'gemini-2.0-pro', 'gemini-flash-latest'
    NOME_MODELO = 'gemini-2.0-flash' 
    
    try:
        model = genai.GenerativeModel(NOME_MODELO)
        print(f"ü§ñ Modelo configurado e validado: {NOME_MODELO}")
    except Exception as e:
        print(f"‚ö†Ô∏è Erro ao configurar modelo: {e}")
        # Fallback de seguran√ßa
        NOME_MODELO = 'gemini-pro'
        model = genai.GenerativeModel(NOME_MODELO)

    DB_NAME = "simulado.db"

    def gerar_explicacao_didatica(enunciado, gabarito, opcoes):
        prompt = f"""
        Voc√™ √© um professor especialista em concursos p√∫blicos.
        Tarefa: Explique de forma DID√ÅTICA e SUCINTA (m√°x 3 frases) por que a alternativa ({gabarito}) √© a correta.
        
        Quest√£o: {enunciado}
        Alternativas:
        A) {opcoes[0]}
        B) {opcoes[1]}
        C) {opcoes[2]}
        D) {opcoes[3]}
        E) {opcoes[4]}
        
        Gabarito Oficial: {gabarito}
        """
        try:
            response = model.generate_content(prompt)
            return response.text.strip()
        except Exception as e:
            print(f"   ‚ö†Ô∏è Erro API ({NOME_MODELO}): {e}")
            return None

    def worker_processar_fila():
        conn = sqlite3.connect(DB_NAME)
        cursor = conn.cursor()
        
        print(f"üöÄ INICIANDO WORKER COM {NOME_MODELO} (Ctrl+C para parar)...")
        
        # Lista de IDs que deram erro nesta sess√£o para n√£o travar o loop
        ids_com_erro = set()
        
        while True:
            # Busca 100 quest√µes pendentes para tentar processar
            cursor.execute("""
                SELECT id_global, id_original, enunciado, gabarito, opcao_a, opcao_b, opcao_c, opcao_d, opcao_e 
                FROM questoes 
                WHERE explicacao IS NULL AND gabarito IS NOT NULL
                LIMIT 100 
            """)
            tarefas = cursor.fetchall()
            
            # Encontra a primeira da lista que n√£o deu erro hoje
            tarefa_atual = None
            for t in tarefas:
                if t[0] not in ids_com_erro:
                    tarefa_atual = t
                    break
            
            if not tarefa_atual:
                print("‚úÖ Todas as quest√µes pendentes foram processadas (ou ignoradas por erro).")
                break
            
            id_global, id_original, enunciado, gabarito, *opcoes = tarefa_atual
            
            print(f"‚ö° Q.{id_original} (ID:{id_global}) Gab:{gabarito}...", end="", flush=True)
            
            # Chama a IA
            explicacao = gerar_explicacao_didatica(enunciado, gabarito, opcoes)
            
            if explicacao:
                cursor.execute("UPDATE questoes SET explicacao = ?, processado = 1 WHERE id_global = ?", (explicacao, id_global))
                conn.commit()
                print(" OK!")
                # O Gemini 2.0 √© r√°pido, mas vamos manter uma pausa de seguran√ßa
                time.sleep(1.0) 
            else:
                print(" FALHOU. Pulando...")
                ids_com_erro.add(id_global)
                time.sleep(1)

        conn.close()

    # Executa o worker
    worker_processar_fila()

ü§ñ Modelo configurado e validado: gemini-2.0-flash
üöÄ INICIANDO WORKER COM gemini-2.0-flash (Ctrl+C para parar)...
‚ö° Q.1 (ID:1) Gab:B...

 OK!
‚ö° Q.2 (ID:2) Gab:D... OK!
‚ö° Q.3 (ID:3) Gab:E... OK!
‚ö° Q.4 (ID:4) Gab:A... OK!
‚ö° Q.5 (ID:5) Gab:A... OK!
‚ö° Q.6 (ID:6) Gab:E... OK!
‚ö° Q.7 (ID:7) Gab:D... OK!
‚ö° Q.8 (ID:8) Gab:A... OK!
‚ö° Q.9 (ID:9) Gab:D... OK!
‚ö° Q.10 (ID:10) Gab:D... OK!
‚ö° Q.11 (ID:11) Gab:C... OK!
‚ö° Q.12 (ID:12) Gab:A... OK!
‚ö° Q.13 (ID:13) Gab:D... OK!
‚ö° Q.14 (ID:14) Gab:B... OK!
‚ö° Q.15 (ID:15) Gab:C... OK!
‚ö° Q.16 (ID:16) Gab:C... OK!
‚ö° Q.17 (ID:17) Gab:B... OK!
‚ö° Q.18 (ID:18) Gab:E... OK!
‚ö° Q.19 (ID:19) Gab:D... OK!
‚ö° Q.20 (ID:20) Gab:B... OK!
‚ö° Q.21 (ID:21) Gab:C... OK!
‚ö° Q.22 (ID:22) Gab:A... OK!
‚ö° Q.23 (ID:23) Gab:E... OK!
‚ö° Q.24 (ID:24) Gab:E... OK!
‚ö° Q.25 (ID:25) Gab:A... OK!
‚ö° Q.26 (ID:26) Gab:D... OK!
‚ö° Q.27 (ID:27) Gab:A... OK!
‚ö° Q.28 (ID:28) Gab:E... OK!
‚ö° Q.29 (ID:29) Gab:C... OK!
‚ö° Q.30 (ID:30) Gab:E... OK!
‚ö° Q.31 (ID:31) Gab:C... OK!
‚ö° Q.32 (ID:32) Gab:A... OK!
‚ö° Q.33 (ID:33) Gab:B... OK!
‚ö° Q.34 (ID:34) Gab:C... OK!
‚ö° Q.35 (ID:35) Gab:

## üèÜ 10. Resultado Final
Consulta ao banco de dados para visualizar o produto final: Quest√µes estruturadas e enriquecidas com explica√ß√£o gerada por IA.

In [5]:
import pandas as pd  # <--- Essa linha estava faltando nessa execu√ß√£o
import sqlite3

# Configura√ß√£o do banco (caso a vari√°vel DB_NAME tenha sido perdida no restart)
DB_NAME = "simulado.db" 

conn = sqlite3.connect(DB_NAME)

print("üîç Auditando dados enriquecidos no banco...")

# Carrega os dados enriquecidos para o Pandas
# Pegamos quest√µes que j√° t√™m explica√ß√£o (processadas)
df_final = pd.read_sql_query("""
    SELECT id_global, enunciado, gabarito, explicacao 
    FROM questoes 
    WHERE explicacao IS NOT NULL 
    LIMIT 5
""", conn)

conn.close()

if not df_final.empty:
    # Ajusta exibi√ß√£o para ler o texto todo (n√£o cortar com '...')
    pd.set_option('display.max_colwidth', None)
    display(df_final)
else:
    print("‚ö†Ô∏è Nenhuma quest√£o enriquecida encontrada ainda. Rode o Worker de IA (C√©lula anterior) um pouco mais.")

üîç Auditando dados enriquecidos no banco...


Unnamed: 0,id_global,enunciado,gabarito,explicacao
0,1,"Introdu√ß√£o √† Arquivologia Com a cessa√ß√£o de atividades de institui√ß√µes p√∫blicas e de car√°ter p√∫blico, sua documenta√ß√£o deve ser encaminhada",B,"A alternativa (B) est√° correta porque, em caso de cessa√ß√£o de atividades, a documenta√ß√£o deve ser transferida para a institui√ß√£o arquiv√≠stica p√∫blica competente ou para a institui√ß√£o que assumir as responsabilidades da extinta, garantindo a preserva√ß√£o e o acesso aos documentos. As demais alternativas mencionam √≥rg√£os ou sistemas com outras fun√ß√µes, ou fases do ciclo de vida documental, n√£o sendo adequadas para o destino final da documenta√ß√£o de uma institui√ß√£o extinta."
1,2,Arquivo,D,"A alternativa correta (D) √© ""rela√ß√£o org√¢nica"" porque um arquivo, diferentemente de uma simples cole√ß√£o, √© caracterizado pela interconex√£o natural e funcional de seus documentos, refletindo as atividades de uma entidade. Essa rela√ß√£o org√¢nica preserva o contexto e a integridade informacional, elementos essenciais para a pesquisa e a gest√£o documental. As demais alternativas focam em caracter√≠sticas que podem estar presentes, mas n√£o definem a ess√™ncia de um arquivo."
2,3,"Introdu√ß√£o √† Arquivologia De acordo com a teoria das 3 idades, os documentos considerados de valor hist√≥rico-cultural para determinada organiza√ß√£o, abertos ao p√∫blico geral para consultas, s√£o preservados como arquivos do tipo",E,"A alternativa (E) est√° correta porque, na teoria das tr√™s idades, os arquivos permanentes s√£o aqueles com valor hist√≥rico-cultural, destinados √† guarda definitiva e √† consulta p√∫blica. Arquivos correntes e intermedi√°rios s√£o fases anteriores, enquanto ""prim√°rio"" n√£o se encaixa na terminologia arquiv√≠stica. Portanto, documentos de valor hist√≥rico s√£o, por defini√ß√£o, arquivos permanentes."
3,4,"Documento Informa√ß√£o e Suporte Quanto √† Esp√©cie e Tipo Quanto √† Forma Relacione os exemplos √† direita com o tipo de caracter√≠stica dos documentos a serem organizados em um escrit√≥rio. 1. Forma 2. Formato 3. Esp√©cie 4. Suporte ( ) rascunho, minuta, original, c√≥pia ( ) declara√ß√£o, relat√≥rio, ata ( ) papel, m√≠dia eletr√¥nica, meio magn√©tico ( ) cartaz, folha, planta, mapa Essa quest√£o possui coment√°rio do professor no site 4001726641",A,"A alternativa (A) est√° correta porque relaciona adequadamente as caracter√≠sticas dos documentos aos seus exemplos: ""forma"" refere-se ao rascunho/minuta/original/c√≥pia, ""esp√©cie"" √† declara√ß√£o/relat√≥rio/ata, ""suporte"" ao papel/m√≠dia eletr√¥nica, e ""formato"" ao cartaz/folha/planta/mapa. A ordem 1-3-4-2 reflete essa correspond√™ncia l√≥gica na organiza√ß√£o documental."
4,5,"Introdu√ß√£o √† Arquivologia mem√≥ria e garantir transpar√™ncia e acesso √† informa√ß√£o. Isso inclui a organiza√ß√£o, conserva√ß√£o e recupera√ß√£o e(cid:67)cientes de documentos, bem como a defini√ß√£o de pol√≠ticas para arquivos f√≠sicos e digitais. Com rela√ß√£o √†s no√ß√µes de arquivologia, analise as afirmativas a seguir. I. O princ√≠pio da proveni√™ncia exige que conjuntos documentais (fundos) de origens distintas n√£o sejam mesclados, prevendo uma articula√ß√£o do organismo produtor do documento com a fun√ß√£o que este representa. II. A teoria das treÃÇs idades classi(cid:67)ca os arquivos em prim√°rios, secund√°rios e terci√°rios, de acordo com a frequ√™ncia de uso por suas entidades produtoras e a identifica√ß√£o de seus valores permanentes. III. A gest√£o de documentos abrange o conjunto de procedimentos e de opera√ßoÃÉes t√©cnicas referentes √† produ√ß√£o, ao uso, √† avalia√ß√£o e ao arquivamento de documentos em fase corrente e intermedi√°ria, visando √† sua aliena√ß√£o. Est√° correto o que se afirma em",A,"A alternativa (A) est√° correta porque apenas a afirmativa I descreve corretamente um princ√≠pio fundamental da Arquivologia: o princ√≠pio da proveni√™ncia, que garante a integridade e o contexto dos documentos ao preservar sua origem e evitar a mistura de fundos documentais distintos. As demais afirmativas apresentam informa√ß√µes incorretas sobre a teoria das tr√™s idades e a gest√£o de documentos."


## 11üìù C√©lula 11: Migra√ß√£o do Banco de Dados (Schema Evolution)
#### Esta c√©lula vai criar a tabela topicos e conectar tudo.

In [None]:
import sqlite3

DB_NAME = "simulado.db"

def migrar_para_arquitetura_kb():
    conn = sqlite3.connect(DB_NAME)
    cursor = conn.cursor()
    
    print("üèóÔ∏è Migrando para Arquitetura de Base de Conhecimento...")
    
    # 1. Criar Tabela de T√≥picos (Sua "Enciclop√©dia")
    cursor.execute("""
        CREATE TABLE IF NOT EXISTS topicos (
            id INTEGER PRIMARY KEY AUTOINCREMENT,
            materia TEXT,
            nome TEXT,
            resumo_teorico TEXT,
            citacao_legal TEXT,
            UNIQUE(materia, nome) 
        )
    """)
    
    # 2. Conectar as Quest√µes aos T√≥picos
    try:
        cursor.execute("ALTER TABLE questoes ADD COLUMN topico_id INTEGER REFERENCES topicos(id)")
        print("   ‚úÖ Coluna de liga√ß√£o 'topico_id' adicionada.")
    except sqlite3.OperationalError:
        print("   ‚ÑπÔ∏è Coluna 'topico_id' j√° existia.")

    # 3. Adicionar colunas individuais (caso ainda n√£o tenha rodado a vers√£o anterior)
    colunas_individuais = [("dificuldade", "TEXT"), ("explicacao", "TEXT")]
    for col, tipo in colunas_individuais:
        try:
            cursor.execute(f"ALTER TABLE questoes ADD COLUMN {col} {tipo}")
        except sqlite3.OperationalError:
            pass
            
    conn.commit()
    conn.close()
    print("üèÅ Banco de dados pronto para a arquitetura relacional (N√≠vel S√™nior)!")

migrar_para_arquitetura_kb()

## üìù C√©lula 12: O Worker Inteligente (Classificador + Gerador)
### Este √© o script que faz a m√°gica: classifica a quest√£o e gera a teoria apenas se o t√≥pico for novo.

In [None]:
import sqlite3
import google.generativeai as genai
import json
import time
import os
from dotenv import load_dotenv
from tqdm.notebook import tqdm

load_dotenv()
genai.configure(api_key=os.getenv("GEMINI_API_KEY"))

# Configura√ß√£o do Modelo JSON
model = genai.GenerativeModel('gemini-2.0-flash', generation_config={"response_mime_type": "application/json"})
DB_NAME = "simulado.db"

def classificar_questao(enunciado, gabarito, opcoes):
    """Passo 1: Identifica o assunto e explica a quest√£o espec√≠fica."""
    prompt = f"""
    Analise esta quest√£o de concurso e retorne um JSON.
    Quest√£o: {enunciado}
    Gabarito: {gabarito}
    Op√ß√µes: {opcoes}
    
    JSON ESPERADO:
    {{
        "materia": "A disciplina macro (ex: Portugu√™s, Direito Adm)",
        "topico_nome": "O conceito te√≥rico chave (ex: Crase, Atos Administrativos)",
        "dificuldade": "F√°cil/M√©dia/Dif√≠cil",
        "explicacao_especifica": "Explica√ß√£o breve de por que a alternativa {gabarito} est√° certa."
    }}
    """
    try:
        resp = model.generate_content(prompt)
        return json.loads(resp.text)
    except: return None

def gerar_teoria_topico(materia, topico):
    """Passo 2: Gera o material de apoio (S√ì CHAMADO SE O T√ìPICO FOR NOVO)."""
    prompt = f"""
    Crie um material de apoio did√°tico para estudantes.
    Mat√©ria: {materia}
    T√≥pico: {topico}
    
    JSON ESPERADO:
    {{
        "resumo_teorico": "Resumo denso e did√°tico sobre o conceito (m√°x 100 palavras).",
        "citacao_legal": "Artigo de lei ou norma que fundamenta (ou null)."
    }}
    """
    try:
        resp = model.generate_content(prompt)
        return json.loads(resp.text)
    except: return None

def worker_kb_inteligente():
    conn = sqlite3.connect(DB_NAME)
    cursor = conn.cursor()
    
    # Seleciona quest√µes que ainda n√£o t√™m t√≥pico vinculado
    cursor.execute("SELECT id_global, enunciado, gabarito, opcao_a, opcao_b, opcao_c, opcao_d, opcao_e FROM questoes WHERE topico_id IS NULL AND gabarito IS NOT NULL")
    tarefas = cursor.fetchall()
    
    if not tarefas:
        print("‚úÖ Todas as quest√µes j√° est√£o classificadas e vinculadas!")
        return

    print(f"üöÄ Processando {len(tarefas)} quest√µes na Arquitetura KB...")
    barra = tqdm(total=len(tarefas))
    
    for tarefa in tarefas:
        id_q, enunc, gab, *opcoes = tarefa
        
        # 1. Classifica
        dados_q = classificar_questao(enunc, gab, opcoes)
        if not dados_q: 
            print(f"‚ö†Ô∏è Erro na Q. ID {id_q}"); continue
            
        materia = dados_q['materia']
        topico_nome = dados_q['topico_nome']
        
        # 2. Verifica se o t√≥pico j√° existe
        cursor.execute("SELECT id FROM topicos WHERE materia = ? AND nome = ?", (materia, topico_nome))
        resultado = cursor.fetchone()
        
        topico_id = None
        
        if resultado:
            topico_id = resultado[0] # T√≥pico j√° existe, reaproveita!
        else:
            # T√≥pico novo -> Gera Teoria
            dados_teoria = gerar_teoria_topico(materia, topico_nome)
            if dados_teoria:
                cursor.execute("""
                    INSERT INTO topicos (materia, nome, resumo_teorico, citacao_legal)
                    VALUES (?, ?, ?, ?)
                """, (materia, topico_nome, dados_teoria['resumo_teorico'], dados_teoria['citacao_legal']))
                topico_id = cursor.lastrowid
                # print(f"   ‚ú® Novo Conhecimento: {topico_nome}") # Descomente se quiser ver o log
        
        # 3. Atualiza a quest√£o
        if topico_id:
            cursor.execute("""
                UPDATE questoes 
                SET topico_id = ?, explicacao = ?, dificuldade = ?, processado = 1
                WHERE id_global = ?
            """, (topico_id, dados_q['explicacao_especifica'], dados_q['dificuldade'], id_q))
            conn.commit()
            
        barra.update(1)
        time.sleep(1.5) # Respeita a API

    conn.close()
    print("‚ú® Processamento finalizado!")

worker_kb_inteligente()

## üéÅ B√¥nus: C√©lula 13 (Visualizar sua Base de Conhecimento)
### Rode esta c√©lula para ver a tabela de t√≥picos que voc√™ criou.

In [None]:
import pandas as pd
import sqlite3

conn = sqlite3.connect("simulado.db")

print("üìö TOPICOS GERADOS (Base de Conhecimento):")
df_topicos = pd.read_sql_query("SELECT * FROM topicos LIMIT 10", conn)
display(df_topicos)

print("\nüîó QUEST√ïES VINCULADAS:")
df_vinculo = pd.read_sql_query("""
    SELECT q.id_global, q.enunciado, t.nome as topico_vinculado
    FROM questoes q
    JOIN topicos t ON q.topico_id = t.id
    LIMIT 5
""", conn)
display(df_vinculo)

conn.close()