In [None]:
import pandas as pd
import os
import multiprocessing
from tqdm.notebook import tqdm
from concurrent.futures import ProcessPoolExecutor, as_completed

# AQUI EST√Å O SEGREDO: Importamos do arquivo .py que criamos
# Se der erro de m√≥dulo n√£o encontrado, garanta que o arquivo .py est√° na mesma pasta do notebook
from extrator_cemig import extrair_todos_grupos_final

if __name__ == '__main__':
    
    # --- CONFIGURA√á√ïES ---
    # CAMINHO DA PASTA LOCAL (Disco C:)
    pasta_origem = os.path.join("..", "data", "input_pdfs") 
    
    arquivo_saida = "Relatorio_Final_CEMIG_Turbo.csv"
    arquivo_log = "Log_Erros.txt"
    
    # 1. Listagem
    if not os.path.exists(pasta_origem):
        print("Pasta n√£o encontrada! Verifique o caminho.")
    else:
        print(f"Listando arquivos em: {pasta_origem}...")
        arquivos_pdf = [f for f in os.listdir(pasta_origem) if f.lower().endswith('.pdf')]
        caminhos_completos = [os.path.join(pasta_origem, f) for f in arquivos_pdf]
        total = len(caminhos_completos)
        
        # Define n√∫mero de n√∫cleos (Deixa 1 livre para o sistema)
        num_processos = max(1, multiprocessing.cpu_count() - 1)
        print(f"Total de arquivos: {total}")
        print(f"Iniciando Motor Turbo com {num_processos} n√∫cleos! üöÄ")

        # 2. Prepara CSV
        colunas = [
            "Arquivo", "Grupo", 
            "Fase_Pickup", "Fase_Seq", "Fase_Lenta_Curva", "Fase_Lenta_Dial", "Fase_Lenta_TAdic",
            "Fase_Rapida_Curva", "Fase_Rapida_Dial", "Fase_Rapida_TAdic",
            "Terra_Pickup", "Terra_Seq", "Terra_Lenta_Curva", "Terra_Lenta_Tempo",
            "Terra_Rapida_Curva", "Terra_Rapida_Tempo", "Tempo_Morto"
        ]

        if not os.path.exists(arquivo_saida):
            pd.DataFrame(columns=colunas).to_csv(arquivo_saida, index=False, sep=';', encoding='utf-8-sig')

        # 3. Processamento Paralelo
        buffer = []
        lote_gravacao = 500

        with ProcessPoolExecutor(max_workers=num_processos) as executor:
            futures = {executor.submit(extrair_todos_grupos_final, caminho): caminho for caminho in caminhos_completos}
            
            for future in tqdm(as_completed(futures), total=total, desc="Extraindo em Paralelo"):
                try:
                    dados, erro = future.result()
                    
                    if erro:
                        with open(arquivo_log, "a") as f:
                            f.write(f"{erro}\n")
                    elif dados:
                        buffer.extend(dados)
                    
                    if len(buffer) >= lote_gravacao:
                        df_temp = pd.DataFrame(buffer)
                        for col in colunas:
                            if col not in df_temp.columns: df_temp[col] = ""
                        df_temp = df_temp[colunas]
                        df_temp.to_csv(arquivo_saida, mode='a', header=False, index=False, sep=';', encoding='utf-8-sig')
                        buffer = []
                except Exception as e:
                    print(f"Erro gen√©rico no loop: {e}")

        if buffer:
            df_temp = pd.DataFrame(buffer)
            for col in colunas:
                if col not in df_temp.columns: df_temp[col] = ""
            df_temp = df_temp[colunas]
            df_temp.to_csv(arquivo_saida, mode='a', header=False, index=False, sep=';', encoding='utf-8-sig')

        print("-" * 50)
        print("PROCESSAMENTO FINALIZADO COM SUCESSO! üèÅ")