In [1]:
"""
╔══════════════════════════════════════════════════════════════════════════════╗
║                  AIVI DATA INTEGRATION - BLOCO 1 v4.1                        ║
║              CONFIGURAÇÃO COMPLETA DO AMBIENTE + UX/UI + LOGS                ║
╠══════════════════════════════════════════════════════════════════════════════╣
║  Versão: 4.1 - Consolidado, Modular, Inteligente                            ║
║  Data: 2025-01-15                                                            ║
║  Prompt Base: AIVI v4.1 (com UX/UI, Schema Logging, Exploração)             ║
╠══════════════════════════════════════════════════════════════════════════════╣
║  CONTEÚDO DESTE BLOCO:                                                       ║
║    1. Imports e Constantes AIVI 2025                                         ║
║    2. Sistema UX/UI com Timer (PARTE 0.10)                                   ║
║    3. Log de Campos + Exploração (PARTE 12.3 + 14)                           ║
║    4. Regex Patterns para Detecção de Conteúdo                               ║
║    5. Validações Não-Destrutivas                                             ║
║    6. FileManager Expandido                                                  ║
║    7. Inicialização e Teste                                                  ║
╠══════════════════════════════════════════════════════════════════════════════╣
║  PROTOCOLO BLOCO-A-BLOCO:                                                    ║
║    ✅ Execute este bloco                                                     ║
║    ✅ Valide todos os outputs                                                ║
║    ✅ Teste a GUI (janela de seleção de pasta)                               ║
║    ✅ Confirme: "BLOCO 1 OK" ou reporte problemas                            ║
║    ⏭️  Só então prosseguiremos para BLOCO 2                                  ║
╚══════════════════════════════════════════════════════════════════════════════╝
"""

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 1: IMPORTS E CONFIGURAÇÕES BÁSICAS
# ═══════════════════════════════════════════════════════════════════════════

print("╔" + "═" * 78 + "╗")
print("║" + " 🚀 BLOCO 1: CONFIGURAÇÃO COMPLETA DO AMBIENTE".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

# Imports padrão
import sys
import os
import json
import logging
import warnings
from pathlib import Path
from datetime import datetime
from typing import Dict, List, Tuple, Optional, Any
import re
import unicodedata

# Imports para análise de dados
import pandas as pd
import numpy as np

# Imports para GUI
import tkinter as tk
from tkinter import filedialog, messagebox

# Configurações
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: f'{x:,.4f}')

print("📦 SEÇÃO 1.1: Imports")
print("-" * 80)
print("   ✅ Bibliotecas padrão: sys, os, json, logging, datetime")
print("   ✅ Análise de dados: pandas, numpy")
print("   ✅ GUI: tkinter")
print("   ✅ Configurações aplicadas")
print()

# Verificar versões
modulos_carregados = {
    'Python': sys.version.split()[0],
    'Pandas': pd.__version__,
    'NumPy': np.__version__
}

print("📋 Versões:")
for modulo, versao in modulos_carregados.items():
    print(f"   • {modulo}: {versao}")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 2: CONSTANTES AIVI 2025
# ═══════════════════════════════════════════════════════════════════════════

print("📊 SEÇÃO 1.2: Constantes AIVI 2025")
print("-" * 80)

# Constantes principais
CONSTANTES_AIVI = {
    'ANO_VIGENCIA': 2025,
    'VERSAO_SISTEMA': '4.1',
    'DATA_ATUALIZACAO': '2025-01-15',

    # Parâmetros estatísticos
    'PERCENTIL_INFERIOR': 10,
    'PERCENTIL_SUPERIOR': 90,
    'DESVIOS_PADRAO_BATENTE': 2.5,

    # Pesos AIVI
    'PESO_CONFORMIDADE': 0.50,
    'PESO_SEVERIDADE': 0.30,
    'PESO_FREQUENCIA': 0.20,

    # Limites de alerta
    'LIMITE_CRITICO_PCT': 30.0,
    'LIMITE_ALERTA_PCT': 10.0,

    # Configurações de análise
    'MESES_MINIMO_HISTORICO': 6,
    'MESES_IDEAL_HISTORICO': 12,
    'CONFIANCA_MINIMA_MAPEAMENTO': 0.80
}

print(f"   ✅ Ano de vigência: {CONSTANTES_AIVI['ANO_VIGENCIA']}")
print(f"   ✅ Versão do sistema: {CONSTANTES_AIVI['VERSAO_SISTEMA']}")
print(f"   ✅ {len(CONSTANTES_AIVI)} constantes definidas")
print()

# Schema AIVI - Campos obrigatórios
SCHEMA_AIVI_CAMPOS_OBRIGATORIOS = [
    'Período',
    'Centro',
    'Sigla',
    'Cód Grupo de produto',
    'Expedição c/ Veículo',
    'Variação Interna',
    '% VI',
    'LI Atual (%)',
    'LS Atual (%)'
]

print(f"   ✅ Schema AIVI: {len(SCHEMA_AIVI_CAMPOS_OBRIGATORIOS)} campos obrigatórios")
print()

# Dicionário de sinônimos expandido
DICIONARIO_SINONIMOS = {
    'Centro': [
        'Centro', 'Código de Centro', 'Cod Centro', 'CódigoCentro',
        'Centro Operacional', 'ID Centro', 'Centro_ID', 'CENTRO',
        'Cod_Centro', 'Centro_Operacional', 'Plant', 'Planta'
    ],

    'Sigla': [
        'Sigla', 'Sigla de Centro', 'Sigla Centro', 'Sigla Base',
        'Base', 'Sigla_Centro', 'SIGLA', 'SiglaBase', 'Sigla_Base',
        'Sigla do Centro', 'Nome Base', 'Base Operacional'
    ],

    'Cód Grupo de produto': [
        'Cód Grupo de produto', 'Código Produto', 'Cod Produto',
        'Grupo Produto', 'CodGrupoProduto', 'Cód_Grupo_produto',
        'PRODUTO', 'Produto_Cod', 'CodGrupo', 'Material Group',
        'Grupo de Material', 'Product Group'
    ],

    'Expedição c/ Veículo': [
        'Expedição c/ Veículo', 'Expedição', 'Expedicao',
        'Volume Expedido', 'Exped_Veiculo', 'EXPEDICAO', 'Exped',
        'Expedicao_Veiculo', 'Volume_Expedido', 'Dispatch Volume',
        'Volume Carregado', 'Carregamento'
    ],

    'Variação Interna': [
        'Variação Interna', 'Variacao Interna', 'VI', 'Var Interna',
        'VarInt', 'VARIACAO', 'Var_Interna', 'VariacaoInterna',
        'Internal Variation', 'Variation'
    ],

    '% VI': [
        '% VI', 'Percentual VI', 'VI %', 'Percentual Variacao Interna',
        'Perc VI', 'VI_Percent', 'Variation %'
    ],

    'LI Atual (%)': [
        'LI Atual (%)', 'Limite Inferior', 'LI', 'Lim Inferior',
        'Limite_Inferior', 'LIMITE_INF', 'LimInf', 'Lim_Inferior',
        'Lower Limit', 'LL'
    ],

    'LS Atual (%)': [
        'LS Atual (%)', 'Limite Superior', 'LS', 'Lim Superior',
        'Limite_Superior', 'LIMITE_SUP', 'LimSup', 'Lim_Superior',
        'Upper Limit', 'UL'
    ],

    'Período': [
        'Período', 'Periodo', 'Data', 'Data Referencia',
        'Mês/Ano', 'Mes Ano', 'Competencia', 'Period', 'Date'
    ],

    'Mês do exercício': [
        'Mês do exercício', 'Mês', 'Mes', 'Mês Exercício',
        'MesExercicio', 'MES', 'Mes_Exercicio', 'Mes_Ref', 'Month'
    ],

    'Ano do documento do material': [
        'Ano do documento do material', 'Ano', 'Ano Documento',
        'AnoDoc', 'ANO', 'Ano_Documento', 'Ano_Ref', 'Year'
    ]
}

print(f"   ✅ Dicionário de sinônimos: {len(DICIONARIO_SINONIMOS)} campos principais")
print(f"   ✅ Total de variações mapeadas: {sum(len(v) for v in DICIONARIO_SINONIMOS.values())}")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3: REGEX PATTERNS PARA DETECÇÃO DE CONTEÚDO
# ═══════════════════════════════════════════════════════════════════════════

print("🔍 SEÇÃO 1.3: Regex Patterns para Detecção de Conteúdo")
print("-" * 80)

PATTERNS_CONTEUDO = {
    # CENTRO: 4 dígitos numéricos como string
    'centro': {
        'pattern': r'^\d{4}$',
        'description': 'Centro: 4 dígitos',
        'exemplo': '1001'
    },

    # CÓDIGO DE MATERIAL/PRODUTO: formatos xx.xxx.xxx, x.xxx.xxx, xxxxxxxx, xxxxxxx
    'codigo_material': {
        'pattern': r'^(\d{1,2}\.\d{3}\.\d{3}|\d{7,8})$',
        'description': 'Código Material: xx.xxx.xxx ou 7-8 dígitos',
        'exemplo': '10.123.456'
    },

    # CÓDIGO DE GRUPO: pode ter texto com underscore ou números
    'codigo_grupo': {
        'pattern': r'^([A-Z0-9_]+|\d{1,2}\.\d{3}\.\d{3}|\d{7,8})$',
        'description': 'Código Grupo: TEXTO_TEXTO ou numérico',
        'exemplo': 'DIESEL_S10'
    },

    # TRANSPORTE/DOCUMENTO: 10 dígitos
    'documento_transporte': {
        'pattern': r'^\d{10}$',
        'description': 'Documento Transporte: 10 dígitos',
        'exemplo': '1234567890'
    },

    # PERÍODO/DATA: diversos formatos
    'data': {
        'pattern': r'^\d{2}/\d{2}/\d{4}$|^\d{4}-\d{2}-\d{2}$|^\d{1,2}\.\d{4}$|^\d{2}\.\d{4}$',
        'description': 'Data: dd/mm/yyyy, yyyy-mm-dd ou mm.yyyy',
        'exemplo': '01/01/2025'
    },

    # VALORES NUMÉRICOS: com separadores regionais
    'valor_numerico': {
        'pattern': r'^-?\d{1,3}(\.\d{3})*(,\d+)?$|^-?\d+(,\d{3})*(\.\d+)?$|^-?\d+(\.\d+)?$',
        'description': 'Valor: 1.234,56 ou 1,234.56 ou 1234.56',
        'exemplo': '1.234,56'
    },

    # PERCENTUAL
    'percentual': {
        'pattern': r'^-?\d+([.,]\d+)?%?$',
        'description': 'Percentual: 12,34% ou 12.34',
        'exemplo': '12,34%'
    },

    # SIGLA BASE: 2-4 letras maiúsculas
    'sigla_base': {
        'pattern': r'^[A-Z]{2,4}$',
        'description': 'Sigla: 2-4 letras maiúsculas',
        'exemplo': 'RLAM'
    },

    # TEXTO GERAL
    'texto': {
        'pattern': r'^[A-Za-zÀ-ÿ\s\-_/]+$',
        'description': 'Texto: letras, espaços, hífen',
        'exemplo': 'Gasolina Comum'
    }
}

print(f"   ✅ {len(PATTERNS_CONTEUDO)} patterns definidos")
for tipo, config in list(PATTERNS_CONTEUDO.items())[:3]:
    print(f"      • {tipo}: {config['description']}")
print(f"      • ... e mais {len(PATTERNS_CONTEUDO) - 3} patterns")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 4: FUNÇÕES AUXILIARES - DETECÇÃO E VALIDAÇÃO
# ═══════════════════════════════════════════════════════════════════════════

print("⚙️  SEÇÃO 1.4: Funções Auxiliares")
print("-" * 80)

def normalizar_string(s: str) -> str:
    """
    Normaliza string para comparação (remove acentos, lowercase, apenas alfanuméricos).

    Args:
        s: String a normalizar

    Returns:
        String normalizada
    """
    s = unicodedata.normalize('NFKD', str(s))
    s = s.encode('ASCII', 'ignore').decode('ASCII')
    s = s.lower()
    s = re.sub(r'[^a-z0-9]', '', s)
    return s

def calcular_similaridade(s1: str, s2: str) -> float:
    """
    Calcula similaridade entre duas strings (0.0 a 1.0).

    Args:
        s1: Primeira string
        s2: Segunda string

    Returns:
        Score de similaridade
    """
    from difflib import SequenceMatcher
    s1_norm = normalizar_string(s1)
    s2_norm = normalizar_string(s2)
    return SequenceMatcher(None, s1_norm, s2_norm).ratio()

def detectar_tipo_conteudo(valor: str, verbose: bool = False) -> Dict[str, Any]:
    """
    Detecta tipo de conteúdo usando regex patterns.

    Args:
        valor: String a analisar
        verbose: Se True, mostra detalhes

    Returns:
        Dict com tipo detectado e confiança
    """
    if pd.isna(valor) or str(valor).strip() == '':
        return {'tipo': 'VAZIO', 'confianca': 1.0, 'pattern': None}

    valor_str = str(valor).strip()
    matches = []

    # Testar todos os patterns
    for tipo, config in PATTERNS_CONTEUDO.items():
        if re.match(config['pattern'], valor_str):
            matches.append(tipo)
            if verbose:
                print(f"   ✅ Match: {tipo} - {config['description']}")

    if not matches:
        return {'tipo': 'DESCONHECIDO', 'confianca': 0.0, 'pattern': None}

    # Priorizar mais específico
    prioridade = ['centro', 'codigo_material', 'documento_transporte', 'data',
                  'percentual', 'valor_numerico', 'sigla_base', 'codigo_grupo', 'texto']

    for tipo_prior in prioridade:
        if tipo_prior in matches:
            return {
                'tipo': tipo_prior.upper(),
                'confianca': 1.0 if len(matches) == 1 else 0.8,
                'pattern': PATTERNS_CONTEUDO[tipo_prior]['pattern'],
                'alternativas': [m for m in matches if m != tipo_prior]
            }

    return {'tipo': matches[0].upper(), 'confianca': 0.7, 'pattern': PATTERNS_CONTEUDO[matches[0]]['pattern']}

def analisar_coluna_completa(serie: pd.Series, amostra: int = 100) -> Dict:
    """
    Analisa coluna completa para determinar tipo predominante.

    Args:
        serie: Série pandas
        amostra: Número de valores a analisar

    Returns:
        Dict com análise completa
    """
    valores_nao_nulos = serie.dropna().astype(str).head(amostra)

    if len(valores_nao_nulos) == 0:
        return {
            'tipo_predominante': 'VAZIO',
            'confianca': 0.0,
            'tipos_encontrados': {},
            'exemplos': []
        }

    tipos_contagem = {}
    exemplos_por_tipo = {}

    for valor in valores_nao_nulos:
        deteccao = detectar_tipo_conteudo(valor)
        tipo = deteccao['tipo']

        tipos_contagem[tipo] = tipos_contagem.get(tipo, 0) + 1

        if tipo not in exemplos_por_tipo:
            exemplos_por_tipo[tipo] = []
        if len(exemplos_por_tipo[tipo]) < 3:
            exemplos_por_tipo[tipo].append(valor)

    tipo_predominante = max(tipos_contagem, key=tipos_contagem.get)
    total = len(valores_nao_nulos)
    confianca = tipos_contagem[tipo_predominante] / total

    return {
        'tipo_predominante': tipo_predominante,
        'confianca': confianca,
        'tipos_encontrados': tipos_contagem,
        'exemplos': exemplos_por_tipo.get(tipo_predominante, [])[:3],
        'total_analisado': total
    }

def identificar_linha_cabecalho(df: pd.DataFrame, dicionario_termos: List[str]) -> int:
    """
    Identifica linha de cabeçalho usando dicionário de termos conhecidos.

    Args:
        df: DataFrame bruto
        dicionario_termos: Lista de termos que aparecem em cabeçalhos

    Returns:
        Índice da linha de cabeçalho (ou -1 se não encontrado)
    """
    termos_norm = [normalizar_string(t) for t in dicionario_termos]

    for idx in range(min(20, len(df))):
        row = df.iloc[idx]
        valores_norm = [normalizar_string(str(v)) for v in row if pd.notna(v)]

        matches = sum(1 for termo in termos_norm if any(termo in v for v in valores_norm))
        pct_match = matches / len(termos_norm) if termos_norm else 0

        if pct_match >= 0.5:
            return idx

    return -1

def validar_transformacao(df_antes: pd.DataFrame, df_depois: pd.DataFrame,
                         nome_transformacao: str, permitir_reducao: bool = False) -> Dict:
    """
    Valida transformação comparando estados antes/depois.

    Args:
        df_antes: DataFrame original
        df_depois: DataFrame transformado
        nome_transformacao: Nome da operação
        permitir_reducao: Se True, permite redução de linhas/colunas

    Returns:
        Dict com resultado da validação
    """
    resultado = {
        'nome': nome_transformacao,
        'passou': True,
        'alertas': [],
        'metricas': {}
    }

    # Linhas
    linhas_antes = len(df_antes)
    linhas_depois = len(df_depois)
    diff_linhas = linhas_depois - linhas_antes

    resultado['metricas']['linhas'] = {
        'antes': linhas_antes,
        'depois': linhas_depois,
        'diferenca': diff_linhas
    }

    if diff_linhas < 0 and not permitir_reducao:
        resultado['passou'] = False
        resultado['alertas'].append(f"❌ PERDA DE LINHAS: {abs(diff_linhas):,}")

    # Colunas
    colunas_antes = len(df_antes.columns)
    colunas_depois = len(df_depois.columns)

    resultado['metricas']['colunas'] = {
        'antes': colunas_antes,
        'depois': colunas_depois,
        'diferenca': colunas_depois - colunas_antes
    }

    # NULLs
    nulls_antes = df_antes.isnull().sum().sum()
    nulls_depois = df_depois.isnull().sum().sum()

    resultado['metricas']['nulls'] = {
        'antes': int(nulls_antes),
        'depois': int(nulls_depois),
        'diferenca': int(nulls_depois - nulls_antes)
    }

    return resultado

def formatar_tabela_resumo(dados: Dict[str, Any], titulo: str = "RESUMO") -> None:
    """
    Formata dicionário como tabela imprimível.

    Args:
        dados: Dicionário com dados
        titulo: Título da tabela
    """
    print(f"\n╔{'═' * 78}╗")
    print(f"║ {titulo.center(76)} ║")
    print(f"╠{'═' * 78}╣")

    for chave, valor in dados.items():
        chave_fmt = chave.replace('_', ' ').title().ljust(35)

        if isinstance(valor, (int, np.integer)):
            valor_fmt = f"{valor:,}".rjust(40)
        elif isinstance(valor, (float, np.floating)):
            valor_fmt = f"{valor:,.2f}".rjust(40)
        elif isinstance(valor, bool):
            valor_fmt = ("✅ SIM" if valor else "❌ NÃO").rjust(40)
        else:
            valor_str = str(valor)
            if len(valor_str) > 40:
                valor_fmt = (valor_str[:37] + "...").rjust(40)
            else:
                valor_fmt = valor_str.rjust(40)

        print(f"║ {chave_fmt} : {valor_fmt} ║")

    print(f"╚{'═' * 78}╝")

print("   ✅ normalizar_string()")
print("   ✅ calcular_similaridade()")
print("   ✅ detectar_tipo_conteudo()")
print("   ✅ analisar_coluna_completa()")
print("   ✅ identificar_linha_cabecalho()")
print("   ✅ validar_transformacao()")
print("   ✅ formatar_tabela_resumo()")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 5: SISTEMA UX/UI COM TIMER (PARTE 0.10)
# ═══════════════════════════════════════════════════════════════════════════

print("🎨 SEÇÃO 1.5: Sistema UX/UI com Timer e Memória")
print("-" * 80)

class DialogoPadraoAIVI:
    """
    Classe base para diálogos interativos com:
    - Memória de última escolha
    - Timer de 10s com countdown visual
    - Botões padronizados
    - Logging transparente
    """

    CONFIG_DIR = Path.home() / '.aivi_config'
    TIMER_PADRAO = 10

    def __init__(self, tipo: str, titulo: str, mensagem: str):
        self.tipo = tipo
        self.titulo = titulo
        self.mensagem = mensagem
        self.CONFIG_DIR.mkdir(exist_ok=True)
        self.config_file = self.CONFIG_DIR / f'aivi_{tipo}_last.json'

    def carregar_ultima_escolha(self) -> Optional[str]:
        """Carrega última escolha salva."""
        if self.config_file.exists():
            try:
                with open(self.config_file, 'r', encoding='utf-8') as f:
                    config = json.load(f)
                ultima = config.get('last_choice')

                # Validar se é caminho e se existe
                if self.tipo in ['diretorio', 'arquivo']:
                    if ultima and Path(ultima).exists():
                        return ultima
                    return None
                return ultima
            except:
                return None
        return None

    def salvar_escolha(self, escolha: str) -> None:
        """Salva escolha atual."""
        config = {
            'last_choice': str(escolha),
            'timestamp': datetime.now().isoformat(),
            'tipo': self.tipo
        }
        with open(self.config_file, 'w', encoding='utf-8') as f:
            json.dump(config, f, indent=2, ensure_ascii=False)

def selecionar_diretorio_trabalho() -> Path:
    """
    Seleciona diretório de trabalho com UX/UI padrão:
    - Memória de última pasta
    - Timer de 10s
    - Botões padronizados

    Returns:
        Path do diretório selecionado
    """
    dialogo = DialogoPadraoAIVI(
        'diretorio_trabalho',
        'Diretório de Trabalho AIVI',
        'Selecione a pasta onde os dados e outputs serão salvos'
    )

    ultimo_dir = dialogo.carregar_ultima_escolha()

    # Criar janela
    root = tk.Tk()
    root.withdraw()  # Ocultar janela principal

    # Se tem última pasta, criar janela com timer
    if ultimo_dir:
        root.deiconify()
        root.title("AIVI - Diretório de Trabalho")
        root.geometry("600x300")

        # Centralizar
        x = (root.winfo_screenwidth() // 2) - 300
        y = (root.winfo_screenheight() // 2) - 150
        root.geometry(f"+{x}+{y}")

        resultado = {'path': None, 'cancelado': False, 'timeout': False}
        contador = [10]

        # Frame
        frame = tk.Frame(root, padx=20, pady=20, bg='white')
        frame.pack(fill=tk.BOTH, expand=True)

        # Título
        tk.Label(
            frame,
            text="Diretório de Trabalho AIVI",
            font=('Arial', 14, 'bold'),
            bg='white'
        ).pack(pady=(0, 15))

        # Mensagem
        tk.Label(
            frame,
            text=f"📂 Última pasta usada:\n{ultimo_dir}",
            font=('Arial', 9),
            bg='#E8F5E9',
            fg='#2E7D32',
            padx=10,
            pady=10,
            wraplength=550
        ).pack(pady=(0, 10))

        # Timer
        label_timer = tk.Label(
            frame,
            text=f"{contador[0]}s",
            font=('Arial', 20, 'bold'),
            fg='#FF4444',
            bg='white'
        )
        label_timer.pack(pady=(5, 20))

        def countdown():
            if contador[0] > 0 and not resultado['cancelado']:
                contador[0] -= 1
                label_timer.config(text=f"{contador[0]}s")
                root.after(1000, countdown)
            elif contador[0] == 0 and not resultado['cancelado']:
                resultado['timeout'] = True
                root.quit()
                root.destroy()

        # Botões
        frame_btns = tk.Frame(frame, bg='white')
        frame_btns.pack(side=tk.BOTTOM, pady=20)

        def escolher_nova():
            resultado['cancelado'] = True
            root.withdraw()
            diretorio = filedialog.askdirectory(
                title="Diretório de Trabalho AIVI",
                initialdir=ultimo_dir
            )
            resultado['path'] = diretorio if diretorio else ultimo_dir
            root.quit()
            root.destroy()

        def usar_ultima():
            resultado['cancelado'] = True
            resultado['path'] = ultimo_dir
            root.quit()
            root.destroy()

        tk.Button(
            frame_btns,
            text="Escolher Nova Pasta",
            command=escolher_nova,
            width=22,
            height=2,
            font=('Arial', 10, 'bold'),
            bg='#4CAF50',
            fg='white',
            cursor='hand2'
        ).pack(side=tk.LEFT, padx=10)

        tk.Button(
            frame_btns,
            text="Usar Última Pasta",
            command=usar_ultima,
            width=22,
            height=2,
            font=('Arial', 10),
            bg='#2196F3',
            fg='white',
            cursor='hand2'
        ).pack(side=tk.LEFT, padx=10)

        # Iniciar timer
        root.after(1000, countdown)
        root.mainloop()

        # Processar resultado
        if resultado.get('timeout'):
            print(f"   ⏱️  Timeout (10s) - usando última pasta")
            resultado['path'] = ultimo_dir

        if resultado['path']:
            dialogo.salvar_escolha(resultado['path'])
            return Path(resultado['path'])

    # Sem última pasta ou escolher nova
    root.withdraw()
    diretorio = filedialog.askdirectory(title="Diretório de Trabalho AIVI")

    if diretorio:
        dialogo.salvar_escolha(diretorio)
        print(f"   ✅ Diretório selecionado: {diretorio}")
        return Path(diretorio)
    else:
        raise ValueError("❌ Nenhum diretório selecionado")

print("   ✅ DialogoPadraoAIVI (classe base)")
print("   ✅ selecionar_diretorio_trabalho() (com timer + memória)")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 6: FILEMANAGER EXPANDIDO COM LOGS DE CAMPOS
# ═══════════════════════════════════════════════════════════════════════════

print("📁 SEÇÃO 1.6: FileManager Expandido")
print("-" * 80)

class FileManagerAIVI:
    """
    Gerenciador de arquivos e logs AIVI v4.1.

    Funcionalidades:
    - Estrutura de pastas completa
    - Log de execução (geral + específico)
    - Log de campos separado (PARTE 12.3)
    - Pasta de exploração (PARTE 14)
    """

    def __init__(self, diretorio_base: Optional[Path] = None):
        """Inicializa FileManager."""

        self.timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
        print(f"   🕐 Timestamp: {self.timestamp}")

        # Selecionar diretório base
        if diretorio_base is None:
            self.diretorio_base = selecionar_diretorio_trabalho()
        else:
            self.diretorio_base = Path(diretorio_base)

        print(f"   📂 Diretório base: {self.diretorio_base}")

        # Criar estrutura
        self.diretorio_execucao = self.diretorio_base / f"AIVI_DataIntegration_{self.timestamp}"
        self._criar_estrutura()
        self._configurar_logging()

        # Log inicial
        self.logger.info("═" * 80)
        self.logger.info("NOVA EXECUÇÃO - AIVI DATA INTEGRATION v4.1")
        self.logger.info("═" * 80)
        self.logger.info(f"Timestamp: {self.timestamp}")
        self.logger.info(f"Diretório: {self.diretorio_execucao}")
        self.logger.info(f"Python: {sys.version.split()[0]}")
        self.logger.info(f"Pandas: {pd.__version__}")

        print()
        print(f"   ✅ FileManager inicializado")
        print(f"   ✅ Sistema de logs ativo")
        print()

    def _criar_estrutura(self):
        """Cria estrutura de pastas."""

        # Estrutura expandida v4.1
        self.diretorios = {
            'logs': self.diretorio_execucao / '01_Logs',
            'logs_campos': self.diretorio_execucao / '01_Logs' / 'logs_campos',  # NOVO
            'logs_execucao': self.diretorio_execucao / '01_Logs' / 'logs_execucao',  # NOVO
            'dados_entrada': self.diretorio_execucao / '02_Dados_Entrada',
            'dados_processados': self.diretorio_execucao / '03_Dados_Processados',
            'dados_integrados': self.diretorio_execucao / '04_Dados_Integrados',
            'exploracao': self.diretorio_execucao / '05_Exploracao',  # NOVO (PARTE 14)
            'relatorios': self.diretorio_execucao / '06_Relatorios',
            'validacoes': self.diretorio_execucao / '07_Validacoes',
            'exports': self.diretorio_execucao / '08_Exports'
        }

        # Criar todas as pastas
        for nome, caminho in self.diretorios.items():
            caminho.mkdir(parents=True, exist_ok=True)

    def _configurar_logging(self):
        """Configura sistema de logging."""

        log_file = self.diretorios['logs_execucao'] / f'aivi_analise_{self.timestamp}.log'

        # Configurar logger
        self.logger = logging.getLogger(f'AIVI_{self.timestamp}')
        self.logger.setLevel(logging.DEBUG)

        # Handler para arquivo
        fh = logging.FileHandler(log_file, encoding='utf-8')
        fh.setLevel(logging.DEBUG)

        # Handler para console
        ch = logging.StreamHandler()
        ch.setLevel(logging.INFO)

        # Formato
        formatter = logging.Formatter(
            '%(asctime)s | %(levelname)-8s | %(message)s',
            datefmt='%Y-%m-%d %H:%M:%S'
        )
        fh.setFormatter(formatter)
        ch.setFormatter(formatter)

        self.logger.addHandler(fh)
        self.logger.addHandler(ch)

    def salvar_metadata(self, metadata_adicional: Dict = None) -> Path:
        """Salva metadata da execução."""

        metadata = {
            'timestamp': self.timestamp,
            'versao': CONSTANTES_AIVI['VERSAO_SISTEMA'],
            'data_atualizacao': CONSTANTES_AIVI['DATA_ATUALIZACAO'],
            'diretorio_base': str(self.diretorio_base),
            'diretorio_execucao': str(self.diretorio_execucao),
            'estrutura_pastas': {k: str(v) for k, v in self.diretorios.items()},
            'python_version': sys.version,
            'pandas_version': pd.__version__
        }

        if metadata_adicional:
            metadata.update(metadata_adicional)

        metadata_file = self.diretorios['logs'] / 'metadata.json'
        with open(metadata_file, 'w', encoding='utf-8') as f:
            json.dump(metadata, f, indent=2, ensure_ascii=False)

        return metadata_file

    def registrar_schema_campos(self, df: pd.DataFrame, fonte: str, arquivo_origem: str) -> Path:
        """
        Registra schema completo de campos em log separado (PARTE 12.3).

        Args:
            df: DataFrame a registrar
            fonte: Nome da fonte (ex: 'SAP_YSMM_VI_ACOMP')
            arquivo_origem: Nome do arquivo original

        Returns:
            Path do arquivo de log de campos
        """
        schema_info = {
            'fonte': fonte,
            'arquivo_origem': arquivo_origem,
            'timestamp': datetime.now().isoformat(),
            'total_registros': len(df),
            'total_colunas': len(df.columns),
            'campos': {}
        }

        # Analisar cada campo
        for i, col in enumerate(df.columns, 1):
            serie = df[col]

            campo_info = {
                'posicao': i,
                'nome_original': col,
                'tipo_pandas': str(serie.dtype),
                'count_total': len(serie),
                'count_nulos': int(serie.isnull().sum()),
                'pct_nulos': float(serie.isnull().sum() / len(serie) * 100) if len(serie) > 0 else 0,
                'count_unicos': int(serie.nunique()),
                'pct_cardinalidade': float(serie.nunique() / len(serie) * 100) if len(serie) > 0 else 0
            }

            # Análise de conteúdo
            analise = analisar_coluna_completa(serie, amostra=50)
            campo_info['tipo_conteudo_detectado'] = analise['tipo_predominante']
            campo_info['confianca_deteccao'] = analise['confianca']
            campo_info['exemplos'] = analise['exemplos']

            schema_info['campos'][col] = campo_info

        # Salvar
        log_campos_file = self.diretorios['logs_campos'] / f'{fonte}_{self.timestamp}_schema.json'
        with open(log_campos_file, 'w', encoding='utf-8') as f:
            json.dump(schema_info, f, indent=2, ensure_ascii=False)

        self.logger.info(f"Schema de campos registrado: {log_campos_file.name}")

        return log_campos_file

print("   ✅ FileManagerAIVI (classe expandida)")
print("   ✅ Suporte a logs de campos (PARTE 12.3)")
print("   ✅ Pasta de exploração (PARTE 14)")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 7: INICIALIZAÇÃO E TESTE
# ═══════════════════════════════════════════════════════════════════════════

print("🚀 SEÇÃO 1.7: Inicializando FileManager")
print("-" * 80)
print()

# Inicializar (vai abrir GUI)
try:
    fm = FileManagerAIVI()

    # Criar aliases para compatibilidade
    gerenciador = fm
    gp = fm

    # Aliases de diretórios
    DIR_LOGS = fm.diretorios['logs']
    DIR_LOGS_CAMPOS = fm.diretorios['logs_campos']
    DIR_LOGS_EXECUCAO = fm.diretorios['logs_execucao']
    DIR_DADOS_ENTRADA = fm.diretorios['dados_entrada']
    DIR_DADOS_PROCESSADOS = fm.diretorios['dados_processados']
    DIR_DADOS_INTEGRADOS = fm.diretorios['dados_integrados']
    DIR_EXPLORACAO = fm.diretorios['exploracao']
    DIR_RELATORIOS = fm.diretorios['relatorios']
    DIR_VALIDACOES = fm.diretorios['validacoes']
    DIR_EXPORTS = fm.diretorios['exports']

    # Salvar metadata inicial
    metadata_file = fm.salvar_metadata({
        'bloco': 1,
        'fase': 'configuracao_completa',
        'modulos_carregados': modulos_carregados,
        'constantes': CONSTANTES_AIVI,
        'patterns_definidos': len(PATTERNS_CONTEUDO),
        'sinonimos_mapeados': sum(len(v) for v in DICIONARIO_SINONIMOS.values())
    })

    print()

except Exception as e:
    print()
    print("╔" + "═" * 78 + "╗")
    print("║" + " ❌ ERRO NA INICIALIZAÇÃO ".center(78) + "║")
    print("╚" + "═" * 78 + "╝")
    print()
    print(f"Erro: {str(e)}")
    import traceback
    print(traceback.format_exc())
    raise

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 8: INTEGRAÇÃO COM DICIONÁRIO PERSISTENTE (PROCESSAR ARQUIVOS)
# ═══════════════════════════════════════════════════════════════════════════

print("📚 SEÇÃO 1.8: Integração com Dicionário Persistente")
print("-" * 80)

# Locais padrão onde o dicionário pode estar
LOCAIS_DICIONARIO = [
    # Local 1: Mesma pasta do notebook
    Path.cwd() / 'DICT_Dicionario_Persistente.json',

    # Local 2: Pasta AIVI base
    Path("E:/OneDrive - VIBRA/NMCV - Documentos/Indicador/AIVI") / 'DICT_Dicionario_Persistente.json',

    # Local 3: Dentro da execução atual
    fm.diretorio_execucao / '08_Dicionarios' / 'DICT_Dicionario_Persistente.json',

    # Local 4: Pasta compartilhada (se existir)
    Path("E:/OneDrive - VIBRA/NMCV - Documentos/Indicador/AIVI/_DICIONARIOS") / 'DICT_Dicionario_Persistente.json'
]

def carregar_dicionario_persistente() -> Dict[str, Any]:
    """
    Carrega dicionário persistente criado por PROCESSAR ARQUIVOS DESCONHECIDOS.

    Returns:
        Dict com dicionário completo ou dict vazio se não encontrado
    """
    print("\n   🔍 Buscando dicionário persistente...")

    for i, local in enumerate(LOCAIS_DICIONARIO, 1):
        if local.exists():
            print(f"   ✅ Encontrado em: {local}")

            try:
                with open(local, 'r', encoding='utf-8') as f:
                    dicionario = json.load(f)

                # Validar estrutura
                if 'arquivos' in dicionario and 'ultima_atualizacao' in dicionario:
                    print(f"      Arquivos registrados: {len(dicionario['arquivos'])}")
                    print(f"      Última atualização: {dicionario['ultima_atualizacao']}")

                    # Salvar referência global
                    fm.logger.info(f"Dicionário persistente carregado: {local}")

                    return dicionario
                else:
                    print(f"      ⚠️  Estrutura inválida, pulando...")
            except Exception as e:
                print(f"      ❌ Erro ao carregar: {e}")

    print("   ℹ️  Dicionário não encontrado - será criado quando necessário")

    # Retornar estrutura vazia
    return {
        'arquivos': {},
        'ultima_atualizacao': None,
        'versao': '1.0'
    }

def consultar_tratamento_arquivo(nome_arquivo: str, dicionario: Dict) -> Optional[Dict]:
    """
    Consulta tratamento conhecido para um arquivo.

    Args:
        nome_arquivo: Nome do arquivo (ex: '2025-2024-YSMM_VI_ACOMP.xlsx')
        dicionario: Dicionário persistente

    Returns:
        Dict com tratamento ou None se não encontrado
    """
    # Normalizar nome
    nome_norm = normalizar_string(nome_arquivo)

    # Buscar por nome exato
    if nome_arquivo in dicionario['arquivos']:
        return dicionario['arquivos'][nome_arquivo]

    # Buscar por nome normalizado
    for arq_conhecido, tratamento in dicionario['arquivos'].items():
        if normalizar_string(arq_conhecido) == nome_norm:
            print(f"   ✅ Tratamento encontrado: {arq_conhecido}")
            return tratamento

    # Buscar por similaridade (≥80%)
    for arq_conhecido, tratamento in dicionario['arquivos'].items():
        similaridade = calcular_similaridade(nome_arquivo, arq_conhecido)
        if similaridade >= 0.80:
            print(f"   ⚠️  Tratamento similar encontrado ({similaridade:.0%}): {arq_conhecido}")
            print(f"      Confirme se é o mesmo tipo de arquivo")
            return tratamento

    return None

def registrar_novo_tratamento(nome_arquivo: str, tratamento: Dict,
                             dicionario: Dict, salvar_em: Path) -> None:
    """
    Registra novo tratamento no dicionário persistente.

    Args:
        nome_arquivo: Nome do arquivo
        tratamento: Dict com informações do tratamento
        dicionario: Dicionário atual
        salvar_em: Path onde salvar o dicionário atualizado
    """
    # Adicionar ao dicionário
    dicionario['arquivos'][nome_arquivo] = tratamento
    dicionario['ultima_atualizacao'] = datetime.now().isoformat()

    # Salvar
    salvar_em.parent.mkdir(parents=True, exist_ok=True)
    with open(salvar_em, 'w', encoding='utf-8') as f:
        json.dump(dicionario, f, indent=2, ensure_ascii=False)

    print(f"   💾 Dicionário atualizado: {salvar_em.name}")

    fm.logger.info(f"Novo tratamento registrado: {nome_arquivo}")

def chamar_processador_arquivos(arquivo_path: Path) -> Dict:
    """
    Chama notebook PROCESSAR ARQUIVOS DESCONHECIDOS (simula funcionalidade).

    NOTA: Esta é uma INTERFACE. O processamento real deve ser feito
    manualmente no notebook PROCESSAR ARQUIVOS DESCONHECIDOS v3.ipynb

    Args:
        arquivo_path: Path do arquivo a processar

    Returns:
        Dict com informações do tratamento
    """
    print(f"\n   ⚠️  NOVO ARQUIVO DETECTADO: {arquivo_path.name}")
    print("   " + "─" * 70)
    print("   Este arquivo NÃO está no dicionário persistente.")
    print()
    print("   📋 AÇÕES NECESSÁRIAS:")
    print("   1. Abra o notebook: PROCESSAR ARQUIVOS DESCONHECIDOS v3.ipynb")
    print("   2. Execute o processamento deste arquivo")
    print("   3. O dicionário será atualizado automaticamente")
    print("   4. Retorne aqui e execute novamente")
    print()
    print("   💡 ALTERNATIVA RÁPIDA:")
    print("   Se você sabe o tratamento, pode informar manualmente:")

    # Coletar informações manualmente (interface simplificada)
    resposta = input("\n   Deseja informar tratamento MANUALMENTE? (S/N): ").upper()

    if resposta == 'S':
        print("\n   📝 Informações do tratamento:")

        sheet_nome = input("      Nome da aba (sheet): ").strip() or None
        linha_cabecalho = input("      Linha do cabeçalho (0-indexed): ").strip()
        linha_cabecalho = int(linha_cabecalho) if linha_cabecalho else 0

        colunas_remover = input("      Colunas a remover (separadas por vírgula): ").strip()
        colunas_remover = [c.strip() for c in colunas_remover.split(',') if c.strip()]

        linhas_remover = input("      Linhas a remover ANTES do cabeçalho (sep. vírgula): ").strip()
        linhas_remover = [int(l.strip()) for l in linhas_remover.split(',') if l.strip()]

        tratamento = {
            'arquivo': arquivo_path.name,
            'sheet_nome': sheet_nome,
            'linha_cabecalho': linha_cabecalho,
            'colunas_remover': colunas_remover,
            'linhas_remover_antes_cabecalho': linhas_remover,
            'data_criacao': datetime.now().isoformat(),
            'metodo': 'MANUAL'
        }

        print("\n   ✅ Tratamento registrado!")
        return tratamento
    else:
        raise ValueError(
            f"❌ Arquivo não processado: {arquivo_path.name}\n"
            f"   Execute PROCESSAR ARQUIVOS DESCONHECIDOS v3.ipynb primeiro"
        )

# Carregar dicionário
try:
    DICIONARIO_PERSISTENTE = carregar_dicionario_persistente()
    print()
    print("   ✅ Sistema de dicionário persistente: ATIVO")

except Exception as e:
    print(f"\n   ⚠️  Erro ao carregar dicionário: {e}")
    print("   ℹ️  Continuando com dicionário vazio")
    DICIONARIO_PERSISTENTE = {'arquivos': {}, 'ultima_atualizacao': None, 'versao': '1.0'}

print()

# Atualizar resumo final
print("╔" + "═" * 78 + "╗")
print("║" + " ✅ BLOCO 1 COMPLETO - COM INTEGRAÇÃO DICIONÁRIO ".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

formatar_tabela_resumo({
    'timestamp': fm.timestamp,
    'versao_sistema': CONSTANTES_AIVI['VERSAO_SISTEMA'],
    'diretorio_execucao': fm.diretorio_execucao.name,
    'total_pastas_criadas': len(fm.diretorios),
    'dicionario_persistente': 'INTEGRADO' if DICIONARIO_PERSISTENTE['arquivos'] else 'VAZIO',
    'arquivos_conhecidos': len(DICIONARIO_PERSISTENTE['arquivos']),
    'sistema_completo': 'PRONTO PARA USO'
}, "RESUMO FINAL - BLOCO 1")

print()
print("📋 VARIÁVEIS GLOBAIS ADICIONADAS:")
print("-" * 80)
print("   • DICIONARIO_PERSISTENTE (dict)")
print("   • LOCAIS_DICIONARIO (list)")
print("   • Funções:")
print("     - carregar_dicionario_persistente()")
print("     - consultar_tratamento_arquivo()")
print("     - registrar_novo_tratamento()")
print("     - chamar_processador_arquivos()")

print()
print("✅ BLOCO 1 OK - CONFIRME PARA PROSSEGUIR PARA BLOCO 2")
print("="*80)

# ═══════════════════════════════════════════════════════════════════════════
# RESULTADO FINAL DO BLOCO 1
# ═══════════════════════════════════════════════════════════════════════════

print("╔" + "═" * 78 + "╗")
print("║" + " ✅ BLOCO 1 CONCLUÍDO COM SUCESSO ".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

# Resumo em tabela formatada
formatar_tabela_resumo({
    'timestamp': fm.timestamp,
    'versao_sistema': CONSTANTES_AIVI['VERSAO_SISTEMA'],
    'diretorio_execucao': fm.diretorio_execucao.name,
    'total_pastas_criadas': len(fm.diretorios),
    'constantes_aivi': len(CONSTANTES_AIVI),
    'campos_obrigatorios': len(SCHEMA_AIVI_CAMPOS_OBRIGATORIOS),
    'patterns_regex': len(PATTERNS_CONTEUDO),
    'sinonimos_mapeados': sum(len(v) for v in DICIONARIO_SINONIMOS.values()),
    'funcoes_auxiliares': 7,
    'sistema_ux_ui': 'ATIVO (timer + memória)',
    'log_campos': 'ATIVO (PARTE 12.3)',
    'exploracao': 'ATIVO (PARTE 14)'
}, "RESUMO DO BLOCO 1")

print()
print("📂 ESTRUTURA DE PASTAS CRIADA:")
print("-" * 80)
for nome, caminho in fm.diretorios.items():
    print(f"   {nome.ljust(20)} → {caminho.name}")

print()
print("🔗 VARIÁVEIS GLOBAIS DISPONÍVEIS:")
print("-" * 80)
print("   • fm / gerenciador / gp (FileManager)")
print("   • DIR_LOGS, DIR_LOGS_CAMPOS, DIR_DADOS_ENTRADA, etc")
print("   • CONSTANTES_AIVI (dict)")
print("   • SCHEMA_AIVI_CAMPOS_OBRIGATORIOS (list)")
print("   • DICIONARIO_SINONIMOS (dict)")
print("   • PATTERNS_CONTEUDO (dict)")
print("   • Funções: normalizar_string(), detectar_tipo_conteudo(), etc")

print()
print("📋 PRÓXIMOS PASSOS:")
print("-" * 80)
print("   1. ✅ Verifique se o diretório foi criado corretamente")
print("   2. ✅ Confirme que todas as pastas existem (9 pastas)")
print("   3. ✅ Abra o arquivo de log em 01_Logs/logs_execucao/")
print("   4. 📤 Envie: 'BLOCO 1 OK' para prosseguir")
print("   5. ⏭️  BLOCO 2 será o próximo (Carregador de Arquivos)")

print()
print("🔗 CAMINHO COMPLETO:")
print(f"   {fm.diretorio_execucao}")
print()
print("═" * 80)

╔══════════════════════════════════════════════════════════════════════════════╗
║                 🚀 BLOCO 1: CONFIGURAÇÃO COMPLETA DO AMBIENTE                 ║
╚══════════════════════════════════════════════════════════════════════════════╝

📦 SEÇÃO 1.1: Imports
--------------------------------------------------------------------------------
   ✅ Bibliotecas padrão: sys, os, json, logging, datetime
   ✅ Análise de dados: pandas, numpy
   ✅ GUI: tkinter
   ✅ Configurações aplicadas

📋 Versões:
   • Python: 3.11.9
   • Pandas: 2.3.3
   • NumPy: 2.3.3

📊 SEÇÃO 1.2: Constantes AIVI 2025
--------------------------------------------------------------------------------
   ✅ Ano de vigência: 2025
   ✅ Versão do sistema: 4.1
   ✅ 14 constantes definidas

   ✅ Schema AIVI: 9 campos obrigatórios

   ✅ Dicionário de sinônimos: 11 campos principais
   ✅ Total de variações mapeadas: 111

🔍 SEÇÃO 1.3: Regex Patterns para Detecção de Conteúdo
---------------------------------------------------------

2025-10-18 22:52:29 | INFO     | ════════════════════════════════════════════════════════════════════════════════
2025-10-18 22:52:29 | INFO     | NOVA EXECUÇÃO - AIVI DATA INTEGRATION v4.1
2025-10-18 22:52:29 | INFO     | ════════════════════════════════════════════════════════════════════════════════
2025-10-18 22:52:29 | INFO     | Timestamp: 20251018_225227
2025-10-18 22:52:29 | INFO     | Diretório: E:\OneDrive - VIBRA\NMCV - Documentos\Indicador\AIVI\AIVI-INTEGRAÇÃO\AIVI_DataIntegration_20251018_225227
2025-10-18 22:52:29 | INFO     | Python: 3.11.9
2025-10-18 22:52:29 | INFO     | Pandas: 2.3.3


   📂 Diretório base: E:\OneDrive - VIBRA\NMCV - Documentos\Indicador\AIVI\AIVI-INTEGRAÇÃO

   ✅ FileManager inicializado
   ✅ Sistema de logs ativo


📚 SEÇÃO 1.8: Integração com Dicionário Persistente
--------------------------------------------------------------------------------

   🔍 Buscando dicionário persistente...
   ℹ️  Dicionário não encontrado - será criado quando necessário

   ✅ Sistema de dicionário persistente: ATIVO

╔══════════════════════════════════════════════════════════════════════════════╗
║                ✅ BLOCO 1 COMPLETO - COM INTEGRAÇÃO DICIONÁRIO                ║
╚══════════════════════════════════════════════════════════════════════════════╝


╔══════════════════════════════════════════════════════════════════════════════╗
║                            RESUMO FINAL - BLOCO 1                            ║
╠══════════════════════════════════════════════════════════════════════════════╣
║ Timestamp                           :                          20251018_22

In [2]:
"""
╔══════════════════════════════════════════════════════════════════════════════╗
║                 BLOCO 2: DICIONÁRIO DE DADOS PERSISTENTE                     ║
║                    Sistema Auto-Atualizável de Schemas                       ║
╠══════════════════════════════════════════════════════════════════════════════╣
║  OBJETIVO:                                                                   ║
║    • Carregar dicionários persistentes existentes                            ║
║    • Criar sistema de referência (não hardcode)                              ║
║    • Permitir processamento de arquivos novos com detecção automática        ║
║    • Integrar com FileManager do BLOCO 1                                     ║
╠══════════════════════════════════════════════════════════════════════════════╣
║  RENOMEAÇÃO:                                                                 ║
║    • AIVI → ETL-Integração (conforme solicitado)                             ║
╚══════════════════════════════════════════════════════════════════════════════╝
"""

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 2.1: CLASSE DICIONÁRIO DE DADOS PERSISTENTE
# ═══════════════════════════════════════════════════════════════════════════

print("╔" + "═" * 78 + "╗")
print("║" + " 📚 BLOCO 2: DICIONÁRIO DE DADOS PERSISTENTE".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

print("📖 SEÇÃO 2.1: Classe Dicionário Persistente")
print("-" * 80)

class DicionarioDadosPersistente:
    """
    Gerencia dicionários de dados persistentes e auto-atualizáveis.

    Funcionalidades:
    - Carrega dicionários existentes de arquivos DICT_*.xlsx
    - Registra novos schemas detectados
    - Mapeia campos automaticamente
    - Gera código de reprodução
    - Integra com FileManager
    """

    def __init__(self, filemanager: FileManagerAIVI):
        """
        Inicializa DicionarioDadosPersistente.

        Args:
            filemanager: Instância do FileManager
        """
        self.fm = filemanager
        self.pasta_dicionarios = self.fm.diretorio_base / 'dicionarios_persistentes'
        self.pasta_dicionarios.mkdir(exist_ok=True)

        # Estrutura de dados
        self.dicionarios_carregados = {}
        self.schemas_conhecidos = {}
        self.historico_deteccoes = []

        print(f"   ✅ Pasta de dicionários: {self.pasta_dicionarios.name}")
        print()

    def buscar_dicionarios_existentes(self) -> List[Path]:
        """
        Busca todos os arquivos DICT_*.xlsx na pasta.

        Returns:
            Lista de Paths dos dicionários encontrados
        """
        dicionarios = list(self.pasta_dicionarios.glob('DICT_*.xlsx'))

        print(f"🔍 Buscando dicionários existentes...")
        print(f"   Encontrados: {len(dicionarios)} arquivo(s)")

        for dict_file in dicionarios:
            print(f"   • {dict_file.name}")

        return dicionarios

    def carregar_dicionario(self, arquivo: Path) -> Dict:
        """
        Carrega dicionário de arquivo Excel.

        Args:
            arquivo: Path do arquivo DICT_*.xlsx

        Returns:
            Dict com schema carregado
        """
        try:
            # Extrair nome da fonte do nome do arquivo
            # Formato: DICT_<fonte>_<timestamp>.xlsx
            nome_base = arquivo.stem  # Remove extensão
            partes = nome_base.split('_')

            if len(partes) >= 2:
                fonte = '_'.join(partes[1:-1])  # Tudo entre DICT_ e timestamp
            else:
                fonte = nome_base

            # Carregar Excel
            df_dict = pd.read_excel(arquivo)

            schema = {
                'fonte': fonte,
                'arquivo_origem': arquivo.name,
                'timestamp': partes[-1] if len(partes) > 2 else 'desconhecido',
                'campos': {},
                'metadados': {}
            }

            # Processar linhas do dicionário
            for idx, row in df_dict.iterrows():
                nome_campo = row.get('Campo', row.get('Coluna', f'campo_{idx}'))

                schema['campos'][nome_campo] = {
                    'tipo': row.get('Tipo', 'desconhecido'),
                    'exemplo': row.get('Exemplo', ''),
                    'descricao': row.get('Descrição', row.get('Descricao', '')),
                    'posicao': idx
                }

            self.dicionarios_carregados[fonte] = schema
            self.schemas_conhecidos[fonte] = list(schema['campos'].keys())

            print(f"   ✅ Carregado: {fonte} ({len(schema['campos'])} campos)")

            return schema

        except Exception as e:
            print(f"   ❌ Erro ao carregar {arquivo.name}: {e}")
            return None

    def carregar_todos_dicionarios(self) -> None:
        """Carrega todos os dicionários existentes."""

        print("\n📚 Carregando Dicionários Persistentes")
        print("-" * 80)

        dicionarios = self.buscar_dicionarios_existentes()

        if not dicionarios:
            print("   ℹ️  Nenhum dicionário encontrado")
            print("   → Será criado automaticamente ao processar primeiro arquivo")
            return

        print()
        for dict_file in dicionarios:
            self.carregar_dicionario(dict_file)

        print()
        print(f"✅ Total carregado: {len(self.dicionarios_carregados)} dicionário(s)")

    def detectar_fonte_arquivo(self, nome_arquivo: str) -> Optional[str]:
        """
        Detecta fonte do arquivo pelo nome.

        Args:
            nome_arquivo: Nome do arquivo

        Returns:
            Nome da fonte ou None
        """
        nome_lower = nome_arquivo.lower()

        # Padrões conhecidos
        padroes = {
            'YSMM_VI_ACOMP': ['ysmm', 'vi_acomp', 'variacao', 'interna'],
            'PORTAL_ESO': ['eso', 'solicitac', 'pedido', 'revisao'],
            'BEX_ESTOQUE': ['bex', 'estoque', 'movimentacao'],
            'GRUPOS_PRODUTOS': ['grupo', 'produto', 'material'],
            'CENTROS_BR': ['centro', 'base', 'sigla']
        }

        for fonte, keywords in padroes.items():
            if any(kw in nome_lower for kw in keywords):
                return fonte

        return None

    def mapear_campos_automaticamente(self, df: pd.DataFrame, fonte: str) -> Dict:
        """
        Mapeia campos do DataFrame usando dicionário da fonte.

        Args:
            df: DataFrame a mapear
            fonte: Nome da fonte

        Returns:
            Dict com mapeamento campo_original → campo_padrao
        """
        mapeamento = {}

        if fonte not in self.schemas_conhecidos:
            print(f"   ⚠️  Fonte '{fonte}' não encontrada nos dicionários")
            return mapeamento

        campos_conhecidos = self.schemas_conhecidos[fonte]

        # Mapear por similaridade
        for col_original in df.columns:
            melhor_match = None
            melhor_score = 0.0

            for campo_conhecido in campos_conhecidos:
                score = calcular_similaridade(col_original, campo_conhecido)

                if score > melhor_score:
                    melhor_score = score
                    melhor_match = campo_conhecido

            # Threshold de 70%
            if melhor_score >= 0.70:
                mapeamento[col_original] = {
                    'campo_padrao': melhor_match,
                    'confianca': melhor_score
                }

        return mapeamento

    def processar_arquivo_novo(self, arquivo: Path, linha_cabecalho: Optional[int] = None,
                              linha_dados_inicio: Optional[int] = None) -> Tuple[pd.DataFrame, Dict]:
        """
        Processa arquivo novo com detecção automática ou parâmetros manuais.

        Args:
            arquivo: Path do arquivo a processar
            linha_cabecalho: Linha do cabeçalho (None = auto-detectar)
            linha_dados_inicio: Linha de início dos dados (None = logo após cabeçalho)

        Returns:
            Tuple (DataFrame carregado, Dict com metadados da detecção)
        """
        print(f"\n🔍 Processando Arquivo Novo: {arquivo.name}")
        print("-" * 80)

        # Detectar fonte
        fonte_detectada = self.detectar_fonte_arquivo(arquivo.name)
        print(f"   Fonte detectada: {fonte_detectada if fonte_detectada else 'DESCONHECIDA'}")

        # Carregar arquivo bruto
        if arquivo.suffix == '.xlsx':
            df_bruto = pd.read_excel(arquivo, header=None)
        elif arquivo.suffix == '.xls':
            df_bruto = pd.read_excel(arquivo, header=None)
        elif arquivo.suffix == '.csv':
            df_bruto = pd.read_csv(arquivo, header=None)
        else:
            raise ValueError(f"Formato não suportado: {arquivo.suffix}")

        print(f"   Arquivo bruto: {len(df_bruto)} linhas × {len(df_bruto.columns)} colunas")

        # AUTO-DETECÇÃO de cabeçalho (se não fornecido)
        if linha_cabecalho is None:
            print("\n   🔍 Auto-detectando cabeçalho...")

            # Termos que aparecem em cabeçalhos
            termos_cabecalho = list(DICIONARIO_SINONIMOS.keys())

            linha_cabecalho = identificar_linha_cabecalho(df_bruto, termos_cabecalho)

            if linha_cabecalho >= 0:
                print(f"   ✅ Cabeçalho detectado na linha {linha_cabecalho} (Python) / linha {linha_cabecalho + 1} (Excel)")
            else:
                print("   ⚠️  Cabeçalho não detectado automaticamente")
                print("   → Usando linha 0 como padrão")
                linha_cabecalho = 0
        else:
            print(f"\n   📍 Cabeçalho manual: linha {linha_cabecalho}")

        # Determinar linha de início dos dados
        if linha_dados_inicio is None:
            linha_dados_inicio = linha_cabecalho + 1

        # Recarregar com cabeçalho correto
        if arquivo.suffix in ['.xlsx', '.xls']:
            df_carregado = pd.read_excel(arquivo, header=linha_cabecalho,
                                        skiprows=list(range(linha_dados_inicio - linha_cabecalho - 1)) if linha_dados_inicio > linha_cabecalho + 1 else None)
        else:
            df_carregado = pd.read_csv(arquivo, header=linha_cabecalho,
                                      skiprows=list(range(linha_dados_inicio - linha_cabecalho - 1)) if linha_dados_inicio > linha_cabecalho + 1 else None)

        print(f"\n   ✅ Dados carregados: {len(df_carregado)} registros × {len(df_carregado.columns)} colunas")

        # Mapear campos (se fonte conhecida)
        mapeamento = {}
        if fonte_detectada and fonte_detectada in self.schemas_conhecidos:
            print(f"\n   🔗 Mapeando campos usando dicionário de '{fonte_detectada}'...")
            mapeamento = self.mapear_campos_automaticamente(df_carregado, fonte_detectada)
            print(f"   ✅ {len(mapeamento)} campos mapeados")

        # Metadados da detecção
        metadados = {
            'arquivo': arquivo.name,
            'fonte_detectada': fonte_detectada,
            'linha_cabecalho': linha_cabecalho,
            'linha_dados_inicio': linha_dados_inicio,
            'total_linhas': len(df_carregado),
            'total_colunas': len(df_carregado.columns),
            'colunas': df_carregado.columns.tolist(),
            'mapeamento': mapeamento,
            'timestamp': datetime.now().isoformat()
        }

        # Registrar no histórico
        self.historico_deteccoes.append(metadados)

        # Salvar metadados
        self._salvar_metadados_deteccao(metadados, arquivo)

        # Gerar código de reprodução
        self._gerar_codigo_reproducao(metadados, arquivo)

        return df_carregado, metadados

    def _salvar_metadados_deteccao(self, metadados: Dict, arquivo: Path) -> None:
        """Salva metadados da detecção em JSON."""

        nome_base = arquivo.stem
        arquivo_meta = self.pasta_dicionarios / f'META_{nome_base}_{self.fm.timestamp}.json'

        with open(arquivo_meta, 'w', encoding='utf-8') as f:
            json.dump(metadados, f, indent=2, ensure_ascii=False)

        print(f"\n   💾 Metadados salvos: {arquivo_meta.name}")

    def _gerar_codigo_reproducao(self, metadados: Dict, arquivo: Path) -> None:
        """Gera código Python para reproduzir o carregamento."""

        nome_base = arquivo.stem
        arquivo_codigo = self.pasta_dicionarios / f'CODIGO_Reproducao_{nome_base}_{self.fm.timestamp}.py'

        codigo = f'''# ═══════════════════════════════════════════════════════════════════
# CÓDIGO PARA REPRODUZIR CARREGAMENTO
# Gerado automaticamente pelo Sistema ETL-Integração
# Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}
# ═══════════════════════════════════════════════════════════════════

import pandas as pd
from pathlib import Path

# Configurações detectadas
arquivo = Path(r"{arquivo}")
linha_cabecalho = {metadados['linha_cabecalho']}  # Índice Python (linha Excel {metadados['linha_cabecalho'] + 1})

# Carregar dados
'''

        if arquivo.suffix == '.xlsx':
            codigo += f'''df = pd.read_excel(
    arquivo,
    header=linha_cabecalho
)
'''
        elif arquivo.suffix == '.csv':
            codigo += f'''df = pd.read_csv(
    arquivo,
    header=linha_cabecalho
)
'''

        codigo += f'''
print(f"✅ Carregado: {{len(df):,}} registros × {{len(df.columns)}} colunas")

# Colunas detectadas
colunas_esperadas = {metadados['colunas']}

# Validar estrutura
if df.columns.tolist() == colunas_esperadas:
    print("✅ Estrutura validada!")
else:
    print("⚠️  Estrutura diferente do esperado")
    print(f"   Esperado: {{len(colunas_esperadas)}} colunas")
    print(f"   Obtido: {{len(df.columns)}} colunas")
'''

        with open(arquivo_codigo, 'w', encoding='utf-8') as f:
            f.write(codigo)

        print(f"   💾 Código de reprodução: {arquivo_codigo.name}")

    def criar_dicionario_novo(self, df: pd.DataFrame, nome_fonte: str,
                             arquivo_origem: str) -> Path:
        """
        Cria novo dicionário persistente para uma fonte.

        Args:
            df: DataFrame de referência
            nome_fonte: Nome da fonte
            arquivo_origem: Nome do arquivo original

        Returns:
            Path do dicionário criado
        """
        print(f"\n📝 Criando Novo Dicionário: {nome_fonte}")
        print("-" * 80)

        # Analisar campos
        dados_dict = []

        for i, col in enumerate(df.columns, 1):
            serie = df[col]

            # Análise básica
            analise = analisar_coluna_completa(serie, amostra=100)

            dados_dict.append({
                'Posição': i,
                'Campo': col,
                'Tipo': str(serie.dtype),
                'Tipo_Conteudo': analise['tipo_predominante'],
                'Confiança_Detecção': f"{analise['confianca']:.0%}",
                'Total_Valores': len(serie),
                'Nulos': serie.isnull().sum(),
                'Pct_Nulos': f"{serie.isnull().sum() / len(serie) * 100:.1f}%",
                'Únicos': serie.nunique(),
                'Exemplo_1': analise['exemplos'][0] if analise['exemplos'] else '',
                'Exemplo_2': analise['exemplos'][1] if len(analise['exemplos']) > 1 else '',
                'Exemplo_3': analise['exemplos'][2] if len(analise['exemplos']) > 2 else ''
            })

        df_dict = pd.DataFrame(dados_dict)

        # Salvar
        nome_arquivo = f'DICT_{nome_fonte}_{self.fm.timestamp}.xlsx'
        caminho_dict = self.pasta_dicionarios / nome_arquivo

        df_dict.to_excel(caminho_dict, index=False)

        print(f"   ✅ Dicionário criado: {nome_arquivo}")
        print(f"   📊 {len(df_dict)} campos registrados")

        # Registrar no schema
        schema = {
            'fonte': nome_fonte,
            'arquivo_origem': arquivo_origem,
            'timestamp': self.fm.timestamp,
            'campos': {row['Campo']: row.to_dict() for _, row in df_dict.iterrows()},
            'metadados': {
                'total_campos': len(df_dict),
                'data_criacao': datetime.now().isoformat()
            }
        }

        self.dicionarios_carregados[nome_fonte] = schema
        self.schemas_conhecidos[nome_fonte] = df_dict['Campo'].tolist()

        # Registrar no FileManager
        self.fm.logger.info(f"Dicionário criado: {nome_fonte} ({len(df_dict)} campos)")

        return caminho_dict

print("   ✅ Classe DicionarioDadosPersistente criada")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 2.2: INICIALIZAR DICIONÁRIO PERSISTENTE
# ═══════════════════════════════════════════════════════════════════════════

print("🚀 SEÇÃO 2.2: Inicializando Sistema de Dicionários")
print("-" * 80)

# Criar instância integrada com FileManager
dicionario_persistente = DicionarioDadosPersistente(fm)

# Carregar dicionários existentes
dicionario_persistente.carregar_todos_dicionarios()

# Criar alias para compatibilidade
dict_pers = dicionario_persistente
dp = dicionario_persistente

print()
print("✅ Sistema de Dicionários Persistentes ativo")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 2.3: FUNÇÃO AUXILIAR - PROCESSAR ARQUIVO COM GUI
# ═══════════════════════════════════════════════════════════════════════════

print("🎨 SEÇÃO 2.3: Função de Processamento com GUI")
print("-" * 80)

def processar_arquivo_com_dialogo() -> Tuple[pd.DataFrame, Dict]:
    """
    Processa arquivo novo com diálogo interativo.

    Permite usuário:
    - Selecionar arquivo via GUI
    - Especificar linha de cabeçalho (ou auto-detectar)
    - Ver preview antes de confirmar

    Returns:
        Tuple (DataFrame processado, Metadados da detecção)
    """
    print("\n📂 Selecionando Arquivo...")

    # GUI para selecionar arquivo
    root = tk.Tk()
    root.withdraw()

    arquivo = filedialog.askopenfilename(
        title="Selecione Arquivo para Processar",
        filetypes=[
            ("Excel", "*.xlsx"),
            ("Excel Antigo", "*.xls"),
            ("CSV", "*.csv"),
            ("Todos", "*.*")
        ]
    )

    if not arquivo:
        raise ValueError("❌ Nenhum arquivo selecionado")

    arquivo_path = Path(arquivo)
    print(f"   ✅ Arquivo: {arquivo_path.name}")

    # Perguntar sobre linha de cabeçalho
    print("\n❓ Como detectar cabeçalho?")
    print("   1. Auto-detectar (recomendado)")
    print("   2. Especificar linha manualmente")

    escolha = input("   Escolha (1/2): ").strip()

    linha_cabecalho = None
    if escolha == '2':
        linha_excel = input("   Linha do cabeçalho (Excel, ex: 4): ").strip()
        try:
            linha_cabecalho = int(linha_excel) - 1  # Converter para índice Python
            print(f"   ✅ Cabeçalho: linha {linha_cabecalho} (Python) / linha {linha_cabecalho + 1} (Excel)")
        except:
            print("   ⚠️  Valor inválido, usando auto-detecção")
            linha_cabecalho = None

    # Processar arquivo
    df, metadados = dicionario_persistente.processar_arquivo_novo(
        arquivo_path,
        linha_cabecalho=linha_cabecalho
    )

    return df, metadados

print("   ✅ processar_arquivo_com_dialogo()")
print()

# ═══════════════════════════════════════════════════════════════════════════
# RESULTADO FINAL DO BLOCO 2
# ═══════════════════════════════════════════════════════════════════════════

print("╔" + "═" * 78 + "╗")
print("║" + " ✅ BLOCO 2 CONCLUÍDO COM SUCESSO ".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

# Resumo
formatar_tabela_resumo({
    'sistema_dicionarios': 'ATIVO',
    'dicionarios_carregados': len(dicionario_persistente.dicionarios_carregados),
    'schemas_conhecidos': len(dicionario_persistente.schemas_conhecidos),
    'pasta_dicionarios': dicionario_persistente.pasta_dicionarios.name,
    'auto_deteccao': 'ATIVA',
    'geracao_codigo': 'ATIVA',
    'integracao_filemanager': 'COMPLETA'
}, "RESUMO DO BLOCO 2")

print()
print("🔗 VARIÁVEIS GLOBAIS ADICIONADAS:")
print("-" * 80)
print("   • dicionario_persistente / dict_pers / dp (DicionarioDadosPersistente)")
print("   • processar_arquivo_com_dialogo() (função)")

print()
print("📋 PRÓXIMOS PASSOS:")
print("-" * 80)
print("   1. ✅ Verifique se pasta 'dicionarios_persistentes' foi criada")
print("   2. ✅ Confirme quantos dicionários foram carregados")
print("   3. 📤 Envie: 'BLOCO 2 OK' para prosseguir")
print("   4. ⏭️  BLOCO 3 carregará arquivos usando este sistema")

print()
print("🔗 CAMINHO DOS DICIONÁRIOS:")
print(f"   {dicionario_persistente.pasta_dicionarios}")
print()
print("═" * 80)

╔══════════════════════════════════════════════════════════════════════════════╗
║                  📚 BLOCO 2: DICIONÁRIO DE DADOS PERSISTENTE                  ║
╚══════════════════════════════════════════════════════════════════════════════╝

📖 SEÇÃO 2.1: Classe Dicionário Persistente
--------------------------------------------------------------------------------
   ✅ Classe DicionarioDadosPersistente criada

🚀 SEÇÃO 2.2: Inicializando Sistema de Dicionários
--------------------------------------------------------------------------------
   ✅ Pasta de dicionários: dicionarios_persistentes


📚 Carregando Dicionários Persistentes
--------------------------------------------------------------------------------
🔍 Buscando dicionários existentes...
   Encontrados: 0 arquivo(s)
   ℹ️  Nenhum dicionário encontrado
   → Será criado automaticamente ao processar primeiro arquivo

✅ Sistema de Dicionários Persistentes ativo

🎨 SEÇÃO 2.3: Função de Processamento com GUI
-------------------------

In [3]:
"""
╔══════════════════════════════════════════════════════════════════════════════╗
║              BLOCO 3: CARREGADOR MODULAR - ARQUIVO SAP (1/2)                 ║
║                    YSMM_VI_ACOMP - Dados Históricos VI                       ║
╠══════════════════════════════════════════════════════════════════════════════╣
║  OBJETIVO:                                                                   ║
║    • Carregar arquivo SAP BRUTO (YSMM_VI_ACOMP)                              ║
║    • Aplicar limpeza automática (remover linhas/colunas metadados SAP)      ║
║    • Detectar cabeçalho automaticamente                                      ║
║    • Registrar no Dicionário Persistente                                     ║
║    • Validar estrutura e qualidade                                           ║
║    • Salvar dados limpos para análise                                        ║
╠══════════════════════════════════════════════════════════════════════════════╣
║  INTEGRAÇÃO:                                                                 ║
║    • FileManager (BLOCO 1)                                                   ║
║    • Dicionário Persistente (BLOCO 2)                                        ║
║    • Funções auxiliares (BLOCO 1 - regex, validações)                        ║
╚══════════════════════════════════════════════════════════════════════════════╝
"""

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3.1: GUI PARA SELEÇÃO DO ARQUIVO SAP
# ═══════════════════════════════════════════════════════════════════════════

print("╔" + "═" * 78 + "╗")
print("║" + " 📂 BLOCO 3: CARREGADOR SAP (YSMM_VI_ACOMP)".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

print("📂 SEÇÃO 3.1: Seleção do Arquivo SAP")
print("-" * 80)
print()
print("🎯 ARQUIVO A SELECIONAR:")
print("   Nome: YSMM_VI_ACOMP ou similar (exemplo: 2025YSMMVIMONITORRECALC)")
print("   Fonte: SAP ECC 6.0 - Transação YSMM_VI_ACOMP")
print("   Formato: .xlsx ou .xls (ORIGINAL, sem limpeza prévia)")
print("   Conteúdo: Dados históricos de Variação Interna por Base/Produto")
print()
print("⚠️  IMPORTANTE:")
print("   • Selecione o arquivo BRUTO (como exportado do SAP)")
print("   • NÃO use arquivo já processado/limpo manualmente")
print("   • O sistema fará a limpeza automática")
print()

# Criar janela de seleção GRANDE e CLARA
root = tk.Tk()
root.withdraw()

# Trazer para frente
root.attributes('-topmost', True)
root.update()

arquivo_sap_path = filedialog.askopenfilename(
    title="📂 SELECIONE: Arquivo SAP YSMM_VI_ACOMP (BRUTO)",
    filetypes=[
        ("Excel Novo", "*.xlsx"),
        ("Excel Antigo", "*.xls"),
        ("Todos Excel", "*.xls*"),
        ("Todos", "*.*")
    ],
    initialdir=fm.diretorio_base
)

root.destroy()

if not arquivo_sap_path:
    raise ValueError("❌ Nenhum arquivo selecionado. Execute novamente o bloco.")

arquivo_sap = Path(arquivo_sap_path)

print(f"✅ Arquivo selecionado: {arquivo_sap.name}")
print(f"   Caminho: {arquivo_sap.parent}")
print(f"   Tamanho: {arquivo_sap.stat().st_size / 1024 / 1024:.2f} MB")
print()

# Registrar no FileManager
fm.logger.info(f"Arquivo SAP selecionado: {arquivo_sap.name}")

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3.2: CARREGAMENTO BRUTO E ANÁLISE INICIAL
# ═══════════════════════════════════════════════════════════════════════════

print("📊 SEÇÃO 3.2: Carregamento e Análise Inicial")
print("-" * 80)

# Carregar TUDO sem processar (para inspeção)
print("\n🔍 Carregando arquivo bruto...")

if arquivo_sap.suffix == '.xlsx':
    # Tentar detectar sheet
    xls = pd.ExcelFile(arquivo_sap)
    sheets = xls.sheet_names

    print(f"   Sheets encontradas: {len(sheets)}")
    for i, sheet in enumerate(sheets, 1):
        print(f"      {i}. {sheet}")

    # Usar primeira sheet (ou detectar por padrão)
    sheet_usar = sheets[0]
    for sheet in sheets:
        if any(termo in sheet.lower() for termo in ['ysmm', 'vi', 'monitor', 'acomp']):
            sheet_usar = sheet
            break

    print(f"   → Usando sheet: '{sheet_usar}'")

    df_bruto = pd.read_excel(arquivo_sap, sheet_name=sheet_usar, header=None)

else:  # .xls
    df_bruto = pd.read_excel(arquivo_sap, header=None)
    sheet_usar = 'Sheet1'

print(f"\n✅ Arquivo carregado (bruto)")
print(f"   Dimensões: {len(df_bruto):,} linhas × {len(df_bruto.columns)} colunas")
print()

# Preview das primeiras linhas (metadados SAP típicos)
print("📋 Preview das primeiras 10 linhas (formato bruto):")
print("-" * 80)
for i in range(min(10, len(df_bruto))):
    valores = df_bruto.iloc[i, :5].tolist()  # Primeiras 5 colunas
    valores_str = ' | '.join([str(v)[:20] if pd.notna(v) else 'NULL' for v in valores])
    print(f"   Linha {i:2d}: {valores_str}")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3.3: LIMPEZA AUTOMÁTICA - REMOÇÃO DE METADADOS SAP
# ═══════════════════════════════════════════════════════════════════════════

print("🧹 SEÇÃO 3.3: Limpeza Automática")
print("-" * 80)
print()

# Identificar colunas vazias ou de metadados (coluna A geralmente)
colunas_vazias = []
for col in df_bruto.columns:
    pct_vazios = df_bruto[col].isnull().sum() / len(df_bruto)
    if pct_vazios > 0.95:  # >95% vazio
        colunas_vazias.append(col)

if colunas_vazias:
    print(f"🗑️  Colunas com >95% vazios detectadas: {colunas_vazias}")
    print(f"   → Serão removidas")
else:
    print("✅ Nenhuma coluna vazia detectada")

# Identificar linhas de metadados (típico em SAP: linhas iniciais com títulos, filtros, etc)
print("\n🔍 Identificando linhas de metadados SAP...")

linhas_remover = []

# Detectar linhas que são claramente metadados
for idx in range(min(10, len(df_bruto))):
    row = df_bruto.iloc[idx]

    # Critérios para metadados:
    # 1. Menos de 30% das células preenchidas
    # 2. Contém palavras-chave de metadados SAP
    pct_preenchido = row.notna().sum() / len(row)

    valores_str = ' '.join([str(v).lower() for v in row if pd.notna(v)])

    keywords_metadados = ['sap', 'relatório', 'relatorio', 'query', 'consulta',
                          'data:', 'hora:', 'usuário', 'usuario', 'página', 'pagina']

    tem_keyword = any(kw in valores_str for kw in keywords_metadados)

    if pct_preenchido < 0.3 or tem_keyword:
        linhas_remover.append(idx)
        print(f"   Linha {idx}: METADADO detectado (remover)")

print()
if linhas_remover:
    print(f"🗑️  {len(linhas_remover)} linhas de metadados serão removidas")
else:
    print("✅ Nenhuma linha de metadado detectada")

# Aplicar remoção
df_sem_metadados = df_bruto.copy()

if colunas_vazias:
    df_sem_metadados = df_sem_metadados.drop(columns=colunas_vazias)
    print(f"\n✅ Colunas removidas: {len(colunas_vazias)}")

if linhas_remover:
    df_sem_metadados = df_sem_metadados.drop(index=linhas_remover)
    df_sem_metadados = df_sem_metadados.reset_index(drop=True)
    print(f"✅ Linhas removidas: {len(linhas_remover)}")

print()
print(f"📊 Após limpeza inicial:")
print(f"   Dimensões: {len(df_sem_metadados):,} linhas × {len(df_sem_metadados.columns)} colunas")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3.4: DETECÇÃO AUTOMÁTICA DE CABEÇALHO
# ═══════════════════════════════════════════════════════════════════════════

print("🔍 SEÇÃO 3.4: Detecção de Cabeçalho")
print("-" * 80)
print()

# Usar função do BLOCO 1 integrada com Dicionário Persistente
termos_cabecalho = [
    'Centro', 'Sigla', 'Base', 'Produto', 'Grupo',
    'Expedição', 'Variação', 'Interna', 'VI',
    'Limite', 'Mês', 'Ano', 'Período'
]

linha_cabecalho = identificar_linha_cabecalho(df_sem_metadados, termos_cabecalho)

if linha_cabecalho < 0:
    print("⚠️  Cabeçalho não detectado automaticamente")
    print("   → Tentando heurística alternativa...")

    # Heurística: linha com maior diversidade de tipos
    for idx in range(min(5, len(df_sem_metadados))):
        row = df_sem_metadados.iloc[idx]

        # Checar se tem texto (não números)
        tem_texto = row.apply(lambda x: isinstance(x, str)).sum() > len(row) * 0.5

        if tem_texto:
            linha_cabecalho = idx
            print(f"   ✅ Cabeçalho detectado por heurística: linha {linha_cabecalho}")
            break

    if linha_cabecalho < 0:
        linha_cabecalho = 0
        print("   ⚠️  Usando linha 0 como padrão")

print()
print(f"✅ Cabeçalho identificado:")
print(f"   Linha: {linha_cabecalho} (Python) / Linha {linha_cabecalho + 1} (Excel)")
print()

# Preview do cabeçalho detectado
print("📋 Colunas detectadas:")
cabecalho_preview = df_sem_metadados.iloc[linha_cabecalho].tolist()
for i, col in enumerate(cabecalho_preview[:10], 1):  # Primeiras 10
    print(f"   {i:2d}. {col}")
if len(cabecalho_preview) > 10:
    print(f"   ... e mais {len(cabecalho_preview) - 10} colunas")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3.5: RECARREGAR COM CABEÇALHO CORRETO
# ═══════════════════════════════════════════════════════════════════════════

print("📥 SEÇÃO 3.5: Recarga com Estrutura Correta")
print("-" * 80)
print()

# Recarregar usando linha de cabeçalho detectada
if arquivo_sap.suffix == '.xlsx':
    df_sap_limpo = pd.read_excel(
        arquivo_sap,
        sheet_name=sheet_usar,
        header=linha_cabecalho + len(linhas_remover),  # Ajustar offset das linhas removidas
        skiprows=[i for i in linhas_remover if i < linha_cabecalho]
    )
else:
    df_sap_limpo = pd.read_excel(
        arquivo_sap,
        header=linha_cabecalho + len(linhas_remover),
        skiprows=[i for i in linhas_remover if i < linha_cabecalho]
    )

# Remover colunas vazias (se ainda houver)
if colunas_vazias:
    colunas_manter = [c for c in df_sap_limpo.columns if c not in colunas_vazias]
    df_sap_limpo = df_sap_limpo[colunas_manter]

print(f"✅ Dados recarregados com estrutura correta")
print(f"   Registros: {len(df_sap_limpo):,}")
print(f"   Colunas: {len(df_sap_limpo.columns)}")
print()

# Preview dos dados limpos
print("📋 Preview dos dados limpos (primeiras 5 linhas):")
print("-" * 80)
print(df_sap_limpo.head())
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3.6: VALIDAÇÃO INLINE
# ═══════════════════════════════════════════════════════════════════════════

print("✔️  SEÇÃO 3.6: Validação de Transformação")
print("-" * 80)

# Validar limpeza (bruto → limpo)
validacao = validar_transformacao(
    df_bruto,
    df_sap_limpo,
    'Limpeza SAP',
    permitir_reducao=True
)

if not validacao['passou']:
    print()
    print("⚠️  ALERTAS DE VALIDAÇÃO:")
    for alerta in validacao['alertas']:
        print(f"   {alerta}")
    print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3.7: REGISTRAR NO DICIONÁRIO PERSISTENTE
# ═══════════════════════════════════════════════════════════════════════════

print()
print("📚 SEÇÃO 3.7: Registro no Dicionário Persistente")
print("-" * 80)

# Detectar fonte
fonte_detectada = dicionario_persistente.detectar_fonte_arquivo(arquivo_sap.name)

if not fonte_detectada:
    fonte_detectada = 'YSMM_VI_ACOMP'
    print(f"   ℹ️  Fonte não detectada automaticamente")
    print(f"   → Usando: {fonte_detectada}")
else:
    print(f"   ✅ Fonte detectada: {fonte_detectada}")

# Criar/atualizar dicionário
if fonte_detectada not in dicionario_persistente.schemas_conhecidos:
    print(f"\n📝 Criando novo dicionário para '{fonte_detectada}'...")

    dict_path = dicionario_persistente.criar_dicionario_novo(
        df_sap_limpo,
        fonte_detectada,
        arquivo_sap.name
    )

    print(f"   ✅ Dicionário criado: {dict_path.name}")
else:
    print(f"\n✅ Dicionário já existe para '{fonte_detectada}'")

# Registrar schema no FileManager (PARTE 12.3)
schema_log_path = fm.registrar_schema_campos(
    df_sap_limpo,
    fonte_detectada,
    arquivo_sap.name
)

print(f"   ✅ Schema registrado em logs: {schema_log_path.name}")
print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3.8: SALVAR DADOS LIMPOS
# ═══════════════════════════════════════════════════════════════════════════

print("💾 SEÇÃO 3.8: Salvamento dos Dados Limpos")
print("-" * 80)

# Salvar em dados_processados
arquivo_limpo = fm.diretorios['dados_processados'] / f'SAP_YSMM_VI_ACOMP_LIMPO_{fm.timestamp}.csv'
df_sap_limpo.to_csv(arquivo_limpo, index=False, encoding='utf-8-sig')

print(f"✅ Dados limpos salvos:")
print(f"   Arquivo: {arquivo_limpo.name}")
print(f"   Tamanho: {arquivo_limpo.stat().st_size / 1024 / 1024:.2f} MB")
print()

# Registrar no FileManager
fm.logger.info(f"Dados SAP limpos salvos: {arquivo_limpo.name}")

# Copiar arquivo original para dados_entrada
arquivo_entrada_destino = fm.diretorios['dados_entrada'] / arquivo_sap.name
if not arquivo_entrada_destino.exists():
    import shutil
    shutil.copy2(arquivo_sap, arquivo_entrada_destino)
    print(f"✅ Arquivo original copiado para: {arquivo_entrada_destino.relative_to(fm.diretorio_execucao)}")
    fm.logger.info(f"Arquivo original copiado: {arquivo_sap.name}")

print()

# ═══════════════════════════════════════════════════════════════════════════
# SEÇÃO 3.9: ANÁLISE ESTATÍSTICA RÁPIDA
# ═══════════════════════════════════════════════════════════════════════════

print("📊 SEÇÃO 3.9: Análise Estatística Rápida")
print("-" * 80)
print()

# Campos numéricos
campos_numericos = df_sap_limpo.select_dtypes(include=[np.number]).columns.tolist()
print(f"📈 Campos numéricos: {len(campos_numericos)}")

if campos_numericos:
    print()
    for campo in campos_numericos[:5]:  # Primeiros 5
        serie = df_sap_limpo[campo]
        print(f"   {campo}:")
        print(f"      Média: {serie.mean():,.2f}")
        print(f"      Min: {serie.min():,.2f} | Max: {serie.max():,.2f}")
        print(f"      NULLs: {serie.isnull().sum():,}")
        print()

# Campos categóricos
campos_categoricos = df_sap_limpo.select_dtypes(include=['object']).columns.tolist()
print(f"📝 Campos categóricos: {len(campos_categoricos)}")

if campos_categoricos:
    print()
    for campo in campos_categoricos[:3]:  # Primeiros 3
        n_unicos = df_sap_limpo[campo].nunique()
        print(f"   {campo}: {n_unicos:,} valores únicos")

print()

# ═══════════════════════════════════════════════════════════════════════════
# RESULTADO FINAL DO BLOCO 3
# ═══════════════════════════════════════════════════════════════════════════

print("╔" + "═" * 78 + "╗")
print("║" + " ✅ BLOCO 3 CONCLUÍDO COM SUCESSO ".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

# Resumo em tabela
formatar_tabela_resumo({
    'arquivo_original': arquivo_sap.name,
    'fonte_detectada': fonte_detectada,
    'linhas_bruto': len(df_bruto),
    'linhas_limpo': len(df_sap_limpo),
    'colunas_limpo': len(df_sap_limpo.columns),
    'linha_cabecalho': f"Linha {linha_cabecalho + 1} (Excel)",
    'linhas_metadados_removidas': len(linhas_remover),
    'colunas_vazias_removidas': len(colunas_vazias),
    'arquivo_salvo': arquivo_limpo.name,
    'tamanho_mb': f"{arquivo_limpo.stat().st_size / 1024 / 1024:.2f}",
    'dicionario_registrado': 'SIM',
    'schema_logs': 'SIM'
}, "RESUMO DO BLOCO 3 - ARQUIVO SAP")

print()
print("🔗 VARIÁVEL GLOBAL CRIADA:")
print("-" * 80)
print("   • df_sap_limpo (DataFrame com dados SAP processados)")

print()
print("📋 PRÓXIMOS PASSOS:")
print("-" * 80)
print("   1. ✅ Verifique os dados em df_sap_limpo.head()")
print("   2. ✅ Confirme arquivo salvo em dados_processados/")
print("   3. ✅ Verifique dicionário criado em dicionarios_persistentes/")
print("   4. 📤 Envie: 'BLOCO 3 OK' para prosseguir")
print("   5. ⏭️  BLOCO 4 carregará arquivo de Solicitações (Portal ESO)")

print()
print("═" * 80)

╔══════════════════════════════════════════════════════════════════════════════╗
║                   📂 BLOCO 3: CARREGADOR SAP (YSMM_VI_ACOMP)                  ║
╚══════════════════════════════════════════════════════════════════════════════╝

📂 SEÇÃO 3.1: Seleção do Arquivo SAP
--------------------------------------------------------------------------------

🎯 ARQUIVO A SELECIONAR:
   Nome: YSMM_VI_ACOMP ou similar (exemplo: 2025YSMMVIMONITORRECALC)
   Fonte: SAP ECC 6.0 - Transação YSMM_VI_ACOMP
   Formato: .xlsx ou .xls (ORIGINAL, sem limpeza prévia)
   Conteúdo: Dados históricos de Variação Interna por Base/Produto

⚠️  IMPORTANTE:
   • Selecione o arquivo BRUTO (como exportado do SAP)
   • NÃO use arquivo já processado/limpo manualmente
   • O sistema fará a limpeza automática



ValueError: ❌ Nenhum arquivo selecionado. Execute novamente o bloco.

In [None]:
"""
═══════════════════════════════════════════════════════════════════════════════
AIVI DATA INTEGRATION - BLOCO 3: CARREGADOR MODULAR - ARQUIVO 2
═══════════════════════════════════════════════════════════════════════════════
Arquivo: ysmm_centros_br.xlsx
Tipo: Tabela de Centros/Bases (Dados Complementares)

LIMPEZA:
  ✅ Primeira linha é o cabeçalho (usar header=0)
  ✅ Sem colunas iniciais a expurgar

FUNCIONALIDADES:
  ✅ Carregamento robusto (.XLS/.XLSX)
  ✅ Listagem completa de colunas
  ✅ Preview dos dados
  ✅ Backup automático
  ✅ Logging
═══════════════════════════════════════════════════════════════════════════════
"""

import pandas as pd
from pathlib import Path
import tkinter as tk
from tkinter import filedialog, messagebox

print("╔" + "═" * 78 + "╗")
print("║" + " BLOCO 3: CARREGADOR MODULAR - ARQUIVO 2/N ".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

# ══════════════════════════════════════════════════════════════════════════════
# FUNÇÃO: Carregar ysmm_centros_br.xlsx
# ══════════════════════════════════════════════════════════════════════════════

def carregar_ysmm_centros():
    """
    Carrega arquivo ysmm_centros_br.xlsx (tabela de centros/bases).

    Características:
      - Primeira linha = cabeçalho
      - Sem limpeza de colunas necessária
      - Dados complementares para enriquecer base SAP
    """

    print("╔" + "═" * 78 + "╗")
    print("║" + " ARQUIVO 2: ysmm_centros_br.xlsx (TABELA DE CENTROS) ".center(78) + "║")
    print("╚" + "═" * 78 + "╝")
    print()

    # ══════════════════════════════════════════════════════════════════════
    # ETAPA 1: Seleção do arquivo
    # ══════════════════════════════════════════════════════════════════════

    mensagem = """
╔═══════════════════════════════════════════════════╗
║  📂 ARQUIVO: ysmm_centros_br.xlsx                 ║
╠═══════════════════════════════════════════════════╣
║                                                   ║
║  Conteúdo: Cadastro de Centros/Bases              ║
║  Uso: Enriquecimento dos dados SAP                ║
║                                                   ║
║  Campos esperados:                                ║
║  • Centro (código)                                ║
║  • Sigla                                          ║
║  • Nome/Região                                    ║
║  • Outros atributos da base                       ║
║                                                   ║
║  ⚠️  Primeira linha é o cabeçalho                 ║
║                                                   ║
╚═══════════════════════════════════════════════════╝
    """

    try:
        # Seleção GUI
        root = tk.Tk()
        root.withdraw()
        root.lift()
        root.attributes('-topmost', True)
        root.attributes('-alpha', 0.0)
        root.update()

        messagebox.showinfo(
            "[2/N] ysmm_centros_br.xlsx",
            mensagem.strip()
        )

        arquivo = filedialog.askopenfilename(
            title="[2/N] Selecione ysmm_centros_br.xlsx",
            filetypes=[
                ("Excel files", "*.xlsx *.xls"),
                ("All files", "*.*")
            ]
        )

        root.destroy()

        if not arquivo:
            raise ValueError("❌ Nenhum arquivo selecionado")

        arquivo_path = Path(arquivo)

        print(f"✅ Arquivo selecionado:")
        print(f"   📁 Nome: {arquivo_path.name}")
        print(f"   📊 Tamanho: {arquivo_path.stat().st_size:,} bytes")
        print(f"   🔧 Tipo: {arquivo_path.suffix}")
        print()

        # ══════════════════════════════════════════════════════════════════
        # ETAPA 2: Carregamento
        # ══════════════════════════════════════════════════════════════════

        extensao = arquivo_path.suffix.lower()

        print(f"📖 Carregando arquivo Excel ({extensao})...")

        # Tentar engines
        if extensao == '.xlsx':
            engines = ['openpyxl', None]
        elif extensao == '.xls':
            engines = ['xlrd', None]
        else:
            engines = [None, 'openpyxl', 'xlrd']

        df = None
        for i, engine in enumerate(engines, 1):
            try:
                if engine:
                    print(f"   Tentativa {i}/{len(engines)}: engine='{engine}'")
                    df = pd.read_excel(arquivo_path, header=0, engine=engine)
                else:
                    print(f"   Tentativa {i}/{len(engines)}: engine automático")
                    df = pd.read_excel(arquivo_path, header=0)

                print(f"   ✅ Sucesso! {df.shape[0]:,} linhas × {df.shape[1]} colunas")
                fm.logger.info(f"Carregado: {arquivo_path.name} ({df.shape[0]} × {df.shape[1]})")
                break

            except Exception as e:
                print(f"   ❌ Falhou: {str(e)[:60]}...")
                if i == len(engines):
                    if extensao == '.xls':
                        print()
                        print("💡 SOLUÇÃO para .XLS:")
                        print("   pip install xlrd")
                    raise Exception(f"Falha ao ler: {e}")

        if df is None:
            raise Exception("Nenhum engine funcionou")

        print()

        # ══════════════════════════════════════════════════════════════════
        # ETAPA 3: Limpeza (não necessária para este arquivo)
        # ══════════════════════════════════════════════════════════════════

        print("🧹 Limpeza de dados...")
        print("-" * 80)
        print("   ✅ Nenhuma limpeza necessária (primeira linha = cabeçalho)")
        print(f"   📊 Dados prontos: {df.shape[0]:,} linhas × {df.shape[1]} colunas")
        print()

        # ══════════════════════════════════════════════════════════════════
        # ETAPA 4: Listar todas as colunas
        # ══════════════════════════════════════════════════════════════════

        print("📑 LISTAGEM COMPLETA DE COLUNAS")
        print("═" * 80)
        print(f"📏 Total: {len(df.columns)} colunas")
        print()

        for i, col in enumerate(df.columns, 1):
            tipo = df[col].dtype
            nulos = df[col].isna().sum()
            pct_nulos = (nulos / len(df) * 100) if len(df) > 0 else 0
            unicos = df[col].nunique()

            print(f"   {i:2d}. {col}")
            print(f"       ├─ Tipo: {tipo}")
            print(f"       ├─ Nulos: {nulos:,} ({pct_nulos:.1f}%)")
            print(f"       └─ Únicos: {unicos:,}")

        print()

        # ══════════════════════════════════════════════════════════════════
        # ETAPA 5: Preview dos dados
        # ══════════════════════════════════════════════════════════════════

        print("📊 PREVIEW DOS DADOS (primeiras 5 colunas)")
        print("-" * 80)

        colunas_preview = list(df.columns[:5])
        print(df[colunas_preview].head(5).to_string(index=False))
        print()

        # ══════════════════════════════════════════════════════════════════
        # ETAPA 6: Backup
        # ══════════════════════════════════════════════════════════════════

        print("💾 Salvando backup...")

        timestamp = fm.timestamp
        arquivo_destino = fm.diretorios['dados_entrada'] / \
                         f"Centros_BR_{timestamp}.xlsx"

        try:
            df.to_excel(arquivo_destino, index=False, engine='openpyxl')
            fm.logger.info(f"Backup: {arquivo_destino.name}")
            print(f"   ✅ Backup salvo: {arquivo_destino.name}")
        except Exception as e:
            print(f"   ⚠️  Erro ao salvar backup: {str(e)}")
            fm.logger.error(f"Erro backup: {str(e)}")

        print()

        # ══════════════════════════════════════════════════════════════════
        # RESULTADO FINAL
        # ══════════════════════════════════════════════════════════════════

        print("╔" + "═" * 78 + "╗")
        print("║" + " ✅ ARQUIVO CENTROS CARREGADO COM SUCESSO ".center(78) + "║")
        print("╚" + "═" * 78 + "╝")
        print()

        print("📊 RESUMO DO CARREGAMENTO:")
        print("-" * 80)
        print(f"   • Arquivo: {arquivo_path.name}")
        print(f"   • Registros: {len(df):,}")
        print(f"   • Colunas: {len(df.columns)}")
        print(f"   • Backup: ✅")
        print()

        return df, arquivo_path

    except Exception as e:
        print()
        print("╔" + "═" * 78 + "╗")
        print("║" + " ❌ ERRO AO CARREGAR ARQUIVO ".center(78) + "║")
        print("╚" + "═" * 78 + "╝")
        print()
        print(f"❌ Erro: {str(e)}")
        print()

        import traceback
        print("🔍 Detalhes técnicos:")
        traceback.print_exc()

        fm.logger.error(f"Erro centros: {str(e)}")

        return None, None


# ══════════════════════════════════════════════════════════════════════════════
# EXECUÇÃO: CARREGAR ARQUIVO 2
# ══════════════════════════════════════════════════════════════════════════════

print()
print("⚠️  INSTRUÇÕES:")
print("   • Janela de seleção vai abrir")
print("   • Selecione o arquivo ysmm_centros_br.xlsx")
print("   • Primeira linha deve ser o cabeçalho")
print()

input("👉 Pressione ENTER para iniciar...")

print()

try:
    # Carregar arquivo
    df_centros, arquivo_centros = carregar_ysmm_centros()

    if df_centros is not None:
        # Salvar referência global
        arquivo_centros_info = {
            'df': df_centros,
            'arquivo': arquivo_centros
        }

        print()
        print("═" * 80)
        print("✅ BLOCO 3 - ARQUIVO 2 CONCLUÍDO")
        print("═" * 80)
        print()
        print("📋 PRÓXIMOS PASSOS:")
        print("-" * 80)
        print("   1. ✅ Revise a lista de colunas acima")
        print("   2. ✅ Verifique se os dados fazem sentido")
        print("   3. 📤 Envie feedback:")
        print("       • 'ARQUIVO 2 OK' - para prosseguir")
        print("       • Descreva problemas - se houver erros")
        print("   4. ⏳ Aguarde próximo arquivo")
        print()
        print("🔗 VARIÁVEIS DISPONÍVEIS:")
        print("   • df_centros - DataFrame com cadastro de centros")
        print("   • arquivo_centros_info - Metadados completos")
        print()

        fm.logger.info("BLOCO 3 - Arquivo 2 (Centros) concluído")

except KeyboardInterrupt:
    print()
    print("⚠️  Operação cancelada pelo usuário")

except Exception as e:
    print()
    print("╔" + "═" * 78 + "╗")
    print("║" + " ERRO FATAL - BLOCO 3 ".center(78) + "║")
    print("╚" + "═" * 78 + "╝")
    print()
    print(f"❌ Erro: {str(e)}")
    print()
    import traceback
    print("🔍 Detalhes técnicos:")
    traceback.print_exc()

print()
print("═" * 80)

In [None]:
"""
═══════════════════════════════════════════════════════════════════
BLOCO 4: CARREGADOR AIVI OPAV BW - CORRIGIDO v3
═══════════════════════════════════════════════════════════════════
Sheet correto: "Valor da Variação Total"
Cabeçalho: L34-AM34 (APENAS, colunas AW-BH descartadas)
Resultado: 28 colunas (7 dimensões + 21 movimentações)
Tratamento dinâmico de duplicadas: sufixo _dup1, _dup2, etc
"""

import pandas as pd
import xlrd
from pathlib import Path
import tkinter as tk
from tkinter import filedialog

print("BLOCO 4: CARREGADOR AIVI OPAV BW - ARQUIVO 3/N")
print("=" * 80)
print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 1: Seleção do arquivo
# ══════════════════════════════════════════════════════════════════

if 'fm' in dir():
    padrao_bw = '*xSAPtemp*.xls*'
    arquivos_encontrados = list(fm.diretorios['dados_entrada'].glob(padrao_bw))

    if arquivos_encontrados:
        arquivo_path = arquivos_encontrados[0]
        print(f"Arquivo encontrado: {arquivo_path.name}")
    else:
        root = tk.Tk()
        root.withdraw()
        root.lift()
        root.attributes('-topmost', True)

        arquivo = filedialog.askopenfilename(
            title="Selecione arquivo BW (xSAPtemp...)",
            filetypes=[("Excel", "*.xls *.xlsx"), ("All", "*.*")]
        )

        root.destroy()

        if not arquivo:
            raise ValueError("Nenhum arquivo selecionado")

        arquivo_path = Path(arquivo)
else:
    root = tk.Tk()
    root.withdraw()
    root.lift()
    root.attributes('-topmost', True)

    arquivo = filedialog.askopenfilename(
        title="Selecione arquivo BW (xSAPtemp...)",
        filetypes=[("Excel", "*.xls *.xlsx"), ("All", "*.*")]
    )

    root.destroy()

    if not arquivo:
        raise ValueError("Nenhum arquivo selecionado")

    arquivo_path = Path(arquivo)

print(f"Arquivo selecionado: {arquivo_path.name}")
print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 2: Carregar SHEET CORRETO
# ══════════════════════════════════════════════════════════════════

print("ETAPA 2: Carregando sheet correto...")
print("-" * 80)

# Nome do sheet correto
SHEET_NAME = "Valor da Variação Total"

try:
    # Método 1: xlrd (mais confiável para .xls)
    print(f"Tentando xlrd (sheet: '{SHEET_NAME}')...")

    workbook = xlrd.open_workbook(str(arquivo_path))

    # Listar sheets
    print(f"   Sheets disponiveis: {workbook.sheet_names()}")

    # Verificar se sheet existe
    if SHEET_NAME not in workbook.sheet_names():
        raise ValueError(f"Sheet '{SHEET_NAME}' nao encontrado!")

    # Pegar sheet correto
    sheet = workbook.sheet_by_name(SHEET_NAME)

    print(f"   Sheet: '{SHEET_NAME}'")
    print(f"   Linhas: {sheet.nrows:,}")
    print(f"   Colunas: {sheet.ncols}")

    # Converter para lista de listas
    data = []
    for row_idx in range(sheet.nrows):
        data.append(sheet.row_values(row_idx))

    # Criar DataFrame
    df_bruto = pd.DataFrame(data)

    print(f"   DataFrame criado: {df_bruto.shape[0]:,} x {df_bruto.shape[1]}")
    print()

except Exception as e:
    print(f"   Erro com xlrd: {str(e)}")
    print()

    # Método 2: pandas como fallback
    print(f"Tentando pandas (sheet: '{SHEET_NAME}')...")

    df_bruto = pd.read_excel(
        arquivo_path,
        sheet_name=SHEET_NAME,
        header=None
    )

    print(f"   DataFrame criado: {df_bruto.shape[0]:,} x {df_bruto.shape[1]}")
    print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 3: VERIFICAR LINHA 34 (índice 33)
# ══════════════════════════════════════════════════════════════════

print("ETAPA 3: Verificando linha 34 (cabecalho)...")
print("-" * 80)

# Linha 34 Excel = índice 33 pandas
linha_34 = df_bruto.iloc[33]

# Verificar colunas L-BH (índices 11-59)
cols_lbh = linha_34.iloc[11:60]

# Contar não-nulas
non_null = cols_lbh.notna().sum()
print(f"   Celulas nao-nulas em L34-BH34: {non_null}/49")

# Mostrar primeiras não-nulas
print(f"   Primeiros valores nao-nulos:")
count = 0
for i, val in enumerate(cols_lbh):
    if pd.notna(val) and count < 10:
        col_idx = 11 + i
        # Nome da coluna (L=11, M=12, etc)
        if col_idx < 26:
            col_name = chr(65 + col_idx)
        else:
            col_name = chr(65 + (col_idx // 26) - 1) + chr(65 + (col_idx % 26))

        val_str = str(val)[:30]
        print(f"      {col_name}34 (idx={col_idx}): '{val_str}'")
        count += 1

print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 4: EXTRAIR CABEÇALHO CORRETO
# ══════════════════════════════════════════════════════════════════

print("ETAPA 4: Extraindo cabecalho das colunas especificas...")
print("-" * 80)

# Linha 34 Excel = índice 33
linha_cabecalho = df_bruto.iloc[33]

# APENAS PARTE 1: Colunas L-AM (índices 11-38)
# L=11, M=12, ..., AM=38 (28 colunas)
cabecalho_bruto = linha_cabecalho.iloc[11:39].tolist()

print(f"   COLUNAS EXTRAIDAS (L34-AM34): {len(cabecalho_bruto)} colunas")
print()

# Limpar nomes
cabecalho_temp = []
for i, nome in enumerate(cabecalho_bruto):
    if pd.isna(nome) or str(nome).strip() == '':
        nome_limpo = f'Col_{i}'
    else:
        # Remover apóstrofo inicial se existir
        nome_str = str(nome).strip()
        if nome_str.startswith("'"):
            nome_str = nome_str[1:]
        # Remover quebras de linha
        nome_str = nome_str.replace('\n', ' ')
        nome_limpo = nome_str
    cabecalho_temp.append(nome_limpo)

# Tratar duplicadas (adicionar sufixo _dup1, _dup2, etc)
from collections import Counter

contagem = Counter(cabecalho_temp)
duplicadas = {nome: count for nome, count in contagem.items() if count > 1}

if duplicadas:
    print(f"   AVISO: {len(duplicadas)} nomes duplicados encontrados")
    for nome, count in list(duplicadas.items())[:5]:
        print(f"      '{nome}': {count} ocorrencias")
    print()

# Renomear duplicadas
cabecalho_limpo = []
contador = {}

for nome in cabecalho_temp:
    if nome in contador:
        contador[nome] += 1
        novo_nome = f"{nome}_dup{contador[nome]}"
        cabecalho_limpo.append(novo_nome)
    else:
        contador[nome] = 0
        cabecalho_limpo.append(nome)

# Mostrar cabeçalho final
print("   Cabecalho final:")
for i, nome in enumerate(cabecalho_limpo[:10], 1):
    print(f"      A{i if i <= 9 else str(i)}: {nome}")
if len(cabecalho_limpo) > 10:
    print(f"      ... (mais {len(cabecalho_limpo) - 10} colunas)")

print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 5: EXTRAIR DADOS (linhas após linha 34)
# ══════════════════════════════════════════════════════════════════

print("ETAPA 5: Extraindo dados...")
print("-" * 80)

# Dados começam na linha 35 (índice 34)
linha_inicio_dados = 34

# Extrair APENAS colunas L-AM (índices 11-38)
df_final = df_bruto.iloc[linha_inicio_dados:, 11:39].copy()

# Aplicar cabeçalho
df_final.columns = cabecalho_limpo

# Reset index
df_final = df_final.reset_index(drop=True)

print(f"   Registros: {len(df_final):,}")
print(f"   Colunas: {len(df_final.columns)}")
print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 6: CONVERTER DIMENSÕES PARA STRING
# ══════════════════════════════════════════════════════════════════

print("ETAPA 6: Convertendo dimensoes para STRING...")
print("-" * 80)

# Primeiras 7 colunas = dimensões
dimensoes_cols = df_final.columns[:7].tolist()

for col in dimensoes_cols:
    if col in df_final.columns:
        df_final[col] = df_final[col].astype(str)
        print(f"   '{col}' -> STRING")

print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 7: PREVIEW DOS DADOS
# ══════════════════════════════════════════════════════════════════

print("ETAPA 7: PREVIEW DOS DADOS")
print("-" * 80)
print("Primeiras 7 colunas (DIMENSOES):")
print(df_final.iloc[:, :7].head(5).to_string(index=False))
print()

print("Primeiras 5 linhas completas:")
print(df_final.head(5).to_string(index=False, max_colwidth=20))
print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 8: ESTATÍSTICAS DAS COLUNAS
# ══════════════════════════════════════════════════════════════════

print("ETAPA 8: ESTATISTICAS DAS COLUNAS")
print("-" * 80)

for i, col in enumerate(df_final.columns, 1):
    # Tratar caso de coluna duplicada (retorna DataFrame)
    try:
        col_serie = df_final[col]

        # Se retornar DataFrame (duplicada), pegar primeira coluna
        if isinstance(col_serie, pd.DataFrame):
            col_serie = col_serie.iloc[:, 0]

        tipo = col_serie.dtype
        nulos = col_serie.isna().sum()
        pct_nulos = (nulos / len(df_final) * 100) if len(df_final) > 0 else 0
        unicos = col_serie.nunique()

    except Exception as e:
        # Fallback se der erro
        tipo = "unknown"
        nulos = 0
        pct_nulos = 0.0
        unicos = 0
        print(f"   AVISO: Erro ao analisar coluna '{col}': {str(e)[:50]}")

    # Identificar bloco
    if i <= 7:
        bloco = "DIMENSAO"
    elif i <= 28:
        bloco = "MOVIM_BLK1"
    else:
        bloco = "MOVIM_BLK2"

    print(f"   {i:2d}. {col[:30]}")
    print(f"       Bloco: {bloco} | Tipo: {tipo} | Nulos: {pct_nulos:.1f}% | Unicos: {unicos:,}")

print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 9: SALVAR BACKUP
# ══════════════════════════════════════════════════════════════════

print("ETAPA 9: Salvando backup...")

if 'fm' in dir():
    timestamp = fm.timestamp
    arquivo_destino = fm.diretorios['dados_entrada'] / f"AIVI_OPAV_BW_{timestamp}.xlsx"

    try:
        df_final.to_excel(arquivo_destino, index=False, engine='openpyxl')
        fm.logger.info(f"Backup BW: {arquivo_destino.name}")
        print(f"   Backup: {arquivo_destino.name}")
    except Exception as e:
        print(f"   Erro ao salvar: {str(e)}")
        fm.logger.error(f"Erro backup BW: {str(e)}")
else:
    print("   FileManager nao disponivel - backup ignorado")

print()

# ══════════════════════════════════════════════════════════════════
# RESULTADO FINAL
# ══════════════════════════════════════════════════════════════════

print("=" * 80)
print("ARQUIVO BW CARREGADO E PROCESSADO COM SUCESSO")
print("=" * 80)
print()

print("RESUMO DO PROCESSAMENTO:")
print("-" * 80)
print(f"   Arquivo: {arquivo_path.name}")
print(f"   Sheet: {SHEET_NAME}")
print(f"   Registros: {len(df_final):,}")
print(f"   Colunas totais: {len(df_final.columns)}")
print(f"   Dimensoes (1-7): 7")
print(f"   Movimentacoes (8-{len(df_final.columns)}): {len(df_final.columns) - 7}")
print()

# Salvar na variável global
df_opav = df_final
arquivo_opav = arquivo_path

print("VARIAVEIS DISPONIVEIS:")
print("   df_opav - DataFrame BW processado")
print("   arquivo_opav - Path do arquivo")
print()

print("=" * 80)
print("FIM BLOCO 4")
print("=" * 80)

In [None]:
"""
═══════════════════════════════════════════════════════════════════
BLOCO 5: UNIFICADOR DE ARQUIVOS OPAV BW
═══════════════════════════════════════════════════════════════════
Busca recursiva: *xSAPtemp*.xls* em pasta e subpastas
Carrega cada arquivo com mesmo padrão do BLOCO 4
Unifica tudo em um único DataFrame
"""

import pandas as pd
import xlrd
from pathlib import Path
from collections import Counter
import tkinter as tk
from tkinter import filedialog

print("╔" + "═" * 78 + "╗")
print("║" + " BLOCO 5: UNIFICADOR DE ARQUIVOS OPAV BW ".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

# ══════════════════════════════════════════════════════════════════
# CONFIGURAÇÕES
# ══════════════════════════════════════════════════════════════════

SHEET_NAME = "Valor da Variação Total"
LINHA_CABECALHO = 33  # Linha 34 do Excel
LINHA_INICIO_DADOS = 34

# Colunas a extrair (APENAS L-AM, 28 colunas)
COLS_EXTRAIR = (11, 39)  # L-AM (índices 11-38)

# ══════════════════════════════════════════════════════════════════
# FUNÇÕES AUXILIARES (do BLOCO 4)
# ══════════════════════════════════════════════════════════════════

def limpar_nome_coluna(nome):
    """
    Limpa nome de coluna de caracteres especiais
    """
    if pd.isna(nome) or str(nome).strip() == '':
        return None

    nome_str = str(nome).strip()
    nome_str = nome_str.lstrip("'")
    nome_str = nome_str.replace('\n', ' ')
    nome_str = nome_str.replace('\r', ' ')
    nome_str = ' '.join(nome_str.split())

    return nome_str

def tratar_duplicadas(colunas):
    """
    Adiciona sufixo _dup1, _dup2 às duplicadas
    """
    contagem = Counter(colunas)
    duplicadas = {n: c for n, c in contagem.items() if c > 1}

    if duplicadas:
        print(f"   AVISO: {len(duplicadas)} nomes duplicados")
        for nome, count in list(duplicadas.items())[:3]:
            print(f"      '{nome}': {count} ocorrencias")

    colunas_novas = []
    contador = {}

    for nome in colunas:
        if nome in contador:
            contador[nome] += 1
            colunas_novas.append(f"{nome}_dup{contador[nome]}")
        else:
            contador[nome] = 0
            colunas_novas.append(nome)

    return colunas_novas

def carregar_arquivo_opav(arquivo_path):
    """
    Carrega um arquivo OPAV seguindo padrão do BLOCO 4

    Retorna: DataFrame ou None se erro
    """
    try:
        print(f"\n📄 Processando: {arquivo_path.name}")
        print("   " + "-" * 76)

        # Carregar com xlrd
        workbook = xlrd.open_workbook(str(arquivo_path))

        # Verificar sheet
        if SHEET_NAME not in workbook.sheet_names():
            print(f"   ❌ Sheet '{SHEET_NAME}' nao encontrado")
            print(f"   Sheets disponiveis: {workbook.sheet_names()}")
            return None

        sheet = workbook.sheet_by_name(SHEET_NAME)
        print(f"   ✅ Sheet: '{SHEET_NAME}' ({sheet.nrows} linhas × {sheet.ncols} cols)")

        # Converter para DataFrame
        data = [sheet.row_values(i) for i in range(sheet.nrows)]
        df_bruto = pd.DataFrame(data)

        # Extrair cabeçalho (APENAS L-AM)
        linha_cab = df_bruto.iloc[LINHA_CABECALHO]
        cab_bruto = linha_cab.iloc[COLS_EXTRAIR[0]:COLS_EXTRAIR[1]].tolist()

        # Limpar cabeçalho
        cab_temp = [limpar_nome_coluna(c) or f'Col_{i}'
                    for i, c in enumerate(cab_bruto)]

        # Tratar duplicadas
        cab_final = tratar_duplicadas(cab_temp)

        # Extrair dados (APENAS L-AM)
        df_final = df_bruto.iloc[LINHA_INICIO_DADOS:, COLS_EXTRAIR[0]:COLS_EXTRAIR[1]].copy()

        df_final.columns = cab_final
        df_final = df_final.reset_index(drop=True)

        # Adicionar metadados
        df_final['_arquivo_origem'] = arquivo_path.name
        df_final['_arquivo_path'] = str(arquivo_path)
        df_final['_data_carga'] = pd.Timestamp.now()

        print(f"   ✅ Carregado: {len(df_final):,} registros × {len(cab_final)} colunas")

        return df_final

    except Exception as e:
        print(f"   ❌ ERRO: {str(e)[:100]}")
        import traceback
        print(f"   Detalhes: {traceback.format_exc()[:200]}")
        return None

# ══════════════════════════════════════════════════════════════════
# ETAPA 1: Determinar pasta base
# ══════════════════════════════════════════════════════════════════

print("ETAPA 1: Determinar pasta com arquivos OPAV")
print("-" * 80)
print()

pasta_base = None

# OPÇÃO 1: Usar pasta do arquivo já carregado (BLOCO 4)
if 'arquivo_opav' in dir():
    pasta_arquivo = arquivo_opav.parent
    print(f"📁 Arquivo OPAV ja carregado no BLOCO 4:")
    print(f"   Arquivo: {arquivo_opav.name}")
    print(f"   Pasta: {pasta_arquivo}")
    print()

    # Verificar se há outros arquivos nessa pasta
    outros_arquivos = list(pasta_arquivo.glob('*xSAPtemp*.xls*'))

    if len(outros_arquivos) > 1:
        print(f"   ✅ Encontrados {len(outros_arquivos)} arquivos xSAPtemp nesta pasta")
        print(f"   Usando esta pasta como base")
        pasta_base = pasta_arquivo
    elif len(outros_arquivos) == 1:
        print(f"   ⚠️  Apenas 1 arquivo xSAPtemp nesta pasta")
        print(f"   Vou perguntar se quer buscar em outra pasta")
    else:
        print(f"   ⚠️  Nenhum arquivo xSAPtemp nesta pasta")
        print(f"   Vou perguntar outra pasta")

# OPÇÃO 2: Perguntar ao usuário
if pasta_base is None:
    print()
    print("═" * 80)
    print("📂 SELEÇÃO DE PASTA")
    print("═" * 80)
    print()
    print("Opcoes:")
    print("   1. Selecionar pasta manualmente")
    if 'arquivo_opav' in dir():
        print(f"   2. Usar pasta do arquivo atual ({arquivo_opav.parent.name})")
    if 'fm' in dir():
        print(f"   3. Usar pasta do FileManager ({fm.diretorios['dados_entrada'].name})")
    print()

    escolha = input("Escolha (1/2/3): ").strip()

    if escolha == '1':
        # Janela de seleção
        print("\nAbrindo janela de selecao de pasta...")

        root = tk.Tk()
        root.withdraw()
        root.lift()
        root.attributes('-topmost', True)

        pasta = filedialog.askdirectory(
            title="Selecione pasta com arquivos OPAV (xSAPtemp...)"
        )

        root.destroy()

        if not pasta:
            raise ValueError("Nenhuma pasta selecionada")

        pasta_base = Path(pasta)

    elif escolha == '2' and 'arquivo_opav' in dir():
        pasta_base = arquivo_opav.parent

    elif escolha == '3' and 'fm' in dir():
        pasta_base = fm.diretorios['dados_entrada']

    else:
        # Default: FileManager ou erro
        if 'fm' in dir():
            pasta_base = fm.diretorios['dados_entrada']
        else:
            raise ValueError("Opcao invalida")

# ══════════════════════════════════════════════════════════════════
# ETAPA 1.5: Copiar arquivo para pasta FileManager (se necessário)
# ══════════════════════════════════════════════════════════════════

if 'arquivo_opav' in dir() and 'fm' in dir():
    # Verificar se arquivo está fora da pasta do FileManager
    arquivo_atual = arquivo_opav
    pasta_fm = fm.diretorios['dados_entrada']

    if arquivo_atual.parent != pasta_fm:
        print()
        print("═" * 80)
        print("📋 ARQUIVO FORA DA PASTA DO FILEMANAGER")
        print("═" * 80)
        print()
        print(f"Arquivo atual: {arquivo_atual}")
        print(f"Pasta FileManager: {pasta_fm}")
        print()

        # Verificar tamanho
        tamanho_mb = arquivo_atual.stat().st_size / (1024 * 1024)
        print(f"Tamanho do arquivo: {tamanho_mb:.2f} MB")
        print()

        if tamanho_mb > 50:
            print("⚠️  Arquivo grande (>50MB)")
            print()
            print("Opcoes:")
            print("   1. Copiar para pasta FileManager (pode demorar)")
            print("   2. Buscar na pasta atual do arquivo")
            print("   3. Selecionar outra pasta")
            print()

            escolha_copia = input("Escolha (1/2/3): ").strip()

            if escolha_copia == '1':
                print("\n📋 Copiando arquivo...")
                import shutil

                destino = pasta_fm / arquivo_atual.name

                try:
                    shutil.copy2(arquivo_atual, destino)
                    print(f"   ✅ Copiado para: {destino}")
                    print()
                except Exception as e:
                    print(f"   ❌ Erro ao copiar: {str(e)}")
                    print(f"   Usando pasta original")
                    print()

            elif escolha_copia == '2':
                print("\n✅ Usando pasta do arquivo atual")
                print()

            elif escolha_copia == '3':
                print("\n📂 Abrindo janela de selecao...")
                root = tk.Tk()
                root.withdraw()
                root.lift()
                root.attributes('-topmost', True)

                pasta = filedialog.askdirectory(
                    title="Selecione pasta com arquivos OPAV"
                )

                root.destroy()

                if pasta:
                    pasta_base = Path(pasta)
                    print(f"   ✅ Pasta selecionada: {pasta_base}")
                print()
        else:
            # Arquivo pequeno (<50MB), copiar automaticamente
            print("✅ Arquivo pequeno (<50MB)")
            print("   Copiando para pasta FileManager...")

            import shutil
            destino = pasta_fm / arquivo_atual.name

            try:
                shutil.copy2(arquivo_atual, destino)
                print(f"   ✅ Copiado para: {destino.name}")
                print()
            except Exception as e:
                print(f"   ⚠️  Erro ao copiar: {str(e)}")
                print(f"   Continuando com pasta original")
                print()

print()

print("=" * 80)
print(f"✅ PASTA BASE DEFINIDA: {pasta_base}")
print("=" * 80)
print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 2: Buscar arquivos recursivamente
# ══════════════════════════════════════════════════════════════════

print("ETAPA 2: Buscando arquivos xSAPtemp recursivamente...")
print("-" * 80)
print()

# Buscar com glob recursivo
padroes = ['*xSAPtemp*.xls', '*xSAPtemp*.xlsx']
arquivos_encontrados = []

for padrao in padroes:
    arquivos_encontrados.extend(pasta_base.rglob(padrao))

# Remover duplicatas (caso encontre mesmo arquivo com ambos padrões)
arquivos_encontrados = list(set(arquivos_encontrados))

# Ordenar por nome
arquivos_encontrados.sort(key=lambda x: x.name)

print(f"✅ Encontrados: {len(arquivos_encontrados)} arquivos")
print()

if len(arquivos_encontrados) == 0:
    print("❌ NENHUM ARQUIVO ENCONTRADO!")
    print()
    print("Padrões buscados:")
    for padrao in padroes:
        print(f"   • {padrao}")
    print()
    print(f"Pasta base: {pasta_base}")
    print()
    raise ValueError("Nenhum arquivo xSAPtemp encontrado")

# Listar arquivos encontrados
print("📋 ARQUIVOS ENCONTRADOS:")
print("-" * 80)
for i, arq in enumerate(arquivos_encontrados, 1):
    # Caminho relativo à pasta base
    rel_path = arq.relative_to(pasta_base)
    tamanho_mb = arq.stat().st_size / (1024 * 1024)
    print(f"   {i:2d}. {arq.name}")
    print(f"       Pasta: {rel_path.parent}")
    print(f"       Tamanho: {tamanho_mb:.2f} MB")

print()

# Confirmação do usuário
print("═" * 80)
print("⚠️  CONFIRMAÇÃO NECESSÁRIA")
print("═" * 80)
print()
print(f"Foram encontrados {len(arquivos_encontrados)} arquivos.")
print("Todos serão processados e unificados em um único DataFrame.")
print()
print("Deseja prosseguir?")
print("   [ENTER] = SIM, continuar")
print("   [Ctrl+C] = NÃO, cancelar")
print()

input("Pressione ENTER para continuar...")
print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 3: Carregar todos os arquivos
# ══════════════════════════════════════════════════════════════════

print("ETAPA 3: Carregando todos os arquivos...")
print("═" * 80)

dataframes = []
erros = []

for i, arquivo in enumerate(arquivos_encontrados, 1):
    print(f"\n[{i}/{len(arquivos_encontrados)}] Processando...")

    df = carregar_arquivo_opav(arquivo)

    if df is not None:
        dataframes.append(df)
    else:
        erros.append(arquivo.name)

print()
print("=" * 80)
print(f"RESUMO DO CARREGAMENTO:")
print("=" * 80)
print(f"   ✅ Sucesso: {len(dataframes)} arquivos")
print(f"   ❌ Erros: {len(erros)} arquivos")

if erros:
    print(f"\n   Arquivos com erro:")
    for erro in erros:
        print(f"      • {erro}")

print()

if len(dataframes) == 0:
    raise ValueError("Nenhum arquivo foi carregado com sucesso!")

# ══════════════════════════════════════════════════════════════════
# ETAPA 4: Unificar DataFrames
# ══════════════════════════════════════════════════════════════════

print("ETAPA 4: Unificando DataFrames...")
print("-" * 80)
print()

# Concatenar verticalmente
df_unificado = pd.concat(dataframes, ignore_index=True)

print(f"✅ DataFrame unificado criado")
print(f"   Registros totais: {len(df_unificado):,}")
print(f"   Colunas: {len(df_unificado.columns)}")
print()

# Estatísticas por arquivo
print("📊 REGISTROS POR ARQUIVO:")
print("-" * 80)

contagem_por_arquivo = df_unificado['_arquivo_origem'].value_counts().sort_index()

for arquivo, count in contagem_por_arquivo.items():
    pct = (count / len(df_unificado)) * 100
    print(f"   {arquivo}: {count:,} registros ({pct:.1f}%)")

print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 5: Validações
# ══════════════════════════════════════════════════════════════════

print("ETAPA 5: Validações...")
print("-" * 80)
print()

# Verificar duplicatas
print("🔍 Verificando duplicatas...")

# Colunas chave (sem metadados)
colunas_chave = [c for c in df_unificado.columns
                 if not c.startswith('_')][:7]

print(f"   Colunas chave: {colunas_chave[:5]}...")

duplicatas = df_unificado.duplicated(subset=colunas_chave)
n_duplicatas = duplicatas.sum()

if n_duplicatas > 0:
    print(f"   ⚠️  {n_duplicatas:,} linhas duplicadas encontradas")
    print(f"   Mantendo primeira ocorrência...")
    df_unificado = df_unificado[~duplicatas].reset_index(drop=True)
    print(f"   ✅ Após remover: {len(df_unificado):,} registros")
else:
    print(f"   ✅ Nenhuma duplicata encontrada")

print()

# Valores nulos em colunas críticas
print("🔍 Verificando nulos em colunas críticas...")

colunas_criticas = ['Centro', 'Produto', 'Ano civil/mês']

for col in colunas_criticas:
    if col in df_unificado.columns:
        nulos = df_unificado[col].isna().sum()
        if nulos > 0:
            print(f"   ⚠️  '{col}': {nulos:,} nulos")
        else:
            print(f"   ✅ '{col}': 0 nulos")

print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 6: Preview e Estatísticas
# ══════════════════════════════════════════════════════════════════

print("ETAPA 6: PREVIEW E ESTATISTICAS")
print("═" * 80)
print()

print("Primeiras 7 colunas (DIMENSOES):")
colunas_dim = [c for c in df_unificado.columns if not c.startswith('_')][:7]
print(df_unificado[colunas_dim].head(5).to_string(index=False))
print()

print("Ultimas 3 colunas (METADADOS):")
print(df_unificado[['_arquivo_origem', '_arquivo_path', '_data_carga']].head(3).to_string(index=False))
print()

# Estatísticas resumidas
print("📊 ESTATISTICAS GERAIS:")
print("-" * 80)

print(f"   Registros totais: {len(df_unificado):,}")
print(f"   Colunas totais: {len(df_unificado.columns)}")
print(f"   Arquivos unificados: {len(dataframes)}")
print(f"   Período de carga: {df_unificado['_data_carga'].min()} a {df_unificado['_data_carga'].max()}")

# Dimensões únicas
if 'Centro' in df_unificado.columns:
    print(f"   Centros únicos: {df_unificado['Centro'].nunique()}")

if 'Produto' in df_unificado.columns:
    print(f"   Produtos únicos: {df_unificado['Produto'].nunique()}")

if 'Ano civil/mês' in df_unificado.columns:
    print(f"   Períodos únicos: {df_unificado['Ano civil/mês'].nunique()}")

print()

# ══════════════════════════════════════════════════════════════════
# ETAPA 7: Salvar Backup
# ══════════════════════════════════════════════════════════════════

print("ETAPA 7: Salvando backup...")
print("-" * 80)
print()

if 'fm' in dir():
    timestamp = fm.timestamp
    arquivo_destino = fm.diretorios['dados_processados'] / f"AIVI_OPAV_UNIFICADO_{timestamp}.xlsx"

    try:
        df_unificado.to_excel(arquivo_destino, index=False, engine='openpyxl')
        fm.logger.info(f"OPAV unificado: {arquivo_destino.name} ({len(df_unificado)} registros)")
        print(f"   ✅ Backup: {arquivo_destino.name}")
        print(f"   📁 Local: {arquivo_destino.parent}")
    except Exception as e:
        print(f"   ⚠️  Erro ao salvar: {str(e)}")
        fm.logger.error(f"Erro backup OPAV unificado: {str(e)}")
else:
    print("   ⚠️  FileManager não disponível - backup ignorado")

print()

# ══════════════════════════════════════════════════════════════════
# RESULTADO FINAL
# ══════════════════════════════════════════════════════════════════

print("╔" + "═" * 78 + "╗")
print("║" + " ✅ UNIFICAÇÃO CONCLUÍDA COM SUCESSO ".center(78) + "║")
print("╚" + "═" * 78 + "╝")
print()

print("RESUMO FINAL:")
print("-" * 80)
print(f"   📄 Arquivos processados: {len(dataframes)}/{len(arquivos_encontrados)}")
print(f"   📊 Registros totais: {len(df_unificado):,}")
print(f"   📋 Colunas: {len(df_unificado.columns)}")
print(f"   🗂️  Estrutura:")
print(f"       • Dimensões: 7")
print(f"       • Movimentações: {len(df_unificado.columns) - 10}")
print(f"       • Metadados: 3")
print()

# Salvar na variável global
df_opav_unificado = df_unificado
arquivos_opav_processados = [arq.name for arq in arquivos_encontrados if carregar_arquivo_opav(arq) is not None]

print("VARIAVEIS DISPONIVEIS:")
print("   df_opav_unificado - DataFrame unificado")
print("   arquivos_opav_processados - Lista de arquivos")
print()

print("=" * 80)
print("FIM BLOCO 5")
print("=" * 80)

In [None]:
# ═══════════════════════════════════════════════════════════════════
# BLOCO 0A: DETECTOR DE ARQUIVO DESCONHECIDO
# Sistema inteligente para processar arquivos Excel de estrutura desconhecida
# ═══════════════════════════════════════════════════════════════════

import pandas as pd
import xlrd
import re
from pathlib import Path
from collections import Counter
import numpy as np
from datetime import datetime

class DetectorArquivoDesconhecido:
    """
    Sistema para detectar automaticamente estrutura de arquivos Excel
    """

    def __init__(self, arquivo_path, fm=None):
        self.arquivo_path = Path(arquivo_path)
        self.fm = fm
        self.nome_arquivo = self.arquivo_path.name
        self.workbook = None
        self.sheet_detectada = None
        self.linha_cabecalho = None
        self.linha_dados_inicio = None
        self.df_bruto = None
        self.df_limpo = None
        self.log = []

    def processar(self):
        """
        Processamento completo do arquivo
        """
        self._log("🔍 INICIANDO DETECÇÃO AUTOMÁTICA", nivel="TITULO")
        self._log(f"📁 Arquivo: {self.nome_arquivo}")

        # 1. Carregar workbook
        self._carregar_workbook()

        # 2. Detectar sheet correto
        self._detectar_sheet()

        # 3. Detectar linha de cabeçalho
        self._detectar_cabecalho()

        # 4. Extrair e limpar dados
        self._extrair_dados()

        # 5. Limpar estrutura
        self._limpar_estrutura()

        # 6. Relatório final
        self._gerar_relatorio()

        return self.df_limpo

    def _carregar_workbook(self):
        """
        Carrega workbook Excel
        """
        self._log("\n📂 FASE 1: Carregamento do Arquivo", nivel="SECAO")

        try:
            # Tentar xlrd primeiro (mais robusto para .xls)
            self.workbook = xlrd.open_workbook(str(self.arquivo_path))
            self._log(f"✅ Carregado com xlrd")
            self._log(f"   Formato: XLS (Excel Antigo)")
        except Exception as e1:
            # Fallback para pandas (xlsx, xlsm)
            try:
                self.workbook = pd.ExcelFile(str(self.arquivo_path))
                self._log(f"✅ Carregado com pandas")
                self._log(f"   Formato: XLSX/XLSM (Excel Moderno)")
            except Exception as e2:
                raise ValueError(f"❌ Não foi possível carregar arquivo:\n  xlrd: {e1}\n  pandas: {e2}")

        # Listar sheets
        if isinstance(self.workbook, xlrd.Book):
            sheets = self.workbook.sheet_names()
        else:
            sheets = self.workbook.sheet_names

        self._log(f"📊 Sheets encontradas: {len(sheets)}")
        for i, sheet in enumerate(sheets, 1):
            self._log(f"   {i}. {sheet}")

    def _detectar_sheet(self):
        """
        Detecta sheet com dados relevantes
        """
        self._log("\n📊 FASE 2: Detecção de Sheet", nivel="SECAO")

        if isinstance(self.workbook, xlrd.Book):
            sheets = self.workbook.sheet_names()
        else:
            sheets = self.workbook.sheet_names

        # REGRAS DE DETECÇÃO (ordem de prioridade)
        regras = [
            # BW específico
            (r"Valor da Variação Total", "BW - Variação Total"),
            (r"Variação.*Total", "Variação Total (genérico)"),
            (r"OPAV", "OPAV"),
            # Genéricas
            (r"(?i)dados", "Dados"),
            (r"(?i)relat[oó]rio", "Relatório"),
            (r"(?i)export", "Export"),
            (r"(?i)result", "Result"),
        ]

        candidatos = []

        for sheet_name in sheets:
            for padrao, descricao in regras:
                if re.search(padrao, sheet_name):
                    # Carregar amostra para validar
                    validacao = self._validar_sheet(sheet_name)
                    candidatos.append({
                        'nome': sheet_name,
                        'descricao': descricao,
                        'score': validacao['score'],
                        'linhas': validacao['linhas'],
                        'colunas': validacao['colunas']
                    })
                    self._log(f"   ✅ Candidato: '{sheet_name}' ({descricao})")
                    self._log(f"      Score: {validacao['score']:.2f} | Linhas: {validacao['linhas']} | Colunas: {validacao['colunas']}")
                    break

        if not candidatos:
            # Se nenhum match, usar primeira sheet não vazia
            self._log("   ⚠️  Nenhum match por padrão, analisando todas sheets...")
            for sheet_name in sheets:
                validacao = self._validar_sheet(sheet_name)
                if validacao['score'] > 0:
                    candidatos.append({
                        'nome': sheet_name,
                        'descricao': 'Primeira não vazia',
                        'score': validacao['score'],
                        'linhas': validacao['linhas'],
                        'colunas': validacao['colunas']
                    })

        if not candidatos:
            raise ValueError("❌ Nenhuma sheet com dados foi encontrada")

        # Selecionar melhor candidato (maior score)
        melhor = max(candidatos, key=lambda x: x['score'])
        self.sheet_detectada = melhor['nome']

        self._log(f"\n   🎯 SHEET SELECIONADA: '{self.sheet_detectada}'")
        self._log(f"      {melhor['descricao']} | Score: {melhor['score']:.2f}")

    def _validar_sheet(self, sheet_name):
        """
        Valida se sheet contém dados úteis
        """
        try:
            if isinstance(self.workbook, xlrd.Book):
                sheet = self.workbook.sheet_by_name(sheet_name)
                linhas = sheet.nrows
                colunas = sheet.ncols
                # Amostra: primeira linha não vazia
                amostra = []
                for i in range(min(50, linhas)):
                    row = sheet.row_values(i)
                    if any(str(c).strip() for c in row):
                        amostra.append(row)
                        if len(amostra) >= 10:
                            break
            else:
                df_sample = pd.read_excel(self.workbook, sheet_name=sheet_name, nrows=50)
                linhas = len(df_sample)
                colunas = len(df_sample.columns)
                amostra = df_sample.values.tolist()

            # Calcular score
            score = 0.0
            if linhas > 10:
                score += 1.0
            if colunas > 5:
                score += 1.0
            if linhas > 100:
                score += 0.5
            if colunas > 15:
                score += 0.5

            # Penalizar sheets muito pequenas
            if linhas < 5 or colunas < 3:
                score = 0.0

            return {
                'score': score,
                'linhas': linhas,
                'colunas': colunas
            }
        except:
            return {'score': 0.0, 'linhas': 0, 'colunas': 0}

    def _detectar_cabecalho(self):
        """
        Detecta linha de cabeçalho automaticamente
        """
        self._log("\n🔍 FASE 3: Detecção de Cabeçalho", nivel="SECAO")

        # Carregar primeiras 100 linhas
        if isinstance(self.workbook, xlrd.Book):
            sheet = self.workbook.sheet_by_name(self.sheet_detectada)
            linhas_amostra = []
            for i in range(min(100, sheet.nrows)):
                linhas_amostra.append(sheet.row_values(i))
        else:
            df_amostra = pd.read_excel(
                self.workbook,
                sheet_name=self.sheet_detectada,
                nrows=100,
                header=None
            )
            linhas_amostra = df_amostra.values.tolist()

        # Análise linha por linha
        scores = []
        for idx, linha in enumerate(linhas_amostra):
            score = self._avaliar_linha_cabecalho(linha, idx)
            scores.append({
                'linha': idx,
                'score': score,
                'conteudo_sample': linha[:5]  # Primeiras 5 colunas
            })

        # Ordenar por score
        scores_ordenados = sorted(scores, key=lambda x: x['score'], reverse=True)

        # Mostrar top 5
        self._log("   🏆 Top 5 candidatos a cabeçalho:")
        for i, item in enumerate(scores_ordenados[:5], 1):
            self._log(f"      {i}. Linha {item['linha']+1} (Excel) - Score: {item['score']:.2f}")
            self._log(f"         Sample: {item['conteudo_sample']}")

        # Selecionar melhor
        melhor = scores_ordenados[0]
        self.linha_cabecalho = melhor['linha']
        self.linha_dados_inicio = self.linha_cabecalho + 1

        self._log(f"\n   🎯 CABEÇALHO DETECTADO: Linha {self.linha_cabecalho + 1} (Excel)")
        self._log(f"      Início dos dados: Linha {self.linha_dados_inicio + 1} (Excel)")

    def _avaliar_linha_cabecalho(self, linha, idx):
        """
        Avalia se uma linha é candidata a cabeçalho
        """
        score = 0.0

        # Converter para strings
        celulas = [str(c).strip() for c in linha if str(c).strip()]

        if not celulas:
            return 0.0

        # CRITÉRIO 1: Quantidade de células não vazias (peso 2.0)
        prop_nao_vazias = len(celulas) / len(linha)
        score += prop_nao_vazias * 2.0

        # CRITÉRIO 2: Células com texto (não só números) (peso 1.5)
        tem_texto = sum(1 for c in celulas if re.search(r'[a-zA-Z]', c))
        prop_texto = tem_texto / len(celulas) if celulas else 0
        score += prop_texto * 1.5

        # CRITÉRIO 3: Palavras-chave de cabeçalho (peso 3.0)
        keywords = [
            'centro', 'produto', 'material', 'código', 'cod', 'cód',
            'data', 'período', 'ano', 'mês', 'mes',
            'quantidade', 'valor', 'volume', 'expedição', 'variação',
            'limite', 'batente', 'sigla', 'base', 'região', 'regiao',
            'nome', 'descrição', 'descricao', 'tipo', 'status'
        ]

        texto_linha = ' '.join(celulas).lower()
        keywords_encontradas = sum(1 for kw in keywords if kw in texto_linha)
        score += (keywords_encontradas / len(keywords)) * 3.0

        # CRITÉRIO 4: Tamanho médio das células (cabeçalhos tendem a ser curtos) (peso 1.0)
        tamanho_medio = np.mean([len(c) for c in celulas])
        if 5 <= tamanho_medio <= 50:
            score += 1.0
        elif tamanho_medio > 100:
            score -= 0.5  # Penalizar linhas muito longas

        # CRITÉRIO 5: Unicidade (cabeçalhos não devem ter repetições) (peso 1.5)
        contador = Counter(celulas)
        repeticoes = sum(1 for c, n in contador.items() if n > 1)
        if repeticoes == 0:
            score += 1.5
        else:
            score -= repeticoes * 0.3

        # CRITÉRIO 6: Posição (linhas mais acima têm vantagem) (peso 0.5)
        if idx < 50:
            score += (50 - idx) / 100

        # CRITÉRIO 7: Formato típico BW (linha ~30-40)
        if 30 <= idx <= 40:
            score += 0.5

        return score

    def _extrair_dados(self):
        """
        Extrai dados a partir da linha detectada
        """
        self._log("\n📊 FASE 4: Extração de Dados", nivel="SECAO")

        if isinstance(self.workbook, xlrd.Book):
            sheet = self.workbook.sheet_by_name(self.sheet_detectada)

            # Extrair todas as linhas
            data = []
            for i in range(sheet.nrows):
                data.append(sheet.row_values(i))

            self.df_bruto = pd.DataFrame(data)

            # Definir cabeçalho
            cabecalho_bruto = self.df_bruto.iloc[self.linha_cabecalho].tolist()

            # Extrair dados
            self.df_bruto = self.df_bruto.iloc[self.linha_dados_inicio:].copy()
            self.df_bruto.columns = cabecalho_bruto

        else:
            # pandas
            self.df_bruto = pd.read_excel(
                self.workbook,
                sheet_name=self.sheet_detectada,
                header=self.linha_cabecalho
            )

        self.df_bruto = self.df_bruto.reset_index(drop=True)

        self._log(f"✅ Dados extraídos")
        self._log(f"   Registros: {len(self.df_bruto):,}")
        self._log(f"   Colunas: {len(self.df_bruto.columns)}")

    def _limpar_estrutura(self):
        """
        Limpa estrutura do DataFrame
        """
        self._log("\n🧹 FASE 5: Limpeza de Estrutura", nivel="SECAO")

        df = self.df_bruto.copy()

        # 1. Remover colunas completamente vazias
        colunas_vazias = df.columns[df.isna().all()].tolist()
        if colunas_vazias:
            self._log(f"   🗑️  Removendo {len(colunas_vazias)} colunas vazias")
            df = df.drop(columns=colunas_vazias)

        # 2. Remover linhas completamente vazias
        linhas_vazias = df.index[df.isna().all(axis=1)].tolist()
        if linhas_vazias:
            self._log(f"   🗑️  Removendo {len(linhas_vazias)} linhas vazias")
            df = df.dropna(how='all')

        # 3. Limpar nomes de colunas
        self._log("   🧹 Limpando nomes de colunas...")
        colunas_limpas = []
        for col in df.columns:
            col_limpo = str(col).strip()
            col_limpo = col_limpo.lstrip("'")  # Excel adiciona '
            col_limpo = col_limpo.replace('\n', ' ')
            col_limpo = col_limpo.replace('\r', '')
            col_limpo = ' '.join(col_limpo.split())  # Múltiplos espaços
            colunas_limpas.append(col_limpo)

        df.columns = colunas_limpas

        # 4. Renomear colunas duplicadas
        contagem = Counter(colunas_limpas)
        duplicadas = {c: n for c, n in contagem.items() if n > 1}

        if duplicadas:
            self._log(f"   ⚠️  Renomeando {len(duplicadas)} colunas duplicadas:")
            colunas_finais = []
            contador = {}

            for col in colunas_limpas:
                if col in duplicadas:
                    if col not in contador:
                        contador[col] = 0
                        colunas_finais.append(col)
                    else:
                        contador[col] += 1
                        novo_nome = f"{col}_dup{contador[col]}"
                        colunas_finais.append(novo_nome)
                        self._log(f"      '{col}' → '{novo_nome}'")
                else:
                    colunas_finais.append(col)

            df.columns = colunas_finais

        # 5. Remover linhas de totais/resultados
        padroes_remover = [
            r'(?i)^total',
            r'(?i)^resultado',
            r'(?i)^soma',
            r'(?i)^subtotal',
            r'(?i)^grand total'
        ]

        linhas_remover = []
        for idx, row in df.iterrows():
            primeira_celula = str(row.iloc[0]).strip().lower()
            for padrao in padroes_remover:
                if re.search(padrao, primeira_celula):
                    linhas_remover.append(idx)
                    break

        if linhas_remover:
            self._log(f"   🗑️  Removendo {len(linhas_remover)} linhas de totais/resultados")
            df = df.drop(index=linhas_remover)

        # 6. Reset index
        df = df.reset_index(drop=True)

        self.df_limpo = df

        self._log(f"\n✅ Limpeza concluída")
        self._log(f"   Registros finais: {len(self.df_limpo):,}")
        self._log(f"   Colunas finais: {len(self.df_limpo.columns)}")

    def _gerar_relatorio(self):
        """
        Gera relatório final de detecção
        """
        self._log("\n" + "="*80, nivel="TITULO")
        self._log("📋 RELATÓRIO FINAL DE DETECÇÃO", nivel="TITULO")
        self._log("="*80, nivel="TITULO")

        self._log(f"\n📁 Arquivo: {self.nome_arquivo}")
        self._log(f"📊 Sheet: {self.sheet_detectada}")
        self._log(f"📍 Cabeçalho: Linha {self.linha_cabecalho + 1} (Excel)")
        self._log(f"📍 Dados: Linha {self.linha_dados_inicio + 1} (Excel)")

        self._log(f"\n📊 Resultado Final:")
        self._log(f"   Registros: {len(self.df_limpo):,}")
        self._log(f"   Colunas: {len(self.df_limpo.columns)}")

        self._log(f"\n📋 Colunas detectadas:")
        for i, col in enumerate(self.df_limpo.columns, 1):
            self._log(f"   {i:2d}. {col}")

    def _log(self, mensagem, nivel="INFO"):
        """
        Sistema de log
        """
        timestamp = datetime.now().strftime("%H:%M:%S")

        if nivel == "TITULO":
            print(mensagem)
        elif nivel == "SECAO":
            print(f"\n{mensagem}")
            print("─" * 80)
        else:
            print(mensagem)

        self.log.append({
            'timestamp': timestamp,
            'nivel': nivel,
            'mensagem': mensagem
        })

    def exportar_log(self, pasta_destino):
        """
        Exporta log para arquivo
        """
        log_df = pd.DataFrame(self.log)
        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
        arquivo_log = Path(pasta_destino) / f"LOG_DeteccaoAutomatica_{timestamp}.xlsx"

        log_df.to_excel(arquivo_log, index=False)
        print(f"\n💾 Log salvo: {arquivo_log}")

        return arquivo_log


# ═══════════════════════════════════════════════════════════════════
# EXEMPLO DE USO
# ═══════════════════════════════════════════════════════════════════

if __name__ == "__main__":
    # Usar FileManager se disponível
    if 'fm' in dir():
        pasta_entrada = fm.diretorios['dados_entrada']
        pasta_logs = fm.diretorios['logs']
    else:
        pasta_entrada = Path('02_Dados_Entrada')
        pasta_logs = Path('logs')

    # Selecionar arquivo
    arquivos_disponiveis = list(pasta_entrada.glob('*.xls*'))

    print("📁 Arquivos disponíveis:")
    for i, arq in enumerate(arquivos_disponiveis, 1):
        print(f"   {i}. {arq.name}")

    escolha = int(input("\nEscolha um arquivo (número): ")) - 1
    arquivo_selecionado = arquivos_disponiveis[escolha]

    # Processar
    detector = DetectorArquivoDesconhecido(arquivo_selecionado)
    df_resultado = detector.processar()

    # Exportar log
    detector.exportar_log(pasta_logs)

    # Salvar resultado
    arquivo_saida = pasta_entrada.parent / '03_Dados_Processados' / f"Detectado_{arquivo_selecionado.stem}.xlsx"
    df_resultado.to_excel(arquivo_saida, index=False)
    print(f"💾 Resultado salvo: {arquivo_saida}")