In [9]:
import pandas as pd
from sqlalchemy import create_engine, text
import matplotlib.pyplot as plt
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√£o de estilo para gr√°ficos
try:
    plt.style.use('seaborn-whitegrid')
except OSError:
    plt.style.use('default')

class ETLControleEstoque:
    def __init__(self):
        # Configura√ß√£o dos bancos de dados
        self.engine_origem = create_engine('mysql+pymysql://erpj-ws:erpj-ws-homologacao@localhost:3309/autogeral')
        self.engine_destino = create_engine('mysql+pymysql://erpj-ws:erpj-ws-homologacao@10.50.1.252:3306/autogeral')
        
    def criar_tabela_destino(self):
        """Cria a tabela ETL_CONTROLE_ESTOQUE no banco de destino se n√£o existir"""
        create_table_query = """
        CREATE TABLE IF NOT EXISTS ETL_CONTROLE_ESTOQUE (
            ID INT AUTO_INCREMENT PRIMARY KEY,
            LOJA_ORIGEM INT NOT NULL,
            LOJA_DESTINO INT NOT NULL,
            CODIGO_X BIGINT UNSIGNED NOT NULL,
            CODIGO_SEQUENCIA CHAR(1) NOT NULL,
            QUANTIDADE DECIMAL(9,2) NOT NULL,
            DESCRICAO VARCHAR(255) NOT NULL,
            DATA_DESTINO VARCHAR(7) NOT NULL,
            ROMANEIO INT NOT NULL,
            DATA_PROCESSAMENTO TIMESTAMP DEFAULT CURRENT_TIMESTAMP,
            INDEX idx_loja_origem (LOJA_ORIGEM),
            INDEX idx_loja_destino (LOJA_DESTINO),
            INDEX idx_codigo_x (CODIGO_X),
            INDEX idx_data_destino (DATA_DESTINO),
            INDEX idx_romaneio (ROMANEIO)
        ) ENGINE=InnoDB DEFAULT CHARSET=utf8mb3
        """
        
        with self.engine_destino.connect() as conn:
            conn.execute(text(create_table_query))
            conn.commit()
        print("‚úÖ Tabela ETL_CONTROLE_ESTOQUE criada/verificada com sucesso!")

    def load_romaneios(self, situacao, data_inicio, data_fim):
        """Carrega dados da tabela romaneios_dbf - SEM LIMIT"""
        query = f"""
            SELECT
                R.LOJA,
                R.ROMANEIO,
                R.CADASTRO,
                R.CADASTRO_CODIGO
            FROM
                romaneios_dbf R
            WHERE
                R.OPERACAO_CODIGO = 4
                AND R.SITUACAO = '{situacao}'
                AND R.COMPRA_PEDIDO_LOJA IS NULL
                AND R.COMPRA_PEDIDO_CODIGO IS NULL
                AND R.ORIGEM_TIPO IS NULL
                AND R.CADASTRO BETWEEN '{data_inicio}' AND '{data_fim}'
            ORDER BY R.CADASTRO DESC
        """
        
        print(f"üîç Carregando romaneios com situa√ß√£o '{situacao}'...")
        df = pd.read_sql_query(query, self.engine_origem)
        df['CADASTRO'] = pd.to_datetime(df['CADASTRO'])
        print(f"‚úÖ {len(df)} romaneios carregados")
        return df

    def load_romaneios_itens(self, data_inicio, data_fim):
        """Carrega dados da tabela romaneios_itens_dbf - SEM LIMIT"""
        query = f"""
            SELECT
                ri.CADASTRO AS CADASTRO,
                ri.LOJA,
                ri.CODIGO_X,
                ri.CODIGO_SEQUENCIA,
                SUM(ri.QUANTIDADE) AS QUANTIDADE_TOTAL,
                ri.ROMANEIO,
                ri.DESCRICAO
            FROM
                romaneios_itens_dbf ri
            WHERE
                ri.CADASTRO BETWEEN '{data_inicio}' AND '{data_fim}'
            GROUP BY
                ri.CADASTRO,
                ri.LOJA,
                ri.CODIGO_X,
                ri.CODIGO_SEQUENCIA,
                ri.DESCRICAO,
                ri.ROMANEIO
            ORDER BY ri.CADASTRO DESC
        """
        
        print(f"üîç Carregando itens dos romaneios...")
        df = pd.read_sql_query(query, self.engine_origem)
        df['CADASTRO'] = pd.to_datetime(df['CADASTRO'])
        print(f"‚úÖ {len(df)} itens carregados")
        return df

    def load_dados_com_join_sql(self, situacao, data_inicio, data_fim, limit=None):
        """M√©todo alternativo: carrega dados j√° com JOIN no SQL - MAIS EFICIENTE"""
        limit_clause = f"LIMIT {limit}" if limit else ""
        
        query = f"""
        SELECT 
            r.LOJA as LOJA_ORIGEM,
            r.CADASTRO_CODIGO as LOJA_DESTINO,
            ri.CODIGO_X,
            ri.CODIGO_SEQUENCIA,
            SUM(ri.QUANTIDADE) as QUANTIDADE,
            ri.DESCRICAO,
            r.ROMANEIO,
            r.CADASTRO
        FROM romaneios_dbf r
        INNER JOIN romaneios_itens_dbf ri ON r.LOJA = ri.LOJA AND r.ROMANEIO = ri.ROMANEIO
        WHERE 
            r.OPERACAO_CODIGO = 4
            AND r.SITUACAO = '{situacao}'
            AND r.COMPRA_PEDIDO_LOJA IS NULL
            AND r.COMPRA_PEDIDO_CODIGO IS NULL
            AND r.ORIGEM_TIPO IS NULL
            AND r.CADASTRO BETWEEN '{data_inicio}' AND '{data_fim}'
        GROUP BY
            r.LOJA,
            r.CADASTRO_CODIGO,
            ri.CODIGO_X,
            ri.CODIGO_SEQUENCIA,
            ri.DESCRICAO,
            r.ROMANEIO,
            r.CADASTRO
        ORDER BY r.CADASTRO DESC
        {limit_clause}
        """
        
        print(f"üîç Carregando dados com JOIN SQL (m√©todo otimizado)...")
        df = pd.read_sql_query(query, self.engine_origem)
        
        if not df.empty:
            df['CADASTRO'] = pd.to_datetime(df['CADASTRO'])
            df['DATA_DESTINO'] = df['CADASTRO'].dt.to_period('M').astype(str)
            
            # Selecionar colunas finais na ordem correta
            df_final = df[['LOJA_ORIGEM', 'LOJA_DESTINO', 'CODIGO_X', 'CODIGO_SEQUENCIA', 
                          'QUANTIDADE', 'DESCRICAO', 'DATA_DESTINO', 'ROMANEIO']]
            
            print(f"‚úÖ {len(df_final)} registros carregados com JOIN SQL")
            return df_final
        else:
            print("‚ö†Ô∏è Nenhum registro encontrado com JOIN SQL")
            return pd.DataFrame()

    def merge_data(self, df_romaneios, df_itens):
        """Faz o merge dos dados e prepara para inser√ß√£o"""
        print("üîÑ Fazendo merge dos dados...")
        
        # Valida√ß√£o inicial dos DataFrames
        if df_romaneios is None or df_itens is None or df_romaneios.empty or df_itens.empty:
            print("‚ö†Ô∏è Warning: DataFrames vazios ou None")
            return pd.DataFrame()
        
        # Ensure no None values in CADASTRO_CODIGO before merge
        df_romaneios = df_romaneios.dropna(subset=['CADASTRO_CODIGO'])
        
        if df_romaneios.empty:
            print("‚ö†Ô∏è Warning: No data remaining after removing null CADASTRO_CODIGO values")
            return pd.DataFrame()
            
        try:
            df_merged = pd.merge(
                df_itens,
                df_romaneios[['LOJA', 'ROMANEIO', 'CADASTRO_CODIGO', 'CADASTRO']],
                how='inner',
                left_on=['LOJA', 'ROMANEIO'],
                right_on=['LOJA', 'ROMANEIO'],
                suffixes=('_ITENS', '_ROMANEIOS')
            )
            
        except Exception as e:
            print(f"‚ö†Ô∏è Error during merge operation: {str(e)}")
            return pd.DataFrame()

        if df_merged.empty:
            print("‚ö†Ô∏è Warning: No data after merge operation")
            return pd.DataFrame()
        
        # Renomear e preparar colunas
        df_merged = df_merged.rename(columns={
            'LOJA': 'LOJA_ORIGEM',
            'CADASTRO_CODIGO': 'LOJA_DESTINO',
            'QUANTIDADE_TOTAL': 'QUANTIDADE'
        })
        
        # Usar a coluna CADASTRO correta
        if 'CADASTRO_ROMANEIOS' in df_merged.columns:
            cadastro_col = 'CADASTRO_ROMANEIOS'
        elif 'CADASTRO_ITENS' in df_merged.columns:
            cadastro_col = 'CADASTRO_ITENS'
        else:
            cadastro_col = 'CADASTRO'
        
        df_merged['DATA_DESTINO'] = pd.to_datetime(df_merged[cadastro_col], errors='coerce').dt.to_period('M').astype(str)
        
        # Selecionar colunas finais
        df_final = df_merged[['LOJA_ORIGEM', 'LOJA_DESTINO', 'CODIGO_X', 'CODIGO_SEQUENCIA', 
                             'QUANTIDADE', 'DESCRICAO', 'DATA_DESTINO', 'ROMANEIO']]
        
        print(f"‚úÖ Merge conclu√≠do: {len(df_final)} registros processados")
        return df_final

    def inserir_dados_destino(self, df_dados):
        """Insere os dados na tabela de destino"""
        if df_dados.empty:
            print("‚ö†Ô∏è DataFrame vazio - nada para inserir")
            return
            
        print("üíæ Inserindo dados na tabela ETL_CONTROLE_ESTOQUE...")
        
        try:
            # Inserir dados usando pandas to_sql
            df_dados.to_sql(
                name='ETL_CONTROLE_ESTOQUE',
                con=self.engine_destino,
                if_exists='append',
                index=False,
                method='multi',
                chunksize=1000
            )
            print(f"‚úÖ {len(df_dados)} registros inseridos com sucesso!")
            
        except Exception as e:
            print(f"‚ùå Erro ao inserir dados: {str(e)}")
            raise

    def limpar_tabela_destino(self):
        """Limpa todos os dados da tabela de destino"""
        try:
            with self.engine_destino.connect() as conn:
                result = conn.execute(text("DELETE FROM ETL_CONTROLE_ESTOQUE"))
                conn.commit()
                print(f"üóëÔ∏è Tabela ETL_CONTROLE_ESTOQUE limpa: {result.rowcount} registros removidos")
        except Exception as e:
            print(f"‚ùå Erro ao limpar tabela: {str(e)}")

    def contar_registros_destino(self):
        """Conta registros na tabela de destino"""
        try:
            with self.engine_destino.connect() as conn:
                result = conn.execute(text("SELECT COUNT(*) as total FROM ETL_CONTROLE_ESTOQUE"))
                total = result.fetchone()[0]
                print(f"üìä Total de registros na tabela ETL_CONTROLE_ESTOQUE: {total}")
                return total
        except Exception as e:
            print(f"‚ùå Erro ao contar registros: {str(e)}")
            return 0

    def executar_etl_completo(self, situacao='FECHADO', data_inicio='2024-01-01', 
                             data_fim='2024-12-31', limit=None, limpar_antes=False, 
                             usar_join_sql=True):
        """Executa o processo ETL completo"""
        print("üöÄ Iniciando processo ETL...")
        print(f"üìÖ Per√≠odo: {data_inicio} a {data_fim}")
        print(f"üìä Situa√ß√£o: {situacao}")
        print(f"üî¢ Limit: {limit if limit else 'Sem limite'}")
        print(f"üîß M√©todo: {'JOIN SQL' if usar_join_sql else 'Merge Python'}")
        print("-" * 50)
        
        try:
            # Criar tabela se n√£o existir
            self.criar_tabela_destino()
            
            # Limpar tabela se solicitado
            if limpar_antes:
                self.limpar_tabela_destino()
            
            # Escolher m√©todo de processamento
            if usar_join_sql:
                # M√âTODO 1: JOIN SQL (mais eficiente)
                df_final = self.load_dados_com_join_sql(situacao, data_inicio, data_fim, limit)
            else:
                # M√âTODO 2: Merge Python (m√©todo original)
                df_romaneios = self.load_romaneios(situacao, data_inicio, data_fim)
                df_itens = self.load_romaneios_itens(data_inicio, data_fim)
                
                if len(df_romaneios) == 0 or len(df_itens) == 0:
                    print("‚ö†Ô∏è Nenhum dado encontrado para o per√≠odo especificado")
                    return None
                
                # Fazer merge dos dados
                df_final = self.merge_data(df_romaneios, df_itens)
                
                # Aplicar LIMIT ap√≥s o merge se especificado
                if limit and len(df_final) > limit:
                    print(f"üî¢ Aplicando LIMIT de {limit} registros ap√≥s merge...")
                    df_final = df_final.head(limit)
            
            if df_final is None or len(df_final) == 0:
                print("‚ö†Ô∏è Nenhum dado resultante para inserir")
                return None
            
            # Inserir dados
            self.inserir_dados_destino(df_final)
            
            # Contar registros finais
            self.contar_registros_destino()
            
            print("üéâ Processo ETL conclu√≠do com sucesso!")
            return df_final
            
        except Exception as e:
            print(f"‚ùå Erro durante o processo ETL: {str(e)}")
            import traceback
            traceback.print_exc()
            raise

    def executar_etl_por_lotes(self, situacao='FECHADO', data_inicio='2024-01-01', 
                              data_fim='2024-12-31', tamanho_lote=10000, limpar_antes=False):
        """Executa ETL processando dados em lotes para volumes grandes"""
        print("üöÄ Iniciando processo ETL por LOTES...")
        print(f"üìÖ Per√≠odo: {data_inicio} a {data_fim}")
        print(f"üìä Situa√ß√£o: {situacao}")
        print(f"üì¶ Tamanho do lote: {tamanho_lote}")
        print("-" * 50)
        
        try:
            # Criar tabela se n√£o existir
            self.criar_tabela_destino()
            
            # Limpar tabela se solicitado
            if limpar_antes:
                self.limpar_tabela_destino()
            
            # Processar em lotes usando OFFSET
            offset = 0
            total_processado = 0
            lote_numero = 1
            
            while True:
                print(f"\\nüì¶ Processando lote {lote_numero} (offset: {offset})...")
                
                # Query com LIMIT e OFFSET
                query_lote = f"""
                SELECT 
                    r.LOJA as LOJA_ORIGEM,
                    r.CADASTRO_CODIGO as LOJA_DESTINO,
                    ri.CODIGO_X,
                    ri.CODIGO_SEQUENCIA,
                    SUM(ri.QUANTIDADE) as QUANTIDADE,
                    ri.DESCRICAO,
                    r.ROMANEIO,
                    r.CADASTRO
                FROM romaneios_dbf r
                INNER JOIN romaneios_itens_dbf ri ON r.LOJA = ri.LOJA AND r.ROMANEIO = ri.ROMANEIO
                WHERE 
                    r.OPERACAO_CODIGO = 4
                    AND r.SITUACAO = '{situacao}'
                    AND r.COMPRA_PEDIDO_LOJA IS NULL
                    AND r.COMPRA_PEDIDO_CODIGO IS NULL
                    AND r.ORIGEM_TIPO IS NULL
                    AND r.CADASTRO BETWEEN '{data_inicio}' AND '{data_fim}'
                GROUP BY
                    r.LOJA,
                    r.CADASTRO_CODIGO,
                    ri.CODIGO_X,
                    ri.CODIGO_SEQUENCIA,
                    ri.DESCRICAO,
                    r.ROMANEIO,
                    r.CADASTRO
                ORDER BY r.CADASTRO DESC
                LIMIT {tamanho_lote} OFFSET {offset}
                """
                
                df_lote = pd.read_sql_query(query_lote, self.engine_origem)
                
                if df_lote.empty:
                    print("‚úÖ Todos os lotes processados!")
                    break
                
                # Processar o lote
                df_lote['CADASTRO'] = pd.to_datetime(df_lote['CADASTRO'])
                df_lote['DATA_DESTINO'] = df_lote['CADASTRO'].dt.to_period('M').astype(str)
                
                df_final_lote = df_lote[['LOJA_ORIGEM', 'LOJA_DESTINO', 'CODIGO_X', 'CODIGO_SEQUENCIA', 
                                        'QUANTIDADE', 'DESCRICAO', 'DATA_DESTINO', 'ROMANEIO']]
                
                # Inserir lote
                self.inserir_dados_destino(df_final_lote)
                
                total_processado += len(df_final_lote)
                print(f"‚úÖ Lote {lote_numero} processado: {len(df_final_lote)} registros")
                print(f"üìä Total processado at√© agora: {total_processado}")
                
                # Preparar pr√≥ximo lote
                offset += tamanho_lote
                lote_numero += 1
                
                # Parar se o lote retornou menos registros que o esperado
                if len(df_lote) < tamanho_lote:
                    print("‚úÖ √öltimo lote processado!")
                    break
            
            # Contar registros finais
            self.contar_registros_destino()
            
            print(f"üéâ Processo ETL por lotes conclu√≠do! Total: {total_processado} registros")
            return total_processado
            
        except Exception as e:
            print(f"‚ùå Erro durante o processo ETL por lotes: {str(e)}")
            import traceback
            traceback.print_exc()
            raise

# Interface para Jupyter Notebook
def executar_etl_interface():
    """Interface interativa para executar o ETL"""
    print("=" * 60)
    print("üîÑ SISTEMA ETL - CONTROLE DE ESTOQUE")
    print("=" * 60)
    
    # Par√¢metros configur√°veis
    print("üìã Configure os par√¢metros do ETL:")
    print()
    
    # Escolher m√©todo
    print("üîß Escolha o m√©todo de processamento:")
    print("1. JOIN SQL (recomendado - mais r√°pido)")
    print("2. Merge Python (m√©todo original)")
    print("3. Processamento por lotes (para volumes muito grandes)")
    
    metodo = input("Digite o n√∫mero do m√©todo (1, 2 ou 3): ").strip()
    
    # Campo para LIMIT (s√≥ para m√©todos 1 e 2)
    if metodo in ['1', '2']:
        limit_input = input("üî¢ Digite o LIMIT para busca e inser√ß√£o (deixe vazio para sem limite): ").strip()
        limit = int(limit_input) if limit_input.isdigit() else None
    else:
        limit = None
        tamanho_lote_input = input("üì¶ Digite o tamanho do lote (padr√£o: 10000): ").strip()
        tamanho_lote = int(tamanho_lote_input) if tamanho_lote_input.isdigit() else 10000
    
    # Outros par√¢metros
    situacao = input("üìä Situa√ß√£o dos romaneios (padr√£o: FECHADO): ").strip() or 'FECHADO'
    data_inicio = input("üìÖ Data in√≠cio (YYYY-MM-DD, padr√£o: 2024-01-01): ").strip() or '2024-01-01'
    data_fim = input("üìÖ Data fim (YYYY-MM-DD, padr√£o: 2024-12-31): ").strip() or '2024-12-31'
    
    limpar_input = input("üóëÔ∏è Limpar tabela antes de inserir? (s/N): ").strip().lower()
    limpar_antes = limpar_input in ['s', 'sim', 'y', 'yes']
    
    print()
    print("üöÄ Iniciando ETL com os par√¢metros:")
    if metodo in ['1', '2']:
        print(f"   ‚Ä¢ Limit: {limit if limit else 'Sem limite'}")
    else:
        print(f"   ‚Ä¢ Tamanho do lote: {tamanho_lote}")
    print(f"   ‚Ä¢ Situa√ß√£o: {situacao}")
    print(f"   ‚Ä¢ Per√≠odo: {data_inicio} a {data_fim}")
    print(f"   ‚Ä¢ Limpar antes: {'Sim' if limpar_antes else 'N√£o'}")
    print()
    
    # Executar ETL
    etl = ETLControleEstoque()
    
    if metodo == '1':
        # JOIN SQL
        resultado = etl.executar_etl_completo(
            situacao=situacao,
            data_inicio=data_inicio,
            data_fim=data_fim,
            limit=limit,
            limpar_antes=limpar_antes,
            usar_join_sql=True
        )
    elif metodo == '2':
        # Merge Python
        resultado = etl.executar_etl_completo(
            situacao=situacao,
            data_inicio=data_inicio,
            data_fim=data_fim,
            limit=limit,
            limpar_antes=limpar_antes,
            usar_join_sql=False
        )
    else:
        # Por lotes
        resultado = etl.executar_etl_por_lotes(
            situacao=situacao,
            data_inicio=data_inicio,
            data_fim=data_fim,
            tamanho_lote=tamanho_lote,
            limpar_antes=limpar_antes
        )
    
    return resultado

# Exemplos de uso direto
def exemplo_join_sql():
    """Exemplo usando JOIN SQL (recomendado)"""
    etl = ETLControleEstoque()
    
    resultado = etl.executar_etl_completo(
        situacao='FECHADO',
        data_inicio='2025-04-01',
        data_fim='2025-05-31',
        limit=1000,  # Processar 1000 registros
        limpar_antes=True,
        usar_join_sql=True  # Usar JOIN SQL
    )
    
    return resultado

def exemplo_por_lotes():
    """Exemplo processando por lotes (para volumes grandes)"""
    etl = ETLControleEstoque()
    
    resultado = etl.executar_etl_por_lotes(
        situacao='FECHADO',
        data_inicio='2024-01-01',
        data_fim='2024-12-31',
        tamanho_lote=5000,  # Processar 5000 registros por vez
        limpar_antes=True
    )
    
    return resultado

# Para usar no Jupyter Notebook, execute:
# resultado = executar_etl_interface()
# 
# Ou para uso direto:
resultado = exemplo_join_sql()
# resultado = exemplo_por_lotes()

üöÄ Iniciando processo ETL...
üìÖ Per√≠odo: 2025-04-01 a 2025-05-31
üìä Situa√ß√£o: FECHADO
üî¢ Limit: 1000
üîß M√©todo: JOIN SQL
--------------------------------------------------
‚úÖ Tabela ETL_CONTROLE_ESTOQUE criada/verificada com sucesso!
üóëÔ∏è Tabela ETL_CONTROLE_ESTOQUE limpa: 0 registros removidos
üîç Carregando dados com JOIN SQL (m√©todo otimizado)...
‚úÖ 1000 registros carregados com JOIN SQL
üíæ Inserindo dados na tabela ETL_CONTROLE_ESTOQUE...
‚úÖ 1000 registros inseridos com sucesso!
üìä Total de registros na tabela ETL_CONTROLE_ESTOQUE: 1000
üéâ Processo ETL conclu√≠do com sucesso!
