In [57]:
# ====================================================================
# üìÖ CONFIGURA√á√ÉO DO ANO - Execute esta c√©lula PRIMEIRO!
# ====================================================================

import pandas as pd
import os
from datetime import datetime
import shutil

print("="*70)
print("üéØ SISTEMA DE PROCESSAMENTO DE DADOS - TC")
print("="*70)

# Input do ano
ano_padrao = datetime.now().year
ano_input = input(f"\nüìÖ Digite o ano para processar (padr√£o: {ano_padrao}): ")
ANO_ATUAL = int(ano_input) if ano_input.strip() else ano_padrao

print(f"\n‚úÖ Ano selecionado: {ANO_ATUAL}")

# ====================================================================
# üìÅ ESTRUTURA DE PASTAS
# ====================================================================

PASTA_ANO = f'dados/{ANO_ATUAL}'
PASTA_HISTORICO = 'dados/historico_consolidado'
PASTA_RAIZ = '.'  # Onde est√£o os arquivos originais (raiz do projeto)

# Criar estrutura de pastas
os.makedirs(PASTA_ANO, exist_ok=True)
os.makedirs(PASTA_HISTORICO, exist_ok=True)

print(f"\nüìÅ Estrutura de pastas criada:")
print(f"   ‚úÖ {PASTA_ANO}/")
print(f"   ‚úÖ {PASTA_HISTORICO}/")

# ====================================================================
# üìã VERIFICAR E ORGANIZAR ARQUIVOS DE ENTRADA
# ====================================================================

arquivos_necessarios = {
    'KE5Z_veiculos.xlsx': 'Dados de ve√≠culos KE5Z',
    'Dados SAPIENS.xlsx': 'Base de dados SAPIENS',
    'Reporting fluxo anexo.xlsx': 'Dados de rateio/volume'
}

print(f"\nüîç Verificando arquivos de entrada...")

arquivos_ok = []
arquivos_faltando = []

for arquivo, descricao in arquivos_necessarios.items():
    caminho_ano = os.path.join(PASTA_ANO, arquivo)
    caminho_raiz = os.path.join(PASTA_RAIZ, arquivo)
    
    # Verificar se arquivo existe na pasta do ano
    if os.path.exists(caminho_ano):
        arquivos_ok.append(arquivo)
        print(f"   ‚úÖ {arquivo} - encontrado em {PASTA_ANO}/")
    
    # Se n√£o existe, verificar na raiz
    elif os.path.exists(caminho_raiz):
        print(f"   üìã {arquivo} - encontrado na raiz, copiando para {PASTA_ANO}/")
        shutil.copy2(caminho_raiz, caminho_ano)
        arquivos_ok.append(arquivo)
        print(f"   ‚úÖ {arquivo} - copiado com sucesso!")
    
    else:
        arquivos_faltando.append((arquivo, descricao))
        print(f"   ‚ùå {arquivo} - N√ÉO ENCONTRADO")

# ====================================================================
# ‚ö†Ô∏è VALIDA√á√ÉO
# ====================================================================

if arquivos_faltando:
    print(f"\n{'='*70}")
    print(f"‚ö†Ô∏è  ATEN√á√ÉO: Arquivos n√£o encontrados!")
    print(f"{'='*70}")
    for arquivo, descricao in arquivos_faltando:
        print(f"   ‚ùå {arquivo}")
        print(f"      Descri√ß√£o: {descricao}")
        print(f"      Copie para: {PASTA_ANO}/{arquivo}")
    print(f"{'='*70}")
    
    continuar = input(f"\n‚ö†Ô∏è  Deseja continuar mesmo assim? (s/N): ")
    if continuar.lower() != 's':
        raise Exception("‚ùå Processamento cancelado - arquivos n√£o encontrados")
    print(f"\n‚ö†Ô∏è  Continuando com arquivos dispon√≠veis...")

# ====================================================================
# üìä DEFINIR CAMINHOS DE ENTRADA E SA√çDA
# ====================================================================

# Caminhos de entrada (pasta do ano)
CAMINHO_KE5Z = os.path.join(PASTA_ANO, 'KE5Z_veiculos.xlsx')
CAMINHO_SAPIENS = os.path.join(PASTA_ANO, 'Dados SAPIENS.xlsx')
CAMINHO_RATEIO = os.path.join(PASTA_ANO, 'Reporting fluxo anexo.xlsx')

# Caminhos de sa√≠da (parquets na pasta do ano)
CAMINHO_DF_FINAL = os.path.join(PASTA_ANO, 'df_final.parquet')
CAMINHO_DF_VOL = os.path.join(PASTA_ANO, 'df_vol.parquet')
CAMINHO_DF_KE5Z_GROUP = os.path.join(PASTA_ANO, 'df_ke5z_group.parquet')

# Caminhos de sa√≠da (Excel na pasta do ano)
CAMINHO_DF_FINAL_XLSX = os.path.join(PASTA_ANO, 'df_final.xlsx')
CAMINHO_DF_VOL_XLSX = os.path.join(PASTA_ANO, 'df_vol.xlsx')
CAMINHO_DF_KE5Z_GROUP_XLSX = os.path.join(PASTA_ANO, 'df_ke5z_group.xlsx')
CAMINHO_DF_FINAL_CPU_XLSX = os.path.join(PASTA_ANO, 'df_final_cpu.xlsx')

# Caminhos do hist√≥rico consolidado
CAMINHO_HISTORICO_FINAL = os.path.join(PASTA_HISTORICO, 'df_final_historico.parquet')
CAMINHO_HISTORICO_VOL = os.path.join(PASTA_HISTORICO, 'df_vol_historico.parquet')
CAMINHO_HISTORICO_KE5Z = os.path.join(PASTA_HISTORICO, 'df_ke5z_historico.parquet')

# ====================================================================
# üìä RESUMO DA CONFIGURA√á√ÉO
# ====================================================================

print(f"\n{'='*70}")
print(f"üìä RESUMO DA CONFIGURA√á√ÉO")
print(f"{'='*70}")
print(f"üìÖ Ano: {ANO_ATUAL}")
print(f"\nüì• Arquivos de Entrada:")
for arquivo in arquivos_ok:
    print(f"   ‚úÖ {PASTA_ANO}/{arquivo}")
print(f"\nüíæ Arquivos de Sa√≠da (Parquet):")
print(f"   üìÑ {CAMINHO_DF_FINAL}")
print(f"   üìÑ {CAMINHO_DF_VOL}")
print(f"   üìÑ {CAMINHO_DF_KE5Z_GROUP}")
print(f"\nüìö Hist√≥rico Consolidado:")
print(f"   üìÑ {CAMINHO_HISTORICO_FINAL}")
print(f"   üìÑ {CAMINHO_HISTORICO_VOL}")
print(f"   üìÑ {CAMINHO_HISTORICO_KE5Z}")
print(f"{'='*70}")

confirmar = input(f"\n‚úÖ Confirma o processamento do ano {ANO_ATUAL}? (S/n): ")
if confirmar.lower() in ['n', 'nao', 'n√£o']:
    raise Exception("‚ùå Processamento cancelado pelo usu√°rio")

print(f"\nüöÄ Configura√ß√£o confirmada!")
print(f"{'='*70}")
print(f"üìù Execute as pr√≥ximas c√©lulas para processar os dados")
print(f"{'='*70}\n")


üéØ SISTEMA DE PROCESSAMENTO DE DADOS - TC

‚úÖ Ano selecionado: 2025

üìÅ Estrutura de pastas criada:
   ‚úÖ dados/2025/
   ‚úÖ dados/historico_consolidado/

üîç Verificando arquivos de entrada...
   ‚úÖ KE5Z_veiculos.xlsx - encontrado em dados/2025/
   ‚úÖ Dados SAPIENS.xlsx - encontrado em dados/2025/
   ‚úÖ Reporting fluxo anexo.xlsx - encontrado em dados/2025/

üìä RESUMO DA CONFIGURA√á√ÉO
üìÖ Ano: 2025

üì• Arquivos de Entrada:
   ‚úÖ dados/2025/KE5Z_veiculos.xlsx
   ‚úÖ dados/2025/Dados SAPIENS.xlsx
   ‚úÖ dados/2025/Reporting fluxo anexo.xlsx

üíæ Arquivos de Sa√≠da (Parquet):
   üìÑ dados/2025\df_final.parquet
   üìÑ dados/2025\df_vol.parquet
   üìÑ dados/2025\df_ke5z_group.parquet

üìö Hist√≥rico Consolidado:
   üìÑ dados/historico_consolidado\df_final_historico.parquet
   üìÑ dados/historico_consolidado\df_vol_historico.parquet
   üìÑ dados/historico_consolidado\df_ke5z_historico.parquet

üöÄ Configura√ß√£o confirmada!
üìù Execute as pr√≥ximas c√©lulas para p

In [58]:
# ler o arquivo em excel KE5Z_veiculos.xls
import pandas as pd

# Usar caminho configurado ou padr√£o
arquivo_ke5z = CAMINHO_KE5Z if 'CAMINHO_KE5Z' in globals() else 'KE5Z_veiculos.xlsx'

df_KE5Z  = pd.read_excel(arquivo_ke5z)

# mostrar o arquivo em excel df_KE5Z
df_KE5Z.head(50)

# Fazer o somatorio da coluna Valor e imprimir na tela
print(df_KE5Z['Valor'].sum())

# exibir as primeiras linhas
df_KE5Z.head(20)

















154760004.05999994


Unnamed: 0,Mes,Per√≠odo,N¬∫conta,Centrocst,N¬∫doc.ref.,Dt.l√ßto.,Valor,QTD,Type 05,Type 06,Account,USI,Oficina,Doc.compra,Texto breve,Fornecedor,Material,Usu√°rio,Fornec.,Tipo
0,11,novembro,M53800000,02S2712,930018375,03/11/2025,-1260.0,0.0,Burden,Expenses,Other Manufacturing Income & Expenses,Ve√≠culos,,,M53800000 -,,,ITSSCHED03,,WY
1,11,novembro,53800038,02S2263,1002340668,03/11/2025,-561.6,-0.156,Burden,Maintenance,Service,Ve√≠culos,PS,62061432.0,SERVICO DE INFORMATICA,QUALITY LAVANDERIA INDUSTRIAL SC LT,,U173454,800049329.0,W2
2,11,novembro,53800038,02S2263,1002340670,03/11/2025,-585.9,-0.837,Burden,Maintenance,Service,Ve√≠culos,PS,62061432.0,SERVICO DE INFORMATICA,QUALITY LAVANDERIA INDUSTRIAL SC LT,,U173454,800049329.0,W2
3,11,novembro,54400052,02S2029,1002351360,04/11/2025,-5859.0,-1.0,Burden,Expenses,Handling,Ve√≠culos,GS,62061796.0,LOCACAO DE MAQUINAS E EQUIPAMENTOS,SAFETY SERVICE COMERCIO E REPRESENT,,U173454,800049432.0,W2
4,11,novembro,54550001,02S2029,1002371771,06/11/2025,-205223.47,-205223.47,Burden,Energy,Electricity,Ve√≠culos,GS,12173230.0,CONTRATO DE FORNECIMENTO DE ENERGIA,CASA DOS VENTOS COMERCIALIZADORA DE,722737173,SE55403,800048750.0,W2
5,11,novembro,54400052,02S3028,1002390633,04/11/2025,-10125.0,-2025.0,Burden,Expenses,Handling,TC Ext,BANCOS,62065341.0,SERVICO DE LOCACAO DE EQUIPAMENTOS E,AESA EMPILHADEIRAS LTDA,,U355648,800035099.0,W2
6,11,novembro,52600108,02S2405,2025452130,03/11/2025,-107.4,-2.0,Burden,Consumption Material,Consumption Material,Ve√≠culos,QY,,CALCA FEMIMINA TAM 42 STELLANTIS GLOBAL,,67099489000714,SG22639,,W1
7,11,novembro,52600108,02S2260,2025669355,04/11/2025,-29.72,-1.0,Burden,Consumption Material,Consumption Material,Ve√≠culos,PS,,LUVA CIRURGICA EM LATEX G CX 100 UND,,67099404006811,SG22639,,W1
8,11,novembro,52600108,02S2017,2025674312,05/11/2025,-44.93,-1.0,Burden,Consumption Material,Consumption Material,Ve√≠culos,SM,,BONE SEGURANCA CINZA LOGOTIPO STELLANTIS,,67099404006773,SF21368,,W1
9,11,novembro,52600158,02S2260,2025690664,04/11/2025,-49.36,-2.0,Burden,Maintenance,Material,Ve√≠culos,PS,,CILINDRO PAPAIZ P/UEP 511 CR C/LINGUETA,,C5018100021089,SG22639,,W1


In [59]:
# Ler guia "Base conso" e garantir s√≥ uma coluna 'Custo' no resultado
# Usar caminho configurado ou padr√£o
arquivo_sapiens = CAMINHO_SAPIENS if 'CAMINHO_SAPIENS' in globals() else 'Dados SAPIENS.xlsx'

df_base_conso = pd.read_excel(arquivo_sapiens, sheet_name='Base conso')

# Renomear Type 04 para Custo se existir no Excel
if 'Type 04' in df_base_conso.columns:
    df_base_conso = df_base_conso.rename(columns={'Type 04': 'Custo'})

# Manter somente a coluna Custo e Type 07
df_base_conso = df_base_conso[['Custo', 'Type 07']]

# Renomear a coluna Type 07 para Account
df_base_conso = df_base_conso.rename(columns={'Type 07': 'Account'})

# mostrar as primeiras linhas
df_base_conso.head(30)

# fazer merge utilizando a coluna Account como chave e retornar a Custo para o df_KE5Z
df_KE5Z = pd.merge(df_KE5Z, df_base_conso[['Custo', 'Account']], on='Account', how='left')



# mostrar as primeiras linhas
df_KE5Z.head(30)













Unnamed: 0,Mes,Per√≠odo,N¬∫conta,Centrocst,N¬∫doc.ref.,Dt.l√ßto.,Valor,QTD,Type 05,Type 06,...,USI,Oficina,Doc.compra,Texto breve,Fornecedor,Material,Usu√°rio,Fornec.,Tipo,Custo
0,11,novembro,M53800000,02S2712,930018375,03/11/2025,-1260.0,0.0,Burden,Expenses,...,Ve√≠culos,,,M53800000 -,,,ITSSCHED03,,WY,Fixo
1,11,novembro,53800038,02S2263,1002340668,03/11/2025,-561.6,-0.156,Burden,Maintenance,...,Ve√≠culos,PS,62061432.0,SERVICO DE INFORMATICA,QUALITY LAVANDERIA INDUSTRIAL SC LT,,U173454,800049329.0,W2,Fixo
2,11,novembro,53800038,02S2263,1002340670,03/11/2025,-585.9,-0.837,Burden,Maintenance,...,Ve√≠culos,PS,62061432.0,SERVICO DE INFORMATICA,QUALITY LAVANDERIA INDUSTRIAL SC LT,,U173454,800049329.0,W2,Fixo
3,11,novembro,54400052,02S2029,1002351360,04/11/2025,-5859.0,-1.0,Burden,Expenses,...,Ve√≠culos,GS,62061796.0,LOCACAO DE MAQUINAS E EQUIPAMENTOS,SAFETY SERVICE COMERCIO E REPRESENT,,U173454,800049432.0,W2,Fixo
4,11,novembro,54550001,02S2029,1002371771,06/11/2025,-205223.47,-205223.47,Burden,Energy,...,Ve√≠culos,GS,12173230.0,CONTRATO DE FORNECIMENTO DE ENERGIA,CASA DOS VENTOS COMERCIALIZADORA DE,722737173,SE55403,800048750.0,W2,Vari√°vel
5,11,novembro,54400052,02S3028,1002390633,04/11/2025,-10125.0,-2025.0,Burden,Expenses,...,TC Ext,BANCOS,62065341.0,SERVICO DE LOCACAO DE EQUIPAMENTOS E,AESA EMPILHADEIRAS LTDA,,U355648,800035099.0,W2,Fixo
6,11,novembro,52600108,02S2405,2025452130,03/11/2025,-107.4,-2.0,Burden,Consumption Material,...,Ve√≠culos,QY,,CALCA FEMIMINA TAM 42 STELLANTIS GLOBAL,,67099489000714,SG22639,,W1,Vari√°vel
7,11,novembro,52600108,02S2260,2025669355,04/11/2025,-29.72,-1.0,Burden,Consumption Material,...,Ve√≠culos,PS,,LUVA CIRURGICA EM LATEX G CX 100 UND,,67099404006811,SG22639,,W1,Vari√°vel
8,11,novembro,52600108,02S2017,2025674312,05/11/2025,-44.93,-1.0,Burden,Consumption Material,...,Ve√≠culos,SM,,BONE SEGURANCA CINZA LOGOTIPO STELLANTIS,,67099404006773,SF21368,,W1,Vari√°vel
9,11,novembro,52600158,02S2260,2025690664,04/11/2025,-49.36,-2.0,Burden,Maintenance,...,Ve√≠culos,PS,,CILINDRO PAPAIZ P/UEP 511 CR C/LINGUETA,,C5018100021089,SG22639,,W1,Fixo


In [60]:
# Ler o arquivo em excel Reporting fluxo anexo.xlsx, ler a guia Rateio,
# excluir a primeira linha (linha de refer√™ncia) e usar a segunda linha como cabe√ßalho (meses)

# Usar caminho configurado ou padr√£o
arquivo_rateio = CAMINHO_RATEIO if 'CAMINHO_RATEIO' in globals() else 'Reporting fluxo anexo.xlsx'

# Ler a guia "Rateio" do arquivo Excel, sem header para manipular manualmente
df_raw = pd.read_excel(arquivo_rateio, sheet_name='Rateio', header=None)

# Excluir a primeira linha (linha de refer√™ncia)
df = df_raw.iloc[1:].reset_index(drop=True)

# Usar a primeira linha (que agora √© a linha dos nomes/meses) como cabe√ßalho real
df.columns = df.iloc[0]

# Excluir a linha usada como cabe√ßalho
df = df.iloc[1:].reset_index(drop=True)

# Remover colunas totalmente NaN (colunas extras do Excel)
df = df.loc[:, df.notna().any(axis=0)]

# Filtrar colunas que possuem todos os valores NaN (antes do melt)
df = df.dropna(axis=1, how='all')

# Identificar as colunas que s√£o meses (janeiro a dezembro)
meses = ['Janeiro', 'Fevereiro', 'Mar√ßo', 'Abril', 'Maio', 'Junho',
         'Julho', 'Agosto', 'Setembro', 'Outubro', 'Novembro', 'Dezembro']

# Encontrar as colunas que s√£o meses (desconsiderando capitaliza√ß√£o)
colunas_meses = [col for col in df.columns if any(mes.lower() in str(col).lower() for mes in meses)]

# Identificar as colunas que N√ÉO s√£o meses (para usar como id_vars)
colunas_id = [col for col in df.columns if col not in colunas_meses and pd.notna(col)]

# Remover colunas com nome NaN
df = df.loc[:, df.columns.notna()]



# Agora transformar as colunas de meses em linhas
df = df.melt(id_vars=colunas_id, value_vars=colunas_meses, var_name='M√™s', value_name='Rateio')

# Converter a coluna Rateio para num√©rico, substituir NaN por zero
# N√ÉO arredondar para manter m√°xima precis√£o e evitar erros de arredondamento
df['Rateio'] = pd.to_numeric(df['Rateio'], errors='coerce').fillna(0)

# substituir o nome da coluna M√™s por Per√≠odo
df = df.rename(columns={'M√™s': 'Per√≠odo'})

# filtrar na tabela df e linha Oficina tudo que √© diferente de ve√≠culo
df = df[df['Oficina'] != 'Ve√≠culos']

# tirar o nan no filtro
df = df[df['Oficina'].notna()]



# mostrar um somatorio da coluna Rateio
print(df['Rateio'].sum())
# exibir as primeiras linhas
df.head(100)







144.0


Unnamed: 0,Oficina,Ve√≠culo,Per√≠odo,Rateio
11,HVAC,J516,janeiro,0.000000
12,HVAC,CC21,janeiro,0.322648
13,HVAC,CC24,janeiro,0.281407
14,HVAC,CC22,janeiro,0.395945
16,INOX,J516,janeiro,0.000000
...,...,...,...,...
148,IBIZA,CC21,mar√ßo,0.299393
149,IBIZA,CC24,mar√ßo,0.203644
150,IBIZA,CC22,mar√ßo,0.496963
152,Card Box,J516,mar√ßo,0.000000


In [61]:
# --- VERIFICA√á√ÉO DE ERROS E USO DAS CHAVES 'Oficina' e 'Per√≠odo' ---

# 1. Conferir colunas presentes
print("Colunas em df_KE5Z:", df_KE5Z.columns.tolist())
print("Colunas em df    :", df.columns.tolist())

# 2. Checar exist√™ncia das colunas essenciais
erros = []
for nome_df, dfx in [('df_KE5Z', df_KE5Z), ('df', df)]:
    for col in ['Oficina', 'Per√≠odo']:
        if col not in dfx.columns:
            erros.append(f"Coluna '{col}' ausente no {nome_df}.")

if erros:
    for erro in erros:
        print("ERRO:", erro)
    raise KeyError(" ".join(erros))

# 3. Conferir quantidade de linhas antes do merge
print(f"\nUsando 'Oficina' e 'Per√≠odo' como chaves de merge")
print(f"Linhas em df_KE5Z: {len(df_KE5Z)}")
print(f"Linhas em df     : {len(df)}")

# 4. Realizar merge tendo certeza do nome correto das chaves
try:
    df_merge = pd.merge(df_KE5Z, df, on=['Oficina', 'Per√≠odo'], how='left', suffixes=('', '_df'))
except Exception as e:
    print("Erro ao realizar o merge usando as colunas 'Oficina' e 'Per√≠odo'.")
    raise

print(f"Linhas ap√≥s merge: {len(df_merge)}")

# 5. Checar se a coluna Rateio veio corretamente
if 'Rateio' in df_merge.columns:
    rateio_nao_nulo = df_merge['Rateio'].notna().sum()
    print(f"Linhas com Rateio encontrado: {rateio_nao_nulo}")
else:
    print("AVISO: Coluna 'Rateio' n√£o encontrada ap√≥s o merge.")

# 6. Validar presen√ßa da coluna 'Ve√≠culo' para o pivot
if 'Ve√≠culo' not in df_merge.columns:
    raise KeyError("Coluna 'Ve√≠culo' n√£o encontrada em df_merge. Verifique se esta coluna existe e est√° corretamente capitalizada em ambos DataFrames.")

# 7. Pivot para transformar ve√≠culos em colunas de Rateio
# Usar 'mean' para agregar valores duplicados (mais apropriado para rateios)
try:
    df_pivot = df_merge.pivot_table(
        index=['Oficina', 'Per√≠odo'],
        columns='Ve√≠culo',
        values='Rateio',
        aggfunc='mean'
    ).reset_index()
    df_pivot.columns.name = None
    print(f"\nLinhas ap√≥s pivot (Oficina + Per√≠odo): {len(df_pivot)}")
except Exception as e:
    print("Erro ao executar pivot_table em df_merge usando 'Ve√≠culo'.")
    raise

# 8. Merge reverso: incluir dados originais do KE5Z
try:
    df_final = pd.merge(df_KE5Z, df_pivot, on=['Oficina', 'Per√≠odo'], how='left')
except Exception as e:
    print("Erro ao executar o merge final com pivot.")
    raise

# 9. Determinar colunas novas (ve√≠culos criados) e renomear para %
veiculos_cols = [col for col in df_final.columns if col not in df_KE5Z.columns and col not in ['Oficina', 'Per√≠odo']]
rename_dict = {col: f"{col}%" for col in veiculos_cols}
df_final = df_final.rename(columns=rename_dict)

# Atualizar lista de veiculos_cols para aquelas com %
veiculos_cols_pct = [f"{col}%" for col in veiculos_cols]
veiculos_cols = [col for col in veiculos_cols_pct if col in df_final.columns]

# 10. Garantir que todas as colunas de ve√≠culos estejam em float64, sem perder casas decimais, e NaN->0
import numpy as np
for col in veiculos_cols:
    # Remover eventualmente o s√≠mbolo % para padronizar antes da convers√£o, se vier por engano
    if df_final[col].dtype == "object":
        df_final[col] = df_final[col].astype(str).str.replace('%', '', regex=False).str.strip()
    # Converter para float64 (n√£o arredonda nem corta casas decimais)
    df_final[col] = pd.to_numeric(df_final[col], errors='coerce').astype(np.float64).fillna(0.0)

# 11. Diagn√≥stico final
print(f"\nDataFrame final criado com {len(df_final)} linhas e {len(df_final.columns)} colunas")
print(f"Colunas de ve√≠culos criadas: {len(veiculos_cols)}")
print("Colunas de ve√≠culos:", veiculos_cols)
print("\nTipos das colunas de ve√≠culos:")
for col in veiculos_cols:
    print(f"  {col}: {df_final[col].dtype} (exemplo valor: {df_final[col].dropna().iloc[0] if not df_final[col].dropna().empty else 'N/A'})")

# 12. Conferir dados de HVAC
if 'Oficina' in df_final.columns:
    df_hvac = df_final[df_final['Oficina'] == 'HVAC']
    print(f"\nLinhas com HVAC: {len(df_hvac)}")
   
else:
    print("AVISO: Coluna 'Oficina' n√£o existe em df_final.")
    df_hvac = pd.DataFrame()




Colunas em df_KE5Z: ['Mes', 'Per√≠odo', 'N¬∫conta', 'Centrocst', 'N¬∫doc.ref.', 'Dt.l√ßto.', 'Valor', 'QTD', 'Type 05', 'Type 06', 'Account', 'USI', 'Oficina', 'Doc.compra', 'Texto breve', 'Fornecedor', 'Material', 'Usu√°rio', 'Fornec.', 'Tipo', 'Custo']
Colunas em df    : ['Oficina', 'Ve√≠culo', 'Per√≠odo', 'Rateio']

Usando 'Oficina' e 'Per√≠odo' como chaves de merge
Linhas em df_KE5Z: 92845
Linhas em df     : 408
Linhas ap√≥s merge: 112099
Linhas com Rateio encontrado: 25089

Linhas ap√≥s pivot (Oficina + Per√≠odo): 31

DataFrame final criado com 92845 linhas e 27 colunas
Colunas de ve√≠culos criadas: 6
Colunas de ve√≠culos: ['CC21%', 'CC22%', 'CC24%', 'CC24 5L%', 'CC24 7L%', 'J516%']

Tipos das colunas de ve√≠culos:
  CC21%: float64 (exemplo valor: 0.0)
  CC22%: float64 (exemplo valor: 0.0)
  CC24%: float64 (exemplo valor: 0.0)
  CC24 5L%: float64 (exemplo valor: 0.0)
  CC24 7L%: float64 (exemplo valor: 0.0)
  J516%: float64 (exemplo valor: 0.0)

Linhas com HVAC: 1640


In [62]:
# Criar novas colunas calculando: Coluna% * Valor
# As colunas de percentual est√£o como float (ex: 0.419 para 41.9%)
# Multiplicar diretamente pela coluna Valor

print("Criando colunas de c√°lculo (Percentual * Valor)...")

# Verificar se a coluna 'Valor' existe
if 'Valor' not in df_final.columns:
    print("ERRO: Coluna 'Valor' n√£o encontrada no DataFrame!")
    print(f"Colunas dispon√≠veis: {df_final.columns.tolist()}")
else:
    print(f"Coluna 'Valor' encontrada. Tipo: {df_final['Valor'].dtype}")
    
    # Converter coluna Valor para num√©rico se necess√°rio
    df_final['Valor'] = pd.to_numeric(df_final['Valor'], errors='coerce').fillna(0)
    
    # Lista de colunas de ve√≠culos com %
    veiculos_cols_pct = ['CC21%', 'CC22%', 'CC24%', 'CC24 5L%', 'CC24 7L%', 'J516%']
    
    # Criar uma coluna para cada ve√≠culo com o c√°lculo
    for col_pct in veiculos_cols_pct:
        if col_pct in df_final.columns:
            # Nome da nova coluna sem o "%" (ex: "CC21")
            col_nome = col_pct.replace('%', '')
            
            # Calcular: Percentual * Valor
            # Como o percentual j√° est√° em decimal (ex: 0.419), multiplicar diretamente
            df_final[col_nome] = df_final[col_pct] * df_final['Valor']
            
            print(f"  Criada coluna '{col_nome}' = {col_pct} * Valor")
        else:
            print(f"  AVISO: Coluna '{col_pct}' n√£o encontrada")
    
    print(f"\nTotal de colunas no DataFrame final: {len(df_final.columns)}")
    print(f"Novas colunas criadas: {[col.replace('%', '') for col in veiculos_cols_pct if col in df_final.columns]}")
    
    # Exibir as primeiras linhas para verificar
    print("\nPrimeiras linhas do DataFrame final:")
    display(df_final.head(10))

    # fazer somatorio da coluna Valor
    print(df_final['Valor'].sum())

    # somar as colunas CC21, CC22, CC24, CC24 5L, CC24 7L, J516
    print(df_final['CC21'].sum() + df_final['CC22'].sum() + df_final['CC24'].sum() + df_final['CC24 5L'].sum() + df_final['CC24 7L'].sum() + df_final['J516'].sum())

# gerar um excel com o df_final
arquivo_excel_final = CAMINHO_DF_FINAL_XLSX if 'CAMINHO_DF_FINAL_XLSX' in globals() else 'df_final.xlsx'
df_final.to_excel(arquivo_excel_final, index=False)









Criando colunas de c√°lculo (Percentual * Valor)...
Coluna 'Valor' encontrada. Tipo: float64
  Criada coluna 'CC21' = CC21% * Valor
  Criada coluna 'CC22' = CC22% * Valor
  Criada coluna 'CC24' = CC24% * Valor
  Criada coluna 'CC24 5L' = CC24 5L% * Valor
  Criada coluna 'CC24 7L' = CC24 7L% * Valor
  Criada coluna 'J516' = J516% * Valor

Total de colunas no DataFrame final: 33
Novas colunas criadas: ['CC21', 'CC22', 'CC24', 'CC24 5L', 'CC24 7L', 'J516']

Primeiras linhas do DataFrame final:


Unnamed: 0,Mes,Per√≠odo,N¬∫conta,Centrocst,N¬∫doc.ref.,Dt.l√ßto.,Valor,QTD,Type 05,Type 06,...,CC24%,CC24 5L%,CC24 7L%,J516%,CC21,CC22,CC24,CC24 5L,CC24 7L,J516
0,11,novembro,M53800000,02S2712,930018375,03/11/2025,-1260.0,0.0,Burden,Expenses,...,0.0,0.0,0.0,0.0,-0.0,-0.0,-0.0,-0.0,-0.0,-0.0
1,11,novembro,53800038,02S2263,1002340668,03/11/2025,-561.6,-0.156,Burden,Maintenance,...,0.0,0.0,0.0,0.0,-0.0,-0.0,-0.0,-0.0,-0.0,-0.0
2,11,novembro,53800038,02S2263,1002340670,03/11/2025,-585.9,-0.837,Burden,Maintenance,...,0.0,0.0,0.0,0.0,-0.0,-0.0,-0.0,-0.0,-0.0,-0.0
3,11,novembro,54400052,02S2029,1002351360,04/11/2025,-5859.0,-1.0,Burden,Expenses,...,0.0,0.0,0.0,0.0,-0.0,-0.0,-0.0,-0.0,-0.0,-0.0
4,11,novembro,54550001,02S2029,1002371771,06/11/2025,-205223.47,-205223.47,Burden,Energy,...,0.0,0.0,0.0,0.0,-0.0,-0.0,-0.0,-0.0,-0.0,-0.0
5,11,novembro,54400052,02S3028,1002390633,04/11/2025,-10125.0,-2025.0,Burden,Expenses,...,0.0,0.087513,0.102099,0.0,-3483.057631,-4722.118463,-0.0,-886.072572,-1033.751334,-0.0
6,11,novembro,52600108,02S2405,2025452130,03/11/2025,-107.4,-2.0,Burden,Consumption Material,...,0.0,0.0,0.0,0.0,-0.0,-0.0,-0.0,-0.0,-0.0,-0.0
7,11,novembro,52600108,02S2260,2025669355,04/11/2025,-29.72,-1.0,Burden,Consumption Material,...,0.0,0.0,0.0,0.0,-0.0,-0.0,-0.0,-0.0,-0.0,-0.0
8,11,novembro,52600108,02S2017,2025674312,05/11/2025,-44.93,-1.0,Burden,Consumption Material,...,0.0,0.0,0.0,0.0,-0.0,-0.0,-0.0,-0.0,-0.0,-0.0
9,11,novembro,52600158,02S2260,2025690664,04/11/2025,-49.36,-2.0,Burden,Maintenance,...,0.0,0.0,0.0,0.0,-0.0,-0.0,-0.0,-0.0,-0.0,-0.0


154760004.05999994
5369683.029999999


In [63]:
# AN√ÅLISE: Verificar se a soma dos percentuais est√° dando 100% em cada linha
print("="*70)
print("AN√ÅLISE: SOMA DOS PERCENTUAIS POR LINHA")
print("="*70)

# Lista de colunas de percentual
veiculos_cols_pct = ['CC21%', 'CC22%', 'CC24%', 'CC24 5L%', 'CC24 7L%', 'J516%']

# Calcular a soma dos percentuais para cada linha
df_final['Soma_Percentuais'] = df_final[veiculos_cols_pct].sum(axis=1)

# Verificar quantas linhas t√™m rateios (soma > 0)
linhas_com_rateio = (df_final['Soma_Percentuais'] > 0).sum()
linhas_sem_rateio = (df_final['Soma_Percentuais'] == 0).sum()

print(f"\n1. DISTRIBUI√á√ÉO DE LINHAS:")
print(f"   Linhas COM rateios (soma > 0): {linhas_com_rateio:,}")
print(f"   Linhas SEM rateios (soma = 0): {linhas_sem_rateio:,}")
print(f"   Total de linhas: {len(df_final):,}")

# Verificar se a soma est√° pr√≥xima de 1.0 (100%) nas linhas com rateio
df_com_rateio = df_final[df_final['Soma_Percentuais'] > 0]
if len(df_com_rateio) > 0:
    print(f"\n2. AN√ÅLISE DAS LINHAS COM RATEIOS:")
    print(f"   Soma m√©dia dos percentuais: {df_com_rateio['Soma_Percentuais'].mean():.4f}")
    print(f"   Soma m√≠nima: {df_com_rateio['Soma_Percentuais'].min():.4f}")
    print(f"   Soma m√°xima: {df_com_rateio['Soma_Percentuais'].max():.4f}")
    
    # Contar linhas onde a soma n√£o est√° pr√≥xima de 1.0
    linhas_fora_100 = df_com_rateio[abs(df_com_rateio['Soma_Percentuais'] - 1.0) > 0.01]
    print(f"\n   ‚ö†Ô∏è Linhas onde soma ‚â† 100% (diferen√ßa > 1%): {len(linhas_fora_100)}")
    
    if len(linhas_fora_100) > 0:
        print(f"\n   Exemplos de linhas com soma diferente de 100%:")
        display(linhas_fora_100[['Oficina', 'Per√≠odo', 'Valor', 'Soma_Percentuais'] + veiculos_cols_pct].head(10))

# Verificar especificamente julho e agosto
print(f"\n3. AN√ÅLISE ESPEC√çFICA: JULHO E AGOSTO")
df_jul_ago = df_final[df_final['Per√≠odo'].isin(['Julho', 'Agosto', 'julho', 'agosto'])]
if len(df_jul_ago) > 0:
    print(f"   Total de linhas: {len(df_jul_ago):,}")
    linhas_com_rateio_jul_ago = (df_jul_ago['Soma_Percentuais'] > 0).sum()
    print(f"   Linhas COM rateios: {linhas_com_rateio_jul_ago:,}")
    
    if linhas_com_rateio_jul_ago > 0:
        df_jul_ago_com_rateio = df_jul_ago[df_jul_ago['Soma_Percentuais'] > 0]
        print(f"   Soma m√©dia dos percentuais: {df_jul_ago_com_rateio['Soma_Percentuais'].mean():.4f}")
        
        linhas_fora_100_jul_ago = df_jul_ago_com_rateio[abs(df_jul_ago_com_rateio['Soma_Percentuais'] - 1.0) > 0.01]
        print(f"   ‚ö†Ô∏è Linhas onde soma ‚â† 100%: {len(linhas_fora_100_jul_ago)}")
        
        if len(linhas_fora_100_jul_ago) > 0:
            print(f"\n   Exemplos de linhas problem√°ticas em Julho/Agosto:")
            display(linhas_fora_100_jul_ago[['Oficina', 'Per√≠odo', 'Valor', 'Soma_Percentuais'] + veiculos_cols_pct].head(10))

# Verificar totais
print(f"\n4. VERIFICA√á√ÉO DE TOTAIS:")
soma_valor_total = df_final['Valor'].sum()
soma_valor_com_rateio = df_com_rateio['Valor'].sum() if len(df_com_rateio) > 0 else 0
soma_calc_total = df_final[['CC21', 'CC22', 'CC24', 'CC24 5L', 'CC24 7L', 'J516']].sum().sum()

print(f"   Soma total da coluna Valor: {soma_valor_total:,.2f}")
print(f"   Soma da coluna Valor (apenas linhas com rateio): {soma_valor_com_rateio:,.2f}")
print(f"   Soma das colunas calculadas: {soma_calc_total:,.2f}")
print(f"   Diferen√ßa: {soma_valor_total - soma_calc_total:,.2f}")
print(f"   Percentual coberto: {(soma_calc_total / soma_valor_total * 100):.2f}%")

print("\n" + "="*70)


AN√ÅLISE: SOMA DOS PERCENTUAIS POR LINHA

1. DISTRIBUI√á√ÉO DE LINHAS:
   Linhas COM rateios (soma > 0): 5,835
   Linhas SEM rateios (soma = 0): 87,010
   Total de linhas: 92,845

2. AN√ÅLISE DAS LINHAS COM RATEIOS:
   Soma m√©dia dos percentuais: 1.0000
   Soma m√≠nima: 1.0000
   Soma m√°xima: 1.0000

   ‚ö†Ô∏è Linhas onde soma ‚â† 100% (diferen√ßa > 1%): 0

3. AN√ÅLISE ESPEC√çFICA: JULHO E AGOSTO
   Total de linhas: 55,683
   Linhas COM rateios: 3,634
   Soma m√©dia dos percentuais: 1.0000
   ‚ö†Ô∏è Linhas onde soma ‚â† 100%: 0

4. VERIFICA√á√ÉO DE TOTAIS:
   Soma total da coluna Valor: 154,760,004.06
   Soma da coluna Valor (apenas linhas com rateio): 5,369,683.03
   Soma das colunas calculadas: 5,369,683.03
   Diferen√ßa: 149,390,321.03
   Percentual coberto: 3.47%



In [64]:
# Calcular a somat√≥ria de cada coluna (CC21, CC22, CC24, CC24 5L, CC24 7L, J516)

print("="*60)
print("SOMAT√ìRIA DE CADA COLUNA")
print("="*60)

# Lista de colunas para somar
colunas_para_somar = ['CC21', 'CC22', 'CC24', 'CC24 5L', 'CC24 7L', 'J516']

# Calcular e exibir a soma de cada coluna
soma_total = 0
for col in colunas_para_somar:
    if col in df_final.columns:
        # Converter para num√©rico e somar
        soma = pd.to_numeric(df_final[col], errors='coerce').fillna(0).sum()
        soma_total += soma
        print(f"Soma da coluna {col:12s}: {soma:,.2f}")
    else:
        print(f"Coluna {col:12s}: N√ÉO ENCONTRADA")

print("="*60)
print(f"SOMA TOTAL:                 {soma_total:,.2f}")
print("="*60)

#


SOMAT√ìRIA DE CADA COLUNA
Soma da coluna CC21        : 2,875,255.01
Soma da coluna CC22        : 3,420,645.99
Soma da coluna CC24        : 781,084.56
Soma da coluna CC24 5L     : 337,108.45
Soma da coluna CC24 7L     : 258,289.91
Soma da coluna J516        : -2,302,700.89
SOMA TOTAL:                 5,369,683.03


In [65]:
# Apagar as colunas de percentual uma a uma
print("Removendo colunas de percentual...")
colunas_para_remover = ['CC21%', 'CC22%', 'CC24%', 'CC24 5L%', 'CC24 7L%', 'J516%']

for col in colunas_para_remover:
    if col in df_final.columns:
        df_final = df_final.drop(columns=[col])
        print(f"  Coluna '{col}' removida")
    else:
        print(f"  AVISO: Coluna '{col}' n√£o encontrada")

print(f"\nTotal de colunas ap√≥s remo√ß√£o: {len(df_final.columns)}")
print(f"Colunas restantes: {df_final.columns.tolist()}")

# filtrar na tabela df_final a USI = TC Ext
df_final = df_final[df_final['USI'] == 'TC Ext']

# mostrar o df_final_usi_tc_ext
display(df_final)




Removendo colunas de percentual...
  Coluna 'CC21%' removida
  Coluna 'CC22%' removida
  Coluna 'CC24%' removida
  Coluna 'CC24 5L%' removida
  Coluna 'CC24 7L%' removida
  Coluna 'J516%' removida

Total de colunas ap√≥s remo√ß√£o: 28
Colunas restantes: ['Mes', 'Per√≠odo', 'N¬∫conta', 'Centrocst', 'N¬∫doc.ref.', 'Dt.l√ßto.', 'Valor', 'QTD', 'Type 05', 'Type 06', 'Account', 'USI', 'Oficina', 'Doc.compra', 'Texto breve', 'Fornecedor', 'Material', 'Usu√°rio', 'Fornec.', 'Tipo', 'Custo', 'CC21', 'CC22', 'CC24', 'CC24 5L', 'CC24 7L', 'J516', 'Soma_Percentuais']


Unnamed: 0,Mes,Per√≠odo,N¬∫conta,Centrocst,N¬∫doc.ref.,Dt.l√ßto.,Valor,QTD,Type 05,Type 06,...,Fornec.,Tipo,Custo,CC21,CC22,CC24,CC24 5L,CC24 7L,J516,Soma_Percentuais
5,11,novembro,54400052,02S3028,1002390633,04/11/2025,-10125.00,-2025.0,Burden,Expenses,...,800035099,W2,Fixo,-3483.057631,-4722.118463,-0.000000,-886.072572,-1033.751334,-0.0,1.0
11,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,,W1,Vari√°vel,-28.483671,-38.616435,-15.699893,-0.000000,-0.000000,-0.0,1.0
12,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,,W1,Vari√°vel,-28.483671,-38.616435,-15.699893,-0.000000,-0.000000,-0.0,1.0
13,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,,W1,Vari√°vel,-28.483671,-38.616435,-15.699893,-0.000000,-0.000000,-0.0,1.0
17,11,novembro,52600108,02S3028,2025693730,05/11/2025,-2681.71,-10.0,Burden,Consumption Material,...,,W1,Vari√°vel,-922.523504,-1250.701462,-0.000000,-234.685400,-273.799634,-0.0,1.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
92751,9,setembro,F81401005,02S3028,7400009231,30/09/2025,5120.81,0.0,Labor,Indirect Labor,...,,TH,Vari√°vel,1857.300881,2338.413699,0.000000,590.923462,334.171958,0.0,1.0
92752,9,setembro,F81401007,02S3028,7400009231,30/09/2025,7778.16,0.0,Labor,Indirect Labor,...,,TH,Vari√°vel,2821.112953,3551.890404,0.000000,897.572305,507.584338,0.0,1.0
92753,9,setembro,F81101001,02S3028,7400009231,30/09/2025,2214.76,0.0,Labor,Direct Labor,...,,TH,Vari√°vel,803.286140,1011.368343,0.000000,255.575514,144.530003,0.0,1.0
92754,9,setembro,F81401005,02S3028,7400009231,30/09/2025,1412.62,0.0,Labor,Indirect Labor,...,,TH,Vari√°vel,512.352610,645.071768,0.000000,163.011379,92.184243,0.0,1.0


In [66]:
# Transformar as colunas CC21, CC22, CC24, CC24 5L, CC24 7L, J516 em linhas, mantendo todas as outras colunas
colunas_veiculos = ['CC21', 'CC22', 'CC24', 'CC24 5L', 'CC24 7L', 'J516']
colunas_veiculos_existentes = [col for col in colunas_veiculos if col in df_final.columns]

if len(colunas_veiculos_existentes) > 0:
    colunas_id = [col for col in df_final.columns if col not in colunas_veiculos]
    df_final = df_final.melt(id_vars=colunas_id, value_vars=colunas_veiculos_existentes, var_name='Ve√≠culo', value_name='Total')
else:
    print("AVISO: Nenhuma das colunas de ve√≠culos foi encontrada!")
    print(f"Colunas dispon√≠veis: {df_final.columns.tolist()}")

# mostrar o df_final
display(df_final)

# somar a coluna Total
print(df_final['Total'].sum())




Unnamed: 0,Mes,Per√≠odo,N¬∫conta,Centrocst,N¬∫doc.ref.,Dt.l√ßto.,Valor,QTD,Type 05,Type 06,...,Texto breve,Fornecedor,Material,Usu√°rio,Fornec.,Tipo,Custo,Soma_Percentuais,Ve√≠culo,Total
0,11,novembro,54400052,02S3028,1002390633,04/11/2025,-10125.00,-2025.0,Burden,Expenses,...,SERVICO DE LOCACAO DE EQUIPAMENTOS E,AESA EMPILHADEIRAS LTDA,,U355648,800035099,W2,Fixo,1.0,CC21,-3483.057631
1,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,OXIGENIO 100 GASOSO 10M¬≥ WHITE MARTINS,,67099404007378,SG22639,,W1,Vari√°vel,1.0,CC21,-28.483671
2,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,OXIGENIO 100 GASOSO 10M¬≥ WHITE MARTINS,,67099404007378,SG22639,,W1,Vari√°vel,1.0,CC21,-28.483671
3,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,OXIGENIO 100 GASOSO 10M¬≥ WHITE MARTINS,,67099404007378,SG22639,,W1,Vari√°vel,1.0,CC21,-28.483671
4,11,novembro,52600108,02S3028,2025693730,05/11/2025,-2681.71,-10.0,Burden,Consumption Material,...,FILME STRETCH 500MM CX C/ 2 ROLOS,,67099404007348,SG22639,,W1,Vari√°vel,1.0,CC21,-922.523504
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35005,9,setembro,F81401005,02S3028,7400009231,30/09/2025,5120.81,0.0,Labor,Indirect Labor,...,F81401005-6281 1 4050 PROV. BANCO DE HORAS INSS -,,,PXBREMOTE,,TH,Vari√°vel,1.0,J516,0.000000
35006,9,setembro,F81401007,02S3028,7400009231,30/09/2025,7778.16,0.0,Labor,Indirect Labor,...,F81401007-6281 1 4050 PROV. BANCO DE HORAS INSS -,,,PXBREMOTE,,TH,Vari√°vel,1.0,J516,0.000000
35007,9,setembro,F81101001,02S3028,7400009231,30/09/2025,2214.76,0.0,Labor,Direct Labor,...,F81101001-6282 1 4050 PROV. BANCO DE HORAS FGTS -,,,PXBREMOTE,,TH,Vari√°vel,1.0,J516,0.000000
35008,9,setembro,F81401005,02S3028,7400009231,30/09/2025,1412.62,0.0,Labor,Indirect Labor,...,F81401005-6282 1 4050 PROV. BANCO DE HORAS FGTS -,,,PXBREMOTE,,TH,Vari√°vel,1.0,J516,0.000000


5369683.03


In [67]:
# ler o arquivo em excel KE5Z_veiculos.xls na guia volume e considerar a linha 51 como cabe√ßalho
# Usar caminho configurado ou padr√£o
arquivo_rateio_vol = CAMINHO_RATEIO if 'CAMINHO_RATEIO' in globals() else 'Reporting fluxo anexo.xlsx'

# Ler o arquivo Excel 'KE5Z_veiculos.xls' na guia 'volume', considerando a linha 51 como cabe√ßalho (header=50, 0-indexed)
df_ke5z_volume = pd.read_excel(arquivo_rateio_vol, sheet_name='Volume', header=50)

# exluir a coluna Unnamed: 14
df_ke5z_volume = df_ke5z_volume.drop(columns=['Unnamed: 14'])


# transformar as counas dos meses (de janeiro a fevereiro) em linhas
colunas_meses = ['janeiro', 'fevereiro', 'mar√ßo', 'abril', 'maio', 'junho', 'julho', 'agosto', 'setembro', 'outubro', 'novembro', 'dezembro']

# Derreter o DataFrame para transformar as colunas em linhas
df_vol = pd.melt(
    df_ke5z_volume,
    id_vars=[col for col in df_ke5z_volume.columns if col not in colunas_meses],
    value_vars=colunas_meses,
    var_name='Per√≠odo',
    value_name='Volume'
)
# Transformar a coluna Volume em numerico
df_vol['Volume'] = pd.to_numeric(df_vol['Volume'], errors='coerce').fillna(0)


# Remover linhas duplicadas
df_vol = df_vol.drop_duplicates()  


# Remover linhas com NaN
df_vol = df_vol.dropna()

# Exibir as primeiras linhas para confer√™ncia
display(df_vol)

# gerar um arquivo parquet com o df_vol
arquivo_parquet_vol = CAMINHO_DF_VOL if 'CAMINHO_DF_VOL' in globals() else 'df_vol.parquet'
df_vol.to_parquet(arquivo_parquet_vol)



Unnamed: 0,Oficina,Ve√≠culo,Per√≠odo,Volume
0,HVAC,J516,janeiro,0.0
1,HVAC,CC21,janeiro,1862.0
2,HVAC,CC24,janeiro,1624.0
3,HVAC,CC22,janeiro,2285.0
5,INOX,J516,janeiro,0.0
...,...,...,...,...
486,IBIZA,CC22,dezembro,1516.0
488,Card Box,J516,dezembro,0.0
489,Card Box,CC21,dezembro,1918.0
490,Card Box,CC24,dezembro,985.0


In [68]:

# Removido: merge de Volume e c√°lculo de CPU - agora calculados diretamente nos arquivos Streamlit (TC_Ext.py e app.py)

# filtrar account diferente de NaN, 0 ou TC Ext
df_final = df_final[df_final['Account'].notna() & (df_final['Account'] != 0) & (df_final['Account'] != 'TC Ext')]

# Gerar excel com o df_final
arquivo_excel_cpu = CAMINHO_DF_FINAL_CPU_XLSX if 'CAMINHO_DF_FINAL_CPU_XLSX' in globals() else 'df_final_cpu.xlsx'
df_final.to_excel(arquivo_excel_cpu, index=False)

# Filtrar USI = TC Ext
df_final = df_final[df_final['USI'] == 'TC Ext']

# A coluna j√° vem como 'Custo' desde o merge na c√©lula 1, n√£o precisa renomear

# mostrar o df_final
display(df_final)



# somar a coluna Valor e coluna Total
print('Valor = ', df_final['Valor'].sum())
print('Total = ', df_final['Total'].sum())

# Gerar arquivo parquet com o df_final
arquivo_parquet_final = CAMINHO_DF_FINAL if 'CAMINHO_DF_FINAL' in globals() else 'df_final.parquet'
df_final.to_parquet(arquivo_parquet_final)







Unnamed: 0,Mes,Per√≠odo,N¬∫conta,Centrocst,N¬∫doc.ref.,Dt.l√ßto.,Valor,QTD,Type 05,Type 06,...,Texto breve,Fornecedor,Material,Usu√°rio,Fornec.,Tipo,Custo,Soma_Percentuais,Ve√≠culo,Total
0,11,novembro,54400052,02S3028,1002390633,04/11/2025,-10125.00,-2025.0,Burden,Expenses,...,SERVICO DE LOCACAO DE EQUIPAMENTOS E,AESA EMPILHADEIRAS LTDA,,U355648,800035099,W2,Fixo,1.0,CC21,-3483.057631
1,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,OXIGENIO 100 GASOSO 10M¬≥ WHITE MARTINS,,67099404007378,SG22639,,W1,Vari√°vel,1.0,CC21,-28.483671
2,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,OXIGENIO 100 GASOSO 10M¬≥ WHITE MARTINS,,67099404007378,SG22639,,W1,Vari√°vel,1.0,CC21,-28.483671
3,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,OXIGENIO 100 GASOSO 10M¬≥ WHITE MARTINS,,67099404007378,SG22639,,W1,Vari√°vel,1.0,CC21,-28.483671
4,11,novembro,52600108,02S3028,2025693730,05/11/2025,-2681.71,-10.0,Burden,Consumption Material,...,FILME STRETCH 500MM CX C/ 2 ROLOS,,67099404007348,SG22639,,W1,Vari√°vel,1.0,CC21,-922.523504
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35005,9,setembro,F81401005,02S3028,7400009231,30/09/2025,5120.81,0.0,Labor,Indirect Labor,...,F81401005-6281 1 4050 PROV. BANCO DE HORAS INSS -,,,PXBREMOTE,,TH,Vari√°vel,1.0,J516,0.000000
35006,9,setembro,F81401007,02S3028,7400009231,30/09/2025,7778.16,0.0,Labor,Indirect Labor,...,F81401007-6281 1 4050 PROV. BANCO DE HORAS INSS -,,,PXBREMOTE,,TH,Vari√°vel,1.0,J516,0.000000
35007,9,setembro,F81101001,02S3028,7400009231,30/09/2025,2214.76,0.0,Labor,Direct Labor,...,F81101001-6282 1 4050 PROV. BANCO DE HORAS FGTS -,,,PXBREMOTE,,TH,Vari√°vel,1.0,J516,0.000000
35008,9,setembro,F81401005,02S3028,7400009231,30/09/2025,1412.62,0.0,Labor,Indirect Labor,...,F81401005-6282 1 4050 PROV. BANCO DE HORAS FGTS -,,,PXBREMOTE,,TH,Vari√°vel,1.0,J516,0.000000


Valor =  35098530.239999995
Total =  5849755.04


In [69]:

# 3. Agrupar Volume
try:
    df_vol_group = (
        df_vol.groupby(['Oficina', 'Per√≠odo'], as_index=False)['Volume']
        .sum()
    )
except Exception as e:
    print("ERRO ao agrupar df_vol:", e)
    raise

# Exibir as primeiras 100 linhas
display(df_vol_group.head(100))

# 4. Garantir que 'USI' est√° presente em df_KE5Z e filtrar corretamente
if 'USI' not in df_KE5Z.columns:
    raise ValueError("df_KE5Z n√£o cont√©m coluna 'USI'")
df_KE5Z = df_KE5Z[df_KE5Z['USI'] == 'TC Ext']

# 5. Garantir coluna 'Account' presente e aplicar filtros
if 'Account' not in df_KE5Z.columns:
    raise ValueError("df_KE5Z n√£o cont√©m coluna 'Account'")
df_KE5Z = df_KE5Z[df_KE5Z['Account'].notna() & (df_KE5Z['Account'] != 0) & (df_KE5Z['Account'] != '')]

# 6. Checar se as colunas 'Volume' e 'Total' (ou 'Valor') existem e s√£o num√©ricas
# Volume
if 'Volume' not in df_KE5Z.columns:
    print("Coluna 'Volume' n√£o encontrada em df_KE5Z, criando com zeros.")
    df_KE5Z['Volume'] = 0

df_KE5Z['Volume'] = pd.to_numeric(df_KE5Z['Volume'], errors='coerce').fillna(0)

# Total
if 'Total' not in df_KE5Z.columns:
    if 'Valor' in df_KE5Z.columns:
        df_KE5Z['Total'] = df_KE5Z['Valor']
        print("Coluna 'Total' criada a partir de 'Valor' em df_KE5Z.")
    else:
        print("Coluna 'Total' e 'Valor' n√£o encontradas em df_KE5Z, criando 'Total' com zeros.")
        df_KE5Z['Total'] = 0

df_KE5Z['Total'] = pd.to_numeric(df_KE5Z['Total'], errors='coerce').fillna(0)

# Fazer o merge entre df_KE5Z e df_vol_group pela chave Oficina e Per√≠odo
# Garante que s√≥ haver√° uma coluna 'Volume' ao final
df_ke5z_group = pd.merge(
    df_KE5Z.drop(columns=[col for col in df_KE5Z.columns if col.lower() == 'volume']),  # remove 'Volume' antes!
    df_vol_group,
    on=['Oficina', 'Per√≠odo'],
    how='left'
)

# Se ap√≥s o merge ainda existir mais de uma coluna Volume, remove as extras mantendo apenas 'Volume'
colunas_volume = [col for col in df_ke5z_group.columns if 'Volume' in str(col) and col != 'Volume']
if colunas_volume:
    df_ke5z_group = df_ke5z_group.drop(columns=colunas_volume)
    print(f"Colunas Volume duplicadas removidas: {colunas_volume}")

# A coluna j√° vem como 'Custo' desde o merge na c√©lula 1, n√£o precisa renomear

# Mostrar o df_ke5z_group
display(df_ke5z_group)

# Somar coluna Total
print('Total = ', df_ke5z_group['Total'].sum()) 


# Gerar excel com o df_ke5z_group
arquivo_excel_group = CAMINHO_DF_KE5Z_GROUP_XLSX if 'CAMINHO_DF_KE5Z_GROUP_XLSX' in globals() else 'df_ke5z_group.xlsx'
df_ke5z_group.to_excel(arquivo_excel_group, index=False)
# gerar um arquivo parquet com o df_ke5z_group
arquivo_parquet_group = CAMINHO_DF_KE5Z_GROUP if 'CAMINHO_DF_KE5Z_GROUP' in globals() else 'df_ke5z_group.parquet'
df_ke5z_group.to_parquet(arquivo_parquet_group)







Unnamed: 0,Oficina,Per√≠odo,Volume
0,BANCOS,abril,5911.0
1,BANCOS,agosto,5439.0
2,BANCOS,dezembro,4419.0
3,BANCOS,fevereiro,5525.0
4,BANCOS,janeiro,5771.0
...,...,...,...
95,INOX,setembro,6482.0
96,REGIONALIZA√á√ÉO J516,abril,0.0
97,REGIONALIZA√á√ÉO J516,agosto,0.0
98,REGIONALIZA√á√ÉO J516,dezembro,0.0


Coluna 'Volume' n√£o encontrada em df_KE5Z, criando com zeros.
Coluna 'Total' criada a partir de 'Valor' em df_KE5Z.


Unnamed: 0,Mes,Per√≠odo,N¬∫conta,Centrocst,N¬∫doc.ref.,Dt.l√ßto.,Valor,QTD,Type 05,Type 06,...,Doc.compra,Texto breve,Fornecedor,Material,Usu√°rio,Fornec.,Tipo,Custo,Total,Volume
0,11,novembro,54400052,02S3028,1002390633,04/11/2025,-10125.00,-2025.0,Burden,Expenses,...,62065341.0,SERVICO DE LOCACAO DE EQUIPAMENTOS E,AESA EMPILHADEIRAS LTDA,,U355648,800035099,W2,Fixo,-10125.00,5622.0
1,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,,OXIGENIO 100 GASOSO 10M¬≥ WHITE MARTINS,,67099404007378,SG22639,,W1,Vari√°vel,-82.80,5622.0
2,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,,OXIGENIO 100 GASOSO 10M¬≥ WHITE MARTINS,,67099404007378,SG22639,,W1,Vari√°vel,-82.80,5622.0
3,11,novembro,52600108,02S3012,2025690918,05/11/2025,-82.80,-10.0,Burden,Consumption Material,...,,OXIGENIO 100 GASOSO 10M¬≥ WHITE MARTINS,,67099404007378,SG22639,,W1,Vari√°vel,-82.80,5622.0
4,11,novembro,52600108,02S3028,2025693730,05/11/2025,-2681.71,-10.0,Burden,Consumption Material,...,,FILME STRETCH 500MM CX C/ 2 ROLOS,,67099404007348,SG22639,,W1,Vari√°vel,-2681.71,5622.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5677,9,setembro,F81401005,02S3028,7400009231,30/09/2025,5120.81,0.0,Labor,Indirect Labor,...,,F81401005-6281 1 4050 PROV. BANCO DE HORAS INSS -,,,PXBREMOTE,,TH,Vari√°vel,5120.81,6482.0
5678,9,setembro,F81401007,02S3028,7400009231,30/09/2025,7778.16,0.0,Labor,Indirect Labor,...,,F81401007-6281 1 4050 PROV. BANCO DE HORAS INSS -,,,PXBREMOTE,,TH,Vari√°vel,7778.16,6482.0
5679,9,setembro,F81101001,02S3028,7400009231,30/09/2025,2214.76,0.0,Labor,Direct Labor,...,,F81101001-6282 1 4050 PROV. BANCO DE HORAS FGTS -,,,PXBREMOTE,,TH,Vari√°vel,2214.76,6482.0
5680,9,setembro,F81401005,02S3028,7400009231,30/09/2025,1412.62,0.0,Labor,Indirect Labor,...,,F81401005-6282 1 4050 PROV. BANCO DE HORAS FGTS -,,,PXBREMOTE,,TH,Vari√°vel,1412.62,6482.0


Total =  5849755.04


In [70]:
# ====================================================================
# üíæ SALVAR RESULTADOS E CONSOLIDAR HIST√ìRICO
# ====================================================================

print(f"\n{'='*70}")
print(f"üíæ SALVANDO RESULTADOS DO ANO {ANO_ATUAL}")
print(f"{'='*70}")

# Verificar se as vari√°veis de configura√ß√£o existem
if 'ANO_ATUAL' not in globals():
    print("‚ö†Ô∏è  Vari√°veis de configura√ß√£o n√£o encontradas!")
    print("‚ö†Ô∏è  Execute a primeira c√©lula (Configura√ß√£o do Ano) primeiro!")
    print("‚ö†Ô∏è  Salvando na raiz do projeto...")
    
    # Salvar na raiz (comportamento padr√£o)
    df_final.to_parquet('df_final.parquet')
    df_vol.to_parquet('df_vol.parquet')
    df_ke5z_group.to_parquet('df_ke5z_group.parquet')
    print("‚úÖ Arquivos salvos na raiz do projeto")
else:
    # ====================================================================
    # 1. Adicionar coluna de ano em todos os DataFrames
    # ====================================================================
    
    if 'Ano' not in df_final.columns:
        df_final['Ano'] = ANO_ATUAL
    if 'Ano' not in df_vol.columns:
        df_vol['Ano'] = ANO_ATUAL
    if 'Ano' not in df_ke5z_group.columns:
        df_ke5z_group['Ano'] = ANO_ATUAL
    
    # ====================================================================
    # 2. Salvar Parquets na pasta do ano
    # ====================================================================
    
    print(f"\nüìÑ Salvando Parquets em: {PASTA_ANO}/")
    
    df_final.to_parquet(CAMINHO_DF_FINAL)
    print(f"   ‚úÖ df_final.parquet salvo ({len(df_final):,} linhas)")
    
    df_vol.to_parquet(CAMINHO_DF_VOL)
    print(f"   ‚úÖ df_vol.parquet salvo ({len(df_vol):,} linhas)")
    
    df_ke5z_group.to_parquet(CAMINHO_DF_KE5Z_GROUP)
    print(f"   ‚úÖ df_ke5z_group.parquet salvo ({len(df_ke5z_group):,} linhas)")
    
    # ====================================================================
    # 3. Salvar Excel na pasta do ano (opcional)
    # ====================================================================
    
    print(f"\nüìä Salvando Excel em: {PASTA_ANO}/")
    
    df_final.to_excel(CAMINHO_DF_FINAL_XLSX, index=False)
    print(f"   ‚úÖ df_final.xlsx salvo")
    
    df_vol.to_excel(CAMINHO_DF_VOL_XLSX, index=False)
    print(f"   ‚úÖ df_vol.xlsx salvo")
    
    df_ke5z_group.to_excel(CAMINHO_DF_KE5Z_GROUP_XLSX, index=False)
    print(f"   ‚úÖ df_ke5z_group.xlsx salvo")
    
    # ====================================================================
    # 4. Consolidar com Hist√≥rico
    # ====================================================================
    
    def consolidar_historico(df_novo, caminho_historico, nome_df):
        """Consolida dados de TODOS os anos dispon√≠veis nas pastas"""
        
        # Buscar todos os anos dispon√≠veis nas pastas
        pasta_dados = 'dados'
        anos_disponiveis = []
        
        if os.path.exists(pasta_dados):
            for item in os.listdir(pasta_dados):
                caminho_item = os.path.join(pasta_dados, item)
                if os.path.isdir(caminho_item) and item.isdigit():
                    anos_disponiveis.append(int(item))
        
        anos_disponiveis = sorted(anos_disponiveis)
        print(f"   üìö Consolidando {nome_df} de TODOS os anos dispon√≠veis...")
        print(f"      Anos encontrados nas pastas: {anos_disponiveis}")
        
        # Carregar dados de todos os anos dispon√≠veis
        dfs_todos_anos = []
        for ano in anos_disponiveis:
            # Determinar qual arquivo buscar baseado no nome_df
            if nome_df == 'df_final':
                caminho_ano = os.path.join(pasta_dados, str(ano), 'df_final.parquet')
            elif nome_df == 'df_vol':
                caminho_ano = os.path.join(pasta_dados, str(ano), 'df_vol.parquet')
            elif nome_df == 'df_ke5z_group':
                caminho_ano = os.path.join(pasta_dados, str(ano), 'df_ke5z_group.parquet')
            else:
                continue
            
            if os.path.exists(caminho_ano):
                try:
                    df_ano = pd.read_parquet(caminho_ano)
                    # Garantir que a coluna Ano existe
                    if 'Ano' not in df_ano.columns:
                        df_ano['Ano'] = ano
                    dfs_todos_anos.append(df_ano)
                    print(f"      ‚úÖ Carregado {nome_df} do ano {ano} ({len(df_ano):,} registros)")
                except Exception as e:
                    print(f"      ‚ö†Ô∏è Erro ao carregar {caminho_ano}: {e}")
        
        if len(dfs_todos_anos) > 0:
            # Consolidar todos os anos
            df_consolidado = pd.concat(dfs_todos_anos, ignore_index=True)
            
            # Remover duplicatas se houver (baseado em todas as colunas exceto √≠ndice)
            df_consolidado = df_consolidado.drop_duplicates()
            
            # Salvar
            df_consolidado.to_parquet(caminho_historico)
            
            anos_finais = sorted(df_consolidado['Ano'].unique())
            print(f"   ‚úÖ {nome_df} consolidado!")
            print(f"      Total de registros: {len(df_consolidado):,}")
            print(f"      Anos dispon√≠veis: {anos_finais}")
            
            return df_consolidado
        else:
            print(f"   ‚ö†Ô∏è Nenhum arquivo encontrado para {nome_df}")
            # Se n√£o encontrou nenhum arquivo, usar apenas o df_novo
            df_consolidado = df_novo
            df_consolidado.to_parquet(caminho_historico)
            return df_consolidado
    
    print(f"\nüìö Consolidando Hist√≥rico em: {PASTA_HISTORICO}/")
    
    df_final_historico = consolidar_historico(df_final, CAMINHO_HISTORICO_FINAL, 'df_final')
    df_vol_historico = consolidar_historico(df_vol, CAMINHO_HISTORICO_VOL, 'df_vol')
    df_ke5z_historico = consolidar_historico(df_ke5z_group, CAMINHO_HISTORICO_KE5Z, 'df_ke5z_group')
    
    # ====================================================================
    # 5. Atualizar log de processamento
    # ====================================================================
    
    log_path = os.path.join(PASTA_ANO, '.processamento_log.txt')
    with open(log_path, 'w', encoding='utf-8') as f:
        f.write(f"Processamento de Dados - Ano {ANO_ATUAL}\n")
        f.write(f"{'='*50}\n")
        f.write(f"Data/Hora: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
        f.write(f"Arquivos processados:\n")
        for arquivo in arquivos_ok:
            f.write(f"  - {arquivo}\n")
        f.write(f"\nProcessamento conclu√≠do: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}\n")
        f.write(f"Arquivos gerados:\n")
        f.write(f"  - df_final.parquet ({len(df_final):,} linhas)\n")
        f.write(f"  - df_vol.parquet ({len(df_vol):,} linhas)\n")
        f.write(f"  - df_ke5z_group.parquet ({len(df_ke5z_group):,} linhas)\n")
    
    # ====================================================================
    # üìä RESUMO FINAL
    # ====================================================================
    
    print(f"\n{'='*70}")
    print(f"‚úÖ PROCESSAMENTO CONCLU√çDO COM SUCESSO!")
    print(f"{'='*70}")
    print(f"üìÖ Ano processado: {ANO_ATUAL}")
    print(f"\nüìÅ Arquivos salvos em:")
    print(f"   {PASTA_ANO}/")
    print(f"      ‚îú‚îÄ‚îÄ df_final.parquet ({len(df_final):,} linhas)")
    print(f"      ‚îú‚îÄ‚îÄ df_vol.parquet ({len(df_vol):,} linhas)")
    print(f"      ‚îú‚îÄ‚îÄ df_ke5z_group.parquet ({len(df_ke5z_group):,} linhas)")
    print(f"      ‚îú‚îÄ‚îÄ df_final.xlsx")
    print(f"      ‚îú‚îÄ‚îÄ df_vol.xlsx")
    print(f"      ‚îî‚îÄ‚îÄ df_ke5z_group.xlsx")
    print(f"\nüìö Hist√≥rico consolidado em:")
    print(f"   {PASTA_HISTORICO}/")
    print(f"      ‚îú‚îÄ‚îÄ df_final_historico.parquet (anos: {sorted(df_final_historico['Ano'].unique())})")
    print(f"      ‚îú‚îÄ‚îÄ df_vol_historico.parquet (anos: {sorted(df_vol_historico['Ano'].unique())})")
    print(f"      ‚îî‚îÄ‚îÄ df_ke5z_historico.parquet (anos: {sorted(df_ke5z_historico['Ano'].unique())})")
    print(f"{'='*70}")
    print(f"\nüéØ Pr√≥ximos passos:")
    print(f"   1. Verifique os arquivos gerados em: {PASTA_ANO}/")
    print(f"   2. Execute o Streamlit para visualizar os dados")
    print(f"   3. Para processar outro ano, reinicie o notebook")
    print(f"{'='*70}\n")



üíæ SALVANDO RESULTADOS DO ANO 2025

üìÑ Salvando Parquets em: dados/2025/
   ‚úÖ df_final.parquet salvo (34,092 linhas)
   ‚úÖ df_vol.parquet salvo (408 linhas)
   ‚úÖ df_ke5z_group.parquet salvo (5,682 linhas)

üìä Salvando Excel em: dados/2025/
   ‚úÖ df_final.xlsx salvo
   ‚úÖ df_vol.xlsx salvo
   ‚úÖ df_ke5z_group.xlsx salvo

üìö Consolidando Hist√≥rico em: dados/historico_consolidado/
   üìö Consolidando df_final de TODOS os anos dispon√≠veis...
      Anos encontrados nas pastas: [2024, 2025]
      ‚úÖ Carregado df_final do ano 2024 (34,092 registros)
      ‚úÖ Carregado df_final do ano 2025 (34,092 registros)
   ‚úÖ df_final consolidado!
      Total de registros: 66,384
      Anos dispon√≠veis: [np.int64(2024), np.int64(2025)]
   üìö Consolidando df_vol de TODOS os anos dispon√≠veis...
      Anos encontrados nas pastas: [2024, 2025]
      ‚úÖ Carregado df_vol do ano 2024 (408 registros)
      ‚úÖ Carregado df_vol do ano 2025 (408 registros)
   ‚úÖ df_vol consolidado!
    