In [7]:
import pandas as pd
import os
import sys
from pathlib import Path  # Melhor forma para trabalhar com caminhos
from unidecode import unidecode


### Convertendo xlsx para csv


In [10]:
pasta_origem = r'E:\PYTHON\PROJETOS_PESSOAIS\analise_weg\_02_DATASETS\datasets_original'
pasta_destino = r"E:\PYTHON\PROJETOS_PESSOAIS\analise_weg\_03_ANALISE_EXPLORATORIA\_03_02_analises_01"

for arquivo in os.listdir(pasta_origem):
    if arquivo.endswith('.xlsx'):
        entrada = os.path.join(pasta_origem, arquivo)
        saida = os.path.join(pasta_destino, arquivo.replace('.xlsx', '.csv'))
        try:
            df = pd.read_excel(entrada, header=1, engine='openpyxl')
            df.to_csv(saida, index=False)
            print(f"Convertido: {arquivo}")
        except Exception as e:
            print(f"Erro ao converter {arquivo}: {e}")


Convertido: Balanço Patrimonial (BP).xlsx
Convertido: Demonstração de Fluxo de Caixa (DFC).xlsx
Convertido: Demonstração de Resultados (DRE).xlsx


### Pivotando arquivos CSV

In [12]:


def process_files(input_folder, output_folder):
    """Processa todos os arquivos CSV na pasta de entrada e salva na pasta de saída"""
    # Garante que a pasta de saída existe
    Path(output_folder).mkdir(parents=True, exist_ok=True)
    

    for arquivo in os.listdir(input_folder):
        if arquivo.endswith('.csv') or arquivo.endswith('.xlsx'):
            try:
                nome = os.path.splitext(arquivo)[0]
                file_path = os.path.join(input_folder, arquivo)
                #trasnformar arquivo para csv e retirar a prima linha
                if arquivo.endswith('.xlsx'):
                    df = pd.read_excel(file_path, header=1)
                    #cria um  nome temporário para o CSV
                    temp_csv_path = os.path.join(input_folder, f"temp_{nome}.csv")
                    df.to_csv(temp_csv_path, index=False, encoding='utf-8')
                    file_path = temp_csv_path
                # Ler o CSV
                df = pd.read_csv(file_path, encoding='utf-8')
                
                # Transformar de wide para long
                df_long = df.melt(
                    id_vars=['Código da Conta','Descrição da Conta'],
                    var_name='data',
                    value_name='valor'
                )
           
                # Tratamento de nulos
                df_long = df_long.assign(valor =lambda x: x['valor'].fillna(0))
                                        
                # Ordenação
                df_long = df_long.sort_values(['Código da Conta','data'])
                
                # Salvar arquivo processado
                output_file = f"{nome}_rotacionado.csv"
                output_path = os.path.join(output_folder, output_file)
                df_long.to_csv(output_path, index=False, encoding='utf-8')
                
                print(f"Arquivo {arquivo} processado com sucesso! Salvo como {output_file}")
                print(df_long.head())
                
            except Exception as e:
                print(f"Erro ao processar o arquivo {arquivo}: {str(e)}")

# Configuração dos caminhos (usando Path para compatibilidade entre sistemas)
base_dir = Path(r"E:\PYTHON\PROJETOS_PESSOAIS\analise_weg")
input_folder = base_dir / "_03_ANALISE_EXPLORATORIA\_03_02_analises_01"
output_folder = base_dir / "_04_ETL/datasets_pivotados"

# Executar o processamento
process_files(input_folder, output_folder)

  input_folder = base_dir / "_03_ANALISE_EXPLORATORIA\_03_02_analises_01"


Arquivo Balanço Patrimonial (BP).csv processado com sucesso! Salvo como Balanço Patrimonial (BP)_rotacionado.csv
    Código da Conta Descrição da Conta                 data  valor
44                                 NaN  2010-03-31 00:00:00    0.0
45                                 NaN  2010-03-31 00:00:00    0.0
153                                NaN  2010-06-30 00:00:00    0.0
154                                NaN  2010-06-30 00:00:00    0.0
262                                NaN  2010-09-30 00:00:00    0.0
Arquivo Demonstração de Fluxo de Caixa (DFC).csv processado com sucesso! Salvo como Demonstração de Fluxo de Caixa (DFC)_rotacionado.csv
    Código da Conta                     Descrição da Conta  \
0              6.01  Caixa Líquido Atividades Operacionais   
58             6.01  Caixa Líquido Atividades Operacionais   
116            6.01  Caixa Líquido Atividades Operacionais   
174            6.01  Caixa Líquido Atividades Operacionais   
232            6.01  Caixa Líquido Ati

In [22]:
df = pd.read_csv(r"E:\PYTHON\PROJETOS_PESSOAIS\analise_weg\_04_ETL\datasets_pivotados\Balanço Patrimonial (BP)_rotacionado.csv")

In [23]:
df.head(100)  # Exibir as primeiras linhas do DataFrame para verificação

Unnamed: 0,Código da Conta,Descrição da Conta,data,valor
0,,,2010-03-31 00:00:00,0.0
1,,,2010-03-31 00:00:00,0.0
2,,,2010-06-30 00:00:00,0.0
3,,,2010-06-30 00:00:00,0.0
4,,,2010-09-30 00:00:00,0.0
...,...,...,...,...
95,,,2021-12-31 00:00:00,0.0
96,,,2022-03-31 00:00:00,0.0
97,,,2022-03-31 00:00:00,0.0
98,,,2022-06-30 00:00:00,0.0


### Alterar cabeçalhos para maiúsculas e substituir espaços por underline

In [8]:
pasta_origem = r'E:\PYTHON\PROJETOS_PESSOAIS\analise_weg\_04_ETL\datasets_pivotados'
pasta_destino = r"E:\PYTHON\PROJETOS_PESSOAIS\analise_weg\_04_ETL\_04_01_dataset_convertido"

for arquivo in os.listdir(pasta_origem):
    if arquivo.endswith('.csv'):
        entrada = os.path.join(pasta_origem, arquivo)
        saida = os.path.join(pasta_destino, arquivo)
        try:
            df = pd.read_csv(entrada, encoding='utf-8')
            df.columns = [unidecode(str(col)).upper().replace(' ', '_') for col in df.columns]
            df.to_csv(saida, index=False)
            print(f"Convertido: {arquivo}")
        except Exception as e:
            print(f"Erro ao converter {arquivo}: {e}")

Convertido: Balanço Patrimonial (BP)_rotacionado.csv
Convertido: Demonstração de Fluxo de Caixa (DFC)_rotacionado.csv
Convertido: Demonstração de Resultados (DRE)_rotacionado.csv
