In [1]:
import zipfile
import os
import pandas as pd

In [2]:
def concatenar_csvs(diretorio):
    frames = []

    for arquivo in os.listdir(diretorio):
        if arquivo.endswith('.csv'):
            caminho_arquivo = os.path.join(diretorio, arquivo)
            
            df = pd.read_csv(caminho_arquivo, encoding='utf-8', delimiter=";", decimal=",")
            df = df.rename(columns={df.columns[0]: "data_base"})
            df['data_base'] = pd.to_datetime(df['data_base'], format="%Y-%m-%d")
            df = df[['data_base', 'cliente', 'uf', 'ocupacao', 'cnae_secao', 'ativo_problematico']]
            df.loc[df['ocupacao'] == '-', 'ocupacao'] = df['cnae_secao'] #Adiciona o valor da coluna cnae_secao quando a coluna ocupacao é "-"
            df['data_base'] = df['data_base'].dt.strftime('%Y-%m')
            df = df.groupby(['data_base','cliente','uf', 'ocupacao'])['ativo_problematico'].sum().reset_index()
            
            frames.append(df)

    df_concatenado = pd.concat(frames, ignore_index=True)

    return df_concatenado

In [3]:
anos = list(range(2012, 2024))
dataframes = []

for ano in anos:
    diretorio = f"planilha_{ano}"
    dataframe_ano = concatenar_csvs(diretorio)
    dataframes.append(dataframe_ano)

df_total = pd.concat(dataframes, ignore_index=False)

In [4]:
df_total.info()

<class 'pandas.core.frame.DataFrame'>
Index: 100768 entries, 0 to 6077
Data columns (total 5 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   data_base           100768 non-null  object 
 1   cliente             100768 non-null  object 
 2   uf                  100768 non-null  object 
 3   ocupacao            100768 non-null  object 
 4   ativo_problematico  100768 non-null  float64
dtypes: float64(1), object(4)
memory usage: 4.6+ MB


In [5]:
df_total.head(3)

Unnamed: 0,data_base,cliente,uf,ocupacao,ativo_problematico
0,2012-06,PF,AC,PF - Aposentado/pensionista,11059627.37
1,2012-06,PF,AC,PF - Autônomo,9468465.85
2,2012-06,PF,AC,PF - Empregado de empresa privada,6425010.86


In [6]:
df_total.to_csv("cliente_uf_ocupacao_carteira_ativa.csv")