In [1]:
import pandas as pd

import time
import os

# Função para ler o arquivo CSV de maneira otimizada
def read_large_csv(file_path):
    # Usando o parâmetro 'usecols' para carregar apenas as colunas necessárias
    cols_needed = ['NU_DOCUMENTO', 'VALOR_NOMINAL', 'VALOR_PRESENTE', 'VALOR_AQUISICAO']
    df = pd.read_csv(file_path, usecols=cols_needed, sep=";", thousands=",", on_bad_lines='warn')
    df["VALOR_NOMINAL"] = pd.to_numeric(df["VALOR_NOMINAL"])
    df["VALOR_PRESENTE"] = pd.to_numeric(df["VALOR_PRESENTE"])
    df["VALOR_AQUISICAO"] = pd.to_numeric(df["VALOR_AQUISICAO"])
    print(df.head())
    return df

# Função para calcular estatísticas
def calculate_statistics(df, entity_filter=None):
    # Calculando as estatísticas
    stats = df.groupby('NU_DOCUMENTO').agg(
        VALOR_NOMINAL_SUM=('VALOR_NOMINAL', 'sum'),
        VALOR_NOMINAL_AVG=('VALOR_NOMINAL', 'mean'),
        VALOR_NOMINAL_MAX=('VALOR_NOMINAL', 'max'),
        VALOR_NOMINAL_MIN=('VALOR_NOMINAL', 'min'),
        
        VALOR_PRESENTE_SUM=('VALOR_PRESENTE', 'sum'),
        VALOR_PRESENTE_AVG=('VALOR_PRESENTE', 'mean'),
        VALOR_PRESENTE_MAX=('VALOR_PRESENTE', 'max'),
        VALOR_PRESENTE_MIN=('VALOR_PRESENTE', 'min'),
        
        VALOR_AQUISICAO_SUM=('VALOR_AQUISICAO', 'sum'),
        VALOR_AQUISICAO_AVG=('VALOR_AQUISICAO', 'mean'),
        VALOR_AQUISICAO_MAX=('VALOR_AQUISICAO', 'max'),
        VALOR_AQUISICAO_MIN=('VALOR_AQUISICAO', 'min')
    ).reset_index()

    return stats

# Função para salvar as estatísticas em um arquivo CSV
def save_statistics_to_csv(stats_df, output_file):
    stats_df.to_csv(output_file, index=False)
    print(f"Estatísticas salvas em {output_file}")

# Função principal para executar o desafio
def main(input_path, entity_filter=None, output_file="estatisticas_financeiras.csv"):
    output_dir = os.getcwd() + "/output/"
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    # Leitura dos dados do arquivo CSV
    start_time = time.time()
    df_lst = []
    for file in os.listdir(input_path):
        if (".csv" in file) and not ("Zone.Identifier" in file):
            file_path = input_path + file
            print(file_path)
            df_lst.append(read_large_csv(file_path))

    df = pd.concat(df_lst)
    print(f"Tempo de leitura dos arquivos: {time.time() - start_time:.2f} segundos")

    # Cálculo das estatísticas
    start_time = time.time()
    stats = calculate_statistics(df, entity_filter)
    print(f"Tempo de cálculo das estatísticas: {time.time() - start_time:.2f} segundos")

    # Salvando as estatísticas em um novo arquivo CSV
    output_file_path = output_dir + output_file
    save_statistics_to_csv(stats, output_file_path)

input_file = os.getcwd() + "/files/"  # Substitua pelo caminho do seu arquivo
main(input_file)


/Users/vitor.carvalho/Desktop/Workspace/go-performance-challenge-kanastra/files/58148845000109_Estoque_PICPAY FGTS FIDC_0040 copy.csv
   VALOR_NOMINAL  VALOR_PRESENTE  VALOR_AQUISICAO  NU_DOCUMENTO
0          30.17            9.93             9.83     109327240
1          28.16            7.47             7.39     109327240
2          48.70           48.00            47.48     108425838
3          58.44           46.39            45.91     108425838
4          40.91           26.17            25.90     108425838
/Users/vitor.carvalho/Desktop/Workspace/go-performance-challenge-kanastra/files/58148845000109_Estoque_PICPAY FGTS FIDC_0041 copy.csv
   VALOR_NOMINAL  VALOR_PRESENTE  VALOR_AQUISICAO  NU_DOCUMENTO
0          26.41           15.18            15.02     110918745
1          19.80            9.16             9.07     110918745
2          17.35            6.48             6.41     110918745
3           8.68            2.61             2.58     110918745
4           5.23            

In [5]:

import os
import pandas as pd

input_path = os.getcwd() + "/files/"  # Substitua pelo caminho do seu arquivo

output_dir = os.getcwd() + "/output/"
if not os.path.exists(output_dir):
    os.makedirs(output_dir)
# Leitura dos dados do arquivo CSV
df_lst = []
for file in os.listdir(input_path):
    if (".csv" in file) and not ("Zone.Identifier" in file):
        file_path = input_path + file
        print(file_path)
        df_lst.append(read_large_csv(file_path))

df = pd.concat(df_lst)

/Users/vitor.carvalho/Desktop/Workspace/go-performance-challenge-kanastra/files/58148845000109_Estoque_PICPAY FGTS FIDC_0047.csv
   VALOR_NOMINAL  VALOR_PRESENTE  VALOR_AQUISICAO  NU_DOCUMENTO
0           9.02            2.92             2.89     116679461
1          77.23           46.05            45.65     116678411
2          38.61           18.54            18.38     116678411
3          19.31            7.47             7.41     116678411
4          13.38            4.18             4.14     116678411
/Users/vitor.carvalho/Desktop/Workspace/go-performance-challenge-kanastra/files/58148845000109_Estoque_PICPAY FGTS FIDC_0046.csv
   VALOR_NOMINAL  VALOR_PRESENTE  VALOR_AQUISICAO  NU_DOCUMENTO
0          12.20            6.65             6.59     116870271
1           6.10            2.67             2.65     116870271
2          68.44           65.34            64.79     116629004
3          63.88           49.72            49.32     116629004
4          46.61           29.59      

In [10]:
len(df["NU_DOCUMENTO"].unique())

1009934