In [4]:
import os
import pandas as pd

In [5]:
def compile_csv_to_parquet(input_dir: str, output_path: str):
    """
    Função para ler todos os arquivos .csv de um diretório local e gerar um único arquivo compilado em formato Parquet utilizando pandas.

    Args:
        input_dir (str): Diretório contendo os arquivos .csv.
        output_path (str): Caminho onde o arquivo Parquet será salvo.
    """
    # Lista para armazenar os DataFrames
    dataframes = []

    # Percorre todos os arquivos do diretório
    for filename in os.listdir(input_dir):
        if filename.lower().endswith('.csv'):
            file_path = os.path.join(input_dir, filename)
            try:
                df = pd.read_csv(file_path)
                dataframes.append(df)
            except Exception as e:
                print(f"Erro ao ler o arquivo {file_path}: {e}")

    # Se encontrou pelo menos um CSV, concatena e salva em Parquet
    if dataframes:
        final_df = pd.concat(dataframes, ignore_index=True)
        try:
            # É necessário ter 'pyarrow' ou 'fastparquet' instalado para salvar em Parquet
            final_df.to_parquet(output_path, index=False)
            print(f"Arquivo compilado salvo em: {output_path}")
        except Exception as e:
            print(f"Erro ao salvar o arquivo Parquet: {e}")
    else:
        print("Nenhum arquivo .csv encontrado no diretório fornecido.")


In [10]:
input_dir = R"C:\Users\rodri\Desktop\datathon-fiap-final"
output_path = R"C:\Users\rodri\Desktop\datathon-fiap-final\validation.parquet"
compile_csv_to_parquet(input_dir, output_path)


Arquivo compilado salvo em: C:\Users\rodri\Desktop\datathon-fiap-final\validation.parquet
