In [1]:
import pandas as pd
import s3fs

# Configuração do sistema de arquivos S3
fs = s3fs.S3FileSystem(
    key='ROOT',  # Your MINIO_ROOT_USER
    secret='PASSWORD',  # Your MINIO_ROOT_PASSWORD
    client_kwargs={'endpoint_url': 'http://localhost:9000'}
)

# Listando os arquivos no bucket dados-mercado
try:
    files = fs.ls('dados-mercado/BRONZE')
    print("Files in bucket:", files)
except FileNotFoundError as e:
    print("Error listing files:", e)
    files = []

# Filtrando os arquivos Parquet
parquet_files = [f for f in files if f.endswith('.parquet')]
print("Parquet files:", parquet_files)

# Lista para armazenar os DataFrames
dfs = []

# Lendo e concatenando todos os arquivos Parquet
for file in parquet_files:
    print(f"Reading file: {file}")
    try:
        with fs.open(file, 'rb') as f:
            df = pd.read_parquet(f, engine='pyarrow')
            dfs.append(df)
    except FileNotFoundError as e:
        print(f"Error reading file {file}:", e)

# Concatenando todos os DataFrames em um único DataFrame
if dfs:
    all_data_df = pd.concat(dfs, ignore_index=True)
    # Exibindo os dados
    print(all_data_df)
else:
    print("No data to concatenate.")


Files in bucket: ['dados-mercado/BRONZE/vendas_20240711231630.parquet', 'dados-mercado/BRONZE/vendas_20240711231746.parquet', 'dados-mercado/BRONZE/vendas_20240711232937.parquet', 'dados-mercado/BRONZE/vendas_20240711233129.parquet']
Parquet files: ['dados-mercado/BRONZE/vendas_20240711231630.parquet', 'dados-mercado/BRONZE/vendas_20240711231746.parquet', 'dados-mercado/BRONZE/vendas_20240711232937.parquet', 'dados-mercado/BRONZE/vendas_20240711233129.parquet']
Reading file: dados-mercado/BRONZE/vendas_20240711231630.parquet
Reading file: dados-mercado/BRONZE/vendas_20240711231746.parquet
Reading file: dados-mercado/BRONZE/vendas_20240711232937.parquet
Reading file: dados-mercado/BRONZE/vendas_20240711233129.parquet
                                               vendas
0   {'cliente': {'id': None, 'nome': None}, 'itens...
1   {'cliente': {'id': None, 'nome': None}, 'itens...
2   {'cliente': {'id': None, 'nome': None}, 'itens...
3   {'cliente': {'id': 2500.0, 'nome': 'Luara Guer...
4   