Gerando um DataFrame grande de exemplo

In [1]:
import pandas as pd
import numpy as np

df = pd.DataFrame({
    "id": range(1, 1_000_001),
    "categoria": np.random.choice(["A", "B", "C", "D"], size=1_000_000),
    "valor": np.random.rand(1_000_000) * 1000,
    "data": pd.date_range(start="2020-01-01", periods=1_000_000, freq="min")
})

Salvando os dados nos formatos CSV e Parquet e exibindo o tempo de criação dos arquivos com os dados

In [3]:
import time

# Passando os dados para um arquivo CSV
start_csv = time.time()
df.to_csv("dados.csv", index=False)
print(f"Tempo CSV: {round(time.time() - start_csv, 2)} segundos")

# Passando os dados para um arquivo Parquet
start_parquet = time.time()
df.to_parquet("dados.parquet", index=False)
print(f"Tempo Parquet: {round(time.time() - start_parquet, 2)} segundos")

Tempo CSV: 4.04 segundos
Tempo Parquet: 0.28 segundos


Comparação do tamanho em MB dos arquivos CSV e Parquet

In [5]:
import os

csv_size = os.path.getsize("dados.csv") / 1024 / 1024
parquet_size = os.path.getsize("dados.parquet") / 1024 / 1024

print(f"Tamanho do arquivo CSV: {csv_size: .2f} MB")
print(f"Tamanho do arquivo Parquet: {parquet_size: .2f} MB")

Tamanho do arquivo CSV:  45.83 MB
Tamanho do arquivo Parquet:  19.18 MB


Verificando e comparando os tipos de dados dos dois tipos de arquivos

In [11]:
df_csv = pd.read_csv("dados.csv")
df_parquet = pd.read_parquet("dados.parquet")

print("Tipos de dados CSV:")
print(df_csv.dtypes)
print()
print("Tipos de dados Parquet:")
print(df_parquet.dtypes)

Tipos de dados CSV:
id             int64
categoria     object
valor        float64
data          object
dtype: object

Tipos de dados Parquet:
id                    int64
categoria            object
valor               float64
data         datetime64[ns]
dtype: object


Comparando tempo de leitura

In [13]:
# Leitura dos dados do arquivo CSV
start_csv = time.time()
df_csv = pd.read_csv("dados.csv")
print(f"Tempo de leitura CSV: {round(time.time() - start_csv, 2)} segundos")

# Leitura dos dados do arquivo Parquet
start_parquet = time.time()
df_parquet = pd.read_parquet("dados.parquet")
print(f"Tempo de leitura Parquet: {round(time.time() - start_parquet, 2)} segundos")

Tempo de leitura CSV: 1.06 segundos
Tempo de leitura Parquet: 0.19 segundos
