In [8]:
import pandas as pd
import polars as pl
import time
import itertools
import numpy as np

# Tamanho dos dados para testes
n_rows = 2000  # Número de linhas por DataFrame
n_dfs = 11        # Número de DataFrames para concatenar (ajustado para evitar problemas de memória)

# Número de repetições para calcular o valor médio
n_repeticoes = 1000

# Gerar dados simulados
def generate_data():
    return pd.DataFrame({
        'A': range(n_rows),
        'B': range(n_rows, 2 * n_rows)
    })

# Criação de listas com DataFrames de exemplo para pandas e polars
pandas_dfs = [generate_data() for _ in range(n_dfs)]
polars_dfs = [pl.DataFrame(df) for df in pandas_dfs]

# Listas para armazenar os tempos de execução de cada método
tempos_pandas = []
tempos_polars = []
tempos_itertools = []

# Executa o benchmark 1000 vezes
for _ in range(n_repeticoes):
    # 1. Teste de concatenação com pandas.concat
    start_time = time.time()
    pd.concat(pandas_dfs, ignore_index=True)
    tempos_pandas.append(time.time() - start_time)
    
    # 2. Teste de concatenação com polars.concat
    start_time = time.time()
    pl.concat(polars_dfs, how="vertical")
    tempos_polars.append(time.time() - start_time)
    
    # 3. Teste de concatenação usando dicionário com itertools.chain
    start_time = time.time()
    dict_data = {
        'A': list(itertools.chain.from_iterable(df['A'] for df in pandas_dfs)),
        'B': list(itertools.chain.from_iterable(df['B'] for df in pandas_dfs))
    }
    pd.DataFrame(dict_data)
    tempos_itertools.append(time.time() - start_time)

# Cálculo das médias
media_pandas = np.mean(tempos_pandas)
media_polars = np.mean(tempos_polars)
media_itertools = np.mean(tempos_itertools)

print(f"Tempo médio para pandas.concat após {n_repeticoes} repetições: {media_pandas:.4f} segundos")
print(f"Tempo médio para polars.concat após {n_repeticoes} repetições: {media_polars:.4f} segundos")
print(f"Tempo médio para concatenação com itertools.chain e dicionário após {n_repeticoes} repetições: {media_itertools:.4f} segundos")


Tempo médio para pandas.concat após 1000 repetições: 0.0017 segundos
Tempo médio para polars.concat após 1000 repetições: 0.0004 segundos
Tempo médio para concatenação com itertools.chain e dicionário após 1000 repetições: 0.0446 segundos


In [14]:
df  = polars_dfs[0]
print(type(df))
df = df_polars.to_pandas()
print(type(df))

<class 'polars.dataframe.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>
