benchingVortex

Benchmarks comparing query engines against the same dataset stored in three formats: CSV, Parquet, and Vortex.

The query is simple but realistic: count transaction failures grouped by day across a multi-file dataset (Q3/Q4 2025, one CSV per day).

Data

Path	Format	Generated from
`data/`	CSV (one file per day)	source
`data_parquet/`	Parquet (batched 10 CSVs per file)	`convert_to_parquet.py`
`data_vortex/`	Vortex	`convert_to_vortex.py`

Conversion pipeline: CSV → Parquet (via DuckDB) → Vortex (via vortex.io.write).

Benchmark scripts

CSV

Script	Engine
`failures_by_day.py`	DuckDB
`failures_by_day_polars.py`	Polars
`failures_by_day_datafusion.py`	DataFusion

Parquet (`parquet_scripts/`)

Script	Engine
`failures_by_day_duckdb.py`	DuckDB
`failures_by_day_polars.py`	Polars
`failures_by_day_datafusion.py`	DataFusion

Vortex (`vortex_scripts/`)

Script	Engine
`failures_by_day_duckdb.py`	DuckDB (via PyArrow bridge)
`failures_by_day_polars.py`	Polars (via PyArrow dataset)
`failures_by_day_pyarrow.py`	PyArrow + DuckDB
`failures_by_day_vortex.py`	Native Vortex scan + push-down filter

Note: DataFusion is not benchmarked against Vortex. DataFusion has no native Vortex reader, and bridging via PyArrow (the same approach used for DuckDB and Polars) has not been implemented yet.

Running

# setup
uv sync

# run a single benchmark
uv run python failures_by_day.py

# run all benchmarks and produce a grouped bar chart
uv run python run_benchmarks.py

Dependencies

DuckDB
Polars
DataFusion
Vortex
PyArrow
matplotlib (for run_benchmarks.py)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

benchingVortex

Data

Benchmark scripts

CSV

Parquet (`parquet_scripts/`)

Vortex (`vortex_scripts/`)

Running

Dependencies

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
parquet_scripts		parquet_scripts
vortex_scripts		vortex_scripts
README.md		README.md
benchmark_results.png		benchmark_results.png
convert_to_parquet.py		convert_to_parquet.py
convert_to_vortex.py		convert_to_vortex.py
failures_by_day.py		failures_by_day.py
failures_by_day_datafusion.py		failures_by_day_datafusion.py
failures_by_day_polars.py		failures_by_day_polars.py
hello.py		hello.py
pyproject.toml		pyproject.toml
run_benchmarks.py		run_benchmarks.py
uv.lock		uv.lock

Folders and files

Latest commit

History

Repository files navigation

benchingVortex

Data

Benchmark scripts

CSV

Parquet (parquet_scripts/)

Vortex (vortex_scripts/)

Running

Dependencies

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Parquet (`parquet_scripts/`)

Vortex (`vortex_scripts/`)

Packages