# DuckDB h2o benchmarks

In [2]:
import duckdb
import psutil

In [2]:
%%time
query = """
SELECT id1, sum(v1) AS v1 
FROM read_csv_auto('~/data/G1_1e7_1e2_0_0.csv', header=True) 
GROUP BY id1
"""
duckdb.sql(query).show()

┌─────────┬────────┐
│   id1   │   v1   │
│ varchar │ int128 │
├─────────┼────────┤
│ id016   │ 298268 │
│ id039   │ 299711 │
│ id047   │ 298115 │
│ id043   │ 299557 │
│ id054   │ 299408 │
│ id029   │ 298486 │
│ id091   │ 300497 │
│ id090   │ 299207 │
│ id070   │ 298446 │
│ id023   │ 299417 │
│   ·     │    ·   │
│   ·     │    ·   │
│   ·     │    ·   │
│ id080   │ 302108 │
│ id068   │ 299946 │
│ id077   │ 301454 │
│ id028   │ 298640 │
│ id084   │ 301421 │
│ id008   │ 300392 │
│ id062   │ 299313 │
│ id011   │ 300188 │
│ id059   │ 301107 │
│ id096   │ 300114 │
├─────────┴────────┤
│     100 rows     │
│    (20 shown)    │
└──────────────────┘

CPU times: user 1.92 s, sys: 103 ms, total: 2.02 s
Wall time: 2.03 s


In [3]:
%%time
query = """
SELECT id1, sum(v1) AS v1 
FROM read_csv_auto('~/data/G1_1e7_1e2_0_0.csv', header=True) 
GROUP BY id1
"""
duckdb.sql(query).show()

┌─────────┬────────┐
│   id1   │   v1   │
│ varchar │ int128 │
├─────────┼────────┤
│ id016   │ 298268 │
│ id039   │ 299711 │
│ id047   │ 298115 │
│ id043   │ 299557 │
│ id054   │ 299408 │
│ id029   │ 298486 │
│ id091   │ 300497 │
│ id090   │ 299207 │
│ id070   │ 298446 │
│ id023   │ 299417 │
│   ·     │    ·   │
│   ·     │    ·   │
│   ·     │    ·   │
│ id080   │ 302108 │
│ id068   │ 299946 │
│ id077   │ 301454 │
│ id028   │ 298640 │
│ id084   │ 301421 │
│ id008   │ 300392 │
│ id062   │ 299313 │
│ id011   │ 300188 │
│ id059   │ 301107 │
│ id096   │ 300114 │
├─────────┴────────┤
│     100 rows     │
│    (20 shown)    │
└──────────────────┘

CPU times: user 1.91 s, sys: 77.9 ms, total: 1.99 s
Wall time: 1.99 s


In [3]:
%%time
conn = duckdb.connect()
conn.execute("SET experimental_parallel_csv=TRUE")
query = """
SELECT id1, sum(v1) AS v1 
FROM read_csv_auto('~/data/G1_1e7_1e2_0_0.csv', header=True) 
GROUP BY id1
"""
conn.execute(query).show()

AttributeError: 'duckdb.DuckDBPyConnection' object has no attribute 'show'

## Try adjusting settings

In [3]:
print(f"Available memory: {round(psutil.virtual_memory().available * 1e-9, 0)}GB")
print(f"Available threads: {psutil.cpu_count(logical=True)}")

Available memory: 42.0GB
Available threads: 10


In [4]:
duckdb.sql("SET memory_limit='20GB';")
duckdb.sql("SET threads TO 10;")

In [8]:
duckdb.sql('PRAGMA disable_progress_bar;')

In [5]:
duckdb.sql("SELECT * FROM duckdb_settings();")

┌──────────────────────┬──────────────────┬───────────────────────────────────────────────────────────────┬────────────┐
│         name         │      value       │                          description                          │ input_type │
│       varchar        │     varchar      │                            varchar                            │  varchar   │
├──────────────────────┼──────────────────┼───────────────────────────────────────────────────────────────┼────────────┤
│ access_mode          │ automatic        │ Access mode of the database (AUTOMATIC, READ_ONLY or READ_W…  │ VARCHAR    │
│ checkpoint_threshold │ 16.7MB           │ The WAL size threshold at which to automatically trigger a …  │ VARCHAR    │
│ debug_checkpoint_a…  │ none             │ DEBUG SETTING: trigger an abort while checkpointing for tes…  │ VARCHAR    │
│ debug_force_external │ false            │ DEBUG SETTING: force out-of-core computation for operators …  │ BOOLEAN    │
│ debug_force_no_cro…  │ false  

In [5]:
duckdb.sql("SELECT current_setting('memory_limit');")

┌─────────────────────────────────┐
│ current_setting('memory_limit') │
│             varchar             │
├─────────────────────────────────┤
│ 20.0GB                          │
└─────────────────────────────────┘

In [6]:
duckdb.sql("SELECT current_setting('threads');")

┌────────────────────────────┐
│ current_setting('threads') │
│           int64            │
├────────────────────────────┤
│                         10 │
└────────────────────────────┘

In [9]:
duckdb.sql("SELECT current_setting('enable_progress_bar');")

┌────────────────────────────────────────┐
│ current_setting('enable_progress_bar') │
│                boolean                 │
├────────────────────────────────────────┤
│ false                                  │
└────────────────────────────────────────┘

In [None]:
%%time
conn = duckdb.connect()
conn.execute("SET experimental_parallel_csv=TRUE")
query = """
SELECT id1, sum(v1) AS v1 
FROM read_csv_auto('~/data/G1_1e8_1e2_0_0.csv', header=True) 
GROUP BY id1
"""
conn.execute(query).show()