In [1]:
import pathlib

import duckdb
import pyarrow.dataset as ds
from deltalake import DeltaTable

# DuckDB Read Delta

This section shows the bad, better and best ways to read Delta tables into DuckDB databases.

In [6]:
table = DeltaTable(f"{pathlib.Path.home()}/data/delta/G1_1e9_1e2_0_0")

### Bad

In [7]:
%%time

quack = duckdb.arrow(table.to_pyarrow_table())
quack.filter("id1 = 'id016' and v2 > 10")

CPU times: user 50.8 s, sys: 20.3 s, total: 1min 11s
Wall time: 20.7 s


┌─────────┬─────────┬──────────────┬───────┬───────┬─────────┬───────┬───────┬───────────┐
│   id1   │   id2   │     id3      │  id4  │  id5  │   id6   │  v1   │  v2   │    v3     │
│ varchar │ varchar │   varchar    │ int32 │ int32 │  int32  │ int32 │ int32 │  double   │
├─────────┼─────────┼──────────────┼───────┼───────┼─────────┼───────┼───────┼───────────┤
│ id016   │ id054   │ id0002309114 │    62 │    95 │ 7180859 │     4 │    13 │  7.750173 │
│ id016   │ id044   │ id0003968533 │    63 │    98 │ 2356363 │     4 │    14 │  3.942417 │
│ id016   │ id034   │ id0001082839 │    58 │    73 │ 8039808 │     5 │    12 │ 76.820135 │
│ id016   │ id037   │ id0006298446 │    29 │    34 │ 2173400 │     2 │    13 │ 68.078028 │
│ id016   │ id034   │ id0008791534 │    76 │    92 │ 6022714 │     1 │    12 │ 76.331411 │
│ id016   │ id002   │ id0009927251 │    34 │    97 │ 1126082 │     1 │    11 │ 51.147419 │
│ id016   │ id049   │ id0008934288 │    96 │     8 │ 3574132 │     5 │    14 │ 70.233415 │

### Better 

In [8]:
%%time

table = table.to_pyarrow_table(
    filter=((ds.field("id1") == "id016") & (ds.field("v2") > 10))
)
quack = duckdb.arrow(table)
quack

TypeError: to_pyarrow_table() got an unexpected keyword argument 'filter'

### Best

In [9]:
%%time

dataset = table.to_pyarrow_dataset()
quack = duckdb.arrow(dataset)
quack.filter("id1 = 'id016' and v2 > 10")

CPU times: user 9.95 ms, sys: 5.86 ms, total: 15.8 ms
Wall time: 14 ms


┌─────────┬─────────┬──────────────┬───────┬───────┬─────────┬───────┬───────┬───────────┐
│   id1   │   id2   │     id3      │  id4  │  id5  │   id6   │  v1   │  v2   │    v3     │
│ varchar │ varchar │   varchar    │ int32 │ int32 │  int32  │ int32 │ int32 │  double   │
├─────────┼─────────┼──────────────┼───────┼───────┼─────────┼───────┼───────┼───────────┤
│ id016   │ id054   │ id0002309114 │    62 │    95 │ 7180859 │     4 │    13 │  7.750173 │
│ id016   │ id044   │ id0003968533 │    63 │    98 │ 2356363 │     4 │    14 │  3.942417 │
│ id016   │ id034   │ id0001082839 │    58 │    73 │ 8039808 │     5 │    12 │ 76.820135 │
│ id016   │ id037   │ id0006298446 │    29 │    34 │ 2173400 │     2 │    13 │ 68.078028 │
│ id016   │ id034   │ id0008791534 │    76 │    92 │ 6022714 │     1 │    12 │ 76.331411 │
│ id016   │ id002   │ id0009927251 │    34 │    97 │ 1126082 │     1 │    11 │ 51.147419 │
│ id016   │ id049   │ id0008934288 │    96 │     8 │ 3574132 │     5 │    14 │ 70.233415 │

In [10]:
dataset = table.to_pyarrow_dataset()
quack = duckdb.arrow(dataset)
quack.filter("id1 = 'id016' and v2 > 10")

┌─────────┬─────────┬──────────────┬───────┬───────┬─────────┬───────┬───────┬───────────┐
│   id1   │   id2   │     id3      │  id4  │  id5  │   id6   │  v1   │  v2   │    v3     │
│ varchar │ varchar │   varchar    │ int32 │ int32 │  int32  │ int32 │ int32 │  double   │
├─────────┼─────────┼──────────────┼───────┼───────┼─────────┼───────┼───────┼───────────┤
│ id016   │ id054   │ id0002309114 │    62 │    95 │ 7180859 │     4 │    13 │  7.750173 │
│ id016   │ id044   │ id0003968533 │    63 │    98 │ 2356363 │     4 │    14 │  3.942417 │
│ id016   │ id034   │ id0001082839 │    58 │    73 │ 8039808 │     5 │    12 │ 76.820135 │
│ id016   │ id037   │ id0006298446 │    29 │    34 │ 2173400 │     2 │    13 │ 68.078028 │
│ id016   │ id034   │ id0008791534 │    76 │    92 │ 6022714 │     1 │    12 │ 76.331411 │
│ id016   │ id002   │ id0009927251 │    34 │    97 │ 1126082 │     1 │    11 │ 51.147419 │
│ id016   │ id049   │ id0008934288 │    96 │     8 │ 3574132 │     5 │    14 │ 70.233415 │