In [1]:
import pathlib

import duckdb
import pyarrow.dataset as ds
from deltalake import DeltaTable

# DuckDB Read Delta

This section shows the bad, better and best ways to read Delta tables into DuckDB databases.

In [2]:
table = DeltaTable(f"{pathlib.Path.home()}/data/delta/G1_1e8_1e2_0_0")

### Bad

In [3]:
%%time

quack = duckdb.arrow(table.to_pyarrow_table())
quack.filter("id1 = 'id016' and v2 > 10")

CPU times: user 4.95 s, sys: 1.36 s, total: 6.31 s
Wall time: 1.32 s


┌─────────┬─────────┬──────────────┬───────┬───────┬────────┬───────┬───────┬───────────┐
│   id1   │   id2   │     id3      │  id4  │  id5  │  id6   │  v1   │  v2   │    v3     │
│ varchar │ varchar │   varchar    │ int32 │ int32 │ int32  │ int32 │ int32 │  double   │
├─────────┼─────────┼──────────────┼───────┼───────┼────────┼───────┼───────┼───────────┤
│ id016   │ id090   │ id0000525245 │    61 │    41 │ 673350 │     1 │    13 │ 22.017778 │
│ id016   │ id082   │ id0000317013 │    16 │    95 │ 186102 │     4 │    13 │ 59.468543 │
│ id016   │ id042   │ id0000546238 │    31 │    64 │ 935659 │     4 │    15 │ 61.077915 │
│ id016   │ id013   │ id0000988773 │    83 │    32 │ 853875 │     1 │    14 │  18.57019 │
│ id016   │ id018   │ id0000336946 │    78 │    43 │ 733969 │     4 │    12 │ 88.796414 │
│ id016   │ id063   │ id0000677420 │    27 │    73 │  90177 │     1 │    12 │ 48.825179 │
│ id016   │ id027   │ id0000453049 │    57 │    14 │ 128650 │     4 │    15 │  4.132201 │
│ id016   

### Better 

In [4]:
%%time

table = table.to_pyarrow_table(
    filter=((ds.field("id1") == "id016") & (ds.field("v2") > 10))
)
quack = duckdb.arrow(table)
quack

TypeError: to_pyarrow_table() got an unexpected keyword argument 'filter'

### Best

In [5]:
%%time

dataset = table.to_pyarrow_dataset()
quack = duckdb.arrow(dataset)
quack.filter("id1 = 'id016' and v2 > 10")

CPU times: user 3.9 ms, sys: 3.14 ms, total: 7.04 ms
Wall time: 4.67 ms


┌─────────┬─────────┬──────────────┬───────┬───────┬────────┬───────┬───────┬───────────┐
│   id1   │   id2   │     id3      │  id4  │  id5  │  id6   │  v1   │  v2   │    v3     │
│ varchar │ varchar │   varchar    │ int32 │ int32 │ int32  │ int32 │ int32 │  double   │
├─────────┼─────────┼──────────────┼───────┼───────┼────────┼───────┼───────┼───────────┤
│ id016   │ id090   │ id0000525245 │    61 │    41 │ 673350 │     1 │    13 │ 22.017778 │
│ id016   │ id082   │ id0000317013 │    16 │    95 │ 186102 │     4 │    13 │ 59.468543 │
│ id016   │ id042   │ id0000546238 │    31 │    64 │ 935659 │     4 │    15 │ 61.077915 │
│ id016   │ id013   │ id0000988773 │    83 │    32 │ 853875 │     1 │    14 │  18.57019 │
│ id016   │ id018   │ id0000336946 │    78 │    43 │ 733969 │     4 │    12 │ 88.796414 │
│ id016   │ id063   │ id0000677420 │    27 │    73 │  90177 │     1 │    12 │ 48.825179 │
│ id016   │ id027   │ id0000453049 │    57 │    14 │ 128650 │     4 │    15 │  4.132201 │
│ id016   

In [13]:
dataset = table.to_pyarrow_dataset()
quack = duckdb.arrow(dataset)
quack.filter("id1 = 'id016' and v2 > 10")

┌─────────┬─────────┬──────────────┬───────┬───────┬────────┬───────┬───────┬───────────┐
│   id1   │   id2   │     id3      │  id4  │  id5  │  id6   │  v1   │  v2   │    v3     │
│ varchar │ varchar │   varchar    │ int32 │ int32 │ int32  │ int32 │ int32 │  double   │
├─────────┼─────────┼──────────────┼───────┼───────┼────────┼───────┼───────┼───────────┤
│ id016   │ id090   │ id0000525245 │    61 │    41 │ 673350 │     1 │    13 │ 22.017778 │
│ id016   │ id082   │ id0000317013 │    16 │    95 │ 186102 │     4 │    13 │ 59.468543 │
│ id016   │ id042   │ id0000546238 │    31 │    64 │ 935659 │     4 │    15 │ 61.077915 │
│ id016   │ id013   │ id0000988773 │    83 │    32 │ 853875 │     1 │    14 │  18.57019 │
│ id016   │ id018   │ id0000336946 │    78 │    43 │ 733969 │     4 │    12 │ 88.796414 │
│ id016   │ id063   │ id0000677420 │    27 │    73 │  90177 │     1 │    12 │ 48.825179 │
│ id016   │ id027   │ id0000453049 │    57 │    14 │ 128650 │     4 │    15 │  4.132201 │
│ id016   