In [1]:
import duckdb
duckdb.install_extension("json")
duckdb.load_extension("json")

In [2]:
# Json
sql = """
SELECT 
    '{"duck":"canard"}'
AS duck
"""
duckdb.sql(sql)

┌───────────────────┐
│       duck        │
│      varchar      │
├───────────────────┤
│ {"duck":"canard"} │
└───────────────────┘

In [3]:
sql = """
SELECT 
    '{"duck":"canard"}' ->> 'duck'
AS duck
"""
duckdb.sql(sql)

┌─────────┐
│  duck   │
│ varchar │
├─────────┤
│ canard  │
└─────────┘

In [4]:
sql = """
SELECT COUNT(*) FROM '/root/work/vhe/tmp/gh.json'
"""

duckdb.sql(sql)

┌──────────────┐
│ count_star() │
│    int64     │
├──────────────┤
│       161519 │
└──────────────┘

In [5]:
sql = """
SELECT * 
FROM '/root/work/vhe/tmp/gh.json'
LIMIT 1
"""

obj = duckdb.sql(sql)
print(obj)

┌─────────────┬───────────┬──────────────────────┬───┬─────────┬─────────────────────┬──────────────────────┐
│     id      │   type    │        actor         │ … │ public  │     created_at      │         org          │
│    int64    │  varchar  │ struct(id bigint, …  │   │ boolean │      timestamp      │ struct(id bigint, …  │
├─────────────┼───────────┼──────────────────────┼───┼─────────┼─────────────────────┼──────────────────────┤
│ 26168107646 │ PushEvent │ {'id': 118267114, …  │ … │ true    │ 2023-01-01 15:00:00 │ NULL                 │
├─────────────┴───────────┴──────────────────────┴───┴─────────┴─────────────────────┴──────────────────────┤
│ 1 rows                                                                                8 columns (6 shown) │
└───────────────────────────────────────────────────────────────────────────────────────────────────────────┘



In [6]:
import pprint
pp = pprint.PrettyPrinter(indent=4)

In [7]:
dic = obj.to_df().to_dict()
pp.pprint(dic)


{   'actor': {   0: {   'avatar_url': 'https://avatars.githubusercontent.com/u/118267114?',
                        'display_login': 'Mir-Ismayil-Asadullayev',
                        'gravatar_id': '',
                        'id': 118267114,
                        'login': 'Mir-Ismayil-Asadullayev',
                        'url': 'https://api.github.com/users/Mir-Ismayil-Asadullayev'}},
    'created_at': {0: Timestamp('2023-01-01 15:00:00')},
    'id': {0: 26168107646},
    'org': {0: nan},
    'payload': {   0: {   'action': None,
                          'before': 'f03ceafc1a4f4d22a9178d2c53943c7b77ce44c8',
                          'comment': None,
                          'commits': [   {   'author': {   'email': '118267114+Mir-Ismayil-Asadullayev@users.noreply.github.com',
                                                           'name': 'Mir-Ismayil'},
                                             'distinct': True,
                                             'message': 'Upd

In [8]:
sql = """
SELECT 
    actor.display_login, COUNT(*) c
FROM '/root/work/vhe/tmp/gh.json'
GROUP BY actor.display_login
ORDER BY c DESC
LIMIT 100
"""

top100 = duckdb.sql(sql)
print(top100)

┌──────────────────────┬───────┐
│    display_login     │   c   │
│       varchar        │ int64 │
├──────────────────────┼───────┤
│ dependabot           │ 49989 │
│ github-actions       │ 17965 │
│ LombiqBot            │  2244 │
│ vercel               │  1263 │
│ ivy-root             │   828 │
│ renovate             │   688 │
│ direwolf-github      │   681 │
│ B4kedBr3ad           │   619 │
│ Rolleander           │   580 │
│ pull                 │   526 │
│  ·                   │     · │
│  ·                   │     · │
│  ·                   │     · │
│ prepheadrus          │    54 │
│ ehtagtranslation     │    53 │
│ africanmoose         │    53 │
│ tamilthalaiva        │    52 │
│ test987987           │    50 │
│ JimmyZhangJW         │    49 │
│ supervpnops          │    49 │
│ CoolBeansProgramming │    48 │
│ horsicq              │    47 │
│ moogle19             │    47 │
├──────────────────────┴───────┤
│     100 rows (20 shown)      │
└──────────────────────────────┘



In [35]:
duckdb.sql("COPY top100 TO '/root/work/vhe/tmp/top100.json'")

┌─────────────┬─────────────┬─────────┬─────────┬─────────┬───────┐
│ column_name │ column_type │  null   │   key   │ default │ extra │
│   varchar   │   varchar   │ varchar │ varchar │ varchar │ int32 │
├─────────────┼─────────────┼─────────┼─────────┼─────────┼───────┤
│ schemaname  │ VARCHAR     │ YES     │ NULL    │ NULL    │  NULL │
│ viewname    │ VARCHAR     │ YES     │ NULL    │ NULL    │  NULL │
│ viewowner   │ VARCHAR     │ YES     │ NULL    │ NULL    │  NULL │
│ definition  │ VARCHAR     │ YES     │ NULL    │ NULL    │  NULL │
└─────────────┴─────────────┴─────────┴─────────┴─────────┴───────┘