In [1]:
import duckdb
import pandas as pd

### CSV em memoria

In [None]:
# duckdb em memoria
con = duckdb.connect(database=':memory')

# importar arquivos csv
con.execute("CREATE TABLE my_table AS SELECT * FROM read_csv_auto('data/data.csv')")

# Realizar algumas consultas 
result_df = con.sql("SELECT * FROM my_table LIMIT 10")

# Exibir o resultado em formato de DataFrame
print(result_df)

# Fechar a conexão
con.close()

┌─────────┬────────────────┬───────┬─────────────────┬───────────────┐
│ user_id │      name      │  age  │ purchase_amount │ purchase_date │
│  int64  │    varchar     │ int64 │     double      │     date      │
├─────────┼────────────────┼───────┼─────────────────┼───────────────┤
│     101 │ John Doe       │    28 │          250.75 │ 2024-08-01    │
│     102 │ Jane Smith     │    34 │           300.0 │ 2024-08-02    │
│     103 │ Alice Johnson  │    23 │           120.5 │ 2024-08-03    │
│     104 │ Chris Evans    │    45 │           450.0 │ 2024-08-04    │
│     105 │ Emily Davis    │    30 │            80.0 │ 2024-08-05    │
│     106 │ Michael Brown  │    40 │          199.99 │ 2024-08-06    │
│     107 │ Jessica Taylor │    29 │          349.99 │ 2024-08-07    │
│     108 │ Daniel Wilson  │    35 │           220.0 │ 2024-08-08    │
│     109 │ Laura Clark    │    27 │          110.75 │ 2024-08-09    │
│     110 │ Robert Lewis   │    31 │           500.0 │ 2024-08-10    │
├─────

### Json em memoria

In [3]:
# Conectar ao DuckDB
con = duckdb.connect(database=':memory:')

# Importar um arquivo JSON para DuckDB
con.execute("CREATE TABLE json_table AS SELECT * FROM read_json_auto('data/data.json')")

# Realizar algumas consultas 
result_df = con.sql("SELECT * FROM json_table")

# Exibir o resultado em formato de DataFrame
print(result_df)

# Fechar a conexão
con.close()

┌─────────┬────────────────┬───────┬─────────────────┬───────────────┐
│ user_id │      name      │  age  │ purchase_amount │ purchase_date │
│  int64  │    varchar     │ int64 │     double      │     date      │
├─────────┼────────────────┼───────┼─────────────────┼───────────────┤
│     101 │ John Doe       │    28 │          250.75 │ 2024-08-01    │
│     102 │ Jane Smith     │    34 │           300.0 │ 2024-08-02    │
│     103 │ Alice Johnson  │    23 │           120.5 │ 2024-08-03    │
│     104 │ Chris Evans    │    45 │           450.0 │ 2024-08-04    │
│     105 │ Emily Davis    │    30 │            80.0 │ 2024-08-05    │
│     106 │ Michael Brown  │    40 │          199.99 │ 2024-08-06    │
│     107 │ Jessica Taylor │    29 │          349.99 │ 2024-08-07    │
│     108 │ Daniel Wilson  │    35 │           220.0 │ 2024-08-08    │
│     109 │ Laura Clark    │    27 │          110.75 │ 2024-08-09    │
│     110 │ Robert Lewis   │    31 │           500.0 │ 2024-08-10    │
├─────

### Parquet em memoria

In [4]:
# Conectar ao DuckDB
con = duckdb.connect(database=':memory:')

# Importar um arquivo Parquet para DuckDB
con.execute("CREATE TABLE parquet_table AS SELECT * FROM read_parquet('data/data.parquet')")

# Realizar algumas consultas 
result_df = con.sql("SELECT * FROM parquet_table")

# Exibir o resultado em formato de DataFrame
print(result_df)

# Fechar a conexão
con.close()

┌─────────┬────────────────┬───────┬─────────────────┬───────────────┐
│ user_id │      name      │  age  │ purchase_amount │ purchase_date │
│  int64  │    varchar     │ int64 │     double      │    varchar    │
├─────────┼────────────────┼───────┼─────────────────┼───────────────┤
│     101 │ John Doe       │    28 │          250.75 │ 2024-08-01    │
│     102 │ Jane Smith     │    34 │           300.0 │ 2024-08-02    │
│     103 │ Alice Johnson  │    23 │           120.5 │ 2024-08-03    │
│     104 │ Chris Evans    │    45 │           450.0 │ 2024-08-04    │
│     105 │ Emily Davis    │    30 │            80.0 │ 2024-08-05    │
│     106 │ Michael Brown  │    40 │          199.99 │ 2024-08-06    │
│     107 │ Jessica Taylor │    29 │          349.99 │ 2024-08-07    │
│     108 │ Daniel Wilson  │    35 │           220.0 │ 2024-08-08    │
│     109 │ Laura Clark    │    27 │          110.75 │ 2024-08-09    │
│     110 │ Robert Lewis   │    31 │           500.0 │ 2024-08-10    │
├─────

### Lendo pelo Pandas

In [5]:
# DataFrame do Pandas
df = pd.DataFrame({
    'user_id': [1, 2, 3, 4, 5],
    'name': ['John Doe', 'Jane Smith', 'Alice Johnson', 'Chris Evans', 'Emily Davis'],
    'age': [28, 34, 23, 45, 30],
    'purchase_amount': [250.75, 300.00, 120.50, 450.00, 80.00],
    'purchase_date': ['2024-08-01', '2024-08-02', '2024-08-03', '2024-08-04', '2024-08-05']
})

# Conectar ao DuckDB
con = duckdb.connect(database=':memory:')

# Registrar o DataFrame
con.register('my_df', df)

# Realizar consultas SQL 
result_df = con.sql("SELECT user_id, name, purchase_amount FROM my_df WHERE purchase_amount > 100")

# Exibir o resultado 
print(result_df)

┌─────────┬───────────────┬─────────────────┐
│ user_id │     name      │ purchase_amount │
│  int64  │    varchar    │     double      │
├─────────┼───────────────┼─────────────────┤
│       1 │ John Doe      │          250.75 │
│       2 │ Jane Smith    │           300.0 │
│       3 │ Alice Johnson │           120.5 │
│       4 │ Chris Evans   │           450.0 │
└─────────┴───────────────┴─────────────────┘



### Magic

In [6]:
%load_ext magic_duckdb

In [7]:
%%dql
SELECT *
FROM df WHERE name = 'John Doe'

Unnamed: 0,user_id,name,age,purchase_amount,purchase_date
0,1,John Doe,28,250.75,2024-08-01


In [8]:
con.close()