# データの取り込み

## CSVファイル

In [1]:
%%file data/sample1.csv

col1, col2
1, 10
2, 20

Overwriting data/sample1.csv


In [2]:
%%file data/sample2.csv

col1, col2
3, 30
4, 40

Overwriting data/sample2.csv


`read_csv` によるCSVファイルの読み込み

In [3]:
import duckdb

duckdb.read_csv("data/sample1.csv")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

複数ファイルの読み込み

In [4]:
duckdb.read_csv("data/sample*.csv")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
│     3 │    30 │
│     4 │    40 │
└───────┴───────┘

オプションの指定

In [5]:
duckdb.read_csv("data/sample1.csv", header=False, sep=",")

┌─────────┬─────────┐
│ column0 │ column1 │
│ varchar │ varchar │
├─────────┼─────────┤
│ col1    │  col2   │
│ 1       │  10     │
│ 2       │  20     │
└─────────┴─────────┘

データ型の上書き

In [6]:
duckdb.read_csv("data/sample1.csv", dtype=["int", "float"])

┌───────┬───────┐
│ col1  │ col2  │
│ int32 │ float │
├───────┼───────┤
│     1 │  10.0 │
│     2 │  20.0 │
└───────┴───────┘

SQL文による `read_csv` の記述

In [7]:
duckdb.sql("SELECT * FROM 'data/sample1.csv'")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

In [8]:
duckdb.sql("SELECT * FROM read_csv('data/sample1.csv')")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

```{seealso}
CSV Import

https://duckdb.org/docs/data/csv/overview.html
```

## Parquetファイル

In [9]:
import pyarrow as pa
import pyarrow.parquet as pq

table1 = pa.table([pa.array([1, 2]), pa.array([10, 20])], names=["col1", "col2"])
table2 = pa.table([pa.array([3, 4]), pa.array([30, 40])], names=["col1", "col2"])
pq.write_table(table1, "data/sample1.parquet")
pq.write_table(table2, "data/sample2.parquet")

`duckdb.read_parquet` によるParquetファイルの読み込み

In [10]:
duckdb.read_parquet("data/sample1.parquet")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

複数ファイルの読み込み

In [11]:
duckdb.read_parquet("data/sample*.parquet")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     3 │    30 │
│     4 │    40 │
│     1 │    10 │
│     2 │    20 │
│     3 │    30 │
│     4 │    40 │
└───────┴───────┘

In [12]:
duckdb.read_parquet(["data/sample1.parquet", "data/sample1.parquet"])

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

SQL文による `read_parquet` の記述

In [13]:
duckdb.sql("SELECT * FROM 'data/sample1.parquet'")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

In [14]:
duckdb.sql("SELECT * FROM read_parquet('data/sample1.parquet')")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

[https](https://duckdb.org/docs/extensions/httpfs/overview.html) エンドポイントへの接続

In [15]:
duckdb.read_parquet(
    "https://github.com/plotly/datasets/raw/refs/heads/master/2015_flights.parquet"
)

┌─────────────────┬───────────────┬──────────┬─────────────────────┐
│ DEPARTURE_DELAY │ ARRIVAL_DELAY │ DISTANCE │ SCHEDULED_DEPARTURE │
│     double      │    double     │  int64   │       double        │
├─────────────────┼───────────────┼──────────┼─────────────────────┤
│           -11.0 │         -22.0 │     1448 │ 0.08333333333333333 │
│            -8.0 │          -9.0 │     2330 │ 0.16666666666666666 │
│            -2.0 │           5.0 │     2296 │  0.3333333333333333 │
│            -5.0 │          -9.0 │     2342 │  0.3333333333333333 │
│            -1.0 │         -21.0 │     1448 │  0.4166666666666667 │
│            -5.0 │           8.0 │     1589 │  0.4166666666666667 │
│            -6.0 │         -17.0 │     1299 │  0.4166666666666667 │
│            14.0 │         -10.0 │     2125 │                 0.5 │
│           -11.0 │         -13.0 │     1464 │                 0.5 │
│             3.0 │         -15.0 │     1747 │                 0.5 │
│              ·  │           ·   

```{seealso}
Reading and Writing Parquet Files

https://duckdb.org/docs/data/parquet/overview.html
```

## JSONファイル

`duckdb.read_json` によるJSONファイルの読み込み

In [16]:
duckdb.read_json(
    "https://github.com/plotly/datasets/raw/refs/heads/master/iris_data.json"
)

┌──────────────┬─────────────┬──────────────┬─────────────┬────────────────┐
│ sepal length │ sepal width │ petal length │ petal width │     class      │
│    double    │   double    │    double    │   double    │    varchar     │
├──────────────┼─────────────┼──────────────┼─────────────┼────────────────┤
│          5.1 │         3.5 │          1.4 │         0.2 │ Iris-setosa    │
│          4.9 │         3.0 │          1.4 │         0.2 │ Iris-setosa    │
│          4.7 │         3.2 │          1.3 │         0.2 │ Iris-setosa    │
│          4.6 │         3.1 │          1.5 │         0.2 │ Iris-setosa    │
│          5.0 │         3.6 │          1.4 │         0.2 │ Iris-setosa    │
│          5.4 │         3.9 │          1.7 │         0.4 │ Iris-setosa    │
│          4.6 │         3.4 │          1.4 │         0.3 │ Iris-setosa    │
│          5.0 │         3.4 │          1.5 │         0.2 │ Iris-setosa    │
│          4.4 │         2.9 │          1.4 │         0.2 │ Iris-setosa    │

複数ファイルの読み込み

In [17]:
import pandas as pd

pd.read_csv("data/sample1.csv").to_json("data/sample1.json", orient="records")
pd.read_csv("data/sample2.csv").to_json("data/sample2.json", orient="records")

In [18]:
duckdb.read_json("data/sample1.json")

┌───────┬───────┐
│ col1  │  col2 │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

In [19]:
duckdb.read_json("data/sample*.json")

┌───────┬───────┐
│ col1  │  col2 │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
│     3 │    30 │
│     4 │    40 │
└───────┴───────┘

SQL文による `read_json` の記述

In [20]:
duckdb.sql("SELECT * FROM 'data/sample1.json'")

┌───────┬───────┐
│ col1  │  col2 │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

In [21]:
duckdb.sql("SELECT * FROM read_json('data/sample1.json')")

┌───────┬───────┐
│ col1  │  col2 │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

## pandas DataFrameへのアクセス

In [22]:
df = pd.read_csv("data/sample1.csv")
duckdb.sql("SELECT * FROM df")

┌───────┬───────┐
│ col1  │  col2 │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘

## Arrowオブジェクトへのアクセス

In [23]:
duckdb.sql("SELECT * FROM table1")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘