# データのインポート

## CSVファイル

In [1]:
import duckdb

%load_ext sql
%sql duckdb:///:memory:

%mkdir -p data

::::{tab-set}
:::{tab-item} python
:sync: python

```python
import duckdb

duckdb.sql(
    "COPY (SELECT database_name, database_oid FROM duckdb_schemas() WHERE database_oid = 1146) TO 'data/sample1.csv'"
)
duckdb.sql(
    "COPY (SELECT database_name, database_oid FROM duckdb_schemas() WHERE database_oid = 0) TO 'data/sample2.csv'"
)
```
:::

:::{tab-item} SQL
:sync: sql

```sql
COPY (SELECT database_name, database_oid FROM duckdb_schemas() WHERE database_oid = 1146) TO 'data/sample1.csv';
COPY (SELECT database_name, database_oid FROM duckdb_schemas() WHERE database_oid = 0) TO 'data/sample2.csv';
```
:::
::::

In [2]:
%%sql
COPY (SELECT database_name, database_oid FROM duckdb_schemas() WHERE database_oid = 1146) TO 'data/sample1.csv';
COPY (SELECT database_name, database_oid FROM duckdb_schemas() WHERE database_oid = 0) TO 'data/sample2.csv';

Count


In [3]:
import duckdb

duckdb.sql(
    "COPY (SELECT database_name, database_oid FROM duckdb_schemas() WHERE database_oid = 1146) TO 'data/sample1.csv'"
)
duckdb.sql(
    "COPY (SELECT database_name, database_oid FROM duckdb_schemas() WHERE database_oid = 0) TO 'data/sample2.csv'"
)

In [4]:
%cat data/sample*.csv

database_name,database_oid
memory,1146
memory,1146
memory,1146
database_name,database_oid
system,0
system,0
system,0


`read_csv` によるCSVファイルの読み込み

::::{tab-set}
:::{tab-item} python
:sync: python

```python
duckdb.read_csv("data/sample1.csv")
```
:::

:::{tab-item} SQL
:sync: sql

```sql
SELECT * FROM read_csv("data/sample1.csv")
```
:::
::::

In [5]:
%%sql
SELECT * FROM read_csv("data/sample1.csv")

database_name,database_oid
memory,1146
memory,1146
memory,1146


In [None]:
duckdb.read_csv("data/sample1.csv")

┌───────────────┬──────────────┐
│ database_name │ database_oid │
│    varchar    │    int64     │
├───────────────┼──────────────┤
│ memory        │         1146 │
│ memory        │         1146 │
│ memory        │         1146 │
└───────────────┴──────────────┘

複数ファイルの読み込み

::::{tab-set}
:::{tab-item} python
:sync: python

```python
duckdb.read_csv("data/sample*.csv")
```
:::

:::{tab-item} SQL
:sync: sql

```sql
SELECT * FROM read_csv("data/sample*.csv")
```
:::
::::

In [7]:
%%sql
SELECT * FROM read_csv("data/sample*.csv")

database_name,database_oid
memory,1146
memory,1146
memory,1146
system,0
system,0
system,0


In [8]:
duckdb.read_csv("data/sample*.csv")

┌───────────────┬──────────────┐
│ database_name │ database_oid │
│    varchar    │    int64     │
├───────────────┼──────────────┤
│ memory        │         1146 │
│ memory        │         1146 │
│ memory        │         1146 │
│ system        │            0 │
│ system        │            0 │
│ system        │            0 │
└───────────────┴──────────────┘

オプションの指定

::::{tab-set}
:::{tab-item} python
:sync: python

```python
duckdb.read_csv("data/sample1.csv", header=False, sep=",")
```
:::

:::{tab-item} SQL
:sync: sql

```sql
SELECT * FROM read_csv("data/sample1.csv", header=False, sep=",")
```
:::
::::

In [9]:
%%sql
SELECT * FROM read_csv("data/sample1.csv", header=False, sep=",")

column0,column1
database_name,database_oid
memory,1146
memory,1146
memory,1146


In [10]:
duckdb.read_csv(
    "data/sample1.csv",
    header=False,
    sep=",",
)

┌───────────────┬──────────────┐
│    column0    │   column1    │
│    varchar    │   varchar    │
├───────────────┼──────────────┤
│ database_name │ database_oid │
│ memory        │ 1146         │
│ memory        │ 1146         │
│ memory        │ 1146         │
└───────────────┴──────────────┘

データ型の上書き

In [11]:
duckdb.read_csv(
    "data/sample1.csv",
    dtype=[str, float],
)

┌───────────────┬──────────────┐
│ database_name │ database_oid │
│    varchar    │    double    │
├───────────────┼──────────────┤
│ memory        │       1146.0 │
│ memory        │       1146.0 │
│ memory        │       1146.0 │
└───────────────┴──────────────┘

In [12]:
duckdb.read_csv(
    "data/sample1.csv",
    dtype={"database_oid": float},
)

┌───────────────┬──────────────┐
│ database_name │ database_oid │
│    varchar    │    double    │
├───────────────┼──────────────┤
│ memory        │       1146.0 │
│ memory        │       1146.0 │
│ memory        │       1146.0 │
└───────────────┴──────────────┘

SQL文による `read_csv` の記述

In [13]:
duckdb.sql("SELECT * FROM 'data/sample1.csv'")

┌───────────────┬──────────────┐
│ database_name │ database_oid │
│    varchar    │    int64     │
├───────────────┼──────────────┤
│ memory        │         1146 │
│ memory        │         1146 │
│ memory        │         1146 │
└───────────────┴──────────────┘

In [14]:
duckdb.sql("SELECT * FROM read_csv('data/sample1.csv')")

┌───────────────┬──────────────┐
│ database_name │ database_oid │
│    varchar    │    int64     │
├───────────────┼──────────────┤
│ memory        │         1146 │
│ memory        │         1146 │
│ memory        │         1146 │
└───────────────┴──────────────┘

```{seealso}
CSV Import

https://duckdb.org/docs/data/csv/overview.html
```

## Parquetファイル

`duckdb.read_parquet` によるParquetファイルの読み込み

```{seealso}
[https](https://duckdb.org/docs/extensions/httpfs/overview.html) エンドポイントへの接続
```

::::{tab-set}
:::{tab-item} python
:sync: python

```python
duckdb.read_parquet(
    "https://raw.githubusercontent.com/plotly/datasets/refs/heads/master/2015_flights.parquet"
)
```
:::

:::{tab-item} SQL
:sync: sql

```sql
SELECT * FROM read_parquet("https://raw.githubusercontent.com/plotly/datasets/refs/heads/master/2015_flights.parquet")
```
:::
::::

In [15]:
%%sql
SELECT * FROM read_parquet("https://raw.githubusercontent.com/plotly/datasets/refs/heads/master/2015_flights.parquet")

DEPARTURE_DELAY,ARRIVAL_DELAY,DISTANCE,SCHEDULED_DEPARTURE
-11.0,-22.0,1448,0.0833333333333333
-8.0,-9.0,2330,0.1666666666666666
-2.0,5.0,2296,0.3333333333333333
-5.0,-9.0,2342,0.3333333333333333
-1.0,-21.0,1448,0.4166666666666667
-5.0,8.0,1589,0.4166666666666667
-6.0,-17.0,1299,0.4166666666666667
14.0,-10.0,2125,0.5
-11.0,-13.0,1464,0.5
3.0,-15.0,1747,0.5


In [16]:
duckdb.read_parquet(
    "https://raw.githubusercontent.com/plotly/datasets/refs/heads/master/2015_flights.parquet"
)

┌─────────────────┬───────────────┬──────────┬─────────────────────┐
│ DEPARTURE_DELAY │ ARRIVAL_DELAY │ DISTANCE │ SCHEDULED_DEPARTURE │
│     double      │    double     │  int64   │       double        │
├─────────────────┼───────────────┼──────────┼─────────────────────┤
│           -11.0 │         -22.0 │     1448 │ 0.08333333333333333 │
│            -8.0 │          -9.0 │     2330 │ 0.16666666666666666 │
│            -2.0 │           5.0 │     2296 │  0.3333333333333333 │
│            -5.0 │          -9.0 │     2342 │  0.3333333333333333 │
│            -1.0 │         -21.0 │     1448 │  0.4166666666666667 │
│            -5.0 │           8.0 │     1589 │  0.4166666666666667 │
│            -6.0 │         -17.0 │     1299 │  0.4166666666666667 │
│            14.0 │         -10.0 │     2125 │                 0.5 │
│           -11.0 │         -13.0 │     1464 │                 0.5 │
│             3.0 │         -15.0 │     1747 │                 0.5 │
│              ·  │           ·   

SQL文による `read_parquet` の記述

In [17]:
duckdb.sql(
    "SELECT * FROM 'https://raw.githubusercontent.com/plotly/datasets/refs/heads/master/2015_flights.parquet'"
)

┌─────────────────┬───────────────┬──────────┬─────────────────────┐
│ DEPARTURE_DELAY │ ARRIVAL_DELAY │ DISTANCE │ SCHEDULED_DEPARTURE │
│     double      │    double     │  int64   │       double        │
├─────────────────┼───────────────┼──────────┼─────────────────────┤
│           -11.0 │         -22.0 │     1448 │ 0.08333333333333333 │
│            -8.0 │          -9.0 │     2330 │ 0.16666666666666666 │
│            -2.0 │           5.0 │     2296 │  0.3333333333333333 │
│            -5.0 │          -9.0 │     2342 │  0.3333333333333333 │
│            -1.0 │         -21.0 │     1448 │  0.4166666666666667 │
│            -5.0 │           8.0 │     1589 │  0.4166666666666667 │
│            -6.0 │         -17.0 │     1299 │  0.4166666666666667 │
│            14.0 │         -10.0 │     2125 │                 0.5 │
│           -11.0 │         -13.0 │     1464 │                 0.5 │
│             3.0 │         -15.0 │     1747 │                 0.5 │
│              ·  │           ·   

In [18]:
duckdb.sql(
    "SELECT * FROM read_parquet('https://raw.githubusercontent.com/plotly/datasets/refs/heads/master/2015_flights.parquet')"
)

┌─────────────────┬───────────────┬──────────┬─────────────────────┐
│ DEPARTURE_DELAY │ ARRIVAL_DELAY │ DISTANCE │ SCHEDULED_DEPARTURE │
│     double      │    double     │  int64   │       double        │
├─────────────────┼───────────────┼──────────┼─────────────────────┤
│           -11.0 │         -22.0 │     1448 │ 0.08333333333333333 │
│            -8.0 │          -9.0 │     2330 │ 0.16666666666666666 │
│            -2.0 │           5.0 │     2296 │  0.3333333333333333 │
│            -5.0 │          -9.0 │     2342 │  0.3333333333333333 │
│            -1.0 │         -21.0 │     1448 │  0.4166666666666667 │
│            -5.0 │           8.0 │     1589 │  0.4166666666666667 │
│            -6.0 │         -17.0 │     1299 │  0.4166666666666667 │
│            14.0 │         -10.0 │     2125 │                 0.5 │
│           -11.0 │         -13.0 │     1464 │                 0.5 │
│             3.0 │         -15.0 │     1747 │                 0.5 │
│              ·  │           ·   

```{seealso}
Reading and Writing Parquet Files

https://duckdb.org/docs/data/parquet/overview.html
```

## JSONファイル

`duckdb.read_json` によるJSONファイルの読み込み

::::{tab-set}
:::{tab-item} python
:sync: python

```python
duckdb.read_json(
    "https://github.com/plotly/datasets/raw/refs/heads/master/iris_data.json"
)
```
:::

:::{tab-item} SQL
:sync: sql

```sql
SELECT * FROM read_json("https://github.com/plotly/datasets/raw/refs/heads/master/iris_data.json")
```
:::
::::

In [19]:
%%sql
SELECT * FROM read_json("https://github.com/plotly/datasets/raw/refs/heads/master/iris_data.json")

sepal length,sepal width,petal length,petal width,class
5.1,3.5,1.4,0.2,Iris-setosa
4.9,3.0,1.4,0.2,Iris-setosa
4.7,3.2,1.3,0.2,Iris-setosa
4.6,3.1,1.5,0.2,Iris-setosa
5.0,3.6,1.4,0.2,Iris-setosa
5.4,3.9,1.7,0.4,Iris-setosa
4.6,3.4,1.4,0.3,Iris-setosa
5.0,3.4,1.5,0.2,Iris-setosa
4.4,2.9,1.4,0.2,Iris-setosa
4.9,3.1,1.5,0.1,Iris-setosa


In [20]:
duckdb.read_json(
    "https://github.com/plotly/datasets/raw/refs/heads/master/iris_data.json"
)

┌──────────────┬─────────────┬──────────────┬─────────────┬────────────────┐
│ sepal length │ sepal width │ petal length │ petal width │     class      │
│    double    │   double    │    double    │   double    │    varchar     │
├──────────────┼─────────────┼──────────────┼─────────────┼────────────────┤
│          5.1 │         3.5 │          1.4 │         0.2 │ Iris-setosa    │
│          4.9 │         3.0 │          1.4 │         0.2 │ Iris-setosa    │
│          4.7 │         3.2 │          1.3 │         0.2 │ Iris-setosa    │
│          4.6 │         3.1 │          1.5 │         0.2 │ Iris-setosa    │
│          5.0 │         3.6 │          1.4 │         0.2 │ Iris-setosa    │
│          5.4 │         3.9 │          1.7 │         0.4 │ Iris-setosa    │
│          4.6 │         3.4 │          1.4 │         0.3 │ Iris-setosa    │
│          5.0 │         3.4 │          1.5 │         0.2 │ Iris-setosa    │
│          4.4 │         2.9 │          1.4 │         0.2 │ Iris-setosa    │

SQL文による `read_json` の記述

In [21]:
duckdb.sql(
    "SELECT * FROM 'https://github.com/plotly/datasets/raw/refs/heads/master/iris_data.json'"
)

┌──────────────┬─────────────┬──────────────┬─────────────┬────────────────┐
│ sepal length │ sepal width │ petal length │ petal width │     class      │
│    double    │   double    │    double    │   double    │    varchar     │
├──────────────┼─────────────┼──────────────┼─────────────┼────────────────┤
│          5.1 │         3.5 │          1.4 │         0.2 │ Iris-setosa    │
│          4.9 │         3.0 │          1.4 │         0.2 │ Iris-setosa    │
│          4.7 │         3.2 │          1.3 │         0.2 │ Iris-setosa    │
│          4.6 │         3.1 │          1.5 │         0.2 │ Iris-setosa    │
│          5.0 │         3.6 │          1.4 │         0.2 │ Iris-setosa    │
│          5.4 │         3.9 │          1.7 │         0.4 │ Iris-setosa    │
│          4.6 │         3.4 │          1.4 │         0.3 │ Iris-setosa    │
│          5.0 │         3.4 │          1.5 │         0.2 │ Iris-setosa    │
│          4.4 │         2.9 │          1.4 │         0.2 │ Iris-setosa    │

In [22]:
duckdb.sql(
    "SELECT * FROM read_json('https://github.com/plotly/datasets/raw/refs/heads/master/iris_data.json')"
)

┌──────────────┬─────────────┬──────────────┬─────────────┬────────────────┐
│ sepal length │ sepal width │ petal length │ petal width │     class      │
│    double    │   double    │    double    │   double    │    varchar     │
├──────────────┼─────────────┼──────────────┼─────────────┼────────────────┤
│          5.1 │         3.5 │          1.4 │         0.2 │ Iris-setosa    │
│          4.9 │         3.0 │          1.4 │         0.2 │ Iris-setosa    │
│          4.7 │         3.2 │          1.3 │         0.2 │ Iris-setosa    │
│          4.6 │         3.1 │          1.5 │         0.2 │ Iris-setosa    │
│          5.0 │         3.6 │          1.4 │         0.2 │ Iris-setosa    │
│          5.4 │         3.9 │          1.7 │         0.4 │ Iris-setosa    │
│          4.6 │         3.4 │          1.4 │         0.3 │ Iris-setosa    │
│          5.0 │         3.4 │          1.5 │         0.2 │ Iris-setosa    │
│          4.4 │         2.9 │          1.4 │         0.2 │ Iris-setosa    │

## pandas DataFrameへのアクセス

In [23]:
import pandas as pd

df = pd.read_csv("data/sample1.csv")
duckdb.sql("SELECT * FROM df")

┌───────────────┬──────────────┐
│ database_name │ database_oid │
│    varchar    │    int64     │
├───────────────┼──────────────┤
│ memory        │         1146 │
│ memory        │         1146 │
│ memory        │         1146 │
└───────────────┴──────────────┘

## Arrowオブジェクトへのアクセス

In [24]:
import pyarrow as pa

pa_table = pa.table([pa.array([1, 2]), pa.array([10, 20])], names=["col1", "col2"])
duckdb.sql("SELECT * FROM pa_table")

┌───────┬───────┐
│ col1  │ col2  │
│ int64 │ int64 │
├───────┼───────┤
│     1 │    10 │
│     2 │    20 │
└───────┴───────┘