# ネットワーク、クラウドストレージ

## HTTP Parquet

HTTP(S)経由でParquetファイルをロードするには、httpfs拡張をインストールする

```sql
INSTALL httpfs;
```

httpfs拡張をロードして使用するには、LOAD SQLコマンドを使用する

```
LOAD httpfs;
```

In [1]:
import duckdb

%load_ext sql
%sql duckdb:///:memory:

In [2]:
%%sql
SELECT * FROM read_parquet("https://raw.githubusercontent.com/plotly/datasets/refs/heads/master/2015_flights.parquet")

DEPARTURE_DELAY,ARRIVAL_DELAY,DISTANCE,SCHEDULED_DEPARTURE
-11.0,-22.0,1448,0.0833333333333333
-8.0,-9.0,2330,0.1666666666666666
-2.0,5.0,2296,0.3333333333333333
-5.0,-9.0,2342,0.3333333333333333
-1.0,-21.0,1448,0.4166666666666667
-5.0,8.0,1589,0.4166666666666667
-6.0,-17.0,1299,0.4166666666666667
14.0,-10.0,2125,0.5
-11.0,-13.0,1464,0.5
3.0,-15.0,1747,0.5


## Cloudflare R2

- S3 API互換のオブジェクトストレージ
- DuckDBのS3サポートを使用してR2のバケットから読み書きできる

```{seealso}
- [S3 Parquet Import](https://duckdb.org/docs/guides/network_cloud_storage/s3_import)
- [Google Cloud Storage Import](https://duckdb.org/docs/guides/network_cloud_storage/gcs_import)
```

### Credentialsの設定

- S3の認証トークンを生成し、DuckDBにR2シークレットを作成する

```sql
CREATE SECRET (
    TYPE R2,
    KEY_ID 'AKIAIOSFODNN7EXAMPLE',
    SECRET 'wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY',
    ACCOUNT_ID 'your-account-id-here' -- your 33 character hexadecimal account ID
);
```

```{seealso}
Secrets Manager:

https://duckdb.org/docs/configuration/secrets_manager.html
```

### クエリ

- `r2://⟨r2_bucket_name⟩/⟨file⟩` の形式で記述
- `*` やリストで複数ファイルをクエリできる

In [15]:
import duckdb

duckdb.sql("SELECT * FROM read_parquet('r2://hands-on/197*.parquet')")

┌──────────┬──────────────────────────┬────────────┬───────────────────────────────────────────┬───────────┬────────────────────┬────────────┬──────────────────┬─────────┬────────┬────────────┐
│ tab_code │         表章項目         │ cat01_code │              2020年基準品目               │ area_code │ 地域（2020年基準） │ time_code  │ 時間軸（年・月） │  unit   │ value  │ annotation │
│  int64   │         varchar          │   int64    │                  varchar                  │  varchar  │      varchar       │   int64    │     varchar      │ varchar │ double │   double   │
├──────────┼──────────────────────────┼────────────┼───────────────────────────────────────────┼───────────┼────────────────────┼────────────┼──────────────────┼─────────┼────────┼────────────┤
│        1 │ 指数                     │          1 │ 0001 総合                                 │ 13A01     │ 13100 東京都区部   │ 1970000303 │ 1970年3月        │ NULL    │   31.2 │       NULL │
│        1 │ 指数                     │          1 │ 0001 総合       

In [16]:
duckdb.sql(
    "SELECT * FROM read_parquet(['r2://hands-on/2021*.parquet', 'r2://hands-on/2022*.parquet'])"
)

┌──────────┬──────────────────────────┬────────────┬───────────────────────────────┬───────────┬────────────────────┬────────────┬──────────────────┬─────────┬────────┬────────────┐
│ tab_code │         表章項目         │ cat01_code │        2020年基準品目         │ area_code │ 地域（2020年基準） │ time_code  │ 時間軸（年・月） │  unit   │ value  │ annotation │
│  int64   │         varchar          │   int64    │            varchar            │  varchar  │      varchar       │   int64    │     varchar      │ varchar │ double │   double   │
├──────────┼──────────────────────────┼────────────┼───────────────────────────────┼───────────┼────────────────────┼────────────┼──────────────────┼─────────┼────────┼────────────┤
│        1 │ 指数                     │          1 │ 0001 総合                     │ 13A01     │ 13100 東京都区部   │ 2021000909 │ 2021年9月        │ NULL    │  100.1 │       NULL │
│        1 │ 指数                     │          1 │ 0001 総合                     │ 00000     │ 全国               │ 2021000909 │ 