<a href="https://colab.research.google.com/github/suwatoh/Python-learning/blob/main/125_%E3%83%87%E3%83%BC%E3%82%BF%E3%83%95%E3%82%A9%E3%83%BC%E3%83%9E%E3%83%83%E3%83%88.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

データフォーマット
==================

CSV
---

### 規格 ###

**CSV**（Comma-Separated Values）形式は、表形式のデータを、特定の区切り文字を使用する文字列に直列化するためのフォーマットである。データ交換用のデファクトスタンダードとして、古くから多くの表計算ソフトやデータベースソフトで使われている。ファイルの拡張子は `.csv` が使われる。

2005 年 10 月に、各ソフトウェアでの CSV の実装を追認する形で、国際標準化団体 IETF が RFC 4180 として規格化した。しかし実際のソフトウェア側の実装は RFC に準拠していないことが多い。 RFC の主な内容は以下の通り。

  * ファイルは 1 つ以上のレコードからなる。
  * レコードは改行で区切られる。改行コードは CR+LF とする。最後のレコードの後には改行はあってもなくてもよい。
  * レコードは 1 つ以上の同じ個数のフィールドからなる。
  * フィールドはカンマ `,` で区切られる。最後のフィールドの後にはカンマは付けない。カンマで終わる場合は、その後に空のフィールドがある。
  * ファイルの先頭には、オプションとして、通常のレコードと同一の書式の「ヘッダー行」があってもよい。ヘッダー行は、他のレコードと同じ個数のフィールドを持ち、フィールドの名称が書かれている。
  * フィールドは、ダブルクォート `"` で囲んでも囲まなくてもよい。ただし、フィールドがカンマ、ダブルクォート、改行を含む場合は、必ずダブルクォートで囲む。また、フィールドに含まれるダブルクォートは 2 つ並べてエスケープする。

RFC はダブルクォートで囲まれているフィールドの解釈までは規定していないが、一部のソフトウェアはダブルクォートで囲まれているかどうかで解釈を変えていることに注意する。

CSV ファイルの実質はテキストファイルであるが、エンコーディングに関しては RFC で規定されてない。 Microsoft Excel は、エンコードを推定できるように、 BOM（byte order mark）と呼ばれるデータをファイルの先頭に付けている。

カンマの代わりに別の文字をフィールド区切りに使用する形式もある。タブを使用する形式は **TSV**（Tab-Separated Values）と呼ばれ、スペースを使用する形式は **SSV**（Space-Separated Values）と呼ばれる。

標準ライブラリの `csv` モジュールは、CSV 形式を扱うために、以下のオブジェクトをサポートする。

  * dialect オブジェクト: CSV 形式の書式を管理するオブジェクト
  * reader オブジェクト: CSV 形式のデータを読み込むオブジェクト
  * writer オブジェクト: CSV 形式のデータを書き込むオブジェクト

dialect オブジェクトは、属性として、区切り文字、ダブルクォート、空白文字などの扱い方に関する情報を持つ。一定の値をもつものは、`'excel'`、`'excel-tab'`、`'unix'` という名前の dialect オブジェクトとして登録されている。

| dialect の属性 | 意味 | excel | excel-tab | unix |
|:---|:---|:---|:---|:---|
| `delimiter` | 区切り文字 | カンマ `,` | タブ `\t` | カンマ `,` |
| `quotechar` | 引用符として使用される文字 | ダブルクォート `"` | ダブルクォート `"` | ダブルクォート `"` |
| `skipinitialspace` | `True` の場合、区切り文字の直後に続く空白は無視される | `False` | `False` | `False` |
| `lineterminator` | 各行の終端を表す文字列 | `'\r\n'` | `'\r\n'` | `'\n'` |

### リスト形式での読み込みと書き込み ###

``` python
csv.reader(csvfile, dialect='excel', **fmtparams)
```

この関数は、reader オブジェクトを返す。

| 引数 | 意味 |
|:---|:---|
| `csvfile` | CSV 形式の文字列を返すイテラブルなオブジェクトを指定する。`csvfile` が `open()` 関数の返すファイルオブジェクトである場合、必ず<br /><br /> `newline=''` で開く必要がある（`csv` モジュールは独自の改行処理を行うため） |
| `dialect` | dialect オブジェクトか、その登録された名前を指定する。デフォルトは `'excel'` |
| `fmtparams` | dialect オブジェクトの属性に与える値をキーワード引数として指定する。引数 `dialect` による書式指定を上書きする |

`dialect` のデフォルトが `'excel'` なので、TSV 形式のデータを読み込む場合は、`csv.reader(csvfile, delimiter='\t')` のように区切り文字としてタブを指定する。

作成された reader オブジェクトは、CSV の 1 行のデータを表すリストを 1 つずつ返すイテレーターである。

In [1]:
import csv
from tabulate import tabulate

with open("sample_data/california_housing_test.csv", "r", encoding="utf-8", newline='') as f:
    reader = csv.reader(f)
    data = [row for n, row in enumerate(reader) if n <= 5]

print(tabulate(data, headers='firstrow'))

  longitude    latitude    housing_median_age    total_rooms    total_bedrooms    population    households    median_income    median_house_value
-----------  ----------  --------------------  -------------  ----------------  ------------  ------------  ---------------  --------------------
    -122.05       37.37                    27           3885               661          1537           606           6.6085                344700
    -118.3        34.26                    43           1510               310           809           277           3.599                 176500
    -117.81       33.78                    27           3589               507          1484           495           5.7934                270500
    -118.36       33.82                    28             67                15            49            11           6.1359                330000
    -119.67       36.33                    19           1241               244           850           237           2.9375 

``` python
csv.writer(csvfile, dialect='excel', **fmtparams)
```

この関数は、writer オブジェクトを返す。

引数の `csvfile` は、`write()` メソッドを持つオブジェクトでなければならない。`csvfile` がファイルオブジェクトの場合、必ず `newline=''` として開くこと（`csv` モジュールは独自の改行処理を行うため）。残りの引数 `dialect` と `fmtparams` については、`csv.reader()` の同名の引数と同様である。

作成された writer オブジェクトは、以下のメソッドを持つ。

| メソッド | 機能 | 戻り値 |
|:---|:---|:---|
| `writerow(row)` | `row` を現在の表現形式（`dialect`）の 1 行のデータとして書式化した上でファイルオブジェクトに書き込む。オブジェクトが<br /><br /> `csv.writer()` から返されたものである場合、`row` は文字列か数値のリストである必要がある | `None` |
| `writerows(rows)` | 上記の `row` のイテラブル `rows` の全ての要素を現在の表現形式（`dialect`）の 1 行のデータとして書式化した上でファイル<br /><br />オブジェクトに書き込む | `None` |

これらのメソッドは、書式化の際に数値を `str()` で変換する。

In [2]:
import csv
import io

with io.StringIO(newline="") as f:  # ここでは open() の代わりに StringIO を使う
    writer = csv.writer(f)
    writer.writerow(["山名", "標高/m", "山系"])
    writer.writerow(["富士山", 3776, "独立峰"])
    writer.writerow(["北岳", 3193.2, "赤石山脈（南アルプス）"])
    # ストリームの出力
    f.seek(0)  # ストリーム位置を先頭に変更
    for line in f:
        print(line, end="")

山名,標高/m,山系
富士山,3776,独立峰
北岳,3193.2,赤石山脈（南アルプス）


### 辞書形式での読み込みと書き込み ###

クラス `csv.DictReader` はイテレータークラスであり、そのインスタンスは CSV 形式の各行を 1 行ずつ辞書にして返す reader オブジェクトである。

コンストラクタ:

``` python
csv.DictReader(f, fieldnames=None, restkey=None, restval=None, dialect='excel', *args, **kwds)
```

| 引数 | 意味 |
|:---|:---|
| `f` | CSV 形式の文字列を返すイテラブルなオブジェクトを指定する。`f` が `open()` 関数の返すファイルオブジェクトである場合、必ず `newline=''` <br /><br />で開く必要がある（`csv` モジュールは独自の改行処理を行うため） |
| `fieldnames` | 辞書のキーをシーケンスで指定する。指定しなかった場合は `f` の最初の行の値が使われる |
| `restkey` | キーの数が実際に読み込んが列数より少なかった場合、残りのデータはリストに入れられて、`restkey` により指定されたキーの値となる |
| `restval` | キーの数が実際に読み込んが列数より多かった場合、足りない値は `restval` の値（デフォルトは `None` ） によって埋められる |
| `dialect` | dialect オブジェクトか、その登録された名前を指定する |
| `*args, **kwds` | コンストラクタの内部で `reader(f, dialect, *args, **kwds)` と呼び出す際に渡される |

In [3]:
import csv
from tabulate import tabulate

with open("sample_data/california_housing_test.csv", "r", encoding="utf-8", newline='') as f:
    reader = csv.DictReader(f)
    data = [row for n, row in enumerate(reader) if n < 3]

print(tabulate(data, headers='keys'))

  longitude    latitude    housing_median_age    total_rooms    total_bedrooms    population    households    median_income    median_house_value
-----------  ----------  --------------------  -------------  ----------------  ------------  ------------  ---------------  --------------------
    -122.05       37.37                    27           3885               661          1537           606           6.6085                344700
    -118.3        34.26                    43           1510               310           809           277           3.599                 176500
    -117.81       33.78                    27           3589               507          1484           495           5.7934                270500


クラス `csv.DictWriter` のインスタンスは、辞書を CSV 形式に変換して書き込む writer オブジェクトである。

コンストラクタ:

``` python
csv.DictWriter(f, fieldnames, restval='', extrasaction='raise', dialect='excel', *args, **kwds)
```

| 引数 | 意味 |
|:---|:---|
| `f` | `write()` メソッドを持つオブジェクトを指定する |
| `fieldnames` | キーをシーケンスで指定する |
| `restval` | `fieldnames` で指定したキーの数が書き込む列数より多かった場合、足りない値は `restval` の値（デフォルトは `''` ） によって埋められる |
| `extrasaction` | `fieldnames` に存在しないキーが含まれている場合、`extrasaction` の値が `'raise'`（デフォルト）に設定されているなら、` ValueError` <br /><br />例外が送出される。`'ignore'` に設定されているなら、そのキーに対する値は無視される |
| `dialect` | dialect オブジェクトか、その登録された名前を指定する |
| `*args, **kwds` | コンストラクタの内部で `writer(f, dialect, *args, **kwds)` と呼び出す際に渡される |

`DictWriter` も `writerow()` メソッドと `writerows()` メソッドを持つが、引数は辞書（`writerows()` メソッドの引数は辞書のイテラブル）である必要がある。この辞書は、キーがフィールド名で、値は文字列か数値でなければならない。これらのメソッドは、書式化の際に数値を `str()` で変換する。

また、`DictWriter` は `writeheader()` メソッドを持ち、これを呼び出すと `fieldnames` を使用してヘッダー行を書き込む。

In [4]:
import csv
import io

with io.StringIO(newline="") as f:  # ここでは open() の代わりに StringIO を使う
    writer = csv.DictWriter(f, ["山名", "標高/m", "山系"], extrasaction='ignore')
    writer.writeheader()  # ヘッダーを書き込む
    writer.writerow({"山名": "富士山", "標高/m": 3776, "山系": "独立峰"})
    writer.writerow({"山名": "北岳", "山系": "赤石山脈（南アルプス）"})  # 標高データが欠損しているが、デフォルトでは空文字列が入る
    writer.writerow({"山名": "奥穂高岳", "順位": 3})  # extrasaction を 'ignore' としたので、指定外のキーが含まれていてもエラーにならない
    # ストリームの出力
    f.seek(0, io.SEEK_SET)  # ストリーム位置を先頭に変更
    for line in f:
        print(line, end="")

山名,標高/m,山系
富士山,3776,独立峰
北岳,,赤石山脈（南アルプス）
奥穂高岳,,


### 書式の推測 ###

アプリケーションによって CSV の実装が異なることから、 `csv` モジュールは CSV ファイルの書式を推測するための `csv.Sniffer` クラスを提供する。このクラスは以下のメソッドを持つ。

| メソッド | 機能 | 戻り値 |
|:---|:---|:---|
| `sniff(sample, delimiters=None)` | `sample` を解析し、推測された書式に関する情報を持つ dialect オブジェクトを返す。`delimiters` <br /><br />を指定した場合、指定された区切り文字を含んでいるはずの文字列として解釈される | dialect オブジェクト |
| `has_header(sample)` | ヘッダーが存在すると推測した場合は `True` を返す | `bool` |

次のコードは、入力データの書式を推測し、CSV 形式の文字列に変換する例である。入力は TSV 形式の文字列としている。

In [5]:
import io
import csv

tsv = '"山名"\t"標高/m"\t"山系"\n' '"富士山"\t3776\t"独立峰"\n' '"北岳"\t3193.2\t"赤石山脈（南アルプス）"\n'

with io.StringIO(tsv, newline="") as fi, io.StringIO(newline="") as fo:
    dialect = csv.Sniffer().sniff(fi.read())
    print(f"{dialect.delimiter=}, {dialect.quotechar=}, {dialect.lineterminator=}", "\n---")
    fi.seek(0)  # ファイルオブジェクトの現在位置を先頭に戻す
    reader = csv.reader(fi, dialect)
    writer = csv.writer(fo)
    for row in reader:
        writer.writerow(row)
    # ストリームの出力
    fo.seek(0)  # ストリーム位置を先頭に変更
    for line in fo:
        print(line, end="")

dialect.delimiter='\t', dialect.quotechar='"', dialect.lineterminator='\r\n' 
---
山名,標高/m,山系
富士山,3776,独立峰
北岳,3193.2,赤石山脈（南アルプス）


JSON
----

### 規格 ###

**JSON**（JavaScript Object Notation）は、複雑なデータ構造やオブジェクトを文字列に直列化するためのデータフォーマットの一種であり、JavaScript におけるオブジェクトのリテラル記法を参考に作られた。国際標準化団体 IETF 策定の RFC 8259 によって仕様が厳密に規格化されている。その表記法は、Python 辞書を `key: value` 対の列挙で記述する方法と似ている。

JSON 形式については、次の点に注意する。

  * コメント記法がない。
  * 文字エンコーディングは UTF-8 に限る。
  * 表現できるのは、4 つのプリミティブ型（文字列、数値、ブール値、および `null`）と 2 つの構造型（オブジェクトと配列）のみである。
  * 文字列はダブルクォーテーション `"` で囲う必要があり、シングルクォーテーション `'` やバッククォート `` ` `` で囲うことはできない。エスケープシーケンス（`'\"'`、`'\\'`、`'\n'` など）は使える。
  * 数値は整数と浮動小数点数を区別せず、すべて IEEE 754 の倍精度浮動小数点数として扱われる。10 進法表記に限る。`1.0e-10` といった指数表記はできる。
  * ブール値は、`true` と `false` であり、すべて小文字を使う。
  * オブジェクトは、`key: value` 対の列挙。`key` のデータ型は文字列に限る。JavaScript オブジェクトのプロパティ名のようにダブルクォートを省略することはできない。`value` にオブジェクトを指定し入れ子（ネスト）にすることができる。
  * オブジェクトと配列において、末尾のカンマは許容されない。

標準ライブラリの `json` モジュールは、JSON 形式文字列を Python のオブジェクトに変換する関数、および、逆向きの変換をする関数を提供する。

`json` モジュールがサポートしている「Python オブジェクト」と「JSON で使用できる型」の対応関係は次のとおり。

| Python | JSON |
|:--:|:--:|
| str | 文字列 |
| int, float | 数値 |
| None | `null` |
| bool | ブール値 |
| dict | オブジェクト |
| list, tuple | 配列 |

JavaScript で使用可能なグローバル定数 `NaN`, `Infinity`, `-Infinity`（それぞれ非数、正の無限大、負の無限大を表す）は、規格上、JSON では使えない。しかし、`json` モジュールの関数は、JSON の規格からは外れるが、 `NaN`, `Infinity`, `-Infinity` を対応する float の値として理解する。

### Python オブジェクトへの変換 ###

``` python
json.loads(s, *, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)
```
この関数は、 JSON 形式の文字列またはバイト列を Python のオブジェクトに変換して返す。JSON の配列は `list` オブジェクトに、JSON の数値は整数なら `int` オブジェクトに、小数なら `float` オブジェクトに変換する。

| 引数 | 意味 |
|:---|:---|
| `s` | Python のオブジェクトに変換する対象の文字列またはバイト列を指定する |
| `cls` | カスタマイズした `json.JSONDecoder` のサブクラスを使う場合に指定する。指定がなければ、`json.JSONDecoder` が使われる |
| `object_hook` | 任意のオブジェクトリテラルがデコードされた結果に対し呼び出される関数を指定する。独自のデコーダを実装する目的で使用される |
| `parse_float` | 全てのデコードされる JSON の浮動小数点数文字列に対して呼ばれる関数を指定する。デフォルトでは、`float(num_str)` と等価 |
| `parse_int` | 全てのデコードされる JSON の整数文字列に対して呼ばれる関数を指定する。デフォルトでは、`int(num_str)` と等価 |
| `parse_constant` | `'NaN'`, `'Infinity'`, `'-Infinity'`, `'null'`, `'true'`, `'false'` に対して呼ばれる関数を指定する |
| `object_pairs_hook` | ペアの順序付きリストのデコード結果に対し呼び出される関数を指定する。独自のデコーダを実装する目的で使用される。この引数を<br /><br />指定すると、`object_hook` の指定は無視される |

変換しようとしているデータが不正な JSON 文書だった場合、 `json.JSONDecodeError` 例外が送出される。

In [6]:
import json
from decimal import Decimal

json_str = '["foo", {"bar":["baz", null, 1.0, 2]}]'
assert json.loads(json_str) == ['foo', {'bar': ['baz', None, 1.0, 2]}]
assert json.loads(json_str, parse_float=Decimal, parse_int=float) == ['foo', {'bar': ['baz', None, Decimal('1.0'), 2.0]}]

`parse_*` 引数以外の方法で `json` モジュールがサポートしていない Python オブジェクトへ変換するには、`object_hook` 引数にフック関数を指定する必要がある。この関数は、JSON のオブジェクトから Python の `dict` を生成するデフォルトの処理の後処理を実装する。唯一の引数として `dict` を取り、その戻り値が `dict` の代わりに使われる。

たとえば、JSON のオブジェクトが `'date'` キーを持ち、値が ISO 8601 形式の YYYY-MM-DD で表した日付の文字列である場合に、値を `datetime.datetime` オブジェクトに変換するなら、次のような関数を定義することになる:

In [7]:
import json
from datetime import date
import pprint

def my_json_parser(obj: dict):
    if "date" in obj:
        obj["date"] = date.fromisoformat(obj["date"])
    return obj

json_str = '[{"date": "2000-10-16", "event": "Python 2.0 release"}, {"date": "2008-12-03", "event": "Python 3.0 release"}]'
# object_hook を定義しない場合
obj = json.loads(json_str)
pprint.pprint(obj)
# object_hook を定義した場合
obj = json.loads(json_str, object_hook=my_json_parser)
pprint.pprint(obj)

[{'date': '2000-10-16', 'event': 'Python 2.0 release'},
 {'date': '2008-12-03', 'event': 'Python 3.0 release'}]
[{'date': datetime.date(2000, 10, 16), 'event': 'Python 2.0 release'},
 {'date': datetime.date(2008, 12, 3), 'event': 'Python 3.0 release'}]


`object_pairs_hook` で定義したフック関数の戻り値も `dict` の代わりに使われるが、この関数はデフォルトの処理における `dict()` 呼び出しの代替として呼び出される。唯一の引数としてキーと値の 2 要素タプルからなるリストを取る。`object_pairs_hook` を指定すると、`object_hook` の指定は無視される。

たとえば、次のコードは、JSON オブジェクトをカスタムクラスのインスタンスへ変換する。

In [8]:
import json

# カスタムクラスを定義
class CustomObject:
    def __init__(self, pairs):
        self.data = {key: value for key, value in pairs}

    def __repr__(self):
        return f"CustomObject({self.data})"

    def __getitem__(self, key):
        if key in self.data:
            return self.data[key]
        else:
            raise AttributeError

json_str = '["foo", {"bar":["baz", null, 1.0, 2]}]'
obj = json.loads(json_str, object_pairs_hook=CustomObject)
assert obj[1]["bar"][0] == "baz"
obj

['foo', CustomObject({'bar': ['baz', None, 1.0, 2]})]

``` python
json.load(fp, *, cls=None, object_hook=None, parse_float=None, parse_int=None, parse_constant=None, object_pairs_hook=None, **kw)
```

この関数は、読み込み可能で開かれているファイルオブジェクト `fp` から読み込んだ JSON 形式の文字列またはバイト列を Python のオブジェクトに変換して返す。`fp` 以外の引数は `json.loads()` と同様。変換しようとしているデータが不正な JSON 文書だった場合、 `json.JSONDecodeError` 例外が送出される。

In [9]:
import json

with open("./sample_data/anscombe.json") as f:
    data = json.load(f)
    print(data[0:3])

[{'Series': 'I', 'X': 10.0, 'Y': 8.04}, {'Series': 'I', 'X': 8.0, 'Y': 6.95}, {'Series': 'I', 'X': 13.0, 'Y': 7.58}]


### JSON 形式への変換 ###

``` python
json.dumps(obj, *, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None,
           sort_keys=False, **kw)
```

この関数は、 Python のオブジェクトを JSON 形式の文字列に変換して返す。第 1 引数以外の引数は全てキーワード専用である。

| 引数 | 意味 |
|:---|:---|
| `obj` | JSON 形式に変換する対象のオブジェクトを指定する |
| `skipkeys` | `False`（デフォルト）の場合、辞書のキーに基本型（`str`, `int`, `float`, `bool`, `None`）以外のオブジェクトを指定していると、`TypeError` を送<br /><br />出する。`True` の場合、`TypeError` を送出せずに読み飛ばす |
| `ensure_ascii` | `True`（デフォルト）の場合、入力された全ての非 ASCII 文字はエスケープされて出力される。`False` の場合、これらの文字はそのまま出力され<br /><br />る |
| `check_circular` | `True`（デフォルト）の場合、`dict`, `list`, `tuple` の要素が参照し合ってループを成している状態（循環参照）があるかチェックする。`False` の<br /><br />場合、チェックを省略する。循環参照があると無限再帰となり `RecursionError` を引き起こす |
| `allow_nan` | `True`（デフォルト）の場合、非数や正ないし負の無限大が含まれるなら、それぞれ JavaScript で等価な NaN, Infinity, -Infinity に変換する。<br /><br />`False` の場合、JSON 規格を厳格に守って `ValueError` 例外を送出する |
| `cls` | カスタマイズした `json.JSONEncoder` のサブクラスを使う場合に指定する。指定がなければ、`json.JSONEncoder` が使われる |
| `indent` | 出力する文字列が見やすいようにインデントを設定したい場合にインデントレベルを非負の整数で指定する。`'\t'` のように個々のレベルのイ<br /><br />ンデントに使う文字列を指定することもできる。指定がなければ、最もコンパクトな表現が選択される |
| `separators` | 要素の区切り文字と、キーと値の区切り文字を 2 要素タプルとして指定する。デフォルトは `indent` が `None` のとき `(', ', ': ')` で、そうで<br /><br />なければ `(',', ': ')` |
| `default` | 文字列化できないオブジェクトに対して呼び出す関数を指定する |
| `sort_keys` | `True` の場合、出力がキーでソートされる |

Python のオブジェクトが日本語文字列を含む場合、`ensure_ascii=False` を指定しないと、`utf-8` 形式のバイト列にエンコードされてしまうことに注意する。

最もコンパクトな JSON の表現とするには、`indent=None`（デフォルト）かつ `separators=(",", ":")` と指定する。

Python の `datetime` 型のように `json` モジュールが JSON 形式への変換をサポートしていないデータ型については、`default` 引数に変換用のコールバック関数を指定する必要がある。指定しない場合は、`TypeError` 例外が発生する。

In [10]:
from datetime import datetime
import json

obj = ["foo", {"bar": ("baz", None, 1.0, 2, datetime(2023, 10, 31, 18, 30))}]

def json_serial(obj):
    match obj:
        # 日時の場合は isoformat に
        case datetime():
            return obj.isoformat(sep=" ")
        # それ以外は文字列に
        case _:
            return str(obj)

assert json.dumps(obj, default=json_serial, separators=(",", ":")) == '["foo",{"bar":["baz",null,1.0,2,"2023-10-31 18:30:00"]}]'
print(json.dumps(obj, default=json_serial, indent=4))  # 見やすい表示

[
    "foo",
    {
        "bar": [
            "baz",
            null,
            1.0,
            2,
            "2023-10-31 18:30:00"
        ]
    }
]


``` python
json.dump(obj, fp, *, skipkeys=False, ensure_ascii=True, check_circular=True, allow_nan=True, cls=None, indent=None, separators=None, default=None,
          sort_keys=False, **kw)
```
この関数は、 Python のオブジェクト `obj` を JSON 形式の文字列に変換し、書き込み可能で開かれているファイルオブジェクト `fp` に書き込む。`fp` 以外の引数は `json.dumps()` と同等。

In [11]:
from io import StringIO
io = StringIO()
json.dump(['streaming API'], io)
io.getvalue()

'["streaming API"]'

YAML
----

### 規格

YAML は、データ構造を人間が読み書きしやすい形式で直列化できるデータフォーマットであり、[GitHub のリポジトリ](https://github.com/yaml/yaml-spec)で仕様の議論が行われている。

YAML の最新バージョンは YAML 1.2 であるが、前バージョン YAML 1.1 に対して後方互換性がない。

仕様の概要は以下の通り。

① `#` から改行まではコメントである。

② スカラーとして以下のデータ型を扱うことができる。  
  * **文字列**（String）:  
通常引用符なしで記述できるが、数値や真理値と誤解される場合、コロン `:` を含む場合、先頭に `@`, `*`, `?`, `-` などの記号がある場合、先頭や末尾にスペースがある場合は、`'` または `"` で囲む必要がある。空文字列は `''` または `""` と書く必要がある。ダブルクォート `"..."` 内では `\n` などのエスケープを使える。シングルクォート `'...'` はエスケープを解釈せず、そのまま文字列として扱う。
  * **整数**（Integer）:  
YAML 1.1 では `1_234_567` のように `_` で区切ることができるが、YAML 1.2 ではできなくなった。また、YAML 1.1 では `0` で始まる数値は 8 進数と解釈されるが、YAML 1.2 では `0o` または `0O` プレフィックスを使う。16 進数は `0x` プレフィックスを使う。
  * **浮動小数点数**（Floating Point）:  
`6.02e-23` のような指数表記も可能。`.nan` は NaN、`.inf` は正の無限大、`-.inf` は負の無限大。それらの大文字バージョン（`.NaN`、`.NAN`、`.Inf`、`.INF`）も使える。
  * **真理値**（Boolean）:  
`true` と `false`。大文字バージョン（`True`、`TRUE`、`False`、`FALSE`）も使える。YAML 1.1 では `yes`、`no`、`y`、`n`、`on`、`off`、それらの大文字バージョンなども使えるが、YAML 1.2 では使えない。
  * **Null**:  
`null` またはチルダ `~`。大文字バージョン（`Null`、`NULL`）も使える。

③ コレクションとして以下のデータ型を扱うことができる。  
  * **マッピング**（Mapping）:  
キーと値のペアから構成され、キーと値は `:` で区切られる。ハッシュ（Hash）や辞書（Dictionary）とも呼ばれる。
  * **シーケンス**（Sequence）:  
配列（Array）やリスト（List）とも呼ばれる。

④ YAML 文書は Unicode で表現される必要がある。ただし UTF-32 は非推奨。ほとんどのパーサーやツールは UTF-8 を前提にしている。

マッピングとシーケンスの記述形式には、ブロック形式とフロー形式がある。ブロック形式では、インデント（字下げ）を使用してデータの階層構造（入れ子の構造）を表現する。

``` yaml
# マッピング - ブロック形式
person:
  name: Bob
  age: 25
  city: New York

# シーケンス - ブロック形式
fruits:
  - apple
  - banana
  - orange
```

``` yaml
# マッピング - フロー形式
person: {name: Bob, age: 25, city: New York}

# シーケンス - フロー形式
fruits: [apple, banana, orange]
```

YAML の特徴を、他の直列化のためのデータフォーマットと比較する形で整理すると、次のようになる。

| フォーマット | 形式 | 表現能力 | 危険性 | 相互運用性 |
|:--:|:--:|:--:|:--:|:--:|
| CSV | 文字列 | 低 | 低 | 中 |
| JSON | 文字列 | 中 | 低 | 高 |
| YAML | 文字列 | 高 | 中 | 高 |
| pickle | バイト列 | 高 | 高 | 低 |

[PyYAML](https://pypi.org/project/PyYAML/) は、YAML 文書を Python のオブジェクト（リストや辞書）に変換する関数、および、逆向きの変換をする関数を提供するサードパーティ製パッケージである。YAML 1.1 に対応し、YAML 1.2 には対応していない。ライセンスは MIT license。インストール方法は次のとおり。

``` shell
pip install PyYAML
```

### Python オブジェクトへの変換 ###

``` python
yaml.load(stream, Loader)
```

この関数は、YAML 文書を読み込み、YAML 文書がマッピングなら `dict` オブジェクトを返し、YAML 文書がシーケンスなら `list` オブジェクトを返す。

第 1 引数には、読み出し可能なファイルオブジェクトか、あるいは文字列を指定する。

第 2 引数 `Loader` にローダーを指定する必要がある。

| ローダー | 機能 |
|:---|:---|
| `FullLoader` | YAML を Python の任意のクラスのインスタンスとしてロードできる。YAML を完全にロードできるが、信頼できない YAML 文書に使用する場合<br /><br />には危険である |
| `SafeLoader` | このローダーを使うと、Python オブジェクトの生成機能は `int` や `list` などの単純な型に制限される。信頼できない YAML 文書をロードする<br /><br />場合に推奨される |
| `BaseLoader` | このローダーを使うと、すべてのスカラーは文字列としてロードされる |

``` python
import yaml
with open('sample.yml', 'r', encoding='utf-8') as f:
     data = yaml.load(f, yaml.FullLoader)
```

``` python
yaml.safe_load(stream)
```

この関数は、`yaml.load(stream, yaml.SafeLoader)` と同等。

次のコードは、YAML 文書がブロック形式のマッピングを定義している。

In [12]:
import yaml
yaml.safe_load('''
# 整数
int1: 2
int2: -100

# 浮動小数点数
float1: 0.1

# NULL
nil1: null
nil2: ~

# Boolean (YAML 1.2 では Boolean として扱うのは true, false だけ)
bool1: true
bool2: false
bool3: yes
bool4: no
bool5: on
bool6: off

# 日付
birthday: 1990-01-01

# タイムスタンプ
stamp1: 2020-12-01 10:00:00
stamp2: 2020-12-01 10:00:00 +9:00

# 文字列
str1: hoge
str2: 'He said "goodbye."'
str3: "spam
ham\
eggs" #二重引用符では改行が可能で、\を付けるとエスケープできる

# シーケンス-フロー形式
list1: [Java, PHP, Python, [spam, ham, eggs]]

# シーケンス-ブロック形式
# インデントでネストを表すが、インデントにはタブが使えずスペースのみが使える
list2:
  - Java
  - PHP
  - Python
  - - spam
    - ham
    - eggs

# マッピング-フロー形式
hash1: {name: John Smith, age: 33}

# マッピング--ブロック形式
# インデントでネストを表すが、インデントにはタブが使えずスペースのみが使える
hash2:
  name: Mary Smith
  age: 27
''')

{'int1': 2,
 'int2': -100,
 'float1': 0.1,
 'nil1': None,
 'nil2': None,
 'bool1': True,
 'bool2': False,
 'bool3': True,
 'bool4': False,
 'bool5': True,
 'bool6': False,
 'birthday': datetime.date(1990, 1, 1),
 'stamp1': datetime.datetime(2020, 12, 1, 10, 0),
 'stamp2': datetime.datetime(2020, 12, 1, 10, 0, tzinfo=datetime.timezone(datetime.timedelta(seconds=32400))),
 'str1': 'hoge',
 'str2': 'He said "goodbye."',
 'str3': 'spam hameggs',
 'list1': ['Java', 'PHP', 'Python', ['spam', 'ham', 'eggs']],
 'list2': ['Java', 'PHP', 'Python', ['spam', 'ham', 'eggs']],
 'hash1': {'name': 'John Smith', 'age': 33},
 'hash2': {'name': 'Mary Smith', 'age': 27}}

次のコードは、YAML 文書がブロック形式のシーケンスを定義している。

In [13]:
import yaml
yaml.safe_load('''
# スカラー
- 0

# シーケンス
- [1.5, 2.3, -0.7]

# マッピング
- name: Mary Smith
  age: 27
''')

[0, [1.5, 2.3, -0.7], {'name': 'Mary Smith', 'age': 27}]

### アンカーとエイリアス ###

YAML では、アンカーでデータをマークすると、後でそのデータをエイリアスで参照することができる。アンカーは、 `&アンカー名` の形で、データの前に空白を挟んで記述する。エイリアスは、`*アンカー名` の形で、置いた場所にてデータが参照される。

In [14]:
import yaml
yaml.safe_load('''
title: マイアプリ
ip: &ip 127.0.0.1
port: 443
debug: true
version: "0.1"
db_ip: *ip
''')

{'title': 'マイアプリ',
 'ip': '127.0.0.1',
 'port': 443,
 'debug': True,
 'version': '0.1',
 'db_ip': '127.0.0.1'}

アンカー / エイリアスは、スカラーだけでなく、マッピングやシーケンスに対して使うこともできる。

In [15]:
import yaml
yaml.safe_load('''
node1:
  name: one
  options: &options
    request_max_size: 1000
    timeout: 10
    backoff_factor: 0.2

node2:
  name: two
  options: *options
''')

{'node1': {'name': 'one',
  'options': {'request_max_size': 1000, 'timeout': 10, 'backoff_factor': 0.2}},
 'node2': {'name': 'two',
  'options': {'request_max_size': 1000, 'timeout': 10, 'backoff_factor': 0.2}}}

### タグ ###

YAML では値は暗黙的に型付けされるが、値の前に `!!型名` という形式のタグを付けることで、明示的な型付けもできる。標準で使用できるタグは[公式ドキュメント](https://yaml.org/type/index.html)を参照。また、 PyYAML は `!!python/tuple` のような独自のタグを定義して Python 固有の型を明示できるようにしている。ただし、`SafeLoader` を使う場合は、独自のタグを使用するとエラーが発生する。

In [16]:
import yaml

yaml.load('''
boolean: !!bool "true"
integer: !!int "3"
float: !!float 3
str: !!str 2020-12-01 10:00:00
timestamp: !!timestamp "2020-12-01 10:00:00"
tuple: !!python/tuple [spam, ham, eggs]
''', yaml.FullLoader)

{'boolean': True,
 'integer': 3,
 'float': 3.0,
 'str': '2020-12-01 10:00:00',
 'timestamp': datetime.datetime(2020, 12, 1, 10, 0),
 'tuple': ('spam', 'ham', 'eggs')}

### 複数行の文字列 ###

文字列に `|` でマークすると、インデント以外のすべての文字が文字列の内容と見なされる。改行が `\n` として含まれる。最後の行の行末にも `\n` が付く。

In [17]:
import yaml
yaml.safe_load('''
title: マイアプリ
description: |
  このアプリは、オンラインで
  YAMLを解析し、エラーも表示
  します
''')

{'title': 'マイアプリ', 'description': 'このアプリは、オンラインで\nYAMLを解析し、エラーも表示\nします\n'}

文字列に `|-` でマークすると、`|` とほとんど同様であるが、最後の行の行末には `\n` が付かない。

In [18]:
import yaml
yaml.safe_load('''
title: マイアプリ
description: |-
  このアプリは、オンラインで
  YAMLを解析し、エラーも表示
  します
''')

{'title': 'マイアプリ', 'description': 'このアプリは、オンラインで\nYAMLを解析し、エラーも表示\nします'}

文字列に `>` でマークすると、インデント以外の文字が文字列の内容と見なされるが、途中の改行は半角スペースに置き換えられる。最後の行の行末に `\n` が付く。これを使うと、長い行を読みやすいように複数行に記述することができる。

In [19]:
import yaml
yaml.safe_load('''
title: マイアプリ
description: >
  このアプリは、オンラインで
  YAMLを解析し、エラーも表示
  します
''')

{'title': 'マイアプリ', 'description': 'このアプリは、オンラインで YAMLを解析し、エラーも表示 します\n'}

### 複数の文書 ###

複数の YAML をハイフン 3 個の行 `---` で区切って 1 文書に結合することができる。`...` で一連のストリームの終わりを示す。複数の YAML を読み込むには、以下の関数を使う。

``` python
yaml.load_all(stream, Loader)
yaml.safe_load_all(stream)
```

これらの関数は、各 YAML から変換した Python オブジェクトを 1 つずつ返すようなジェネレーターを返す。`yaml.safe_load_all(stream)` は、`yaml.load_all(stream, yaml.SafeLoader)` と同等。

In [20]:
import yaml

gen = yaml.safe_load_all('''
order: 1
menu: ham
---
order: 2
menu: egg
''')

for data in gen:
    print(data)

{'order': 1, 'menu': 'ham'}
{'order': 2, 'menu': 'egg'}


複数の YAML が埋め込まれた文書を `yaml.load()` 関数や `yaml.safe_load()` 関数でロードするとエラーが発生するので、単一の YAML かどうかわからない文書をロードする場合は、`yaml.load_all()` 関数や `yaml.safe_load_all()` 関数を使う。なお、文書の最初の行に `---` を書いて単一の YAML からなる文書であることを示す習慣があり、この場合は `yaml.load()` 関数や `yaml.safe_load()` 関数でロードすることができる。

In [21]:
import yaml

try:
    data = yaml.safe_load('''
order: 1
menu: ham
---
order: 2
menu: egg
''')
except yaml.composer.ComposerError:
    print("複数 YAML を開くことはできません")

yaml.safe_load('''
---
order: 1
menu: ham
''')

複数 YAML を開くことはできません


{'order': 1, 'menu': 'ham'}

### YAML 文書への変換 ###

``` python
yaml.dump(data, stream)
```

この関数は、Python のオブジェクトを YAML 文書に変換する。第 1 引数には、Python のオブジェクトを指定する。第 2 引数には、ファイルオブジェクトを指定する。Python に固有の型のオブジェクトは、独自のタグを付けて出力する。

``` python
with open('output.yml', 'w', encoding='utf-8') as f:
   yaml.dump(data, f)
```

``` python
yaml.safe_dump(data, stream)
```

この関数は、Python に固有の型のオブジェクトを受け取った場合、独自のタグを付けずに出力する。復元時に Python 固有の型のオブジェクトとして復元されない可能性がある。