<a href="https://colab.research.google.com/github/suwatoh/Python-learning/blob/main/125_%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E6%95%B4%E5%BD%A2%E8%A1%A8%E7%A4%BA%E3%81%A8%E7%9B%B4%E5%88%97%E5%8C%96.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

データの整形表示と直列化
========================

データの整形表示
----------------

### pprint ###

標準ライブラリの `pprint` モジュールが提供する `pprint.pprint()` 関数は、何重にもネストされた辞書や、要素数が長いリストのように、人間が読みにくい構造のデータを整形して出力する。

``` python
pprint.pprint(object, stream=None, indent=1, width=80, depth=None, *, compact=False, sort_dicts=True, underscore_numbers=False)
```

| 引数 | 意味 |
|:--|:--|
| `object` | 出力するデータを指定する |
| `stream` | 出力先のファイルオブジェクトを指定する。`None`（デフォルト値）ならば、標準出力 `sys.stdout` に出力される |
| `indent` | ネストされたオブジェクトの子要素を出力するときのインデント数を指定する |
| `width` | 出力幅を指定する |
| `depth` | ネストされたオブジェクトを出力する際の、最大レベル数を指定する。`None`（デフォルト値）ならば、すべてのレベルを出力する |
| `compact` | キーワード専用引数。`True` の場合、各行に `width` の幅に収まるだけの要素が出力される。`False` の場合、1 行ごとに 1 要素が出力される |
| `sort_dicts` | キーワード専用引数。`True` の場合、キーがソートされた状態で出力される。`False` の場合、挿入順に出力される |
| `underscore_numbers` | キーワード専用引数。`True` の場合、整数は千の位の区切り文字としてアンダースコア `_` が使用される。`False` の場合、アンダースコアは使<br />用されない |

この関数でネストされた辞書を整形して出力する場合、デフォルトではキーがソートされた状態で出力されることに注意する。挿入順に出力するには、`sort_dicts=False` を指定する必要がある。

In [None]:
# ネストした辞書
import pprint
users = {
    'user1': {
        'name': '山田 太郎',
        'age': 30,
        'city': '東京'
    },
    'user2': {
        'name': '鈴木 花子',
        'age': 25,
        'city': '大阪'
    },
    'user3': {
        'name': '田中 健太',
        'age': 45,
        'city': '福岡'
    }
}
pprint.pprint(users, width=30)
print('>>sort_dicts=False')
pprint.pprint(users, width=30, sort_dicts=False)

{'user1': {'age': 30,
           'city': '東京',
           'name': '山田 太郎'},
 'user2': {'age': 25,
           'city': '大阪',
           'name': '鈴木 花子'},
 'user3': {'age': 45,
           'city': '福岡',
           'name': '田中 健太'}}
>>sort_dicts=False
{'user1': {'name': '山田 太郎',
           'age': 30,
           'city': '東京'},
 'user2': {'name': '鈴木 花子',
           'age': 25,
           'city': '大阪'},
 'user3': {'name': '田中 健太',
           'age': 45,
           'city': '福岡'}}


In [None]:
# 長いリスト
import pprint
stuff = ["spam", "eggs", "lumberjack", "knights", "ni"]
stuff.insert(0, stuff)
pprint.pprint(stuff)

[<Recursion on list with id=136821680889088>,
 'spam',
 'eggs',
 'lumberjack',
 'knights',
 'ni']


``` python
pprint.pformat(object, indent=1, width=80, depth=None, *, compact=False, sort_dicts=True, underscore_numbers=False)
```

この関数は、`pprint.pprint()` 関数と同じくオブジェクトを整形するが、標準出力に印字するのではなく、戻り値として文字列を返す。

### tabulate ###

サードパーティ製の [tabulate](https://pypi.org/project/tabulate/) は、ネストされたリストなど一定のデータ構造を表形式に整形して出力する関数を提供する。ライセンスは MIT License。インストールは次のとおり。

``` shell
pip install tabulate
```

``` python
tabulate(tabular_data, headers=(), tablefmt="simple", floatfmt=_DEFAULT_FLOATFMT, intfmt=_DEFAULT_INTFMT, numalign=_DEFAULT_ALIGN,
         stralign=_DEFAULT_ALIGN, missingval=_DEFAULT_MISSINGVAL, showindex="default", disable_numparse=False, colglobalalign=None,
         colalign=None, preserve_whitespace=False, maxcolwidths=None, headersglobalalign=None, headersalign=None, rowalign=None,
         maxheadercolwidths=None, break_long_words=_BREAK_LONG_WORDS, break_on_hyphens=_BREAK_ON_HYPHENS)
```

この関数は、一定のデータ構造を表形式に整形したテキストを生成して返す。以下のデータ構造をサポートする。

| データ構造 | 例 |
|:---|:---|
| ネストされたリスト | `[['Name', 'Age'], ['Alice', 24], ['Bob', 19]]` |
| リストを含む辞書 | `{'Name': ['Alice', 'Bob'], 'Age': [24, 19]}` |
| 辞書のリスト | `[{'Name': 'Alice', 'Age': 24}, {'Name': 'Bob', 'Age': 19}]` |
| dataclass のリスト | `[Person('Alice', 24), Person('Bob', 19)]` |

関数の主な引数は、以下の通り。

| 引数 | 意味 |
|:---|:---|
| `tabular_data` | 入力データ |
| `headers` | 表のヘッダーを指定する<br /><br />・空リストや空タプル: ヘッダーを表示しない（デフォルト）<br /><br />・文字列のリストまたはタプル: ヘッダーとして表示したい文字列を順序通りにリストまたはタプルで指定する<br />　・`tabular_data` がネストされたリストの場合、各リストの順序通りに要素がヘッダーに対応付けられる<br />　・`tabular_data` がリストを含む辞書や、辞書のリストである場合、ヘッダーと一致するキーの値がヘッダーに対応付けられる<br />　・`tabular_data` が dataclass のリストである場合、ヘッダーと一致するフィールドの値がヘッダーに対応付けられる<br /><br />・`'firstrow'`: `tabular_data` がネストされたリストの場合、最初の内側のリストを表のヘッダーとして扱う<br /><br />・`'keys'`: `tabular_data` がリストを含む辞書や、辞書のリストである場合、各キーを表のヘッダーとする |
| `tablefmt` | 表の書式を文字列で指定する。デフォルトは `'simple'` |
| `floatfmt` | `float` 型データに対する書式指定。デフォルトは `'g'` |
| `intfmt` | `int` 型データに対する書式指定。デフォルトは 10 進数 |
| `numalign` | 数値の列の配置。`'right'`（右揃え）, `'center'`（中央揃え）, `'left'`（左揃え）, `'decimal'` |
| `stralign` | 文字列の列の配置。`'right'`（右揃え）, `'center'`（中央揃え）, `'left'`（左揃え） |
| `showindex` | `True` の場合、自動連番でインデックスを表示する。イテラブルの場合、表示する任意のインデックスを指定する |
| `colalign` | シーケンスで列ごとの配置を指定する。`'right'`（右揃え）, `'center'`（中央揃え）, `'left'`（左揃え） |

書式 `tablefmt='simple'` の例:

In [None]:
# ネストされたリストを整形出力
from tabulate import tabulate
table = [["Sun",696000,1989100000], ["Earth",6371,5973.6], ["Moon",1737,73.5], ["Mars",3390,641.85]]
print(tabulate(table, headers=["Planet","R (km)", "mass (x 10^29 kg)"]))

Planet      R (km)    mass (x 10^29 kg)
--------  --------  -------------------
Sun         696000           1.9891e+09
Earth         6371        5973.6
Moon          1737          73.5
Mars          3390         641.85


書式 `tablefmt='plain'` の例:

In [None]:
# ネストされたリストを整形出力
from tabulate import tabulate
print(tabulate([["Name", "Age"], ["Alice", 24], ["Bob", 19]],
               headers='firstrow', tablefmt='plain'))

Name      Age
Alice      24
Bob        19


書式 `tablefmt='grid'` の例:

In [None]:
# リストを含む辞書を整形出力
from tabulate import tabulate
print(tabulate({"Name": ["Alice", "Bob"], "Age": [24, 19]},
               headers="keys", tablefmt='grid'))

+--------+-------+
| Name   |   Age |
| Alice  |    24 |
+--------+-------+
| Bob    |    19 |
+--------+-------+


書式 `tablefmt='psql'` の例:

In [None]:
# 辞書のリストを整形出力
from tabulate import tabulate
print(tabulate([{"Name": "Alice", "Age": 24}, {"Name": "Bob", "Age": 19}],
               headers="keys", tablefmt='psql'))

+--------+-------+
| Name   |   Age |
|--------+-------|
| Alice  |    24 |
| Bob    |    19 |
+--------+-------+


書式 `tablefmt='pretty'` の例:

In [None]:
# dataclass のリストを整形出力
from dataclasses import dataclass, fields
from tabulate import tabulate

@dataclass
class Person:
    name: str
    age: bool

print(tabulate([Person("Alice", 24), Person("Bob", 19)],
               headers=[f.name for f in fields(Person)],
               tablefmt='pretty'))

+-------+-----+
| name  | age |
+-------+-----+
| Alice | 24  |
|  Bob  | 19  |
+-------+-----+


書式 `tablefmt='github'` の例:

In [None]:
# インデックスを表示
from tabulate import tabulate
print(tabulate({"Name": ["Alice", "Bob"], "Age": [24, 19]},
               headers="keys", tablefmt='github', showindex=True))

|    | Name   |   Age |
|----|--------|-------|
|  0 | Alice  |    24 |
|  1 | Bob    |    19 |


書式 `tablefmt='pipe'` の例:

In [None]:
# 列ごとの配置を指定
from tabulate import tabulate
print(tabulate({"Name": ["Alice", "Bob"], "Age": [24, 19], "Gender": ["female", "male"]},
               headers="keys", tablefmt='pipe', colalign=["left", "right", "center"]))

| Name   |   Age |  Gender  |
|:-------|------:|:--------:|
| Alice  |    24 |  female  |
| Bob    |    19 |   male   |


書式 `tablefmt='html'` の例:

In [None]:
# float 型データに対する書式指定
import math
from tabulate import tabulate
from IPython.display import HTML
display(HTML(tabulate({"constant": ["e", "pi"], "value": [math.e, math.pi]},
             headers="keys", tablefmt='html', floatfmt='.2f')))

constant,value
e,2.72
pi,3.14


pickle
------

Python のオブジェクトを一列のバイト列に変換することを**シリアライズ**（直列化）といい、復元することを**デシリアライズ**という。シリアライズしたものをファイルに保存すると、オブジェクトのデータ構造とデータの値をそのまま保存することができる。ファイルを読み込み、デシリアライズすると、元のオブジェクトを復元できる。このようにオブジェクトを半永久的に保存し、いつでも復元できるようにすることを**永続化**（perpetuation）という。

標準ライブラリの `pickle` モジュールは、シリアライズ・デシリアライズをサポートする。`pickle` モジュールが提供する機能を使ってシリアライズとファイル保存をすることを pickle 化、ファイル読み込みとデシリアライズをすることを非 pickle 化と呼ぶ。ファイル名の拡張子は `.pickle` とすることが多い。 pickle は Python 固有のバイナリ形式であり、相互運用可能なフォーマットではない。

| 関数 | 機能 | 戻り値 |
|:---|:---|:---|
| `pickle.dump(obj, file, protocol=None, *, fix_imports=True, `<br />`buffer_callback=None)` | オブジェクト `obj` をシリアライズし、ファイルオブジェクト `file` に書き込む | `None` |
| `pickle.dumps(obj, protocol=None, *, fix_imports=True,`<br />` buffer_callback=None)` | オブジェクト `obj` をシリアライズし、結果のバイト列を返す | `bytes` |
| `pickle.load(file, *, fix_imports=True, encoding='ASCII',`<br />` errors='strict', buffers=None)` | ファイルオブジェクト `file` から読み込んだ内容をデシリアライズし、結果の<br />オブジェクトを返す | `object` |
| `pickle.loads(data, /, *, fix_imports=True, encoding='ASCII',`<br />` errors='strict', buffers=None)` | バイト列 `data` をデシリアライズし、結果のオブジェクトを返す | `object` |

`dump()` と `dumps()` の `protocol` 引数は、整数で、シリアライズで使用するプロトコルのバージョンを指定する。指定されない場合、`pickle.DEFAULT_PROTOCOL` が使用される。Python 3.8 以降、`pickle.DEFAULT_PROTOCOL` は `4` で、Python 3.3 以前では利用できない。`pickle.HIGHEST_PROTOCOL` は、利用可能な最も高いプロトコルバージョンであり、Python 3.8 以降は `5`。これは Python 3.7 以前では利用できない。

`fix_imports` 引数が真の場合、可能なら Python 2 との互換性を保つ形式となるが、今日の `pickle.DEFAULT_PROTOCOL` 以降のバージョンではサポートされない。

書き込み（ pickle 化）:

``` python
import pickle
with open(filepath, 'wb') as f:
    pickle.dump(obj, f)
```

読み込み（非 pickle 化）:

``` python
import pickle
with open(filepath, 'rb') as f:
    x = pickle.load(f)
```

`open()` 関数はバイナリモードを指定する必要がある。`pickle.load()` 関数はバイナリファイルを開き、バイナリファイルの安全性を保証しない。非 pickle 化により任意のコードを実行することも可能である。**信頼できない提供元からのデータや、改竄された可能性のあるデータの非 pickle 化は絶対に行ってはいけない**。データの内容や提供先が信頼できないようなケースでは、 JSON のようなより安全なデータフォーマットを使用するべきである。

ファイルオブジェクトやジェネレーターのように pickle 化できないオブジェクトもあって、これらを pickle 化しようとすると `pickle.PicklingError` 例外が発生する。

以下のオブジェクトは pickle 化できる。

  * `None`、`True`、`False`、`Ellipsis`、`NotImplemented`
  * 整数、浮動小数点数、複素数
  * 文字列、バイト列、バイト配列（`bytearray`）
  * `date` オブジェクト、`datetime` オブジェクト、`time` オブジェクト、`timezone` オブジェクト
  * pickle 化可能なオブジェクトからなるタプル、リスト、集合、辞書、`deque` および `namedtuple`（ただし引数 `typename` と同じ名前の変数に割り当てることが条件となる）
  * モジュールのトップレベルで定義された関数（`def` で定義されたもののみで `lambda` で定義されたものは含まない）
  * モジュールのトップレベルで定義されているクラス
  * `__getstate__()` メソッドを呼び出した結果が pickle 化可能であるようなクラスのインスタンス

関数のコードやその属性は pickle 化されない。クラスも同様である。したがって、非 pickle 化を行うモジュールにおいて、pickle 化した関数やクラスを定義するモジュールが import されていないと、例外が発生する。

In [None]:
import pickle
import datetime as dt

data = {
    "a": [1, 2.0, 3 + 4j],
    "b": ("character string", b"byte string"),
    "c": {None, True, False},
    "d": dt.datetime(2023, 10, 31, 21, 30, tzinfo=dt.timezone(dt.timedelta(hours=9), "JST")),
}

# シリアライズ
serialized = pickle.dumps(data)
print(f"{serialized=}", "\n")

# datetime モジュールをアンインポートする
del dt

# デシリアライズ
data2 = pickle.loads(serialized)

# datetime モジュールを import していなくてもエラーにならない
print(f"{data['d']:%Y年%m月%d日 %H時%M分} ({data2['d'].tzname()})")
data2

serialized=b'\x80\x04\x95\xd8\x00\x00\x00\x00\x00\x00\x00}\x94(\x8c\x01a\x94]\x94(K\x01G@\x00\x00\x00\x00\x00\x00\x00\x8c\x08builtins\x94\x8c\x07complex\x94\x93\x94G@\x08\x00\x00\x00\x00\x00\x00G@\x10\x00\x00\x00\x00\x00\x00\x86\x94R\x94e\x8c\x01b\x94\x8c\x10character string\x94C\x0bbyte string\x94\x86\x94\x8c\x01c\x94\x8f\x94(\x89\x88N\x90\x8c\x01d\x94\x8c\x08datetime\x94\x8c\x08datetime\x94\x93\x94C\n\x07\xe7\n\x1f\x15\x1e\x00\x00\x00\x00\x94h\x0f\x8c\x08timezone\x94\x93\x94h\x0f\x8c\ttimedelta\x94\x93\x94K\x00M\x90~K\x00\x87\x94R\x94\x8c\x03JST\x94\x86\x94R\x94\x86\x94R\x94u.' 

2023年10月31日 21時30分 (JST)


{'a': [1, 2.0, (3+4j)],
 'b': ('character string', b'byte string'),
 'c': {False, None, True},
 'd': datetime.datetime(2023, 10, 31, 21, 30, tzinfo=datetime.timezone(datetime.timedelta(seconds=32400), 'JST'))}