# 項目14～16

### 必要なモジュール

In [1]:
import random
random.seed(1234)

import logging
from pprint import pprint
from sys import stdout as STDOUT

# Write all output to a temporary directory
import atexit
import gc
import io
import os
import tempfile

TEST_DIR = tempfile.TemporaryDirectory()
atexit.register(TEST_DIR.cleanup)

# Make sure Windows processes exit cleanly
OLD_CWD = os.getcwd()
atexit.register(lambda: os.chdir(OLD_CWD))
os.chdir(TEST_DIR.name)

def close_open_files():
    everything = gc.get_objects()
    for obj in everything:
        if isinstance(obj, io.IOBase):
            obj.close()

atexit.register(close_open_files)

<function __main__.close_open_files()>

## 項目14 key引数を使い複雑な基準でソートする

`list`には様々な基準に基づいて`list`の要素を順序に従って整列するsortメソッドがある。

デフォルトのsortでは、listの内容を要素の自然な順序の昇順に並べる。

例えば、次のコードは整数を小さいものから大きいものに並べる。

In [2]:
# Example 1
numbers = [93, 86, 11, 68, 70]
numbers.sort()
print(numbers)

[11, 68, 70, 86, 93]


sortメソッドは自然な順序のあるほとんどの組み込み型（文字列、浮動小数点数など）で動作する。

ここでオブジェクトに対してどのような動作が起きるか見てみよう。

例えば、建築現場で使う様々な工具を表すクラスを、インスタンスを出力できるよう`__repr__`メソッド（項目75参照）を含めて定義する。

In [3]:
# Example 2
class Tool:
    def __init__(self, name, weight):
        self.name = name
        self.weight = weight

    def __repr__(self):
        return f'Tool({self.name!r}, {self.weight})'

tools = [
    Tool('level', 3.5),
    Tool('hammer', 1.25),
    Tool('screwdriver', 0.5),
    Tool('chisel', 0.25),
]

この型のオブジェクトのソートを行おうとすると、（クラスで定義されていない）比較のための特殊メソッドを`sort`メソッドが呼び出そうとするため失敗する。

In [4]:
# Example 3
try:
    tools.sort()
except:
    logging.exception('Expected')
else:
    assert False

ERROR:root:Expected
Traceback (most recent call last):
  File "C:\Users\su10_\AppData\Local\Temp\ipykernel_29048\3010603424.py", line 3, in <cell line: 2>
    tools.sort()
TypeError: '<' not supported between instances of 'Tool' and 'Tool'


クラスに（整数のような）自然な順序がない場合には、必要な特殊メソッド（項目73参照）を定義して、追加のパラメータがなくても`sort`が動作するようにできる。

しかし、より一般的な場合には、オブジェクトで複数の順序付けをサポートする必要があり、自然な順序の定義だけでは意味がない。

しばしば、オブジェクトの属性値によってソートする場合がある。このユースケースをサポートするために、`sort`メソッドには関数を引数とする`key`パラメータがある。

`key`関数には単一引数としてソートされるリストの要素が渡される。戻り値は、ソートのために使用する比較可能な（自然な順序を持つ）値でなければならない。

次のコードでは、`Tool`オブジェクトのリストを名前の英字淳にソートできる`key`パラメータのための関数をlambdaキーワードを用いて定義する。

In [5]:
# Example 4
print('Unsorted:', repr(tools))
tools.sort(key=lambda x: x.name)
print('\nSorted:  ', tools)

Unsorted: [Tool('level', 3.5), Tool('hammer', 1.25), Tool('screwdriver', 0.5), Tool('chisel', 0.25)]

Sorted:   [Tool('chisel', 0.25), Tool('hammer', 1.25), Tool('level', 3.5), Tool('screwdriver', 0.5)]


同様に重さでソートするラムダ関数も定義でき、`sort`メソッドに`key`パラメータとして渡すことができる。

In [6]:
# Example 5
tools.sort(key=lambda x: x.weight)
print('By weight:', tools)

By weight: [Tool('chisel', 0.25), Tool('screwdriver', 0.5), Tool('hammer', 1.25), Tool('level', 3.5)]


`key`パラメータとして渡されるラムダ関数の中で要素の属性に、（シーケンス、タプル、辞書では）要素のインデックス、あるいは、他の式を用いてアクセスすることができる。

文字列のような基本型では、`key`関数を使ってソートの前に値の変換ができる。

例えば次のコードでは、通常のソートでは大文字が小文字の前に来るところを、
大文字小文字を無視した英字順なるよう、`list`の中の要素の名前に`lower`メソッドを適用している。

In [7]:
# Example 6
places = ['home', 'work', 'New York', 'Paris']
places.sort()
print('Case sensitive:  ', places)
places.sort(key=lambda x: x.lower())
print('Case insensitive:', places)

Case sensitive:   ['New York', 'Paris', 'home', 'work']
Case insensitive: ['home', 'New York', 'Paris', 'work']


ソートに複数の基準を使う必要が生じることもある。例えば、工具のリストがあり、まず重さ、次に名前でソートしたいとする。

In [8]:
# Example 7
power_tools = [
    Tool('drill', 4),
    Tool('circular saw', 5),
    Tool('jackhammer', 40),
    Tool('sander', 4),
]

Pythonでの最も単純な方法は`tupple`型を用いることである。`tupple`は任意のPython値の変更不能なシーケンスである。

`tupple`はデフォルトで比較可能で自然な順序があり、`sort`メソッドが必要とする`__lt__`のような特殊メソッドを備えている。

`tupple`同士では`tupple`の各位置の要素について実装されている特殊メソッドで順に比較していく。

ある工具が別の工具よりも重い場合にこれがどうなるかを次に示す。

In [44]:
# Example 8
saw = (100, 'circular saw')
jackhammer = (40, 'jackhammer')
# assert not (jackhammer < saw)  # 各要素で比較が行われている
jackhammer < saw

True

タプルの最初の位置の要素（上例では重さ）が等しい場合、タプルの比較は次の位置の要素の比較に移る。

In [10]:
# Example 9
drill = (4, 'drill')
sander = (4, 'sander')
assert drill[0] == sander[0]  # Same weight
assert drill[1] < sander[1]   # Alphabetically less
assert drill < sander         # Thus, drill comes first

この`tupple`の比較方式を用いて、工具をまずその重さでソートし、等しい場合には名前でソートすることができる。

次のコードでは、優先順位順にソートする二つの属性の特性を返す`key`関数を定義している。

In [11]:
# Example 10
power_tools.sort(key=lambda x: (x.weight, x.name))
print(power_tools)

[Tool('drill', 4), Tool('sander', 4), Tool('circular saw', 5), Tool('jackhammer', 40)]


`key`関数で`tuple`を返す場合の制限は、すべての基準に対してソートの方向が同じ（全部が昇順か降順）ことである。

`sort`メソッドに`reverse`パラメータを渡すと、`tuple`の両方の基準に同じように影響する（`sander`の方が`drill`より前に来ることに注意）。

In [12]:
# Example 11
power_tools.sort(key=lambda x: (x.weight, x.name),
                 reverse=True)  # Makes all criteria descending
print(power_tools)

[Tool('jackhammer', 40), Tool('circular saw', 5), Tool('sander', 4), Tool('drill', 4)]


数値については、マイナス単項演算子を用い`key`関数でソートの昇順/降順を混在させることができる。

マイナス演算子は、他には影響せずに、返された`tuple`の値の一つを符号変換することで、`sort`の順番を逆転させることができる。

次のコードでは`weight`を降順、`name`を昇順にソートしている。

In [13]:
# Example 12
power_tools.sort(key=lambda x: (-x.weight, x.name))
print(power_tools)

[Tool('jackhammer', 40), Tool('circular saw', 5), Tool('drill', 4), Tool('sander', 4)]


ただし、単項マイナス演算子はすべての型に使える訳ではない。

In [14]:
# Example 13
try:
    power_tools.sort(key=lambda x: (x.weight, -x.name),
                     reverse=True)
except:
    logging.exception('Expected')
else:
    assert False

ERROR:root:Expected
Traceback (most recent call last):
  File "C:\Users\su10_\AppData\Local\Temp\ipykernel_29048\2522468187.py", line 3, in <cell line: 2>
    power_tools.sort(key=lambda x: (x.weight, -x.name),
  File "C:\Users\su10_\AppData\Local\Temp\ipykernel_29048\2522468187.py", line 3, in <lambda>
    power_tools.sort(key=lambda x: (x.weight, -x.name),
TypeError: bad operand type for unary -: 'str'


このように、`name`の順序を逆転させるため、Pythonには安定ソートアルゴリズムが用意されている。

`list`型の`sort`メソッドは、`key`関数が互いに等しいという値を返した時には、入力リストでの順番を保持する。

これは、同じリストに`sort`を複数回呼び出し、異なる基準を組み合わせられるということを意味している。

次のコードでは上で行ったように、`weight`が降順、`name`が昇順となる`sort`を別々に二回呼び出して行っている。

In [15]:
# Example 14
power_tools.sort(key=lambda x: x.name)   # Name ascending

power_tools.sort(key=lambda x: x.weight, # Weight descending
                 reverse=True)

print(power_tools)

[Tool('jackhammer', 40), Tool('circular saw', 5), Tool('drill', 4), Tool('sander', 4)]


上のコードの挙動を確認しよう。最初の`sort`では名前を英字順にしている。

In [16]:
# Example 15
power_tools.sort(key=lambda x: x.name)
print(power_tools)

[Tool('circular saw', 5), Tool('drill', 4), Tool('jackhammer', 40), Tool('sander', 4)]


二番目の`sort`が`weight`の降順で呼ばれると、'sander'と'drill'が同じ重さの4であることに気づく。

これにより、`sort`メソッドは、この2要素をもとの`list`に現れていたのと同じ順序になるようにソートするため、`name`の相対順序は昇順が保たれる。

In [17]:
# Example 16
power_tools.sort(key=lambda x: x.weight,
                 reverse=True)
print(power_tools)

[Tool('jackhammer', 40), Tool('circular saw', 5), Tool('drill', 4), Tool('sander', 4)]


これと同じ方式がさまざまなソート基準を好きな方向に組み合わせる際に使うことができる。

参集の`list`で保持するものを逆のシーケンスでソートするように確認すればよいだけである。

この例では、`weight`を降順に、`name`を昇順にしたいため、`name`をソートしてから、次に`weight`をソートする必要があった。

先ほどの例での「`key`関数で`tuple`を返し、マイナス単項演算子を使って異なるソート順を混在させる」手法の方が読みやすく、必要なコード量も少なく済む。

この例のように複数回ソートを呼び出すのは必要な場合にのみするべきである。

### 覚えておくこと

- `list`型の`sort`メソッドは、リストの内容を文字列、整数、タプルなどの自然な順序に並べ替えるのに使う
- `sort`メソッドは、特殊メソッドを使って順序付けするメソッドを定義しないとオブジェクトで動作しないが、一般的にはあまりない
- `sort`メソッドの`key`パラメータを使い、`list`の各要素をソートする値を返すヘルパー関数を与えることができる
- `key`関数で`tuple`を返すことにより、複数のソート基準を組み合わせることができる。単項マイナス演算子が、その型で許されるソート順を逆転するのに使える
- マイナス演算子を使えない型では、`sort`メソッドをさまざまな`key`関数と`reverse`値に対して、最も低いランクの`sort`呼び出しから最も高いランクの`sort`呼び出しまで順に複数回呼び出すことで組み合わせたソートが出来る。

## 項目15 dictの挿入順序に依存する場合は注意する

Python3.5以前では、辞書型の`dict`をイテレートしようとする際、要素を挿入した順序とは無関係な順序が出力されてしまうことがあった。

例えば、以下のように辞書を作り出力する例を考える（項目75参照）。

In [18]:
# Example 1
# Python 3.5
baby_names = {
    'cat': 'kitten',
    'dog': 'puppy',
}
print(baby_names)

{'cat': 'kitten', 'dog': 'puppy'}


※Python 3.5だとこの左右が逆
辞書を作成したときの順序は、'cat'、'dog'でしたが出力では逆になってしまうことがあった。

それまでの辞書型の実装が、組み込み型関数`hash`とPython起動時に与えられる乱数のシードとのハッシュ表アルゴリズムに依存してたことが原因である。

これにより挿入順序が辞書でのキーの順序とは合致せず、プログラム実行ごとにシャッフルされてしまっていた。

Python3.6以降では仕様として、辞書は挿入した順番を保持するようになった。

In [19]:
# Example 2
baby_names = {
    'cat': 'kitten',
    'dog': 'puppy',
}
print(baby_names)

{'cat': 'kitten', 'dog': 'puppy'}


Python3.5以前では、`dict`に関しイテレーション順序に依存する全メソッド（`keys`・`values`・`items`・`popitem`等）でも、同じように順番がランダムになってしまう挙動であった。

In [1]:
# Example 3
# Python 3.5
baby_names = {
    'cat': 'kitten',
    'dog': 'puppy',
}
print(list(baby_names.keys()))
print(list(baby_names.values()))
print(list(baby_names.items()))
print(baby_names.popitem())  # Randomly chooses an item

['cat', 'dog']
['kitten', 'puppy']
[('cat', 'kitten'), ('dog', 'puppy')]
('dog', 'puppy')


これらのメソッドも、3.6以降では挿入順序に統一された。

In [36]:
baby_names = {
    'cat': 'kitten',
    'dog': 'puppy',
}

# Example 4
print(list(baby_names.keys()))
print(list(baby_names.values()))
print(list(baby_names.items()))
print(baby_names.popitem())  # Last item inserted

['cat', 'dog']
['kitten', 'puppy']
[('cat', 'kitten'), ('dog', 'puppy')]
('dog', 'puppy')


この変更は`dict`型とその実装に依存していた他のPythonの機能に多くの影響を与えた。

例えば、`**kwargs`パラメータ（「項目23」参照）を含めた関数のキーワード引数も従来はランダムな順序だったため、関数呼び出しのデバッグが難しくなっていた。

In [22]:
# Example 5
# Python 3.5
def my_func(**kwargs):
    for key, value in kwargs.items():
        print('%s = %s' % (key, value))

my_func(goose='gosling', kangaroo='joey')

goose = gosling
kangaroo = joey


今ではキーワード引数の順序も、関数を呼び出した元の順序になるよう保持されている。

In [23]:
# Example 6
def my_func(**kwargs):
    for key, value in kwargs.items():
        print(f'{key} = {value}')

my_func(goose='gosling', kangaroo='joey')

goose = gosling
kangaroo = joey


クラスもインスタンス辞書に`dict`型を使っている。Pythonの古いバージョンでは、オブジェクトのフィールドの順序はランダムだった。

In [24]:
# Example 7
# Python 3.5
class MyClass:
    def __init__(self):
        self.alligator = 'hatchling'
        self.elephant = 'calf'

a = MyClass()
for key, value in a.__dict__.items():
    print('%s = %s' % (key, value))


alligator = hatchling
elephant = calf


これも今ではインスタンスフィールドの代入順序が`__dict__`に反映され、入力した順序となっている。

In [25]:
# Example 8
class MyClass:
    def __init__(self):
        self.alligator = 'hatchling'
        self.elephant = 'calf'

a = MyClass()
for key, value in a.__dict__.items():
    print(f'{key} = {value}')

alligator = hatchling
elephant = calf


    長らく組み込みモジュール`collections`には挿入順序を保持する`OrderedDict`クラスがあった。

    このクラスの振る舞いはPython3.7以降の標準`dict`型と同じだが、性能・特性はまったく異なる。

    キーの挿入と`popitem`呼び出しが高頻度（例えばLRUキャッシュの実装）なら標準`dict`型よりも`OrderedDict`の方が良い（「項目70」参照）

辞書が挿入順序を保持する仕様により、クラスや関数を設計する際にはこの仕様を仮定することができる。

しかし、この挿入順序の振る舞いが、辞書を扱う場合に常に保持されると仮定すべきではない。

Pythonでは書き手が`list`、`dict`などに合致する標準プロトコルをエミュレーションするコンテナ型を定義することが簡単にできる（項目43参照）。

Pythonは静的型付けではなく、ほとんどのコードは厳格なクラス階層に基づく代わりに、オブジェクトの振る舞いがデファクト型に基づく*ダックタイピング*（動的型付けに対応したオブジェクト指向プログラミング言語に特徴的な、型付けのスタイルのひとつ）に依存している。

しかしこれが原因で予測しない結果を生じることがある。

例えば、一番かわいい動物の赤ちゃんというコンテストの結果を示すプログラムを考える。まず、それぞれの動物と投票数についての辞書を考える。

In [26]:
# Example 9
votes = {
    'otter': 1281,
    'polar bear': 587,
    'fox': 863,
}

この投票データを引数とし、動物の順位を空の辞書`ranks`に登録する関数を定義する。

In [27]:
# Example 10
def populate_ranks(votes, ranks):
    names = list(votes.keys())
    names.sort(key=votes.get, reverse=True)
    for i, name in enumerate(names, 1):
        ranks[name] = i

次に、どの動物がコンテストで優勝したかを示す関数も定義する。

上の`populate_ranks`が「辞書`ranks`に昇順で動物と投票数を登録している」と仮定し、`next`を用いて優勝者を呼び出せると考え設計した。

In [28]:
# Example 11
def get_winner(ranks):
    return next(iter(ranks))

これらの関数が設計した通りに動作して、結果が期待通りになっているかを確認する。

In [29]:
# Example 12
ranks = {}
populate_ranks(votes, ranks)
print(ranks)
winner = get_winner(ranks)
print(winner)

{'otter': 1, 'fox': 2, 'polar bear': 3}
otter


ここで、このプログラムの要求が変わったとする。結果を示すUI要素を順位ではなく、英字順に表示することになったとする。

そのために、組み込みモジュール`collection.abc`を使って、新たな辞書的クラス`SortedDict`を作り、英字順に内容をイテレートするとする。

In [30]:
# Example 13
from collections.abc import MutableMapping

class SortedDict(MutableMapping):
    def __init__(self):
        self.data = {}

    def __getitem__(self, key):
        return self.data[key]

    def __setitem__(self, key, value):
        self.data[key] = value

    def __delitem__(self, key):
        del self.data[key]

    # keyでソートするように定義
    def __iter__(self):
        keys = list(self.data.keys())
        keys.sort()
        for key in keys:
            yield key

    def __len__(self):
        return len(self.data)

# SortedDictの挙動確認
my_dict = SortedDict()
my_dict['otter'] = 1
my_dict['cheeta'] = 2
my_dict['anteater'] = 3
my_dict['deer'] = 4

assert my_dict['otter'] == 1

assert 'cheeta' in my_dict
del my_dict['cheeta']
assert 'cheeta' not in my_dict

expected = [('anteater', 3), ('deer', 4), ('otter', 1)]
assert list(my_dict.items()) == expected

assert not isinstance(my_dict, dict)

前に定義した関数の標準`dict`の代わりに、この`SortedDict`インスタンスを使うが標準辞書のプロトコルに適合しているためエラーは生じない。

しかし、実行結果は正しくないものが出力される。

In [31]:
# Example 14
sorted_ranks = SortedDict()
populate_ranks(votes, sorted_ranks)
print(sorted_ranks.data)
winner = get_winner(sorted_ranks)
print(winner)

{'otter': 1, 'fox': 2, 'polar bear': 3}
fox


これは上で実装した`get_winner`が、辞書のイテレーションで挿入順序が`populate_ranks`に一致していると仮定しているため、この問題が起こってしまう。

（`dict`ではなく`SortedDict`を使っているため、この仮定は成り立たない。）

よって優勝者として返された値は、英字順で先頭の「'fox'」となっている。

この問題を解決するには3つの方法がある。

一つ目は`get_winner`関数を再実装し、`ranks`辞書が特定のイテレーション順になっていると仮定しないということであり、最も保守的で頑健な解法である。

In [32]:
# Example 15
def get_winner(ranks):
    for name, rank in ranks.items():
        if rank == 1:
            return name

winner = get_winner(sorted_ranks)
print(winner)

otter


二つ目の方法は、関数の先頭で`ranks`の型が期待通りかチェックして、もしそうでないなら例外を出す方法である。

これは一つ目の方法よりも実行性能が優れている。

In [33]:
# Example 16
try:
    def get_winner(ranks):
        if not isinstance(ranks, dict): # 1番目の引数に指定したオブジェクトが2番目の引数に指定したデータ型と等しいかどうかを返す
            raise TypeError('must provide a dict instance')
        return next(iter(ranks))
    
    assert get_winner(ranks) == 'otter'
    
    get_winner(sorted_ranks)
except:
    logging.exception('Expected')
else:
    assert False

ERROR:root:Expected
Traceback (most recent call last):
  File "C:\Users\su10_\AppData\Local\Temp\ipykernel_29048\3818594816.py", line 10, in <cell line: 2>
    get_winner(sorted_ranks)
  File "C:\Users\su10_\AppData\Local\Temp\ipykernel_29048\3818594816.py", line 5, in get_winner
    raise TypeError('must provide a dict instance')
TypeError: must provide a dict instance


三つ目の方法は、型ヒントを用いて`get_winner`に渡される値が`dict`インスタンスで辞書的振る舞いをする`MutableMapping`でないことを確認する方法である（「項目90」参照）。

次のコードでは、上のコードにアノテーションを付け、mypyツールを`strict`モードで実行したものである。

In [37]:
# Example 17
# Check types in this file with: python -m mypy <path>

from typing import Dict, MutableMapping

def populate_ranks(votes: Dict[str, int],
                   ranks: Dict[str, int]) -> None:
    names = list(votes.keys())
    names.sort(key=votes.get, reverse=True)
    for i, name in enumerate(names, 1):
        ranks[name] = i

def get_winner(ranks: Dict[str, int]) -> str:
    return next(iter(ranks))

from typing import Iterator, MutableMapping

class SortedDict(MutableMapping[str, int]):
    def __init__(self) -> None:
        self.data: Dict[str, int] = {}

    def __getitem__(self, key: str) -> int:
        return self.data[key]

    def __setitem__(self, key: str, value: int) -> None:
        self.data[key] = value

    def __delitem__(self, key: str) -> None:
        del self.data[key]

    def __iter__(self) -> Iterator[str]:
        keys = list(self.data.keys())
        keys.sort()
        for key in keys:
            yield key

    def __len__(self) -> int:
        return len(self.data)

votes = {
    'otter': 1281,
    'polar bear': 587,
    'fox': 863,
}

sorted_ranks = SortedDict()
populate_ranks(votes, sorted_ranks)
print(sorted_ranks.data)
winner = get_winner(sorted_ranks)
print(winner)


{'otter': 1, 'fox': 2, 'polar bear': 3}
fox


これは正しく`dict`と`MutableMapping`型との間の不整合を検出して、不正な使い方をエラーだと通知する。

これは静的型安全性と実行性能の最良の組み合わせと言える。

### 覚えておくこと

- Python3.7以降では、`dict`インスタンスの内容をイテレーションすると、キーが最初に挿入された順番が保持される
- Pythonでは、`dict`インスタンスではないが辞書のようにふるまうオブジェクトを簡単に定義できる。そのような型では、挿入順序が保持されるとは仮定できない。
- 辞書的クラスで注意するには3つの方法がある。
  - 挿入順序に依存しないコードを書く
  - 実行時に`dict`型か明示的にチェックする
  - 型ヒントと静的解析を使って`dict`値の要件をチェックする

## 項目16 辞書の欠損キーの処理にはinやKeyErrorではなくgetを使う

辞書に関する基本的な演算として、キーと値へのアクセス・代入・削除が挙げられる。

例えばサンドイッチ屋のメニューを作るために、人々の好きなパンの種類を調べようとしているとする。

次のコードでは、種類ごとに現在の投票数を示す辞書を定義している。

In [2]:
# Example 1
counters = {
    'pumpernickel': 2,
    'sourdough': 1,
}

新たな投票に対応してカウンタを増やすには、キーがあるかを調べ、無ければ新しいキーとデフォルト値0を挿入し、カウンタの値を１つ増やすということをする。

これを行うには、キーに2回アクセスし、代入を1回する必要がある。次のコードでは`if`分でキーが存在する場合に`True`を返す`in`式を用いている。

In [4]:
# Example 2
key = 'wheat'

if key in counters:
    count = counters[key]
else:
    count = 0

counters[key] = count + 1

print(counters)

{'pumpernickel': 2, 'sourdough': 1, 'wheat': 2}


別の方法として、存在しないキーの値を得たい場合に`KeyError`例外を発生させるという方法がある。

この方法ではアクセスと代入をそれぞれ1回だけ行うため、先ほどの方法より効率的である。

In [5]:
# Example 3
key = 'brioche'

try:
    count = counters[key]
except KeyError:
    count = 0

counters[key] = count + 1

print(counters)

{'pumpernickel': 2, 'sourdough': 1, 'wheat': 2, 'brioche': 1}


実は、存在するキーを取得するか、デフォルト値（上の例での0）を返すという処理は`dict`の`get`メソッドとして用意されている。

`get`の第一引数で`key`を、第二引数でデフォルト値を指定する。

これを用いることで先ほどの`KeyError`の例よりはるかに短く書くことができる。

In [10]:
# Example 4
key = 'multigrain'

count = counters.get(key, 0)
counters[key] = count + 1

print(counters)

{'pumpernickel': 2, 'sourdough': 1, 'wheat': 2, 'brioche': 1, 'multigrain': 4}


例1の`in`式や例2の`KeyError`方式を短くする方法はあるが、どのような方法をとっても代入の重複という問題を避けることができず読みにくくなってしまうので使用は避けた方がよい。

In [None]:
# Example 5
key = 'baguette'

if key not in counters:
    counters[key] = 0
counters[key] += 1

key = 'ciabatta'

if key in counters:
    counters[key] += 1
else:
    counters[key] = 1

key = 'ciabatta'

try:
    counters[key] += 1
except KeyError:
    counters[key] = 1

print(counters)

よって単純な型の辞書では、`get`メソッドを使うのが最短で最も明確なコードとなる。

- このような辞書を保守している場合には、組み込みモジュール`collections`の`Counter`クラスを検討してもよい。

### 辞書の値がlistの場合

辞書の値が`list`のような複雑な型である場合を考える。

例えば投票数を数えるだけでなく誰がそのパンに投票したかも集計するということを考える。

次のコードでは各キーに対し名前の`list`を値として持たせた辞書を実装している。

In [11]:
# Example 6
votes = {
    'baguette': ['Bob', 'Alice'],
    'ciabatta': ['Coco', 'Deb'],
}

key = 'brioche'
who = 'Elmer'

if key in votes:
    names = votes[key]
else:
    votes[key] = names = []

names.append(who)
print(votes)

{'baguette': ['Bob', 'Alice'], 'ciabatta': ['Coco', 'Deb'], 'brioche': ['Elmer']}


このコードのように、`in`式を用いる場合、キーのある場合には2回、ない場合には1回のアクセスと1回の代入が必要である。

この例では1つ前のカウンタの例とは異なり、キーが存在しない場合には空のリストを代入しなければいけない。

3重代入文（votes[key] = names = []）によって、2行ではなく1行でキーを追加している。

辞書にデフォルト値が挿入され、`list`がその後の`append`呼び出しにより変更されるため、再度代入する必要は無い。

次のコードのように`KeyError`例外の方法を用いて実装することも可能である。

キーの有無に関わらず1回のアクセスと1回の代入のみが必要であり、上の`in`条件式よりも効率的である。

In [12]:
# Example 7
votes = {
    'baguette': ['Bob', 'Alice'],
    'ciabatta': ['Coco', 'Deb'],
}

key = 'rye'
who = 'Felix'

try:
    names = votes[key]
except KeyError:
    votes[key] = names = []

names.append(who)

print(votes)

{'baguette': ['Bob', 'Alice'], 'ciabatta': ['Coco', 'Deb'], 'brioche': ['Elmer'], 'rye': ['Felix']}


また、`get`メソッドでもアクセスと代入を1回ずつで実行できる

In [13]:
# Example 8
votes = {
    'baguette': ['Bob', 'Alice'],
    'ciabatta': ['Coco', 'Deb'],
}

key = 'wheat'
who = 'Gertrude'

names = votes.get(key)
if names is None:
    votes[key] = names = []

names.append(who)

print(votes)

{'baguette': ['Bob', 'Alice'], 'ciabatta': ['Coco', 'Deb'], 'brioche': ['Elmer'], 'rye': ['Felix'], 'wheat': ['Gertrude']}


`get`を使って`list`値を取得するこの方式は、if文で代入式（「項目10 代入式で繰り返しを防ぐ」参照）を用いることで、1行短縮することができ読みやすさが向上する。

In [14]:
# Example 9
key = 'brioche'
who = 'Hugh'

if (names := votes.get(key)) is None:
    votes[key] = names = []

names.append(who)

print(votes)

{'baguette': ['Bob', 'Alice'], 'ciabatta': ['Coco', 'Deb'], 'brioche': ['Elmer', 'Hugh'], 'rye': ['Felix'], 'wheat': ['Gertrude']}


`dict`型には、さらに簡潔に書くことのできる`setdefault`メソッドもある。

`setdefault`は辞書のキーの値を取得しようとし、キーがない場合、このメソッドはそのキーに対し指定されたデフォルト値を割り当て、ある場合は対応する値を返す。

つまりデフォルト値または元々あった値のいずれかを返すメソッドである。

次のコードでは前の`get`の例と同じロジックを`setdefault`を用いて実装している。

In [15]:
# Example 10
key = 'cornbread'
who = 'Kirk'

names = votes.setdefault(key, [])
names.append(who)

print(votes)

{'baguette': ['Bob', 'Alice'], 'ciabatta': ['Coco', 'Deb'], 'brioche': ['Elmer', 'Hugh'], 'rye': ['Felix'], 'wheat': ['Gertrude'], 'cornbread': ['Kirk']}


期待通りに動作し短くなっているが、あまり読みやすいとは言えない。

値を取得しているのにメソッド名は`set`という名前をしており、目的を混乱させてしまっている。

Pythonに詳しくない人が読む際に、何をしようとしているか分からなくなってしまう懸念がある。

また、`setdefault`に渡されるデフォルト値は欠損キーの場合には辞書に複製されるのではなく直接代入される。

値が`list`である場合のそれによる影響を次の例で示す。

In [16]:
# Example 11
data = {}
key = 'foo'
value = []
data.setdefault(key, value)
print('Before:', data)
value.append('hello')
print('After: ', data)

Before: {'foo': []}
After:  {'foo': ['hello']}


`setdefault`でアクセスする場合、どんなキーであっても新たなデフォルト値を作成しておかなければならない、ということである。

`setdefault`を呼び出すたびに作成するため、パフォーマンス上大きなオーバーヘッドになってしまう。

しかし、性能や読みやすさを気にしてこのデフォルト値を再利用してしまうと、不思議な現象やバグを生み出すことになる（この問題の別の例について「項目24 動的なデフォルト引数を指定するときにはNoneとdocstringを使う」参照）。

誰が投票したかのリストのではなく、辞書の値にカウンタを使っていた例に戻り、`setdefault`を使った例が次のコードである。

In [17]:
# Example 12
key = 'dutch crunch'

# 比較: counters.get(key, 0)
count = counters.setdefault(key, 0)
counters[key] = count + 1

print(counters)

{'pumpernickel': 2, 'sourdough': 1, 'wheat': 2, 'brioche': 1, 'multigrain': 4, 'dutch crunch': 1}


このコードにおける問題は、`setdefault`の呼び出しが余計だという点である。カウンタを増やした後で、辞書のキーに常に新たな値を代入する必要がある。

よって、`setdefault`による余計な代入は必要がない。カウンタ更新に`get`を使う従来の方式では、カウンタ更新はアクセスと代入が1回ずつだった。

しかし`setdefault`では1回のアクセスと2回の代入が必要となってしまう。

欠損した辞書キーを扱うのに`setdefault`が最短となるのは、デフォルト値の作成が安価で変更可能勝つ例外の起こる可能性がない（例：`list`インスタンス）わずかな状況に限られている。

そのような非常に特殊な場合には、`get`を使うためにより多くの文字と行を費やすよりもメソッド名の`setdefault`が紛らしくても使う価値があると言える。

しかし、そのような状況で本当に必要なのは、`defaultdict`を使うことである（「項目17」参照）。

### 覚えておくこと

- 辞書の欠損キーを検出するには以下の4津の方法がある：
  - `in`式
  - `KeyError`例外
  - `get`メソッド
  - `setdefault`メソッド
- `get`メソッドは、カウンタのような基本的な型からなる辞書には最適である。辞書の値の生成コストがかかる場合や例外が送出される可能性がある場合は代入式と一緒に用いるのが良い。
- `dict`の`setdefault`の代わりに`defaultdict`を用いることを検討する