# 3章 Pyの具：リスト、タプル、辞書、集合
---
2章では、ブール値、整数、浮動小数点数、文字列という基本データを説明し、Pythonの土台を明らかにした。これらを原子と考えるなら、この章で取り上げるデータ構造は分子のようなものである。つまり、これらの基本データ型を組み合わせて複雑なデータ構造を作れる。プログラミングの仕事では、特定の形でデータを切り貼りする作業が大きなウェートを占めるが、これらのデータ構造はカッターや糊の役割を果たす。

## 3.5 集合
---
**集合**は、値を放り出してキーだけを残した辞書のようなものである。辞書の場合と同様に、個々のキーは一意でなければならない。集合は、何かがあるかどうかだけがわかればよく、ほかのことは知らなくてもよいときに使う。キーになんらかの情報を値として追加したい場合には、辞書を使う。

一部のキーを共通に含んでいるふたつの集合の和集合を計算する場合について考えてみる。集合は、同じ要素をひとつしか持てないので、ふたつの集合の和集合は、各キーをひとつしか持たない。空集合は、要素がない集合のことである。

### 3.5.1 set()による作成
---
集合を作るときには、次に示すように、set()関数を使うか、1個以上のカンマ区切りの値を波かっこで囲んで代入する。

例：
**set()関数を使った場合**

In [1]:
empty_set = set()
empty_set

set()

例：
**1個以上のカンマ区切りの値を波かっこで囲んで代入する場合**

In [2]:
even_numbers = {0, 2, 4, 6, 8}
even_numbers

{0, 2, 4, 6, 8}

In [4]:
odd_numbers = {1, 3, 5, 7, 9}
odd_numbers

{1, 3, 5, 7, 9}

辞書のキーと同様に、集合の要素には順序はない。

[]を使えば、空リストが作れるので、{}を使えば空集合を作れるような気がするかもしれないが、実際には{}で作られるのは空辞書である。対話型インタプリタが空集合を{}ではなく、set()と表示するのもそのためだ。なぜだろうか。辞書の方が先にPythonに含まれており、波かっこを自分のものにしているからだ。

### 3.5.2 set()によるほかのデータ型から集合への変換
---
リスト、文字列、タプル、辞書から重複する値を取り除けば集合を作ることができる。

まず、一部の文字が複数回登場する文字列から見てみる。

例：
**一部の文字が複数回登場する文字列の場合**

In [5]:
set('letters')

{'e', 'l', 'r', 's', 't'}

'letters'には'e'と't'がふたつずつ含まれているのに、集合にはひとつずつしか含まれていないことがわかる。

次はリストから集合を作る。

例：
**リストの場合**

In [6]:
set(['Dasher', 'Dancer', 'Prancer', 'Mason-Dixon'])

{'Dancer', 'Dasher', 'Mason-Dixon', 'Prancer'}

タプルから集合を作る。

例：
**タプルの場合**

In [7]:
set(('Ummagumma', 'Echoes', 'Atom Heart Mother'))

{'Atom Heart Mother', 'Echoes', 'Ummagumma'}

set()に辞書を渡すと、キーだけが使われる。

例：
**辞書の場合**

In [8]:
set({'apple': 'red', 'orange': 'orange', 'cherry': 'red'})

{'apple', 'cherry', 'orange'}

### 3.5.3 inを使った値の有無のテスト
---
集合の用途としてもっとも一般的なのがこれだ。ここでは、drinksという辞書を作る。キーはカクテルの名前、値はその材料だ。

例：

In [9]:
drinks = {
    'martini': {'vodka', 'vermouth'},
    'black russian': {'vodka', 'kahlua'},
    'white russian': {'cream', 'kahlua', 'vodka'},
    'manhattan': {'rye', 'vermouth', 'bitters'},
    'screwdriver': {'orange juice', 'vodka'}
}

辞書と集合はどちらも波かっこ（{と}）に囲まれているが、集合はただの値のシーケンスになっているのに対し、辞書はkey: valueペアのシーケンスになっている。

どのカクテルにウォッカが入っているだろうか（ここでは、次章で説明するfor、if、and、orを使っている）。

例：

In [10]:
for name, contents in drinks.items():
    if 'vodka' in contents:
        print(name)

martini
black russian
white russian
screwdriver


ウォッカが入ったものが飲みたいが、クリームは耐えられないし、ベルモットは灯油みたいな味がするのでいやだ。

例：

In [12]:
for name, contents in drinks.items():
    if 'vodka' in contents and not ('vermouth' in contents or 'cream' in contents):
        print(name)

black russian
screwdriver


### 3.5.4 組み合わせと演算
---
集合の要素の組み合わせについてチェックしたいときにはどうすればよいだろうか。

たとえば、オレンジジュースかベルモットが入ったカクテルを探したいものとする。この場合は、**積集合演算子**の&を使う。

例：

In [13]:
for name, contents in drinks.items():
    if contents & {'vermouth', 'orange juice'}:
        print(name)

martini
manhattan
screwdriver


&演算子の結果は、両方の集合に含まれているすべての要素を格納する集合である。contentsにオレンジジュースもベルモットも含まれていなければ、&は空集合を返し、その場合はFalseだと見なされる。

では、ウォッカがあって、クリームとベルモットがないものを選ぶ前節のサンプルを書き直す。

例：

In [14]:
for name, contents in drinks.items():
    if 'vodka' in contents and not contents & {'vermouth', 'cream'}:
        print(name)

black russian
screwdriver


ここで、あとのサンプルでの入力を減らすために、次のふたつのカクテルの材料を変数に保存しておく。

例：

In [15]:
bruss = drinks['black russian']
wruss = drinks['white russian']

それでは、すべての集合演算をサンプルで実際に見ていく。特殊記号を持つもの、専用の関数を持つもの、両方を持つものがある。

テスト集合a（1と2を格納する）とb（2と3を格納する）を使う。

例：


In [16]:
a = {1, 2}
b = {2, 3}

次に示すように、特殊記号の&か集合のintersection()関数を使えば、**積集合**（両方の集合に共通の要素からなる集合）が得られる。

例：
**積集合**

In [17]:
a & b

{2}

In [18]:
a.intersection(b)

{2}

次の例は、先ほど保存したカクテルの変数を使っている。

例：
**積集合**

In [19]:
bruss & wruss

{'kahlua', 'vodka'}

次の例では、|演算子か集合union()関数を使って**和集合**（少なくともどちらかの集合に含まれている要素の集合）を得ている。

例：
**和集合**

In [20]:
a | b

{1, 2, 3}

In [21]:
a.union(b)

{1, 2, 3}

アルコールバージョンも見てみる。

例：
**和集合**

In [22]:
bruss | wruss

{'cream', 'kahlua', 'vodka'}

**差集合**（第1の集合には含まれているものの、第2の集合には含まれていない要素の集合）は、-記号かdifference()関数で得られる。

例：
**差集合**

In [23]:
a - b

{1}

In [24]:
a.difference(b)

{1}

In [25]:
bruss - wruss

set()

In [26]:
wruss - bruss

{'cream'}

ここまでで、もっともよく使われる和集合、積集合、差集合の演算を取り上げた。ここからのサンプルでは、完全を期すために、他の演算を紹介するが、これらは使わないで終わってしまう可能性もある。

**排他的OR**（どちらか片方に含まれているが、両方には含まれない要素の集合）は、^かsymmentric_difference()を使う。

例：
**排他的OR**

In [27]:
a ^ b

{1, 3}

In [28]:
a.symmetric_difference(b)

{1, 3}

In [29]:
bruss ^ wruss

{'cream'}

<=かissubset()を使えば、片方の集合がもう片方の集合の**部分集合**（サブセット）になっているかどうかをチェックできる。

例：
**部分集合（サブセット）**

In [30]:
a <= b

False

In [31]:
a.issubset(b)

False

ブラック・ルシアンにクリームを加えるとホワイト・ルシアンになる。そのためbrussはwrussの部分集合になっている。

例：
**部分集合（サブセット）**

In [32]:
bruss <= wruss

True

どの集合でも、自分自身の部分集合になっている。

例：
**部分集合（サブセット）**

In [33]:
a <= a

True

In [34]:
a.issubset(a)

True

第1の集合が第2の集合の**真部分集合**になるためには、第2の集合は第1の集合のすべての要素に加えて別の要素を持っていなければならない。真部分集合関係は、<で計算できる。

例：
**真部分集合（サブセット）**

In [35]:
a < b

False

In [36]:
a < a

False

In [37]:
bruss < wruss

True

**上位集合**（スーパーセット）は部分集合の逆で、第2の集合のすべての要素が第1の集合の要素にもなっている関係である。上位集合かどうかは、>=演算子かissuperset()関数で調べる。

例：
**上位集合（スーパーセット）**

In [38]:
a >= b

False

In [40]:
a.issuperset(b)

False

In [41]:
wruss >= bruss

True

In [42]:
wruss.issuperset(bruss)

True

すべての集合は、自身自身の上位集合である。

例：
**上位集合（スーパーセット）**

In [43]:
a >= a

True

In [44]:
a.issuperset(a)

True

最後に、>演算子を使えば、第1の集合か第2の集合の**真上位集合**（第1の集合に第2の集合のすべての要素とその他の要素が含まれている）かどうかがわかる。

例：
**真上位集合（スーパーセット）**

In [45]:
a > b

False

In [46]:
wruss > bruss

True

集合は、自分自身の真上位集合にはならない。

例：
**真上位集合（スーパーセット）**

In [47]:
a > a

False