# データ構造の基礎：List, tuple, dict, set
## Agenda

- データ構造の分子としてのList, tuple, dict, setを学ぶ

## 参考

- [公式ドキュメント](https://docs.python.org/ja/3/tutorial/datastructures.html)

### Import

In [1]:
import numpy as np
import itertools
from functools import reduce

## List型データ構造

- リストとは、任意の要素からなるシーケンス
- tupleとlistはimmutable(書き換えられない), mutableという違いがある
- リストは、要素を順番に管理したい、特に順番と内容が変わる場合があるときに向いている


### Listの作成

In [2]:
## 空リストの作成
empty_list = []
empty_list_2 = list()
empty_list == empty_list_2

True

### `list()`による他のデータ型からリストへの変換

In [3]:
## string to list
list('cat')

['c', 'a', 't']

In [4]:
## tuple to list
list((1, 2, 3))

[1, 2, 3]

### `list.append`による要素の追加

- リストの末尾に要素を一つ追加

In [5]:
alphabet = list('ABCDEFG')
alphabet.append('H')
alphabet

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H']

In [6]:
alphabet = list('ABCDEFG')
alphabet.append(['H', 'I'])
alphabet

['A', 'B', 'C', 'D', 'E', 'F', 'G', ['H', 'I']]

### `list.extend`によるリストの結合

`list.extend(iterable)`: イテラブルのすべての要素を対象のリストに追加し、リストを拡張する。

In [7]:
alphabet = list('ABCDEFG')
alphabet.extend(['H', 'I'])
alphabet

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']

`+`を用いた場合と同じ挙動する

In [8]:
alphabet = list('ABCDEFG')
alphabet += ['H', 'I']
alphabet

['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I']

### `list.insert()`によるオフセットを指定した要素の追加

In [9]:
alphabet = list('ABCDEFG')
alphabet.insert(1, 'a')
alphabet

['A', 'a', 'B', 'C', 'D', 'E', 'F', 'G']

### list要素の削除

In [10]:
### offsetを利用
alphabet = list('ABCDEFG')
alphabet.insert(1, 'a')
del alphabet[1]
alphabet

['A', 'B', 'C', 'D', 'E', 'F', 'G']

In [11]:
### remove
alphabet = list('ABCDEFG')
alphabet.insert(1, 'a')
alphabet.remove('a')
alphabet

['A', 'B', 'C', 'D', 'E', 'F', 'G']

`list.remove()`は、該当する要素がなければ ValueError が送出される。

In [12]:
alphabet.remove(1)

ValueError: list.remove(x): x not in list

### `list.pop`

- リスト中の指定された位置にある要素をリストから削除して、その要素を返す
- インデクスが指定されなければ、 a.pop() はリストの末尾の要素を削除して返す

In [13]:
num = [i for i in range(10)]
a = num.pop()
print(a, num)

9 [0, 1, 2, 3, 4, 5, 6, 7, 8]


In [14]:
num = [i for i in range(10)]
a = num.pop(0)
print(a, num)

0 [1, 2, 3, 4, 5, 6, 7, 8, 9]


### listの削除: `list.clear()`

- `del a[:]`と等価

In [15]:
num = [i for i in range(10)]
num.clear()
num

[]

### `list.index(x[, start[, end]])`による要素のオフセット取得

- リスト中で x と等しい値を持つ最初の要素の位置をゼロから始まる添字で返す
- 該当する要素がなければ ValueError が送出される

In [16]:
num = [i for i in range(10)]
num += num
num

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [17]:
num.index(9)

9

In [18]:
num.index(9, 10, 20)

19

### `join()`による文字列への変換

- `join()`の引数は文字列か文字列のイテラブルシーケンス

In [19]:
fruits = ['orange', 'apple', 'pear', 'banana', 'kiwi', 'apple', 'banana']
separator = '|'
separator.join(fruits)

'orange|apple|pear|banana|kiwi|apple|banana'

### Listの`=`と`copy`

- `=`は同じオブジェクトを参照する
- `copy`はリストスライスとかでも代用できる

In [20]:
a = [i for i in range(10)]
b = a
c = a.copy()
a.sort(reverse = True)
print(b,'\n',c)

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0] 
 [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


リストスライス

In [21]:
a = [i for i in range(10)]
b = a
c = a.copy()
d = list(a)
e = a[:]
a.sort(reverse = True)

print(a, b, c , d , e)

[9, 8, 7, 6, 5, 4, 3, 2, 1, 0] [9, 8, 7, 6, 5, 4, 3, 2, 1, 0] [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] [0, 1, 2, 3, 4, 5, 6, 7, 8, 9] [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


### リストをスタックとして使う

- `Last In First Out`
- `append`と`pop`を活用する


In [22]:
stack = [3, 4, 5]
stack.append(6)
stack.pop()

6

In [23]:
stack

[3, 4, 5]

### リストをキューとして使う

- `first-in, first-out`
- 挿入（insert）や取り出し（pop）をリストの先頭に対して行うと遅くなってしまいます（他の要素をひとつずつずらす必要があるからです）。
- キューの実装には、 collections.deque を使うと良い

In [24]:
from collections import deque

In [25]:
queue = deque(["Eric", "John", "Michael"])
queue

deque(['Eric', 'John', 'Michael'])

In [26]:
queue.append('Terry')
queue

deque(['Eric', 'John', 'Michael', 'Terry'])

In [27]:
queue.popleft()

'Eric'

In [28]:
queue

deque(['John', 'Michael', 'Terry'])

### `deque`と`list`の時間計測

- method実行時間とインスタンス構築時間両方を考える必要がある

In [29]:
%%timeit
queue = deque([i for i in range(1000000)])
queue.append('Terry')
a = queue.popleft()

79.9 ms ± 2.79 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [30]:
%%timeit
queue = [i for i in range(1000000)]
queue.append('Terry')
a = queue.pop(0)

67.8 ms ± 10.9 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


### ネストしたリストの内包表記

In [31]:
matrix = [
    [1, 2, 3, 4],
    [5, 6, 7, 8],
    [9, 10, 11, 12],
]
matrix

[[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]

In [32]:
[[row[i] for row in matrix] for i in range(4)]

[[1, 5, 9], [2, 6, 10], [3, 7, 11], [4, 8, 12]]

In [33]:
list(zip(*matrix))

[(1, 5, 9), (2, 6, 10), (3, 7, 11), (4, 8, 12)]

## tuple

- List同様シーケンスデータ型
- Listと異なり、イミュータブル、定数リストとして使われる
- メモリ消費スペースが小さい

In [34]:
t = 12345, 54321, 'hello!'
t

(12345, 54321, 'hello!')

In [35]:
t[0] = 888

TypeError: 'tuple' object does not support item assignment

### tupleのアンパック

- シーケンスのアンパックでは、等号の左辺に列挙されている変数が、右辺のシーケンスの長さと同じ数だけあることが要求されます

In [36]:
a, b, c = t
print(a, b, c)

12345 54321 hello!


## 集合型

- 重複する要素をもたない、順序づけられていない要素の集まり
- Set オブジェクトは、和 (union)、積 (intersection)、差 (difference)、対称差 (symmetric difference)といった数学的な演算もサポートしている
- 空集合を作成するためには `set()` を使用しなければなりません (`{}` ではなく)

In [37]:
a = set({1, 2, 3, 4, 5})
b =  set({1, 3, 5})

In [38]:
a - b

{2, 4}

In [39]:
b - a

set()

In [40]:
a | b

{1, 2, 3, 4, 5}

In [41]:
a & b

{1, 3, 5}

In [42]:
a ^ b

{2, 4}

### 要素の追加と削除

In [43]:
a.add(8)
a

{1, 2, 3, 4, 5, 8}

In [44]:
a.remove(8)
a

{1, 2, 3, 4, 5}

## 辞書

- 個々のvalueに一意なキーを与える
- キーはimmutableならなんでも良い

In [45]:
empty_dict = {}
type(empty_dict)

dict

In [46]:
dict([['a', 1], ['b', 2], ['c', 4]])

{'a': 1, 'b': 2, 'c': 4}

In [47]:
matrix = [
    [1, 2, 3, 4],
    [5, 6, 7, 8]
]
matrix

A = dict(zip(*matrix))
A

{1: 5, 2: 6, 3: 7, 4: 8}

### keyの追加と変更

In [48]:
A[10] = 9
A

{1: 5, 2: 6, 3: 7, 4: 8, 10: 9}

### dictのupdate

In [49]:
A.update({11:20})
A

{1: 5, 2: 6, 3: 7, 4: 8, 10: 9, 11: 20}

すでにキーが存在する場合はupdate内容が採用される（上書きされる）

In [50]:
A.update({11:21})
A

{1: 5, 2: 6, 3: 7, 4: 8, 10: 9, 11: 21}

### 辞書のキー、value, key-value pairの取得

In [51]:
A.keys()

dict_keys([1, 2, 3, 4, 10, 11])

In [52]:
A.values()

dict_values([5, 6, 7, 8, 9, 21])

In [53]:
A.items()

dict_items([(1, 5), (2, 6), (3, 7), (4, 8), (10, 9), (11, 21)])