# 付録1：Pythonの配列


Python に慣れていない人向けに，配列操作の簡単な説明．

## 変数の代入とコピー

配列の操作に入る前に，Python における「代入」がどういう動作なのかをはっきりさせておく．配列の代入は注意しないと想定外の挙動を起こすので注意しないといけない．

Python の変数への代入は，右辺オブジェクトへの**参照** が作られる，つまり，`b=a` としたとき，変数b には変数a (の指すオブジェクト) のコピーが代入されるのではなく，変数aの指すオブジェクトへの参照が代入される．次のコードを実行すると，変数 b はどうなるだろうか．

In [7]:
a=[1]
b=a
print(b)
a.append(2)


[1]


`b=a` を実行した時点での値 `[1]` になると考えた人がいるのではないだろうか．答えは

In [8]:
print(a)
print(b)

[1, 2]
[1, 2]


`b=a` は**参照をコピー**しただけで，配列の実体は1つしかない．なので，`a.append()` で参照先のオブジェクトを変更すると当然 b が参照している内容も変わるのである．つまり，コピーを作るつもりで代入を使うと後でハマる．**値のコピー** が作りたかったら copy を使う．

In [11]:
import copy
a=[1]
b = copy.copy(a)
a.append(2)
print(a)
print(b)

[1, 2]
[1]


copy は同じ値をもつ別のオブジェクトを作るので，a の指す配列を変更しても b の参照先はもちろん変わらない．

しかしここにはもう1個落とし穴がある．オブジェクトの中に参照があった場合どうなるか，である．多次元配列の場合 copy はどういう働きをするだろうか．

In [14]:
a=[[1,2],[3,4]]
b=copy.copy(a)
a[1][1]=5
print(a)
print(b)

[[1, 2], [3, 5]]
[[1, 2], [3, 5]]


b も変わってしまった．多次元配列は，「配列への参照の配列」であるから，copy をしても配列の中に格納されている**参照**がそのままコピーされる．つまり，`[1,2]`，`[3,4]` という**オブジェクトはコピーされない**．多次元配列で値のコピーを作るには deepcopy を使う．

In [16]:
a=[[1,2],[3,4]]
b=copy.deepcopy(a)
a[1][1]=5
print(a)
print(b)

[[1, 2], [3, 5]]
[[1, 2], [3, 4]]


deepcopy は再帰的にすべての値をコピーして新しいオブジェクトを作るので，a から参照を辿れる多次元配列とは完全に別物が b に代入される．

## データ構造の種類

### タプル

Python でタプル (tuple) とは変更不能なオブジェクトを指す．細かい挙動は置いておいて，配列のつもりでタプルを作ってしまわないように気をつけよう．下の書き方はエラーにもならないし一見すると普通の配列っぽい．

In [20]:
a = 1,2,3
b = (1,2,3)

print(a[2])


3


しかし，括弧なしのコンマ区切り，および括弧 `( )` で囲むのは Python ではタプルの定義であり，値を変更することができなくなる．下の2つはいずれもエラーになる．

In [21]:
a[2] = 4

TypeError: 'tuple' object does not support item assignment

In [22]:
b[2] = 4

TypeError: 'tuple' object does not support item assignment

エラーがでるのですぐ分かるのだが，tuple が何のことか知らないとちょっと戸惑う．

### リスト

リストはいわゆる普通の配列．大括弧 `[ ]` で囲む．もちろん値を書き変えることができる．

In [23]:
a = [1, 2, 3, 4]
print(a[2])
a[2] = 5
print(a[2])

3
5


### ディクショナリ

ディクショナリはいわゆるハッシュや連想配列と呼ばれるものである．key-value のペアの集まり．中括弧 `{ }` で囲み，`key:value` を並べる．

In [24]:
a = {'k1':'v1', 'k2':'v2'}
print(a['k1'])

v1


### セット

セットは順序付けされていない値の集合．主に集合演算をやるために使う．中括弧`{ }`で囲み，value のみを並べる．

In [26]:
a = {1, 2, 3, 4}

順序は決まっていないので，リストのようにインデックスで要素を指定することはできず，エラーになる．

In [28]:
print(a[2])

TypeError: 'set' object does not support indexing

## 操作

Python は上に挙げたデータ構造に対して，いろいろと柔軟な操作ができる．

### スライシング

Python のリストは単純な要素番号 (インデックス) だけでなく，スライスによる範囲指定ができる．スライスは `start:stop[:step]` の形式で記述する．

In [49]:
a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

print(a[3:6])
print(a[3:])
print(a[:6])
print(a[3:6:2])
print(a[5:4])

print(a[0:9])

[3, 4, 5]
[3, 4, 5, 6, 7, 8, 9]
[0, 1, 2, 3, 4, 5]
[3, 5]
[]
[0, 1, 2, 3, 4, 5, 6, 7, 8]


start を省略した場合は先頭，stop を省略したときは末尾となる．start > stop を指定すると，その範囲が存在しないので空のリストになる．

注意として，スライスした結果に `a[start]` は**含まれる**が，`a[stop]`は**含まれない**．

In [50]:
print(a[:])
print(a[0:9])

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[0, 1, 2, 3, 4, 5, 6, 7, 8]


さらに，start, stop, step の値には負の値を指定することができる．

In [40]:
print(a[-3:])
print(a[:-3])
print(a[2:-2])
print(a[::-1])

[7, 8, 9]
[0, 1, 2, 3, 4, 5, 6]
[2, 3, 4, 5, 6, 7]
[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]


startとstop に負の値を指定した場合は，末尾からの相対位置を示す．`[-3:]` は「後ろから3番目から，末尾まで」，`[:-3]` は「先頭から，末尾から3番目まで」，`[2:-2]` は「2番目から，末尾から2番目まで」となる．

step を負の値にすると，結果が末尾からの順となる，`[::-1]` は「末尾から先頭まで」となり，リストの順番を反転させる．

多次元のスライシングは多次元配列からある範囲を切り取る…という動作を期待したいところだが，標準リストでは(簡単には)できないので，素直に numpy を使おう．一応やってみると，

In [61]:
a = [[0, 1, 2, 3, 4], ['a', 'b', 'c', 'd', 'e'], ['A', 'B', 'C', 'D', 'E'], ['p', 'q', 'r', 's', 't'], ['P', 'Q', 'R', 'S', 'T']]

print(a[1:4][0:2])

[['a', 'b', 'c', 'd', 'e'], ['A', 'B', 'C', 'D', 'E']]


期待としては 「2行目から4行目，1列目から2列目」を切り出して`[['a', 'b'], ['A', 'B'], ['p', 'q']]` を返して欲しいところだが，標準リストでは 「`a[1:4]` でスライスしたものをさらに `[0:2]` でスライスする」になってしまい，上のような結果になる．

numpy ではスライスをコンマで並べる `[1:4, 0:2]` の書き方で望んだ結果を得ることができる．numpy については付録2で詳しく説明するが，下のようにできる．

In [62]:
import numpy as np

an = np.array(a)

print(an[1:4, 0:2])

[['a' 'b']
 ['A' 'B']
 ['p' 'q']]


### 内包表記

内包表記 (comprehension) とは，リストに対する操作から新しいリストを生成するときの書き方で，

`[expr for val in list if condition]`

と書くことで，「`list` 中の各要素で条件 `condition` を満たすものについて `expr` を適用したもののリスト」ができる．

In [66]:
a = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
b= [str(x) for x in a if x > 5]
print(b)

['6', '7', '8', '9']


これは「リスト a の中から，5より大きいものについて文字列に変換したもののリスト」になっている．内包表記を使わない場合には

In [65]:
b = []
for x in a:
    if x > 5:
        b.append(str(x))

print(b)

['6', '7', '8', '9']


のようになる．これを1行で書けるのが内包表記である．なお if以降は省略可能で，その場合は if文が常に TRUE として扱われる．