# Numpy入門

Adapted by [Volodymyr Kuleshov](http://web.stanford.edu/~kuleshov/) and [Isaac Caswell](https://symsys.stanford.edu/viewing/symsysaffiliate/21335) from the `CS231n` Python tutorial by Justin Johnson (http://cs231n.github.io/python-numpy-tutorial/).  
Partially translated to Japanese by [Masatoshi Itagaki](http://rails.to/).

## Numpy

Numpy は Python　での科学計算の中核となるライブラリです。Numpy　には高性能な多次元配列オブジェクトとそれを使うためのツールが用意されています。  
MATLABをご存知の方がNumpyを始める際には、この[チュートリアル](http://wiki.scipy.org/NumPy_for_Matlab_Users)が良いかもしれません。

Numpy　を使うためには、まず`numpy` パッケージをインポートする必要があります。

In [None]:
import numpy as np

### 配列

Numpy配列はすべて同じ型の値を持ち、0以上の整数のタプルで表されるインデックスによってアクセスされる、格子状のデータ構造です。次元の数は配列の階数であり、配列の形状はそれぞれの次元における配列のサイズを表す整数のタプルです。

入れ子になったPythonのリストからNumpy配列を初期化することができ、要素には角括弧を使ってアクセスします。

In [None]:
a = np.array([1, 2, 3])  # 階数１の配列を作る
print(type(a), a.shape, a[0], a[1], a[2])
a[0] = 5                 # 配列の要素を変更する
print(a)                  

In [None]:
b = np.array([[1,2,3],[4,5,6]])   # 階数２の配列を作る
print(b)

In [None]:
print(b.shape)                   
print(b[0, 0], b[0, 1], b[1, 0])

Numpy には配列を作るための関数がたくさん用意されています。

In [None]:
a = np.zeros((2,2))  # すべてゼロの配列を作る
print(a)

In [None]:
b = np.ones((1,2))   # すべて１の配列を作る
print(b)

In [None]:
c = np.full((2,2), 7) # すべて同じ値の配列を作る
print(c) 

In [None]:
d = np.eye(2)        # 2x2 の単位行列を作る
print(d)

In [None]:
e = np.random.random((2,2)) # 乱数を埋め込んだ配列を作る
print(e)

### 配列のインデクシング

Numpyにはいろいろなインデクシング（索引による操作）の方法があります。

スライシング： Pythonのリストと同様に、Numpy配列もスライシングができます。配列は多次元にもできるので、スライシングの際には各次元で指定する必要があります。

In [None]:
import numpy as np

# 下記のような形状が (3, 4)の２階の配列を作ります
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# スライシングを使って最初の２行の列１と２からなる部分配列を取り出します
# ｂは形状が(2, 2)の下記のような配列となります
# [[2 3]
#  [6 7]]
b = a[:2, 1:3]
print(b)

配列のスライスは同じデータのビューであるため、スライスを変更すると元の配列が変更されます。

In [None]:
print(a[0, 1])  
b[0, 0] = 77    # b[0, 0] は a[0, 1]と同じデータです
print(a[0, 1]) 

配列のスライスを新たな配列として生成するには、copy()メソッドを使う方法があります。

In [None]:
# 下記のような形状が (3, 4)の２階の配列を作ります
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# スライシングを使って最初の２行の列１と２からなる部分配列を取り出し
# その複製をcに保存します
# ｃは形状が(2, 2)の下記のような配列となります
# [[2 3]
#  [6 7]]
c = a[:2, 1:3].copy()
print(c)

In [None]:
print(a[0, 1])  
c[0, 0] = 77    # c[0, 0] は a[0, 1]とは別のデータです
print(a[0, 1]) 
print(c)

スライシングに3つ目の整数を指定することで、飛び飛びの選択も可能です。

In [None]:
a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12])

b = a[1:11:2]
print(b)

スライスによるインデクシングと整数によるインデクシングを併用できます。ただし、その結果として、元の配列よりも低い階数の配列が得られることになります。これは、MATLABが配列のスライシングを扱う方法とは全く異なっているため注意が必要です。

In [None]:
# 下記のような形状(3, 4)の２階の配列を作ります
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

上記の配列の真ん中の行にアクセスする２つの方法です。  
整数インデクシングとスライシングを併用すると、低い階数の配列が得られる一方、スライシングのみを使用すると、元の配列と同じ階数の配列となります。

In [None]:
row_r1 = a[1, :]    # a の２行目の階数１のビュー  
row_r2 = a[1:2, :]  # a の２行目の階数２のビュー
row_r3 = a[[1], :]  # a の２行目の階数２のビュー
print(row_r1, row_r1.shape) 
print(row_r2, row_r2.shape)
print(row_r3, row_r3.shape)

In [None]:
# 配列の列にアクセスするときも同様です
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print()
print(col_r2, col_r2.shape)

整数配列インデクシング： Numpy配列に対してスライシングを使ってアクセスする場合、得られる配列のビューは元の配列の部分配列になります。これに対して、整数配列インデクシングを使うと、他の配列のデータを使って任意の配列を作ることができます。  
下記に例を示します。

整数配列インデクシングのことをファンシーインデクシングと呼ぶこともあります。

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])

# 整数配列インデクシングの例
# 結果の配列は形状 (3,) で
print(a[[0, 1, 2], [0, 1, 0]])

# 上記の整数配列インデクシングは下記と同じ
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

In [None]:
# 整数配列インデクシングを使う際には、
# 元の配列の同じ要素を再利用できる
print(a[[0, 0], [1, 1]])

# 上記の整数配列インデクシングの例は下記と同じ
print(np.array([a[0, 1], a[0, 1]]))

整数配列インデクシングを使ったトリックの一つは、行列の各行から１つずつ要素を選択あるいは更新することです。

In [None]:
# 要素を選択するための新しい配列を作成
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)

In [None]:
# インデクスの配列を作成
b = np.array([0, 2, 0, 1])

# ｂに保存されたインデックスを使って各行から１要素を選択
print(a[np.arange(4), b])  # "[ 1  6  7 11]" が出力される

In [None]:
# bのインデックスを使って、各行から１要素を変更
a[np.arange(4), b] += 10
print(a)

ブール配列インデクシング: ブール配列インデクシングを使うと、配列の任意の要素を取り出すことができます。この方法は、配列の中から条件を満たす要素を選択する際にしばしば使用されます。例を示します。

In [None]:
import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # a の中で2より大きな要素を見つける;
                    # 戻り値は元の配列と同じ形状の真偽値の配列
                    # 戻り値の配列の各真偽値が
                    # 要素が > 2 であるか否かを表す

print(bool_idx)

In [None]:
# ブール配列インデクシングを使って、bool_idxの値がTrueである要素に
# 対応する要素の１階配列を作成できる
print(a[bool_idx])

# 上記の操作は下記のように１度に簡潔に記述できる
print(a[a > 2])

ここではNumpy配列のインデクシングの詳細は省略しました。詳しく知りたい方は[ドキュメント](https://docs.scipy.org/doc/numpy/reference/arrays.indexing.html)を参照してください。

### データ型

Numpy配列はすべて同じデータ型の要素からなる格子状のデータ構造です。Numpyでは多様なデータ型を使って配列を作る事ができます。Numpyは配列を作成する際に、データ型の推定を行いますが、配列を作成する関数には通常明示的にデータ型を指定する引数があります。下記に例を示します。

In [None]:
x = np.array([1, 2])  # Numpyにデータ型を決めさせる
y = np.array([1.0, 2.0])  # Numpyにデータ型を決めさせる
z = np.array([1, 2], dtype=np.int64)  # 特定のデータ型を指定

print(x.dtype, y.dtype, z.dtype)

Numpyで使用できるすべてのデータ型については、[ドキュメント](http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html)を参照ください。

### 配列演算

基本的な数学的関数は配列の要素単位に動作します。これらは演算子のオーバーロードとNumpyモジュールの関数の形で提供されています。

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# 要素ごとの加算：いずれも新しい配列を返す
print(x + y)
print(np.add(x, y))

In [None]:
# 要素ごとの差：いずれも新しい配列を返す
print(x - y)
print(np.subtract(x, y))

In [None]:
# 要素ごとの積： いずれも新しい配列を返す
print(x * y)
print(np.multiply(x, y))

In [None]:
# 要素ごとの割り算： いずれも新しい配列を返す
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

In [None]:
# 要素ごとの平方根： 新しい配列を返す
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

MATLABと異なり、`*`は行列の積ではなく、要素ごとの積を表すことに注意してください。ベクトルの内積、ベクトルと行列の積、行列同士の積にはドット関数を使用します。ドット演算は、numpyモジュールの関数と配列オブジェクトのインスタンスメソッドの両方の形で提供されています。

In [None]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

#  ベクトルの内積： いずれも 219
print(v.dot(w))
print(np.dot(v, w))

In [None]:
# 行列とベクトルの積： どちらも階数1の配列[29 67]
print(x.dot(v))
print(np.dot(x, v))

In [None]:
# 行列と行列の積： どちらも階数２の配列
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

Numpyには配列に対して様々な演算を行う関数が用意されています。最も有用なものの一つが`sum`です。

In [None]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # すべての要素の合計： 結果は”10"
print(np.sum(x, axis=0))  # 各列の合計： 結果は"[4 6]"
print(np.sum(x, axis=1))  # 各行の合計： 結果は"[3 7]"

Numpyで提供されている数学的関数の全リストについては[ドキュメント](http://docs.scipy.org/doc/numpy/reference/routines.math.html)を参照ください。

配列を使った数学的関数計算以外に、しばしば配列の形状を変えたり（リシェープ）、配列内のデータを操作する必要があります。こうした操作の中の一番単純な例が、行列の転置です。行列の転置行列を得るには、配列オブジェクトのT属性を使います。

In [None]:
print(x)
print(x.T)

In [None]:
v = np.array([[1,2,3]])
print(v) 
print(v.T)

### ブロードキャスティング

ブロードキャスティングは数値演算を行う際に、形状の異なる配列を扱うことを可能にする強力な仕組みです。小さな配列と大きな配列があり、大きな配列に対して演算をする際に小さな配列を繰り返し使いたいということがしばしばあります。

例えば、ある行列のすべての行に定数ベクトルを加算したいとします。次のようにしてこれを行うことができます。

In [None]:
# 行列ｘのすべての行にベクトルｖを加算し
# 結果を行列ｙに格納する
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = np.empty_like(x)   # ｘと同じ形状の空行列を作る

# 明示的な繰り返しにより行列ｘの各行にベクトルvを加算
for i in range(4):
    y[i, :] = x[i, :] + v

print(y)

これは動きます。しかし、行列 `x`が非常に大きな場合、Pythonで明示的な繰り返し計算をするのは、遅くなる可能性があります。行列 `x`の各行にベクトルvを加算するのは、ベクトル `v`の複数のコピーを縦方向に積み重ねた行列`vv`を作り、`x`と`vv`との要素ごとの合計を取ることと同値です。この手法を次のように実装できます。

In [None]:
vv = np.tile(v, (4, 1))  # vのコピーを4つ縦に積み上げる
print(vv)                 # 出力は "[[1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]]"

In [None]:
y = x + vv  # xとvvの要素ごとの和
print(y)

Numpyのブロードキャスティングを使うと、実際にvの複数のコピーを作ることなくこの計算を行うことができます。ブロードキャスティングを使用した次のバージョンを検証してください。

In [None]:
import numpy as np

# 行列ｘのすべての行にベクトルｖを加算し
# 結果を行列ｙに格納する
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # ブロードキャスティングを使ってxの各行にｖを加算
print(y)

`y = x + v`という行のコードは、`x`の形状が`(4, 3)`で`v`の形状が`(3,)`であるにもかかわらず、ブロードキャスティングによって機能します。このコードは、vの形状があたかも`(4, 3)`であり、各業が`v`であるかのように働き、加算は要素単位に実行されます。

2つの配列間のブロードキャスティングのルールは下記のとおりです。

1. 配列同士が同じ階数でない場合、低い階数の配列の形状の前に、サイズ１の次元を加えることを繰り返し、両方の形状の長さがおなじになるようにする。
2. ２つの配列のある次元の長さが同じ場合、あるいは、どちらかの配列でその次元のサイズが１の場合、その２つの配列は次元において互換性があるという。
3. 配列がすべての次元において互換である場合、ブロードキャストする事ができる。
4. ブロードキャスティングの後、２つの入力配列のうち一番大きな形状のものと要素単位で同じサイズであるかのように振る舞う。
5. いずれかの次元で、一つの配列のサイズが１で他方の配列のサイズが１より大きい場合、サイズ１の配列はその次元上で複製されたかのように振る舞う。


上記の説明がわかりにくい場合には、[ドキュメント](http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html) を参照するか、この[説明](http://wiki.scipy.org/EricsBroadcastingDoc)を参照ください。

ブロードキャスティングをサポートする関数は、ユニバーサル関数と呼ばれます。すべてのユニバーサル関数のリストは[ドキュメント](http://docs.scipy.org/doc/numpy/reference/ufuncs.html#available-ufuncs)に記載されています。

ブロードキャスティングの応用例を示します。

In [None]:
# ベクトルの外積の計算
v = np.array([1,2,3])  # v の形状は (3,)
w = np.array([4,5])    # w の形状は (2,)
# 外積を計算するには、まずｖを形状(3, 1)の列ベクトルにリシェープする
# これでｗに対してブロードキャストできるようになり、その出力の形状は
# (3, 2)となる。これがv とwの外積である

print(np.reshape(v, (3, 1)) * w)

In [None]:
# 行列の各行に同じベクトルを加算する
x = np.array([[1,2,3], [4,5,6]])
# xの形状が(2, 3)でv の形状は(3,) ブロードキャストの結果
# 形状は(2, 3)となり下記の結果を得る

print(x + v)

In [None]:
# 行列の各列にベクトルを加算する
# xの形状は(2, 3) wの形状は(2,)
# ｘを転置すると形状は(3, 2)となりｗに対してブロードキャストが可能となり
# 結果の形状は(3, 2)、これを転置することで最終結果を得ることができ、
# その形状は(2, 3)で、行列xの各列にベクトルwを加算したもの
# 結果は次の通り

print((x.T + w).T)

In [None]:
# もう一つの解法は、ｗを形状 (2, 1)の行ベクトルにリシェープし
# これにより、ｘに対して直接ブロードキャストすることができ
# 同じ結果を得ることができる

print(x + np.reshape(w, (2, 1)))

In [None]:
# 行列に定数を掛ける
# x の形状は(2, 3) Numpyでスカラーは形状()の配列として扱われる
# そのため、形状(2, 3)にブロードキャストすることができ
# 次のような結果となる
print(x * 2)

ブロードキャスティングを使うと、コードが簡潔で速度も早くなります。このため、使用可能なところでは、ブロードキャスティングを使うように努めましょう。

この概要では、Numpyについて知っておくべき重要な事柄の多くに触れましたが、全体像には程遠いものです。Numpyについての詳細は、[Numpyリファレンス](http://docs.scipy.org/doc/numpy/reference/) を参照してください。