# 8. NumPy 入門

## 8.1. NumPy を使う準備

In [2]:
# これは言うまでもない
import numpy as np

## 8.2. 多次元配列を定義する

In [3]:
# ベクトルを定義
a = np.array([1, 2, 3])

print(a)

[1 2 3]


`a.shape`で多次元配列の形がわかる  
要素が整数のタプルで返却される

In [4]:
print(a.shape)

(3,)


次元数は`ndim`という属性に保存されている  
これは`len(a.shape)`と同じ値になる  
今回、`a`というndarrayは1次元配列であるため、`a.shape`は要素数1のタプルで、  
`ndim`の値は1となる

次に3×3行列を定義してみる

In [5]:
# 行列を定義
b = np.array(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]]
)

print(b)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


形と次元数を調べる

In [6]:
print('Shape : ', b.shape)
print('Rank : ', b.ndim)

('Shape : ', (3, 3))
('Rank : ', 2)


次に`size`という属性も確認する  
この属性はndarrayがもつ要素数を表している  
今回`b`は3×3行列なので、要素数は9

In [7]:
print(b.size)

9


`np.array()`以外にも多次元配列を作る方法は色々ある  
代表例は以下の通り

`np.zeros((m, n))`：要素がすべて0の m×n行列を作る関数

In [8]:
# 形を指定して、要素がすべて0の ndarray を作る
# 3×3行列なので、関数には(3, 3)を代入
a = np.zeros((3, 3))

print(a)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


`np.ones((m, n))`：要素がすべて1の m×n行列を作る関数

In [9]:
# 形を指定して、要素がすべて1の ndarray を作る
# 2×3行列なので、関数には(2, 3)を代入
b = np.ones((2, 3))

print(b)

[[1. 1. 1.]
 [1. 1. 1.]]


`np.full((m, n), p)`：要素がすべて p の m×n行列を作る

In [10]:
# 形を指定して、指定した値のみを要素とする ndarray を作る
# 今回は3×2行列で、値が9なので、関数には"(3, 2), 9"を代入する
c = np.full((3, 2), 9)

print(c)

[[9 9]
 [9 9]
 [9 9]]


`np.eye(n)`：n×n の単位行列を作る関数

In [11]:
# 指定された大きさの単位行列を表す ndarray を作る
# 今回は5×5行列なので、関数には5を代入
d = np.eye(5)

print(d)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


`np.random.random((m, n))`：要素がすべて0 ～ 1の乱数で構成される n×m行列を作る関数

In [12]:
# 形を指定して、0 ～ 1 の間の乱数を要素とする ndarray を作る
# 今回は4×5行列なので、関数には(4, 5)を代入
e = np.random.random((4, 5))

print(e)

[[0.93860562 0.7204654  0.53207434 0.68458454 0.46783052]
 [0.26733676 0.1240392  0.60681701 0.68531171 0.20408242]
 [0.12699241 0.32041187 0.60068343 0.07609729 0.67432941]
 [0.31073916 0.6045333  0.80276883 0.2518034  0.01472834]]


`np.arange(n, m, p)`：n から始まり m になる（mは含まない）まで p ずつ増加する数列を作る関数

In [13]:
# 3 から始まり 10 の手前まで1ずつ増加する数列を作る
# ベクトルで返却される
f = np.arange(3, 10, 1)

print(f)

[3 4 5 6 7 8 9]


## 8.3. 多次元配列の要素を選択する

作成したndarrayのうちの特定の要素を選択して、値を取り出す方法を確認する。   
最もよく行われる方法は`[]`を使った添字表記（subscription）による要素の選択である。

### 8.3.1. 整数による要素の選択

上で作成した 4×5 行列`e`から 1 行 2 列目の値を取り出す  
i 行 j 列の要素を取り出す際には、`[i - 1, j - 1]`を指定する

In [14]:
val = e[0, 1]

print(val)

0.7204654007225353


### 8.3.2. スライスによる要素の選択

Pythonのリストと同様にスライス表記（slicing）を用いて選択したい要素を範囲指定することができる。  
ndarrayではさらに、カンマ区切りで複数の次元に対するスライスを指定できる。

In [15]:
# 4 × 5 行列 e の中央 2 × 3 = 6 個の値を取り出す
center = e[1:3, 1:4]

print(center)

[[0.1240392  0.60681701 0.68531171]
 [0.32041187 0.60068343 0.07609729]]


`e`と`center`の形を比較してみる

In [16]:
print('Shape of e : ', e.shape)
print('Shape of center : ', center.shape)

('Shape of e : ', (4, 5))
('Shape of center : ', (2, 3))


また、インデックスを指定したり、スライスを用いて取り出した ndarray の一部に対し、値を代入することもできる

In [17]:
# 上の真ん中 6 個の値を 0 にする
e[1:3, 1:4] = 0

print(e)

[[0.93860562 0.7204654  0.53207434 0.68458454 0.46783052]
 [0.26733676 0.         0.         0.         0.20408242]
 [0.12699241 0.         0.         0.         0.67432941]
 [0.31073916 0.6045333  0.80276883 0.2518034  0.01472834]]


### 8.3.3. 整数配列による要素の選択

ndarrayの`[]`には、整数やスライスのほかに、整数配列を渡すこともできる。  
整数配列とは、ここでは整数を要素とするPythonリストまたはndarrayのことを指す。

In [18]:
a = np.array(
    [[1, 2, 3],
     [4, 5, 6],
     [7, 8, 9]]
)

print(a)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


このndarrayから、  
1. 1行2列目：`a[0, 1]`  
2. 3行2列目：`a[2, 1]`
3. 2行1列目：`a[1, 0]`  
の3つの要素を選択して並べ、形が`(3,)`であるようなndarrayを作りたいとする。

以下のように、順に対象の要素を指定して並べ、新しいndarrayにすることによっても実現はできる。

In [19]:
b = np.array([a[0, 1], a[2, 1], a[1, 0]])

print(b)

[2 8 4]


しかし、同じことを**選択したい行、選択したい列をそれぞれ順にリストとして与える**ことでも行える。

In [20]:
# 上と同じ表示を違う方法で
b = a[[0, 2, 1], [1, 1, 0]]

print(b)

[2 8 4]


**選択したい3つの値がどの行にあるか**だけに注目すると、それぞれ1行目、3行目、2行目にある要素。　　
ゼロベースインデックスでは、それぞれ0,2,1行目である。  
これが`a`の`[]`に与えられた1つ目のリスト`[0, 2, 1]`の意味である。  

同様に**列に着目**すると、ゼロベースインデックスでそれぞれ1,1,0列目の要素である。  
これが`a`の`[]`に与えられた2つ目のリスト`[1, 1, 0]`の意味となる。

## 8.4. ndarrayのデータ型

1つのndarryの要素は、すべて同じ型を持つ。  
NumPyでは様々なデータ型を使うことができるが、ここでは一部のみ確認する。  
NumpyはPythonリストを渡してndarrayを作る際に、その値からデータ型を推測する。  
ndarrayのデータ型は、`dtype`という属性に保存されている。

In [21]:
# 整数（Python の int 型）の要素を持つリストを与えた場合
x = np.array([1, 2, 3])

print(x.dtype)

int64


In [22]:
# 浮動小数点（Python の float 型）の要素を持つリストを与えた場合
x = np.array([1., 2., 3.])

print(x.dtype)

float64


以上のように、**Python の int 型は自動的に NumPy の int64 型**となった。また、**Python の float 型は自動的に NumPy のfloat64型**となった。
Python の int 型は NumPy の int_ 型に対応付けられており、Python の float 型は NumPy の float_ 型に対応付けられている。  
このint_ 型はプラットフォームによって int64 型と同じ場合と int32 型と同じ場合がある。float_ 型についても同様で、プラットフォームによって float64 型と同じ場合と float32 型と同じ場合がある。

特定の型を指定して ndarray を作成するには以下のようにする。

In [23]:
# 型を float32 に指定
x = np.array([1, 2, 3], dtype=np.float32)

print(x.dtype)

float32


このように、`dtype`という引数に Numpy の dtype オブジェクトを渡す。
上のコードは 32 ビット浮動小数点型を指定する例である。
同じことが、文字列で指定することによっても行うことができる。

In [24]:
# 型を float32 に指定
x = np.array([1, 2, 3], dtype='float32')

print(x.dtype)

float32


これは以下のようにさらに短く書くこともできる。

In [25]:
# 型を float32 に指定
x = np.array([1, 2, 3], dtype='f')

print(x.dtype)

float32


一度あるデータ型で定義した配列のデータ型を別のものに変更するには、`astype`を用いて変換を行う。

In [26]:
x = x.astype(np.float64)

print(x.dtype)

float64


## 8.5. 多次元配列を用いた計算

ここでは ndarray を使って行列やベクトルを定義して、それらを用いていくつかの計算を行う。

ndarray として定義されたベクトルや行列同士の**要素ごとの加減乗除**は、Python の数値同士の四則演算に用いられる `+`, `-`, `*`, `/` という記号を使って行うことができる。

まず、同じ形の行列を２つ定義し、それらの**要素ごとの**加減乗除を行う。

In [27]:
# 同じ形（3 × 3）の行列を 2 つ定義する
a = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8]
])

b = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

In [28]:
# 足し算
c = a + b

print(c)

[[ 1  3  5]
 [ 7  9 11]
 [13 15 17]]


In [29]:
# 引き算
c = a - b

print(c)

[[-1 -1 -1]
 [-1 -1 -1]
 [-1 -1 -1]]


In [30]:
# 掛け算
c = a * b

print(c)

[[ 0  2  6]
 [12 20 30]
 [42 56 72]]


In [31]:
# 割り算
c = a / b

print(c)
# すべて 1 以下の小数になるので、0 しか出ない

[[0 0 0]
 [0 0 0]
 [0 0 0]]


NumPy では、与えられた多次元配列に対して要素ごとに計算を行う関数が色々と用意されている。
以下にいくつかの例を示す。

In [32]:
# 要素ごとに平方根を計算する
c = np.sqrt(b)

print(c)

[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]
 [2.64575131 2.82842712 3.        ]]


In [33]:
# 要素ごとに値を n 乗する
# 今回は 2 乗で（n = 2）
n = 2
c = np.power(b, n)

print(c)

[[ 1  4  9]
 [16 25 36]
 [49 64 81]]


要素ごとに値を n 乗する計算は、以下のようにも書くことができる。

In [34]:
c = b ** n

print(c)

[[ 1  4  9]
 [16 25 36]
 [49 64 81]]


はじめに紹介した四則演算は、**同じ大きさの**２つの行列同士で行っていた。
ここで、**3 × 3**行列`a` と3次元ベクトル`b`という大きさの異なる配列を定義して、それらを足してみる。

In [35]:
a = np.array([
    [0, 1, 2], 
    [3, 4, 5],
    [6, 7, 8]
]) 

b = np.array([1, 2, 3])

c = a + b

print(c)

[[ 1  3  5]
 [ 4  6  8]
 [ 7  9 11]]


列が同じ行列同士の場合と同様に計算することができた。

これは NumPy が自動的に**ブロードキャスト（broadcast）**と呼ばれる操作を行っているためである。

## 8.6. ブロードキャスト

行列同士の要素ごとの四則演算は、通常は行列の形が同じでなければ定義できない。しかし、8.5節の最後では**3 × 3**行列に３次元ベクトルを足す計算が実行できた。

これが要素ごとの計算と同じように実行できる理由は、NumPyが自動的に３次元ベクトル`b`を３つ並べて出来る**３×３**行列を想定し、`a`と同じ形にそろえる操作を暗黙に行っているからである。この操作を**ブロードキャスト**と呼ぶ。

算術演算を子おtなる形の配列ふぉうしで行う場合、NumPy は自動的に小さいほうの配列を**ブロードキャスト**し、大きいほうの配列と形を合わせる。ただし、この自動的に行われるブロードキャストでは、行いたい算術演算が、大きいほうの配列の一部に対して**繰り返し行われる**ことで実現されるため、実際に小さいほうの配列のデータをコピーして大きい配列をメモリ上に作成することは可能な限り避けられる。また、この繰り返しの計算は NumPy の内部の C 言語によって実装されたループで行われるため、高速である。

よりシンプルな例で考えてみる。以下のような配列`a`があり、このすべての要素を 2 倍したいとする。

In [36]:
a = np.array([1, 2, 3])

print(a)

[1 2 3]


このとき、一つの方法は以下のように同じ形で要素がすべて 2 である別の配列を定義し、これと要素ごとの積を計算するやり方である。

In [37]:
b = np.array([2, 2, 2])

c = a * b

print(c)

[2 4 6]


しかし、スカラの 22をただ`a`にかけるだけでも同じ結果が得られる。

In [38]:
c = a * 2

print(c)

[2 4 6]


`* 2`という計算が、`c`の 3 つの要素の**どの要素に対する計算なのか**が明示されていないため、NumPy はこれを**すべての要素に対して行うという意味**だと解釈して、スカラの 2 を`a`の要素数 3 だけ引き延ばしてからかけてくれる。

**形の異なる配列同士の計算がブロードキャストによって可能になるためにはルールがある**

それは、「**2 つの配列の各次元が同じ大きさになっているか、どちらかが 1 であること**」である。このルールを満たさない場合、NumPy は "ValueError: operands could not be broadcast together with shapes (1 つ目の配列の形) (2 つ目の配列の形)"というエラーを出す。

ブロードキャストされた配列の各次元のサイズは、入力された配列のその次元のサイズの中で最大の値と同じになっている。入力された配列は、各次元のサイズが入力のうちの大きいほうのサイズと同じになるようにブロードキャストされ、その拡張されたサイズで計算される。

次に、以下のような 2 つの配列`a`と`b`を定義し、足す。

In [39]:
# 0 ～ 9 の範囲の値をランダムに用いて埋められた（2, 1, 3）と（3, 1）という大きさの配列を作る
a = np.random.randint(0, 10, (2, 1, 3))
b = np.random.randint(0, 10, (3, 1))

print('a :', a)
print('a.shape : ', a.shape)
print('b : ', b)
print('b.shape : ', b.shape)

# 加算
c = a + b

print('a + b : ', c)
print('(a + b).shape : ', c.shape)

('a :', array([[[3, 3, 7]],

       [[6, 6, 1]]]))
('a.shape : ', (2, 1, 3))
('b : ', array([[5],
       [8],
       [0]]))
('b.shape : ', (3, 1))
('a + b : ', array([[[ 8,  8, 12],
        [11, 11, 15],
        [ 3,  3,  7]],

       [[11, 11,  6],
        [14, 14,  9],
        [ 6,  6,  1]]]))
('(a + b).shape : ', (2, 3, 3))


`a`の形は`(2, 1, 3)`で、`b`の形は`(3, 1)`であった。この 2 つの配列の**末尾次元（trailing dimension）**はそれぞれ 3 と 1 なので、ルールにあった「次元が同じサイズであるか、どちらかが 1 であること」を満たしている。

次に、各配列の第 2 次元に注目してみる。それぞれ 1 と 3 である。これもルールを満たしている。

ここで、`a`は 3 次元配列だが、`b`は 2 次元配列である。つまり、次元数が異なっている。このような場合は、`b`は**一番上の次元にサイズが 1 の次元が追加された形**`(1, 3, 1)`として扱われる。そして 2 つの配列の各次元ごとのサイズの最大値をとった形`(2, 3 ,3)`にブロードキャストされ、足し算が行われる。

このように、もし 2 つの配列のランクが異なる場合は、次元数が小さいほうの配列が大きい方と同じ次元数になるまでその形の先頭に新たな次元が追加される。サイズが 1 の次元がいくつ追加されても、要素の数は変わらないことに注意すること。要素数（`size`属性で取得できる値）は、各次元のサイズの掛け算になるので、 1 を何度かけても変わらないことから、これが成り立つことがわかる。

NumPy がブロードキャストのために自動的に行う新しい次元の挿入は、`[]`を使った以下のような表記を用いることで**手動で行うこともできる**。

In [40]:
print('Original shape:', b.shape)

b_expanded = b[np.newaxis, :, :]

print('Added new axis to the top:', b_expanded.shape)

b_expanded2 = b[:, np.newaxis, :]

print('Added new axis to the middle:', b_expanded2.shape)

('Original shape:', (3, 1))
('Added new axis to the top:', (1, 3, 1))
('Added new axis to the middle:', (3, 1, 1))


`np.newaxis`が指定された位置に、新しい次元が挿入される。配列が持つ数値の数は変わっていない。そのため、挿入された次元のサイズは必ず 1 となる。

In [41]:
print(b)

[[5]
 [8]
 [0]]


In [42]:
print(b_expanded)

[[[5]
  [8]
  [0]]]


In [43]:
print(b_expanded2)

[[[5]]

 [[8]]

 [[0]]]


NumPy のブロードキャストは慣れるまで直観に反するように感じる場合があるかもしれない。しかし、使いこなすと同じ計算が Python のループを使って行うよりも高速に行えるため、ブロードキャストを理解することは非常に重要である。  
ひとつ具体例を見てみる。

5 × 5 行列 `a`に、3 次元ベクトル `b` を足す。まず、`a`、`b` および結果を格納する配列 `c` を定義する。

In [44]:
a = np.array([
    [0, 1, 2, 1, 0],
    [3, 4, 5, 4, 3],
    [6, 7, 8, 7, 6],
    [3, 4, 5, 4, 4],
    [0, 1, 2, 1, 0]
])

b = np.array([1, 2, 3, 4, 5])

# 結果を格納する配列を先に作る
c = np.empty((5, 5))

`%%timeit` という Jupyter Notebook で使用できるそのセルの実行時間を計測するためのマジックを使って、`a` の各行（1 次元目）に `b` の値を足していく計算を Python のループを使って 1 行ずつ処理していくコードの実行時間を計測する。

In [45]:
%%timeit
for i in range(a.shape[0]):
    c[i, :] = a[i, :] + b

The slowest run took 7.36 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 15.8 µs per loop


In [46]:
print(c)

[[ 1.  3.  5.  5.  5.]
 [ 4.  6.  8.  8.  8.]
 [ 7.  9. 11. 11. 11.]
 [ 4.  6.  8.  8.  9.]
 [ 1.  3.  5.  5.  5.]]


次に、NumPy のブロードキャストが活用された方法で同じ計算を行う。

In [47]:
%%timeit
c = a + b

The slowest run took 13.21 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 3.18 µs per loop


In [48]:
print(c)

[[ 1.  3.  5.  5.  5.]
 [ 4.  6.  8.  8.  8.]
 [ 7.  9. 11. 11. 11.]
 [ 4.  6.  8.  8.  9.]
 [ 1.  3.  5.  5.  5.]]


計算結果は当然同じになる。しかし、実行時間が数倍短くなっている。

このように、ブロードキャストを理解して活用することで、記述が簡単になるだけでなく、実行速度という点においても有利になる。

## 8.7. 行列積

行列の要素ごとの積は `*` を用いて計算できた。一方、通常の行列同士の積（行列積）の計算は、`*` ではなく、別の方法で行う。  
方法は 2 種類ある。

1 つは、`np.dot()`関数を用いる方法である。`np.dot()`は 2 つの引数を取り、それらの行列積を計算して返す関数である。今、`A` という行列と `B` という行列があり、行列積 `AB` を計算したいとする。これは `np.dot(A, B)`と書くことで計算できる。もし `BA` を計算したい場合は、`np.dot(B, A)` と書く。

もう 1 つは、ndarray オブジェクトがもつ `dot()` メソッドを使う方法である。これを用いると、同じ計算が `A.dot(B)` と書くことで行える。

In [49]:
# 行列 A の定義
A = np.array([
    [0, 1, 2],
    [3, 4, 5],
    [6, 7, 8]
])

# 行列 B の定義
B =np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

実際にこの 3 × 3 の 2 つの行列の行列積を計算してみる。

In [50]:
# 行列積の計算（1）
c = np.dot(A, B)

print(c)

[[ 18  21  24]
 [ 54  66  78]
 [ 90 111 132]]


同じ計算をもう一つの記述方法で行う。

In [51]:
c = A.dot(B)

print(c)

[[ 18  21  24]
 [ 54  66  78]
 [ 90 111 132]]


In [52]:
print(a.dtype)

int64


## 8.8. 基本的な統計量の求め方

本節では、多次元配列に含まれる値の平均・分散・標準偏差・最大値・最小値といった統計量を計算する方法を見てみる。8 × 10 の行列を作成し、この中に含まれる値全体にわたるこれらの統計値を計算してみる。

In [53]:
x = np.random.randint(0, 10, (8, 10))

print(x)

[[9 4 4 7 8 2 2 4 7 4]
 [3 6 5 8 5 9 6 3 1 8]
 [1 5 1 3 4 3 2 3 9 3]
 [5 6 3 9 7 9 9 0 9 4]
 [7 0 0 2 7 4 2 5 8 4]
 [2 7 1 2 2 1 7 7 5 3]
 [8 3 2 1 6 4 4 7 1 9]
 [5 8 2 5 6 7 0 5 9 8]]


In [54]:
# 平均値
print(x.mean())

4.7


In [55]:
# 分散
print(x.var())

7.410000000000001


In [56]:
# 標準偏差
print(x.std())

2.72213151776324


In [57]:
# 最大値
print(x.max())

9


In [58]:
# 最小値
print(x.min())

0


ここで、`x` は 2 次元配列なので、各次元に沿ったこれらの統計値の計算も行える。例えば、最後の次元内だけで平均を取ると、8 この平均値が得られるはずである。平均を計算したい軸（何次元目に沿って計算するか）を `axis` という引数に指定する。

In [59]:
print(x.mean(axis=1))

[5.1 5.4 3.4 6.1 3.9 3.7 4.5 5.5]


これは、以下のように 1 次元目の値の平均を計算していったものを並べているのと同じことである。（ゼロベースインデックスで考えている。`x` の形は `(8, 10)` なので、0 次元目のサイズが 8、1 次元目のサイズが 10 である。）

In [61]:
np.array([
    x[0, :].mean(),
    x[1, :].mean(),
    x[2, :].mean(),
    x[3, :].mean(),
    x[4, :].mean(),
    x[5, :].mean(),
    x[6, :].mean(),
    x[7, :].mean()
])

array([5.1, 5.4, 3.4, 6.1, 3.9, 3.7, 4.5, 5.5])