# 2.　NumPy入門

## 目次（リンクをクリックすると対応する箇所まで飛べます）
- [2.1 はじめに：NumPyとは](#what_is_numpy)
     - [2.1.1 NumPyのインポート](#import_numpy)
- [2.2 `np.ndarray`オブジェクトの作成・基本演算](#basic_operation)
     - [2.2.1 オブジェクト(=NumPy配列)の作成](#create_object)
     - [2.2.2 要素へのアクセス・代入](#access)
     - [2.2.3 基本情報の取得](#attribute)
     - [2.2.4 基本演算・基本操作](#basic_operation_sub)
- [2.3 `np.ndarray`の様々な演算](#various_function)
- [2.4 `np.ndarray`を用いた`np.ndarray`オブジェクトの作成](#create_array_by_numpy)
- [2.5 ランダムな配列の生成](#create_random_array)
- [2.6 `np.ndarray`の書き込み・読み込み](#load_and_save)
- [2.7 Python標準機能と速度比較](#speed_test)
- [2.8 まとめ](#summary)
- [付録：NumPyに関するリンク](#pointer)


<a id='what_is_numpy'></a>

## 2.1 はじめに：NumPyとは

**NumPy（ナムパイorヌムパイ）はPythonにおける数値計算のためのライブラリ**です（公式ページ https://docs.scipy.org/doc/ ）．機械学習のプログラムを書くために，より広義には，科学技術計算・数値計算のためにPythonを使う理由として，NumPyの存在が大きなウェイトを占めています．

**なぜNumPyが重要なのか？**
- データ分析を行う際には様々な演算・関数が要求されます．それらを毎回実装するのは非常に大変です．NumPy（及び後述のSciPy）は，**数値計算において頻出する多くの演算の関数を提供**しています．
- Pythonはプログラムを柔軟に・簡単に書くことが出来ますが，C言語といった静的型付けと比べると多大な計算時間を要してしまいます．これは，Pythonは動的型付け言語であるため諸々の演算を行う際に逐一型のチェックを行う必要があるという点が大きく影響しています（静的な型付け言語では，事前に型が決まっているため，実行時に型のチェックを行う必要はありません）．
NumPy（及び後述のSciPy）は，内部ではC言語やFotranで書かれたプログラムが実行されているため，**非常に高速に動作**します．

**機械学習において(本演習において)NumPyはどのように使われているのか？**

- 講義 **「データサイエンス」** の内容を思い出してみましょう．データは（数の）**ベクトル**で表現され，データの集まりは**行列**で表現されます．したがって，**ベクトル・行列演算**を多数用いるだろうことは容易に想像できます（例：行列の和，定数倍，積，内積，固有値固有ベクトル計算，逆行列計算，etc)．NumPyによって行列演算を簡単に高速に行うことが可能になります．次回以降用いる機械学習のPythonライブラリscikit-learnでは，データの表現としてNumPyを用いることが前提となっています．


**このNotebookで何が学べるのか?**
- NumPyの提供する多次元配列クラス `numpy.ndarray`の基本的な使い方

より詳しく学びたい方は，公式のチュートリアルをご覧ください（https://docs.scipy.org/doc/numpy/user/quickstart.html ）．

関数の使い方などでわからない箇所があれば，随時公式のリファレンス（https://docs.scipy.org/doc/numpy/reference/index.html ）を参照することをおすすめします．英語が苦手であれば，非公式の日本語の記事がウェブ上に沢山ありますので，それらを参考にするのもよいでしょう．また，Jupyter Notebookの強みの一つは，その場ですぐに試すことが出来るという点です．**適当にセルを作成して試しに動かしてみて挙動を確認するというのも，理解に大きく繋がるためオススメです．**
また，NumPyには便利な関数が多数あるため，NumPy配列に対して何か処理を行いたくなったらまず**その処理を行う関数等が存在するかを調べることを強く推奨します**．

このノートブックの内容を**完璧に覚える必要は全くありません**．次回以降，実際に機械学習を含んだデータ解析を行う際に適宜参照しながら，最低限の使い方を覚えれば良いです（NumPyの雰囲気を掴むだけでも問題ありません）．

<a id='import_numpy'></a>

## 2.1.1 NumPyのインポート

Pythonでは，外部のライブラリ（モジュール）を使えるようにするために，`import`文を用いるのでした．NumPyを使う場合は次のようになります．

In [1]:
import numpy # NumPyがインストールされていれば使えるようになる

これ以降，NumPyが使えるようになりました．実際に軽く動かしてみます（後ほど詳しく説明するので，今は使えているんだな，程度の理解で構いません）．

In [2]:
x_list = [3, 4, 1.5] # 要素数3のベクトルを定義
x = numpy.array(x_list)  # Python標準のlistオブジェクトだったx_listから，numpyのarray(=ndarray)オブジェクトを作成
numpy.sum(x) # numpy.sum:行列・ベクトルの要素の和を表す

8.5

$ \mathbf{x} = (3, 4, 1.5)$というベクトルの各要素の和が計算できました．もちろん，リストのままでもこの程度のことは計算できますが，`numpy`を用いることで簡単に・高速に計算が出来ます．

これ以降，我々は`numpy.hogehoge`という形で様々なことができるようになります．Pythonには`as`という機能があります（day1_1_how_to_python.ipynb参照）．これは，オブジェクトやモジュール・ライブラリに別の名前を付ける機能です．`numpy`については，次のように`np`という別名を付ける慣例があります．これについては賛否両論ありますが，本Notebookではこの慣例にしたがうことにします．

In [3]:
import numpy as np # numpyがこれ以降npという名前になった
x = np.array(x_list)  # Python標準のlistオブジェクトだったxから，numpyのarray(=ndarray)オブジェクトを作成
np.sum(x) # numpy.sum:行列・ベクトルの要素の和を表す

8.5

<a id='basic_operation'></a>

## 2.2 `np.ndarray`オブジェクトの作成・基本演算

`np.ndarray`は**n次元（多次元）配列を扱うためのクラス**です．Pythonのリストを多重に用いることで多次元配列を扱うことも可能ですが，`np.ndarray`を用いることで様々な便利な関数を利用できます．

<a id='create_object'></a>

## 2.2.1 オブジェクト（=NumPy配列）の作成
NumPyの配列，すなわち`np.ndarray`のオブジェクトの最も基本的な作成方法は，まずPythonの標準のリストやタプルといったarray-likeなオブジェクトを作成し，次に`np.ndarray`を被せるという方法です．以下のようになります．オブジェクトを作成する際に，`dtype`という引数を指定することで，配列の各要素の型（`int`や`float`等）を指定することができます．以下のコードからわかりますが，"nd"を省略した`np.array`によっても作成ができます（本Notebookでは，"nd"を省略した`np.array`を用いることにします）．標準の`list`から`np.array`にすることで，NumPyに実装されている様々な便利な関数の恩恵を受けることができます．

なお，分かりやすさのために，本演習のNotebookではベクトル（1次元配列）の変数名には小文字を，行列（2次元配列）やより高次元の配列の変数名には大文字を使います．

In [4]:
x = np.array([3, 4, 1.5]) # numpy配列
Y_list = [[4, 1.5, 2], [0, -9, 100]] # まだリスト
Y = np.array(Y_list) # np.arrayに被せることでnumpy配列に
z_tuple = (1, 2) # タプルでも良い
z = np.array(z_tuple)
W_list = [ [[4, 1.5, 2], [0, -9, 100]],  [[4, 1.5, 2], [0, -9, 100]],  [[4, 1.5, 2], [0, -9, 100]]]
W = np.array(W_list, dtype='int') # int型 np.int64という指定でも良い
print(x)
print(Y)
print(z)
print(W)
print(type(x))

[3.  4.  1.5]
[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
[1 2]
[[[  4   1   2]
  [  0  -9 100]]

 [[  4   1   2]
  [  0  -9 100]]

 [[  4   1   2]
  [  0  -9 100]]]
<class 'numpy.ndarray'>


次元数が2より大きい時は，各次元毎に要素数が等しくなければなりません．n=2の時を例にすると，各行の長さ・各列の長さは等しくなければなりません．各次元で等しくない場合にはエラーが出力されます．

In [10]:
a_list = [[4, 1.5, 2], [0, -9]] # 1行目の要素の数と2行目の要素の数が違う
print(a_list)
a = np.array(a_list) # エラー

[[4, 1.5, 2], [0, -9]]


ValueError: setting an array element with a sequence. The requested array has an inhomogeneous shape after 1 dimensions. The detected shape was (2,) + inhomogeneous part.

<a id='access'></a>

# 2.2.2 要素へのアクセス・代入

Pythonのリストとほぼ同様にアクセスが出来ますが，`np.array`の場合`list`よりも直感にあう書き方が許されています．

In [11]:
print(x)
print("1番目の要素にアクセス")
print(x_list[1], x[1])
print()
print(Y)
print("0行目の行ベクトルを表示")
print(Y_list[0], Y[0]) # 最初の行にアクセス
print("0行目の行ベクトルの2番目の要素を表示")
print(Y_list[0][2], Y[0][2], Y[0, 2]) # np.ndarrayでは，最後のような書き方も許される

[3.  4.  1.5]
1番目の要素にアクセス
4 4.0

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
0行目の行ベクトルを表示
[4, 1.5, 2] [4.  1.5 2. ]
0行目の行ベクトルの2番目の要素を表示
2 2.0 2.0


配列を`for`で走査すると最初の次元に関して順に取り出されます．例えば行列の場合，行ベクトルが順に取り出されます．
配列に対して`for`文を用いることで様々なことができるのは皆さんご存知かと思いますが，基本的には（可能ならば）**numpyに実装されている関数を用いて処理を行うほうが圧倒的に速いです**．

In [12]:
print(x)
print("forで順番に取り出す")
for xi in x:
    print(xi)
# 上のプログラムは次のようにも書ける
# 上の方がPythonらしい書き方
"""
for i in range(x.shape[0]):
    print(x[i])
"""
print()
print(Y)
print("forで順番に取り出す")
for yi in Y:
    print(yi)


[3.  4.  1.5]
forで順番に取り出す
3.0
4.0
1.5

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
forで順番に取り出す
[4.  1.5 2. ]
[  0.  -9. 100.]


`list`と同様にスライスのようなリッチなアクセス方法もサポートされています．これらは後述する演算と組み合わせて用いることも多いです．

2つ前のセルの最後の結果のような， `Y[i, j]`とすることで`i`行`j`列目の要素にアクセスする方法は，列方向の操作に便利です．次のセルの最後・最後から一つ前のアクセス方法は，一見同じ結果を返しそうな気がしますが，異なる結果となっています．

次のセルの最後から一つ前のアクセス方法では，まず最初のコロン`:`によって全ての行にアクセスすることが指定され，その次に列のインデックス`1`が指定されています．この二つの指定が一つの`[]`の中に入っており，**（ある意味）同時に解釈**されるため，全ての行の1番目の要素，つまり**1列目の列ベクトル**が得られています．

一方，最後のアクセス方法では行列の**2行目の行ベクトル**が得られています．`[:]`によるスライスと，`[1]`による要素を指定したアクセスが別々に解釈されたためです:
`Y_list[:]・Y[:]`でまず`Y_list・Y`と同一の(2, 3)の2次元配列が返され，その後`[1]`によってその1番目の要素にアクセスし，1行目の行ベクトルが返されています．

In [13]:
print(x)
print("2番目の手前（＝1番目）までの要素にアクセス")
print(x_list[:2], x[:2])
print()
print(Y)
print("0行目の行ベクトルの-1=末尾の一つ手前までアクセス")
print(Y_list[0][0:-1], Y[0, 0:-1], Y[0, :-1]) # 0行目の，0列目から末尾から一つ前の列までを取り出す
print("末尾の行ベクトルにアクセス")
print(Y_list[-1], Y[-1]) # 末尾の行にアクセス
print("全ての行の1番目の列=1番目の列ベクトルにアクセス")
print(Y[:, 1]) # ：で全ての行にアクセス，1で1番目の列にアクセス，すなわち1番目の列ベクトルにアクセス)
print("1番目の列ベクトルにアクセス…とはならない")
print(Y_list[:][1], Y[:][1]) # 1番目の列ベクトルにアクセスとはならない

[3.  4.  1.5]
2番目の手前（＝1番目）までの要素にアクセス
[3, 4] [3. 4.]

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
0行目の行ベクトルの-1=末尾の一つ手前までアクセス
[4, 1.5] [4.  1.5] [4.  1.5]
末尾の行ベクトルにアクセス
[0, -9, 100] [  0.  -9. 100.]
全ての行の1番目の列=1番目の列ベクトルにアクセス
[ 1.5 -9. ]
1番目の列ベクトルにアクセス…とはならない
[0, -9, 100] [  0.  -9. 100.]


また，**アクセスしたいインデックスをリストや配列の形で渡すことで，複数の特定の要素に同時にアクセス**が出来ます．

In [14]:
print(x)
print("0番目と2番目の要素にアクセス")
print(x[[0, 2]]) # 0番目，2番目の要素にアクセス
print()
print(Y)
print("1行目の行ベクトルの1番目と2番目の要素にアクセス")
print(Y[1, [1, 2]]) # 1行目のベクトルの，1列目の値と2列目の値にアクセス
print("すべての行ベクトルの0番目と2番目の要素にアクセス")
print(Y[:, [0, 2]]) # すべての行の0行目の要素と2列目の要素にアクセス

[3.  4.  1.5]
0番目と2番目の要素にアクセス
[3.  1.5]

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
1行目の行ベクトルの1番目と2番目の要素にアクセス
[ -9. 100.]
すべての行ベクトルの0番目と2番目の要素にアクセス
[[  4.   2.]
 [  0. 100.]]


インデックスをリストで渡す際に，**真偽値のリスト・配列を渡すことで，`True`になっている要素にのみアクセス**ができます．

In [15]:
print(x)
print(x[[True, False, True]])
print()
print(Y)
print(Y[:, [False, True, True]])

[3.  4.  1.5]
[3.  1.5]

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
[[  1.5   2. ]
 [ -9.  100. ]]


代入式の左辺に上述の要素へのアクセスを，右辺に値を入れることで，`np.ndarray`オブジェクトへの**代入・変更**が出来ます．

In [16]:
print("要素の変更")
print(x)
x[1] = 100000 # 前から2番目の値を100000に
print(x)
x[1] = 4
print(x)

print("要素の定数倍 (定数和も同様)")
print(Y)
Y[1, 1] *= 5 # 1行1列目の値を5倍
print(Y)
Y[1, 1] /= 5 # 元に戻す
print(Y)

print("行の変更")
Y[0] = x # 0行目の行ベクトルを変更
print(Y)
Y[0] = 0 # 0行目のベクトルの要素の値をすべて0に変更
print(Y)
Y[0] = np.array([4, 1.5, 2.]) # 元に戻す
print(Y)

要素の変更
[3.  4.  1.5]
[3.0e+00 1.0e+05 1.5e+00]
[3.  4.  1.5]
要素の定数倍 (定数和も同様)
[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
[[  4.    1.5   2. ]
 [  0.  -45.  100. ]]
[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
行の変更
[[  3.    4.    1.5]
 [  0.   -9.  100. ]]
[[  0.   0.   0.]
 [  0.  -9. 100.]]
[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]


<a id='attribute'></a>

# 2.2.3 基本情報の取得

2.2.3では，配列の形・配列の次元・配列の各要素の型・配列の要素の数と言った**配列の基本情報の取得方法**を紹介します．


ある`np.ndarray`が与えられた時に，その**配列の形**（行の数と列の数）を知りたいことは多いです．例えば，データの集まりは行列で表現されるので，配列の形の取得はデータの数や次元数（特徴の数）を取得することに対応します．`np.ndarray`オブジェクトは，`shape`という属性を持っており，これは配列の形をタプルで表現したものです．

In [17]:
print(x.shape)
print(Y.shape)
print(z.shape)
print(W.shape)

(3,)
(2, 3)
(2,)
(3, 2, 3)


また，より基本的な情報として**配列の次元**を表す`ndim`という属性を持っています．これは`shape`の`len`と同じです．

In [18]:
print(x.ndim) # ベクトルなので1次元配列
print(Y.ndim) # 行列なので2次元配列
print(W.ndim)

1
2
3


`dtype`は**配列の各要素の型**（`int`なのか？`float`なのか？等）を表す属性です．

In [19]:
print(x.dtype)
print(Y.dtype)
print(W.dtype)

float64
float64
int64


`np.array`に`len`を用いると，最初の次元の長さ，すなわち`shape`で得られるタプルの一つ目の要素が得られます．

In [20]:
print(len(x), x.shape[0])
print(len(Y), Y.shape[0])

3 3
2 2


`size`は**配列の要素数**を表す属性です．すなわち，`shape`の全ての要素を掛けたものです．

In [21]:
print(Y.shape)
print(Y.size)

(2, 3)
6


<a id='basic_operation_sub'></a>

## 2.2.4 基本演算・基本操作

2.2.4の前半では，**配列の定数倍・定数和**，**要素ごとの和・要素ごとの積**，および**前述のスライスとの組合せ**について紹介します．次に，**配列の転置，配列の連結**に関して紹介します．

**行列・ベクトルの定数倍・定数和**は，通常のスカラーの場合と同じように書くことが出来ます（差と商も同様です）．

In [22]:
print(x)
print("全ての要素に3を足す")
print(x+3) # 全ての要素に3を足す
print("全ての要素に2を掛ける")
print(x*2) # 全ての要素を2倍する
print(Y)
print("全ての要素に-1を足す")
print(Y-1) # 全ての要素に-1を足す
print("全ての要素に-2を掛ける")
print(-2*Y) # 全ての要素を-2倍する

[3.  4.  1.5]
全ての要素に3を足す
[6.  7.  4.5]
全ての要素に2を掛ける
[6. 8. 3.]
[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
全ての要素に-1を足す
[[  3.    0.5   1. ]
 [ -1.  -10.   99. ]]
全ての要素に-2を掛ける
[[  -8.   -3.   -4.]
 [  -0.   18. -200.]]


これらの結果は全て新しい`np.ndarray`オブジェクトを返しています．したがって，代入式を書くことで新たなオブジェクトを作ることができます．

In [23]:
x_plus_3 = x+3
print(x_plus_3)

[6.  7.  4.5]


**ベクトルや行列の和・要素ごとの積（element-wise product or Hadamard product）** は，二つのベクトル・行列に対してを`+ *`を作用させることで計算できます．差と商は同様に`- /`で計算ができます．

In [24]:
a = np.array([1,2,3])
print(x)
print(a)

print("xとaの要素ごとの和")
x_plus_a = x + a
print(x_plus_a)

print("xとaの要素ごとの差")
x_sub_a = x - a
print(x_sub_a)

print("xとaの要素ごとの積")
x_prod_a = x * a
print(x_prod_a)

print("xとaの要素ごとの商")
x_div_a = x / a
print(x_div_a)

[3.  4.  1.5]
[1 2 3]
xとaの要素ごとの和
[4.  6.  4.5]
xとaの要素ごとの差
[ 2.   2.  -1.5]
xとaの要素ごとの積
[3.  8.  4.5]
xとaの要素ごとの商
[3.  2.  0.5]


**スライス等を利用し特定の行・列に関してのみ演算**を施すことも出来ます．

In [25]:
print(Y)
print("全ての要素に1を足す")
_Y = Y+1
print(_Y)
print("0行目の行ベクトルに3を足す")
_Y[0] += 3
print(_Y)
print("0行目の行ベクトルにa=(1,2,3)を足す")
_Y[0] += a
print(_Y)
print("1列目の列ベクトルに0を掛ける")
_Y[:, 1] *= 0
print(_Y)

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
全ての要素に1を足す
[[  5.    2.5   3. ]
 [  1.   -8.  101. ]]
0行目の行ベクトルに3を足す
[[  8.    5.5   6. ]
 [  1.   -8.  101. ]]
0行目の行ベクトルにa=(1,2,3)を足す
[[  9.    7.5   9. ]
 [  1.   -8.  101. ]]
1列目の列ベクトルに0を掛ける
[[  9.   0.   9.]
 [  1.  -0. 101.]]


**ベクトルと行列の和**を計算することもできます．ある行列`X`とベクトル`a`対して`X+a`を行った場合，`X`の全ての行ベクトル`x[i]`に`a`が足されます．

In [26]:
print(Y)
print(x)
print("Yの各行にxを足す")
_Y = Y + x
print(_Y)

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
[3.  4.  1.5]
Yの各行にxを足す
[[  7.    5.5   3.5]
 [  3.   -5.  101.5]]


(2, 3)の行列`Y`に，(2, )のベクトル`z`を足すと，列ベクトルによしなに足してくれる…ということはなく，**エラーになります．**

In [27]:
print(Y)
print(z)
print(Y+z)

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
[1 2]


ValueError: operands could not be broadcast together with shapes (2,3) (2,) 

この場合，`z`が`z.shape=(2, 1)`の2次元配列となっていれば`Y`の各列に`z`を足すことができます．いくつか方法はありますが，例えば，`np.newaxis`を用いることで`z`を`(2, 1)`の配列に変更することができます．`np.newaxis`については後ほどもう少し詳しく紹介します．

In [28]:
print(z[:, np.newaxis])
print(z[:, np.newaxis].shape)
print(Y+z[:, np.newaxis])

[[1]
 [2]]
(2, 1)
[[  5.    2.5   3. ]
 [  2.   -7.  102. ]]


**配列に対して比較演算子を用いることができます**．例えば，`X>0`を実行すると，`X`の0より大きい要素には`True`が，そうでない要素には`False`が入った配列が返ってきます．
比較演算子と真偽値の配列を用いたスライシングによって，**特定の条件を満たす要素だけを取り出す**ことが可能です．

In [29]:
print(Y)
print(Y>1)
print(Y[Y>1])

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
[[ True  True  True]
 [False False  True]]
[  4.    1.5   2.  100. ]


**配列の転置**は`np.transpose`という関数，あるいは`.T`によって行うことが出来ます．ベクトル（1次元配列）については転置を行っても何も起こりません．
これらは**元の配列（オブジェクト）を転置させるのではなく，新たに転置させた配列を返します**．

In [30]:
YT = np.transpose(Y)
print(Y)
print(YT)
print(Y.T)
print(Y.T.shape)
print(x)
print(x.T)
print(x.T.shape)

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
[[  4.    0. ]
 [  1.5  -9. ]
 [  2.  100. ]]
[[  4.    0. ]
 [  1.5  -9. ]
 [  2.  100. ]]
(3, 2)
[3.  4.  1.5]
[3.  4.  1.5]
(3,)


<a id='various_function'></a>

## 2.3 np.ndarrayの様々な演算

`np.ndarray`には便利な関数が多数存在します．全てを紹介することはせずに，一部のみ紹介します．

`np.sum`は**配列の要素の和**を求める関数です．`axis`引数を指定することで特定の次元（行 or 列）に関してのみ和を求めることも出来ます．和を求めた結果，和を計算した方向の次元は消えてしまいます．次元を消したくない場合は，`keepdims`引数を`True`にします．

In [31]:
print(Y)
print(np.sum(Y))
print("0次元目の方向に和を計算 = 行ベクトルの和を計算")
print(np.sum(Y, axis=0), np.sum(Y, axis=0).shape) # 行ベクトルの和を計算
print("0次元目の方向に和を計算 = 行ベクトルの和を計算 with keepdims=True")
print(np.sum(Y, axis=0, keepdims=True), np.sum(Y, axis=0, keepdims=True).shape) # 演算後，次元を保つ
print("1次元目の方向に和を計算 = 列ベクトルの和を計算")
print(np.sum(Y, axis=1), np.sum(Y, axis=1).shape) # 列ベクトルの和を計算

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
98.5
0次元目の方向に和を計算 = 行ベクトルの和を計算
[  4.   -7.5 102. ] (3,)
0次元目の方向に和を計算 = 行ベクトルの和を計算 with keepdims=True
[[  4.   -7.5 102. ]] (1, 3)
1次元目の方向に和を計算 = 列ベクトルの和を計算
[ 7.5 91. ] (2,)


**三角関数や指数関数，対数関数，絶対値**と言った関数も実装されています．これらの関数に配列を入れると，要素ごとに関数の値を計算します．

In [32]:
print(np.cos(Y))
print(np.sin(Y))
print(np.exp(Y))
print(np.abs(Y)) # 絶対値
print(np.log(np.abs(Y)+1)) # 自然対数．非正の値をいれることはできないので，絶対値を取った後に1を足す

[[-0.65364362  0.0707372  -0.41614684]
 [ 1.         -0.91113026  0.86231887]]
[[-0.7568025   0.99749499  0.90929743]
 [ 0.         -0.41211849 -0.50636564]]
[[5.45981500e+01 4.48168907e+00 7.38905610e+00]
 [1.00000000e+00 1.23409804e-04 2.68811714e+43]]
[[  4.    1.5   2. ]
 [  0.    9.  100. ]]
[[1.60943791 0.91629073 1.09861229]
 [0.         2.30258509 4.61512052]]


`np.dot`は**二つの配列の積** を計算する関数です（dotは一般に内積を表しますが，この関数は必ずしもそうとは限りません（=数学的概念の内積と一致するとは限りません））．機械学習アルゴリズムの中で最も使うだろう関数の一つです．`np.dot(a, b)`は，**aとbの次元数によって挙動が変わります**．ここでは，本演習で遭遇するだろう場合に関してのみ述べます：

1. a, bのどちらも1次元配列の場合：ベクトルaとbの内積を返す（すなわち，スカラーを返す）．
2. a, bのどちらも2次元配列の場合：行列aとbの行列積を返す（`a.shape=(d_1, d_2)`, `b.shape=(d_2, d_3)`の時，`shape=(d_1, d_3)`の行列を返す）
3. aがn次元配列，bが1次元配列の場合：aの最後の次元(`axis`)でベクトルを取り出し，bと内積を計算する．すなわち， `a.shape=(d_1, ..., d_n)`，`b.shape=(d_n, )`の時，`shape=(d_1, ..., d_{n-1})`次元の配列を返す．

詳しくは公式のリファレンス https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html を参照して下さい．

In [33]:
print(x)
print(Y)
print("ケース1")
print(np.dot(x,x))
print(np.sum(x*x)) # 上と同じ結果を返す
print("ケース2")
print(np.dot(Y, Y.T)) # (2, 3)と(3, 2)の積=(2, 2)を返す
print(np.dot(Y.T, Y)) # (3, 2)と(2, 3)の積=(3, 3)を返す
print("ケース3")
print(np.dot(Y, x))
print(np.array([np.dot(Y[0], x), np.dot(Y[1], x)])) # 上と同じ結果

[3.  4.  1.5]
[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
ケース1
27.25
27.25
ケース2
[[   22.25   186.5 ]
 [  186.5  10081.  ]]
[[ 1.6000e+01  6.0000e+00  8.0000e+00]
 [ 6.0000e+00  8.3250e+01 -8.9700e+02]
 [ 8.0000e+00 -8.9700e+02  1.0004e+04]]
ケース3
[ 21. 114.]
[ 21. 114.]


`shape`が合わない場合**エラーとなります．**
次のケースでは二つの配列はどちらも2次元なので，一つ目の行列の2番目の次元の要素数と，二つ目の行列の1番目の次元の要素数が一致していなければなりませんが，そうなっていません．

In [34]:
print(np.dot(Y, Y))

ValueError: shapes (2,3) and (2,3) not aligned: 3 (dim 1) != 2 (dim 0)

上で述べたもの以外にも，平均や分散の計算，最大（小）値の計算，ソートといった便利な関数が多数あります．`np.ndarray`に対して何かをしたくなった時，**まずその処理が存在するかを調べることを強く推奨します**．

<a id='create_array_by_numpy'></a>


## 2.4 `np.ndarray`を用いた`np.ndarray`オブジェクトの作成

本Notebookの序盤において「`list`を渡して`np.ndarray`オブジェクトを作成する」と紹介しました．**いくつかの特殊な配列に関しては直接`np.ndarray`の関数を用いて作成することができます．**

**全ての要素が0の配列**は`np.zeros`で作成することが出来ます．`np.zeros`には引数として`shape`を与えると，指定した`shape`の全てが0の配列が作成されます．

In [35]:
print(np.zeros((5, )))
print(np.zeros((5, 2)))
print(np.zeros((2,3,4), dtype=np.int64))

[0. 0. 0. 0. 0.]
[[0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]
 [0. 0.]]
[[[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]

 [[0 0 0 0]
  [0 0 0 0]
  [0 0 0 0]]]


**全ての要素が1の配列**は，`np.ones`で作成することが出来ます．`np.zeros`と使い方は同様です．

In [36]:
print(np.ones((5, )))
print(np.ones((5, 2)))
print(np.ones((2,3,4), dtype=np.int64))

[1. 1. 1. 1. 1.]
[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]]
[[[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]

 [[1 1 1 1]
  [1 1 1 1]
  [1 1 1 1]]]


**0から始まってm-1で終わるベクトル**は，`np.arange`で作成することが出来ます．

In [37]:
print(np.arange(4))

[0 1 2 3]


**単位行列**は`np.eye`で作成することが出来ます．`np.eye(m)`は，(m, m)の単位行列を作成します．

In [38]:
print(np.eye(4))

[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]


<a id='create_random_array'></a>


## 2.5 ランダムな配列の生成

`numpy`は疑似乱数を用いた様々な関数を提供しています．それらは`numpy.random`にまとめられていて，いくつか紹介します．
詳しくは公式のリファレンス（https://numpy.org/doc/stable/reference/random/index.html ）を参照してください．本演習ではおそらく使いませんが，情報理工学実験「データサイエンス」でいくつか使います．
- `rand`：区間 $[0, 1)$ から生成．引数で配列の形を指定する．
- `randn`：標準正規分布から生成．引数で配列の形を指定する．

In [39]:
print(np.random.rand(2, 3)) # (2, 3)の配列で，各要素が区間 [0,1)
print(np.random.rand(2, 3)) # (2, 3)の配列で，各要素が区間 [0,1)
print(np.random.randn(2, 1)) # (2, 1)の配列で，各要素が標準正規分布にしたがう
print(np.random.randn(2, 1)) # (2, 1)の配列で，各要素が標準正規分布にしたがう

[[0.44091153 0.79699911 0.40661945]
 [0.1940257  0.42689898 0.55803097]]
[[0.64127015 0.55509979 0.04681008]
 [0.39931002 0.74081336 0.51590137]]
[[1.98195778]
 [0.19803809]]
[[0.51788046]
 [0.56992144]]


指定した形の配列が生成されています．そしてその結果が毎回変わっています．
ときには乱数のseedを指定したいときもあると思います．このような場合，`seed`を使うことができます．
以下に見るように，`seed`を設定した後であれば同じ結果が得られています．

In [40]:
# seedを1に指定
print("Set seed=1.")
np.random.seed(1)
print(np.random.rand(2, 3)) # (2, 3)の配列で，各要素が区間 [0,1)
print(np.random.randn(2, 1)) # (2, 1)の配列で，各要素が標準正規分布にしたがう
print(np.random.rand(2, 3)) # (2, 3)の配列で，各要素が区間 [0,1)
print(np.random.randn(2, 1)) # (2, 1)の配列で，各要素が標準正規分布にしたがう
# seedを再度1に指定
print("Set seed=1.")
np.random.seed(1)
print(np.random.rand(2, 3)) # (2, 3)の配列で，各要素が区間 [0,1)
print(np.random.randn(2, 1)) # (2, 1)の配列で，各要素が標準正規分布にしたがう
print(np.random.rand(2, 3)) # (2, 3)の配列で，各要素が区間 [0,1)
print(np.random.randn(2, 1)) # (2, 1)の配列で，各要素が標準正規分布にしたがう

Set seed=1.
[[4.17022005e-01 7.20324493e-01 1.14374817e-04]
 [3.02332573e-01 1.46755891e-01 9.23385948e-02]]
[[-0.52817175]
 [-1.07296862]]
[[0.39676747 0.53881673 0.41919451]
 [0.6852195  0.20445225 0.87811744]]
[[ 1.46210794]
 [-2.06014071]]
Set seed=1.
[[4.17022005e-01 7.20324493e-01 1.14374817e-04]
 [3.02332573e-01 1.46755891e-01 9.23385948e-02]]
[[-0.52817175]
 [-1.07296862]]
[[0.39676747 0.53881673 0.41919451]
 [0.6852195  0.20445225 0.87811744]]
[[ 1.46210794]
 [-2.06014071]]


<a id='load_and_save'></a>


## 2.6 `np.ndarray`の書き込み・読み込み

`np.ndarray`の書き込み・読み込みは簡単に出来ます．方法はいくつかありますが，テキストとして書き込む方法，テキストを読み込む方法を紹介します．

テキストとして書き込むには，`np.savetxt`を用います．保存する際のファイル名・保存する配列を引数として与えます．

In [41]:
np.savetxt('numpy_tutorial_Y.txt', Y)

numpy_tutorial_Y.txtというファイル名で保存されたはずです．ファイルの中身を見てみましょう．配列`Y`が保存されているはずです．

テキストで保存された配列を読み込むには，`np.loadtxt`を用います．読み込むファイル名を引数として与えます．

In [42]:
print(Y)
print(np.loadtxt("numpy_tutorial_Y.txt")) # 同じ配列

[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]
[[  4.    1.5   2. ]
 [  0.   -9.  100. ]]


<a id='speed_test'></a>


## 2.7 Python標準機能と速度比較

これまでの紹介で，`np.ndarray`は便利な関数を多数持っていることが分かりました．しかし本当に速いのでしょうか？ベクトルの和の演算を題材に，速度比較をしてみましょう．
まず要素数1万のランダムな`np.ndarray`のベクトルを生成します．次に，それのリストヴァージョンを生成します．そして，
1. `np.ndarray`に`np.sum`関数
2. `np.ndarray`に`sum_naive`関数(`for`ループで愚直に計算)
3. `np.ndarray`にPython標準の`sum`関数
4. `list`に`np.sum`関数
5. `list`に`sum_naive`関数(`for`ループで愚直に計算)
6. `list`にPython標準の`sum`関数

の3×2，計6つを比較してみます．

In [None]:
# forで和を計算する関数
def sum_naive(x):
    res = 0
    for val in x:
        res += val
    return res

a = np.random.rand(10000) # 各要素が0から1の，要素数10000のベクトルを生成 np.randomはランダムな配列を作成したりするのに用いるクラス
a_list  = list(a) # リストに変換
# %timeit 処理　で処理の時間を計測
%timeit np.sum(a)
%timeit sum_naive(a)
%timeit sum(a)
%timeit np.sum(a_list)
%timeit sum_naive(a_list)
%timeit sum(a_list)

7.08 µs ± 129 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
1.41 ms ± 334 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
1.2 ms ± 315 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
555 µs ± 10.3 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
1.02 ms ± 302 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


一番上の`np.ndarray`に`np.sum`を用いた場合が**圧倒的に速い**ことが分かります（同時に，`for`で愚直に行う場合は標準の`list`の方が速いということも分かりました）．したがって，`np.ndarray`に何か処理を行いたい場合，**その処理に対応する関数があるか否かをまず調べることを推奨します**．

NumPyにはこれ以外にも多数の便利な関数・機能があります．使いつつ，調べつつ，身に着けていきましょう．

<a id='summary'></a>


## 2.8 まとめ
- NumPyはPythonの数値計算のためのライブラリです．`ndarray`は多次元配列のためのクラスです．
- 配列の基本情報には以下のようなものがあります：
    - 配列の形：`配列.shape`
    - 配列の次元：`配列.ndim`
    - 配列の各要素の型：`配列.dtype`
    - 配列の要素数：`配列.size`
- 紹介した演算の中から抜粋しただけでも，
    - 定数和：`+`
    - 定数倍：`*`
    - 複数の配列の要素ごとの和：`+`
    - 複数の配列の要素ごとの積：`*`
    - ベクトルの連結：`np.append`
    - 行列の連結：`np.concatenate`
    - 転置：`np.transpose` or `配列.T`
    - 次元の指定：`axis`
    - 要素の和：`np.sum`
    - 要素ごとの指数/対数：`np.exp`/`np.log`
    - 要素ごとの三角関数：`np.cos`/`np.sin`/`np.tan`
  といった様々な演算がサポートされています．演算の方向を指定するのに`axis`引数を用います．
- いくつかの特殊な形の行列は直接作成することができます．
    - ゼロ行列：`np.zeros`
    - all-ones行列：`np.ones`
    - 整数の等差数列のベクトル：`np.arange`
    - 単位行列：`np.eye`
- 行列演算を行う際`for`ループを回しがちですが，NumPyの標準の関数を使うほうが圧倒的に速いです．できるだけそちらを使いましょう．

<a id='pointer'></a>


## 付録：NumPyに関するリンク
NumPy公式：https://numpy.org/
- 公式チュートリアル：https://numpy.org/devdocs/user/quickstart.html

- 基本操作についてのドキュメント：https://numpy.org/devdocs/user/basics.html

- 線形代数のサブパッケージ（**おそらく実験で使います**）：https://numpy.org/devdocs/reference/routines.linalg.html

産総研の神嶌 敏弘さんによる機械学習+Pythonのチュートリアル：http://www.kamishima.net/mlmpyja/
- 特にNumPyについて： http://www.kamishima.net/mlmpyja/nbayes1/ndarray.html
