参考：あなたのデータサイエンス力を飛躍的に向上させるNumPy徹底入門
https://deepage.net/features/numpy/

## Numpyとは

NumPyは、Pythonの数値計算のためのモジュールで、高速に数値計算ができることが特徴です。

NumPyで使われる主なクラスは`np.ndarray`と呼ばれる多次元を扱う配列です。NumPy配列は、公式ドキュメントでは単に配列と称されることが多いです。

Pythonは動的型付き言語（データ型が柔軟に帰ることができる）です。柔軟に素早く書くことができる言語として知られていますが、その一方で処理速度がJavaやCに比べて一般に遅いというデメリットがあります。そこで、CやFortranで書かれた型を固定して演算を行うことができるコードをPythonから呼び出すことを出来るようにしたライブラリがNumPyです。NumPyを導入することで高速な数値演算ができます。

### Numpyのメリット
- 研究のプロトタイプを簡単に実装できる
- 数多くのライブラリを使い、高度な機能をシステムに組み込める
- 高速な行列計算ができる

## 多次元配列データ構造ndarrayの基礎
https://deepage.net/features/numpy-ndarray.html

### ndarrayの定義
> An ndarray is a (usually fixed-size) multidimensional container of items of the same type and size.

>ndarrayはたいてい一定の大きさを持つ、**同じサイズや型で構成された**複数要素の多次元の容れ物である。N-dimensional arrayの略。

### ndarrayの特徴

- 同じ型を持つ要素しか格納することができない
- 各次元ごとの(2次元なら列ごとや行ごと)の要素数は必ず一定
- C言語を元に、最適化された行列演算を行うため効率的な処理をすることができる

### ndarrayの属性

|属性|説明|
|:--|:--|
|`T`|いわゆる転置を返す。ndim(後述)$<2$のときは元の配列が返される。|
|`data`|	メモリ上の位置をPythonのバッファーオブジェクトで返す|
|`dtype`|	ndarrayに含まれる要素が持つデータ型。|
|`flags`|	メモリ上におけるndarrayのデータの格納の仕方(Memory Layout)についての情報。|
|`flat`|	ndarrayを１次元配列に変換するイテレーター。|
|`imag`|	ndarrayにおける虚数部分(imaginary part)。|
|`real`|	ndarrayにおける実数部分(real part)。|
|`size`|	ndarrayに含まれる要素の数。|
|`itemsize`|	バイト単位での一つ一つの要素の大きさ。|
|`nbytes`|	そのndarrayの要素によって占められるバイト単位でのメモリ総量。|
|`ndim`|	ndarrayに含まれる次元の数。|
|`shape`|	ndarrayの形状(shape)をタプルで表したもの。|
|`strides`|	各次元方向に１つ隣の要素に移動するために必要なバイト数をタプルで表示したもの|
|`ctypes`|	ctypesモジュールで扱うためのイテレーター。|
|`base`|	ndarrayのベースとなるオブジェクト(どのメモリを参照しているのか)。|



## ブロードキャスト
https://deepage.net/features/numpy-broadcasting.html

NumPyには、次元数や形状が揃っていない場合でも、プログラマが揃える処理を書かなくてもいいように簡単に計算を記述できるようになるブロードキャスト(Broadcasting)という機能が備わっています。

### ブロードキャストのルール
ブロードキャストには、NumPy配列が異なった次元・形状でも計算できるかを判断して処理するシンプルな4つのルールがあります。

1. ブロードキャスト対象の配列の中で、次元数(ndim)が異なるときはshapeの先頭に1を入れることで調整する

2. 計算処理に用いることのできる配列は、各次元の要素数が、最も大きい値に等しい、もしくはちょうど1となっているようなものである

3. 出力される配列のshapeは調整されたshapeのそれぞれの次元において最も要素数の多いものに合わせられる

4. 要素数が1となっている次元の軸については、値は全て同じものが繰り返される。

## スライシング
https://deepage.net/features/numpy-slicing.html

スライシングとは、配列の中において、特定の範囲の要素を抜き出す際に利用する機能です。`:`を使って範囲の始めのインデックスと終わりのインデックスを指定することで、目的の要素を取得することができます。

### 使い方
各々の軸方向において`start:stop:step`を指定します。`step`に負値を入れると、逆順に抽出する。
- start : 始点
- stop :終点
- step:何要素ごとにみるか

### サンプルコード

In [7]:
import numpy as np
a = np.arange(10) # 10個の連番を要素とする配列で見てみる。
print(a)
print(a[1:5]) # 1~4
print(a[2:8:2]) # 2~7を一個置きで
print(a[::-1]) # これで逆順に
print(a[:3]) # 0~2
print(a[4:]) # 4~9
print(a[:3],a[3:]) # 3を境に２つに分割
print(a[::2]) # 1個おきで。
print(a[:]) # 全範囲

[0 1 2 3 4 5 6 7 8 9]
[1 2 3 4]
[2 4 6]
[9 8 7 6 5 4 3 2 1 0]
[0 1 2]
[4 5 6 7 8 9]
[0 1 2] [3 4 5 6 7 8 9]
[0 2 4 6 8]
[0 1 2 3 4 5 6 7 8 9]


## 軸(axis)と次元数(ndim)
https://deepage.net/features/numpy-axis.html

- `np.ndim`：多次元配列の次元数を取得できる。
- `np.shape`：多次元配列の各次元ごとの要素数を取得できる。なお`ndarray`はネストした配列であり、ネストの上位順に`shape`の要素は並ぶ。  
- `axis`：多次元配列の各次元の座標軸を意味する。

「要素の合計を計算する`np.sum`関数、要素の平均を計算する`np.average`関数、最大の要素を探す`np.amax`関数」といった関数では`axis`を指定することで演算する次元を指定できる。

### サンプルコード

In [5]:
import numpy as np
a = np.arange(6).reshape((3, 2)) # 3*2の行列
print(a)
print(a.shape) # 各次元の要素数を表示
print(a.ndim) # 次元数を表示

[[0 1]
 [2 3]
 [4 5]]
(3, 2)
2


In [17]:
b = np.array([a, a])
print(b)
print(b.shape) # 各次元の要素数を表示
print(b.ndim) # 次元数を表示

[[[0 1]
  [2 3]
  [4 5]]

 [[0 1]
  [2 3]
  [4 5]]]
(2, 3, 2)
3


In [13]:
b.sum(axis=0)

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

In [15]:
b.sum(axis=1)

array([[6, 9],
       [6, 9]])

In [16]:
 b.sum(axis=2)

array([[1, 5, 9],
       [1, 5, 9]])

<img  src="numpy-shape-3d.jpg"/>

### np.shapeの(R,)や(R,1)という表記について
Pythonでは要素数が1つのタプルやただの１次元配列の`shape`は(R,)のようになります。  
一方、１次元配列を転置した縦ベクトルの場合、`shape`は(R, 1)となります。

In [18]:
a = np.array([1,2,3,4,5]) # ただの１次元配列
b = np.array([[1], [2], [3], [4], [5]]) # 縦ベクトルのようにすると(R,1)の形になる。
print(a.shape)
print(b.shape)

(5,)
(5, 1)


## コピー(copy)とビュー(view)の違い
https://deepage.net/features/numpy-copyview.html

`copy`と`view`というのはオブジェクトであり、元となる配列との関係性で定まります。両者の特徴をまとめると以下のようになります。

- `copy`：元の配列と違うメモリを使用しているが要素が同一の意味を持つもの
- `view`：元の配列と同じメモリを参照しているもの

`view`は同じメモリを参照しているため`view`にあたる配列の要素が変更されると元の配列にも変更が反映されることになります。

メモリ効率という観点では大きな配列になればなるほど、`view`をなるべく使った方が良いことになります。しかし、元の配列のデータを変えてしまう可能性が非常に高く、元のデータを保持しておきたいという場合には`copy`を使いましょう。

### 操作による違い

NumPyの操作では`copy`と`view`が使い分けられています。内部操作が`copy`となるのか`view`を生成するのかを知っていることで、さらに効率を意識したコードを書くことができるのでまとめます。

#### 代入
`=`を使って代入していくわけですが、Pythonにおける変数への代入というのはオブジェクトへの参照を格納するということになります。つまり、代入された変数がオブジェクトになるのではなく、変数はあくまでオブジェクトがある場所を示すものとなっています。

In [19]:
a = np.array([1, 2, 3])
b = a # bにaを代入
id(a) == id(b) # 参照元が同じかどうかを確かめる

True

ここで、変数へ代入するときに`a`を`a[:]`と表記を変えてみます。Pythonの`list`だと`copy`になりますがNumPyの`ndarray`では`view`となります。  
このように、スライス表記ですと元の配列と異なるオブジェクトが生成されますがそのオブジェクトの要素は元の配列のviewとなります。もちろん、スライス表記なので一部の配列を抜き出すようにしてもviewが生成されます。

In [20]:
a = np.array([1,2,3])
c = a[:] # 表記を変えてみる
id(a) == id(c) # 違うオブジェクトを参照しているのがわかる。

False

In [21]:
f = a.copy()
id(a) == id(f)

False

#### 演算
演算結果について、表記の仕方でコピーが作られる場合と作られない場合が存在します。

例えば、足し算をする場合には`copy`が生成されます。`a = a + 1`とすると`a`の`copy`が生成され、各要素に1を加算した新たな配列が`a`に代入されます。

In [22]:
a = np.array([1,2,3])
c = a # viewとなるcをつくる。
a = a + 1 # 1を加算する
c # cに変更が反映されない。

array([1, 2, 3])

`a += 1`の形にするとどうなるでしょうか。この場合は`a`のコピーが作られることなく、配列の値が1ずつ加算される形で更新されます。これは四則演算子である`+,-,*,/`や累乗を計算する`**`においても同様のことが言えます。  

In [23]:
a = np.array([1,2,3])
c = a
a += 1
c

array([2, 3, 4])

コピーを作らずに演算を行う方法として演算を行う関数を使うこともできます。加算なら`np.add()`、減算なら`np.subtract()`が使えます。  
これらの演算関数の引数には`out`というものがあり、ここに元となる配列を指定すると配列の値を上書きすることができ、メモリ効率をあげることができます。コピーを作らないだけで計算パフォーマンスも向上します。

In [26]:
a = np.array([1,2,3])
c = a
np.add(a,1, out=a)
print(a)
print(c)

[2 3 4]
[2 3 4]


#### 配列の一次元化
配列を一次元化する関数として`flatten`関数と`ravel`関数が存在します。`flatten`関数では配列の一次元化した`copy`を作成してそれへの参照が返されます。一方、`ravel`関数では読み込むメモリーの場所は元の配列と同じビュー(`view`)を返します。

`ravel`関数はコピーを作成しないため、コピーを作成する`flatten`関数より処理速度が速い特徴があります。

In [28]:
a = np.random.randn(2,3,9)
b = a.ravel()
c = a.flatten()
a[0,0,0] = 129
a[0,0,0], b[0], c[0]

(129.0, 129.0, -0.29122990104313423)

### copyかviewか確かめる方法
一番簡単な方法として、NumPyにある`may_share_memory`関数で確かめる方法があります。  

この関数は、引数として指定された２つの配列が同じメモリーを参照しているかどうかを確かめるものです。(この判定は実は厳密なものではなく、間違った`True`判定を出すときはあるが間違った`False`判定を出すことがない)  

より厳密に知りたいかたは`share_memory`関数が実装されているのでそちらを使うことをオススメします。デメリットとして`may_share_memory`関数より処理時間がかかるというものがありますが。

In [29]:
a = np.array([1,2,3])
b = a
c = a
d = a.copy()
print(np.may_share_memory(a,b)) # Trueならbはaのビューだということになる。
print(np.may_share_memory(a,c)) # こちらもTrue
print(np.may_share_memory(a, d)) # dはaのコピーなのでFalse
print(np.shares_memory(a,b)) # より厳密な測定にはshare_memory関数を使う
print(np.shares_memory(a,d))

True
True
False
True
False
