# NumPyライブラリ（１０月２２日）
<img src="https://raw.githubusercontent.com/numpy/numpy/main/branding/logo/primary/numpylogo.png" width="50%">

<!-- 本ページのnotebookは [こちら](notebooks.rst#numpy) からダウンロードしてColabにアップロードしてください。
 -->
下のアイコンをクリック。

[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](http://colab.research.google.com/github/ymatumot/GSC/blob/main/numpy.ipynb)

前回述べたように、Pythonの標準的機能は簡素化されており、標準ライブラリや拡張ライブラリを取り込む（importする）ことで機能をその都度増強するのがPythonの特徴であると言える。拡張ライブラリの中でも、歴史が古く（ほとんどPythonの発展と共に歩んできた）、データサイエンス分野で必須のライブラリが、今回扱う**NumPy**である。

**NumPy**は、配列データのオブジェクトとそのデータに対する数多くの数学的関数やデータ処理を提供するPythonの拡張ライブラリである。このNumPyの配列クラスを**numpy.ndarray**という。

一般にプログラムで数値データを取り扱う際には、多次元配列の形で格納しておくのが便利である。Python標準のリストで多次元配列を取り扱うことができるが、リストを使った数値データの処理速度は遅い。NumPyのモジュール群はC言語で実装されており、配列データはFortranやC言語と同じく、メモリ空間上で連続的に配置される。そのため、配列データに対して高速に処理することが可能である。

## まずは始めよう

In [1]:
#A kind of a magic phrase
import numpy as np

#Create a ndarray from a list
array_data = np.array([1.0,2.0,3.0,4.0,5.0,6.0,7.0])
print(type(array_data))
print(array_data.dtype)
print(array_data)

<class 'numpy.ndarray'>
float64
[1. 2. 3. 4. 5. 6. 7.]


ndarrayの配列に対する操作はPython標準のリストを使って行うよりも高速に処理できる。

In [2]:
np_array = np.array(range(1000000))
list_array = list(range(1000000))

%timeit np.sum(np_array)
%timeit sum(list_array)
print('NumPy is ten times faster!')

887 µs ± 83.4 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
4.3 ms ± 237 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
NumPy is ten times faster!


## 数学関数
配列に対して様々な数学関数が用意されている。例えば、Pythonでは組み込み関数として用意されていない、三角関数や平方根などはNumPyの関数を使うのが標準的である。引数は必ずしもndarrayである必要はない。全てをここで紹介することはできないので、以下では使用例を示す。その他の関数のリストは https://numpy.org/doc/stable/reference/routines.math.html を参照のこと。

In [3]:
a = 2.0
# square root
print(np.sqrt(a))
# base-2 logarithm
print(np.log2(32.0)) 

1.4142135623730951
5.0


## numpy.ndarray
ndarrayの作り方を紹介する。目的に応じて使い分けると良い。

### １次元配列
リストをndarrayに変換する。

```python
np.array(list())
```

In [4]:
data = np.array([0,1,2,3,4,5,6,7,8,9])
print(data)
print(type(data))

data = np.array(list(range(10)))
print(data)
print(type(data))

[0 1 2 3 4 5 6 7 8 9]
<class 'numpy.ndarray'>
[0 1 2 3 4 5 6 7 8 9]
<class 'numpy.ndarray'>


中身を0で初期化して配列を作る。

```python
np.zeros(配列要素数)
```

または1で初期化する場合は、

```python
np.ones(配列要素数)
```

In [5]:
data_zero = np.zeros(10)
data_one = np.ones(10)
print(data_zero)
print(data_one)
print('Size of array:',len(data_zero)) # can use len function

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
Size of array: 10


配列のインデックスをそのまま値に入れる。

```python
np.arange(始めのインデックス, 終わりのインデックス+1, ステップ数)
```

終わりのインデックスのみを与えれば、始まりが0、ステップ数1が与えられる。

In [6]:
# can ommit start and step
data = np.arange(11)
print(data)

# every 2 steps starting the index of 2
data = np.arange(2,11,2)
print(data)

[ 0  1  2  3  4  5  6  7  8  9 10]
[ 2  4  6  8 10]


ある値の範囲を指定して配列要素数で線形補間して値を入れる。

```python
np.linspace(始まりの値, 終わりの値, 要素数)
```

In [7]:
# Create an array ranging from 0 to 1 with 10 elements
data = np.linspace(0,1,10)
print(data)

[0.         0.11111111 0.22222222 0.33333333 0.44444444 0.55555556
 0.66666667 0.77777778 0.88888889 1.        ]


### スライス
ndarrayに対してもスライスが使える。

In [8]:
print(data[4:]) # index 4 and later
print(data[-1]) # can specify the last element without knowing the length of the list
print(data[-4:-1]) # specify the last four elements without the last one
print(data[0:5:2]) # specify every 2 elements

[0.44444444 0.55555556 0.66666667 0.77777778 0.88888889 1.        ]
1.0
[0.66666667 0.77777778 0.88888889]
[0.         0.22222222 0.44444444]


### 多次元配列の作り方
Pythonでデータを取り扱うには多次元配列を用意するのが必須である。以下ではNumPyから提供される、`np.zeros()`または`np.ones()`を使って多次元配列を直接用意する方法を紹介する。タプルを使って各次元方向の要素数を指定する。

In [9]:
data2d_zero = np.zeros((3,3))
data2d_one = np.ones((3,3))
print(data2d_zero)
print(data2d_one)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]
[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


配列の次元と各要素数を確認するには、`shape`データ属性を参照する。

In [10]:
print(data2d_one.shape)

(3, 3)


### 配列の型の指定
配列を作成する際に、オプションに`dytpe`を渡すことで配列要素の型（整数、実数）を指定することができる。ndarrayの型は

|型|指定名|
|:--:|:--:|
|整数（4バイト）| np.int32 |
|実数（単精度、4バイト） | np.float32 |
|実数（倍精度、8バイト） | np.float64 |

その他の型の指定は https://numpy.org/doc/stable/reference/arrays.scalars.html#arrays-scalars-built-in を参照のこと。

In [11]:
data2d = np.zeros((3,3))
print('Default creation is with real number',data2d.dtype)
data2d = np.zeros((3,3),dtype=np.int32)
print('Now created with integers',data2d.dtype)

Default creation is with real number float64
Now created with integers int32


ndarrayの`astype()`メソッドを使うことで、作成済みの配列の方を変換することができる。

In [12]:
# Convert to float32 (single precision)
data2d = data2d.astype(np.float32)
print('Now coverted to single precision',data2d.dtype)

Now coverted to single precision float32


## 配列のビューとコピー
配列を別の変数に代入することを考える。

In [13]:
# This is just a copy of a reference (pointer) to "a"
a = np.array(range(4)).reshape(2,2)
b = a

Pythonでは、この書式は配列"a"へのメモリへの参照（View）を新たな変数"b"にコピーしていることを意味する。従って、

In [14]:
print('a')
print(a)
print('b')
print(b)

#Insert 0.0 to row=0 of array a
#This also reflects to b
a[0,:]=-1.0
print('a')
print(a)
print('b')
print(b)

a
[[0 1]
 [2 3]]
b
[[0 1]
 [2 3]]
a
[[-1 -1]
 [ 2  3]]
b
[[-1 -1]
 [ 2  3]]


のように、配列"a"の変更結果が配列"b"にも反映される。aの中身を別の変数にコピーしたい場合は`copy()`メソッドを使う。

In [15]:
#Copy contents of a to c
a = np.array(range(4)).reshape(2,2)
c = a.copy()
print('a')
print(a)
print('c')
print(c)

#Insert 0.0 to row=0 of array a
#This does not reflect to c
a[0,:]=-1.0
print()
print('a')
print(a)
print('c')
print(c)

a
[[0 1]
 [2 3]]
c
[[0 1]
 [2 3]]

a
[[-1 -1]
 [ 2  3]]
c
[[0 1]
 [2 3]]


## 配列に対する演算
### 算術演算
ndarrayに対する算術演算は通常の変数と同じようにできる。以下では配列`a`と配列`b`の足し算を考えてみよう。

In [16]:
nx = 1000
ny = 1000
a = np.array(range(nx*ny)).reshape(ny,nx)
b = np.ones((ny,nx))
c = np.zeros((ny,nx))

import time

#Addition by using for loop
st = time.time()
for j in range(ny):
    for i in range(nx):
        c[j,i] = a[j,i]+b[j,i]
et = time.time()
print('elapsed time when using for loop:',et-st)

#Addition by vector representation
st = time.time()
c = a+b
et = time.time()
print('elapsed time when using vector representation:',et-st)

elapsed time when using for loop: 2.267122507095337
elapsed time when using vector representation: 0.004687786102294922


上記では`for`文を使って各要素ごとに足すやり方と`c=a+b`という風に1行で足し算をスカラ変数と同じように記述する方法を比較した。`a`も`b`も共にndarrayなので、これらに対する算術演算はc言語と同じ速さで実行されるが、`for`文を使うと、毎回命令を解釈する（interpret）Pythonの悪い点が出て
しまい、実行速度は`c=a+b`の様に記述する場合と比べて極端に遅くなる。後者の表現を**ベクトル形式**という。ndarrayに対する算術演算はできる限り`for`文を避けてベクトル形式で実行するようにプログラミングするのが基本である。しかし、複雑な処理をする場合はどうしても`for`文を使わざるを得ない場合があり、その場合はPythonはndarrayを使っても処理速度がFortranやC言語に比べて極端に遅くなることに注意したい。

その他の算術演算も同様である。

In [17]:
a = np.array(range(4)).reshape(2,2)
b = np.ones((2,2))*3
print('a')
print(a)
print('b')
print(b)
c = a-b
print('subtraction: a-b')
print(c)
print('element-wise production: a*b')
c = a*b
print(c)
print('matrix production: a#b')
c = np.matmul(a,b)
print(c)

a = np.array(range(4))
b = np.arange(3,7)
print('a & b')
print(a,b)
print('dot products of a & b')
print(np.dot(a,b))

a
[[0 1]
 [2 3]]
b
[[3. 3.]
 [3. 3.]]
subtraction: a-b
[[-3. -2.]
 [-1.  0.]]
element-wise production: a*b
[[0. 3.]
 [6. 9.]]
matrix production: a#b
[[ 3.  3.]
 [15. 15.]]
a & b
[0 1 2 3] [3 4 5 6]
dot products of a & b
32


## その他の使い方
NumPyライブラリには非常に多くの機能が備わっている。全てをここで紹介することはできないので、**これまでの私の経験から**、使用頻度の高いと思われる機能に絞って紹介する。

### 乱数の生成
一様乱数の場合（0以上1未満）は、

```python
np.random.random()
```

で与えられる。

In [18]:
for i in range(10):
    print(np.random.random())

0.10600871289733504
0.5190694686283011
0.1690453659720086
0.26066276653151843
0.3895760563872235
0.6030602453051578
0.4868178934655184
0.14388224049420784
0.013366224220175194
0.8642449794973442


配列として与える場合は
```
np.random.random(タプル)
```
のように、タプルで次元と要素数を指定して与える。

In [19]:
print(np.random.random((3,3)))

[[0.1739207  0.31995501 0.70074099]
 [0.01610059 0.63634634 0.12679103]
 [0.79146479 0.8501174  0.88700553]]


毎回同じ乱数を出力するためには、乱数の種を固定をする。

In [20]:
print(np.random.random())
print(np.random.random())
#input arbitrary integer for random seed
np.random.seed(10)
print(np.random.random())
np.random.seed(10)
print(np.random.random())

0.06577940105814328
0.2386779245920434
0.771320643266746
0.771320643266746


その他正規分布になるような乱数など、複数の乱数の関数が用意されている。詳細は https://numpy.org/doc/stable/reference/random/generator.html を参照のこと。

### 総和、平均、分散（標準偏差）、最大、最小
配列データの各要素に対して、総和、平均、分散、最大値、最小値などをndarrayのメソッドで求めることができる。

In [21]:
# number of sampling
n = 100000

# uniform random numbers
data_uni = np.random.random(n)
print('### Uniform random numbers')
print(data_uni)
print()
print('Sum of data',data_uni.sum())
print()
print('Mean of data (which should be around 0.5)',data_uni.mean())
print()
print('Variance of data',data_uni.var())
print('Standard deviation of data',data_uni.std())
print('Maximum value of data:',data_uni.max(),'and its index:',data_uni.argmax())
print('Minimum value of data:',data_uni.min(),'and its index:',data_uni.argmin())
print()
print()


### Uniform random numbers
[0.02075195 0.63364823 0.74880388 ... 0.60450424 0.17820914 0.21905392]

Sum of data 49873.683883717764

Mean of data (which should be around 0.5) 0.4987368388371776

Variance of data 0.083210820436012
Standard deviation of data 0.2884628579835054
Maximum value of data: 0.9999942472751908 and its index: 98460
Minimum value of data: 1.7566729357820776e-06 and its index: 31331




### 配列要素の検索
ある条件を満たす配列内の要素を探す場合に使う。

```python
np.where(配列データ, 条件文)
```

条件に一致した要素のインデックスが各次元方向にまとめて返される。返された配列を配列要素に入れることで、条件を満たす要素のみを取り出すことができる。

In [22]:
data = 2.0*(np.random.random((3,3))-0.5)
print('original data')
print(data)
print()
print('data where the condition is satisfied')
print(data[np.where(data<0.0)])

original data
[[-0.96595839  0.39670045  0.3865239 ]
 [ 0.86695624  0.0902694  -0.28219094]
 [ 0.40157407  0.62539561 -0.29089087]]

data where the condition is satisfied
[-0.96595839 -0.28219094 -0.29089087]


## numpy.ndarrayのファイルへの保存とファイルからの読み込み

NumPyには独自のファイルフォーマットがあり、簡単にndarrayの配列データをディスクに保存したり、ディスクから読み込んだりすることができる。独自フォーマットなため、主にPythonコード間でのデータのやり取りの範囲で使われる。

データの保存は
```python
np.save('ファイル名.npy',ndarray)
```
のように行う。拡張子は".npy"である。

In [23]:
data = np.random.random((100,100))
np.save('random_data.npy',data)
import glob
print(glob.glob('*.npy'))

['random_data.npy']


`np.save()`で保存したデータを読み込みたい場合は`np.load()`を使う。

In [24]:
#initializing the array
data = 0
data = np.load('random_data.npy')
print('read data shape')
print(data.shape)

#remove created file
import os
files = glob.glob('*.npy')
for fl in files:
    os.remove(fl)

read data shape
(100, 100)


## 演習課題
NumPyモジュールの乱数生成関数を用いて、円周率を近似的に求めてみよう。

$0\le x<1$, $0\le y<1$の正方形の領域にランダムに座標を決めて、正方形領域内を点で埋めることを考える。充分に多くの点で正方形領域内を埋め、$r=\sqrt{x^2+y^2} \le 1$内の点の数（$N(r\le1)$）と全点数$N$の比を取ることで近似的に円周率$\pi$を求める。すなわち、

$$
\frac{\pi r^2/4}{1\times1} = \frac{\pi}{4} \approx \frac{N(r\le1)}{N}
$$

![](./img/mc_pi.png)

上図では、$r\le 1$の点を赤で、$r > 1$の点を青でプロットし、その様子を可視化している。（図の作成は課題ではなく、あくまでどのように点を打っているかを理解してもらうための図である。）

$N$を$10, 100, 1000, 10000$と変え、それぞれ近似的に求めた円周率を出力するプログラムを作成してください。