# NumPy

In [None]:
import numpy as np

## データ型

Pythonの通常の `list` の場合。

In [None]:
list_a = [1, 2, 3, 4, 5]
print(list_a)
print(type(list_a))

NumPyの配列の場合。

In [None]:
arr_a = np.array(list_a)
print(arr_a)
print(type(arr_a))

`numpy.ndarray` は要素のデータ型を指定できる。

In [None]:
arr_a = np.array(list_a, dtype=np.int8)
print(arr_a)
print(arr_a.dtype)
print(arr_a[0])

In [None]:
arr_a = np.array(list_a, dtype=np.float64)
print(arr_a)
print(arr_a.dtype)
print(arr_a[0])

整数配列の表現に必要なバイト数の比較。

In [None]:
list_a = [1, 2, 3, 4, 5]
arr_a = np.array(list_a, dtype=np.int8)

Pythonの整数は、どれだけ小さな数字であろうと20バイト以上（システム依存）のメモリ確保が必要。その代わり、どれほど大きな整数を格納しようと自動的に拡張してオーバーフローすることはない（マシンのメモリが許す限り）

In [None]:
import sys
sys.getsizeof(list_a[0])

numpyの配列要素のバイト数は宣言したデータ型できっちり決まる。

In [None]:
arr_a.itemsize

なので普通の list はオーバーフローは意識しなくていいが、

In [None]:
list_a[0] = 256
list_a

numpyの配列はC言語を書くときのようにデータ型を意識することが必要。

In [None]:
arr_a[0] = 256
arr_a

必要な計算精度に合わせて指定する。

In [None]:
b = np.array([150], dtype=np.float32)
print(np.exp(-b))

b = np.array([150], dtype=np.float64)
print(np.exp(-b))

何も考えず生成しても配列要素から自動的に決めてくれる。

In [None]:
a = np.array([1, 2, 3, 4, 5])
print(a.dtype)

a = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
print(a.dtype)

a = np.array([True, True, False, True, False])
print(a.dtype)

データ型の変換（型キャスト）。真偽値の整数（0 or 1）への変換はたまに出てくる。

In [None]:
print(a)
print(a.astype(int))

なんらかの条件を満たす要素の数をカウントする場合など。

In [None]:
a = np.array(range(10))
print(a)

print(a % 3 == 0)

print((a % 3 == 0).astype(int))

print((a % 3 == 0).astype(int).sum())

# np.count_nonzero(a % 3 == 0) でも同じ

## 計算速度

In [None]:
%%time
sum([i**2 for i in range(1000000)])

In [None]:
%%time
(np.arange(1000000) ** 2).sum()

## NumPy配列 (numpy.ndarray) の生成

基本。Pythonの list を `numpy.array` 関数につっこむ。

In [None]:
a = np.array([1, 2, 3, 4, 5])
print(a)

二次元のリストを入れれば、二次元のマトリックスを作れる。

In [None]:
a = np.array([[1, 2, 3],
              [4, 5, 6]])
print(a)

```numpy.ndarray```は他にも様々な作り方がある。たとえば、すべての要素が1のみからなる配列を生成する```numpy.ones```関数、すべての要素がゼロのみからなる配列を生成する```numpy.zeros```関数など。

In [None]:
# ones関数、zeros関数どちらも、1や0で埋める長さを指定する
print(np.ones(5))
print(np.zeros(5))

また、ある数値の範囲の中で等間隔に離れた数値の列を、指定した数のぶん生成する```numpy.linspace```関数を使った作り方もある。
```numpy.linspace```関数は、開始位置、終了位置、要素数を指定する。開始位置と終了位置のあいだで指定した要素数のぶん等間隔に離れた数値の列を生成する。下の例ではゼロから1の間で21個の点を生成している。

In [None]:
print(np.linspace(0.0, 1.0, 21))

この関数はとくにプロットを描く際に重宝する。たとえば以下のように、numpyのsin関数に入れると、ゼロ度から90度の範囲で均等に正弦関数の値を得ることができる。

In [None]:
print(np.sin(np.linspace(0.0, np.pi/2, 21)))

## 基本的な配列操作と計算

配列要素へのアクセスは通常のリストの場合と同様である。```start:stop:step```を使ったスライシング、```step```に```-1```を指定した逆順配列の生成もサポートしている。

In [None]:
a = np.array([1, 2, 3, 4, 5])

# 最初の要素。0番から。
print(a[0])
# 最後の要素。
print(a[-1])
# スライシング。1番から最後の一個手前まで。
print(a[1:-1])
# 一個おき。
print(a[::2])
# 逆順
print(a[::-1])

```numpy.ndarray```の次元（何次元配列か）は```ndim```アトリビュート（オブジェクトの属性情報）に、形状は```shape```アトリビュートに、要素数は```size```アトリビュートにアクセスすることで調べられる。

In [None]:
# 配列の次元
print(a.ndim)
# 配列の形状
print(a.shape)
# 配列の要素数
print(a.size)

とくに `shape` はお世話になる場面も多い。マトリックスが何行何列なのか調べるとき。

In [None]:
a = np.array([[1, 2, 3],
              [4, 5, 6]])
print(a)
print(a.shape)

また、いくつかの基本的な演算（最大、最小、平均値、全体の和など）は関数で簡単に実行できる。

In [None]:
a = np.array([1, 2, 3, 4, 5])

# 最大値
print(a.max())
# 最小値
print(a.min())
# 平均値
print(a.mean())
# 配列の要素の和
print(a.sum())

## 行ベクトルと列ベクトル

```numpy.array```関数は一次元のリストを与えると横長のフラットなベクトル（行ベクトル）をつくる。

しかし計算によっては、縦に長い列ベクトルが欲しい場合がある（そのような例は後述する）。

行ベクトルを列ベクトルに変換する簡単な方法は、```reshape```関数を使うことである。

いま、aは1行5列の行ベクトルだった。これを5行1列の列ベクトルに変換するには以下のように```reshape```関数のひとつめ（0番目）に行の数、ふたつめ（1番目）に列の数を指定して実行する。

この場合はタテに5個、ヨコに1個の形状に並び替える、ということを意味している。

In [None]:
a.reshape(5, 1)

ただ、いちいち配列のサイズを数えて行の数を指定するのは面倒でもある。列の数を1にするなら、行の数は配列の要素数になるのはあたりまえなので省略したい。そういうとき-1を指定すると、もう一方の軸のサイズから形状を勝手に類推してくれる。この場合、列は1なので、行の数を-1で指定すれば同じ結果となる。

In [None]:
a.reshape(-1, 1)

また、```reshape```による形状変換ではなく、```numpy.newaxis```で次元を「追加」する方法で変換することもできる（```numpy.newaxis```の実体は```None```だが、わかりやすさのためにこの名前で使われることが多い）。3次元以上の配列を扱う際はしばしばこちらの書き方のほうが便利なときがある。

In [None]:
a[:, np.newaxis]

## 二次元配列の操作

In [None]:
b = np.array([[1, 2, 3,],
              [4, 5, 6,]])

print(b.ndim)
print(b.shape)
print(b.size)

配列要素へのアクセスはほとんど一次元配列の場合と同じだが、ふたつの次元のインデックスをカンマで区切って指定する点だけ異なる。この場合もやはり、ひとつめ（0番目）が行（タテの何個目か）を表現し、ふたつめ（1番目）が列（ヨコの何個目か）を表現する。

たとえばゼロ行ゼロ列の要素を取得する場合は以下のようにする。

In [None]:
b[0, 0]

スライシングも同じようにできるが、どちらかの軸についてはスライスしないで全部とってくる、といった場合はstartやstopを指定せず```:```だけを指定する。たとえばゼロ行目の行ベクトル（ヨコ方向）を抜き出す場合は以下のようにする。

In [None]:
b[0, :]

1列目の列ベクトル（タテ方向）を抜き出す場合は以下のようにする。ただしNumPyの場合、列ベクトルをタテに抜き出したはずなのに、勝手にフラットな行ベクトルにされてしまうので注意。基本的に列ベクトルを列ベクトルとして扱うためには毎度行ベクトルから列ベクトルへ変換しなきゃいけない。

In [None]:
b[:, 1]

また、二次元配列の転置は、```T```アトリビュートや```transpose```関数で実行できる。

In [None]:
print(b.T)
print(b.T.shape)

基本的な演算。

In [None]:
print(b)
print('Max:', b.max())
print('Min:', b.min())
print('Mean:', b.mean())
print('Sum:', b.sum())

行ごと、列ごとの演算。

NumPyにおいて、とくにテーブルデータを多用する計算では、軸（```axis```）の0番が「行の方向」、1番が「列の方向」というイメージはたびたび出てくる。この対応関係は覚えてしまった方がいいかもしれない。

In [None]:
print(b)
print('\nAxis=0')
print('\tMax:', b.max(axis=0))
print('\tMin:', b.min(axis=0))
print('\tMean:', b.mean(axis=0))
print('\tSum:', b.sum(axis=0))
print('Axis=1')
print('\tMax:', b.max(axis=1))
print('\tMin:', b.min(axis=1))
print('\tMean:', b.mean(axis=1))
print('\tSum:', b.sum(axis=1))

## NumPyのブロードキャスト

ここで、行列のすべての要素に100を足すことを考えてみる。NumPyの場合、次のように計算できる。

In [None]:
print(b + 100)

NumPyでは、「ブロードキャスト」という機能によって、行列の形状が揃っていないとき、サイズが小さい方を同じ要素のコピーで自動的に拡張して計算する。

上記の計算は実質的には次の計算と同じで、行列bのサイズに合わせて100をコピーした行列を作って計算している。

In [None]:
# bの形状ですべての要素が1の行列を作って、100をかけたものを足す
print(b + np.ones(b.shape) * 100)

もう少し複雑な例として今度は、bの各列をそれぞれ10, 100, 1000で割り算してみる。

In [None]:
print(b / [10, 100, 1000])

この場合も、\[10, 100, 1000\]の配列が自動的にコピーされ（タテに2つぶんブロードキャストされて）、割り算が計算されている。

bの2つの「行」をそれぞれ10, 100で割り算する場合は、列ベクトルの生成が必要。

In [None]:
# reshape(-1, 1)で列ベクトルに変換する
col_vec = np.array([10, 100]).reshape(-1, 1)
print(col_vec)
print(b / col_vec)

## 乱数

様々な確率分布にしたがう乱数を生成する機能がそろっている。

デフォルトの擬似乱数生成器は[PCG64](https://ja.wikipedia.org/wiki/Permuted_congruential_generator)。

In [None]:
rn_gen = np.random.default_rng()

\[0.0, 1.0) の一様分布。

In [None]:
rn_gen.random(size=(5, 3))

平均50, 標準偏差10の正規分布。

In [None]:
rn_gen.normal(size=(5, 3), loc=50, scale=10)

平均4のポアソン分布。

In [None]:
rn_gen.poisson(size=(5, 3), lam=4)

## 例題：円周率のモンテカルロ計算

有名な数値計算の問題。

$x \in [0, 1) $,
$y \in [0, 1) $

の正方形のエリアにダーツを投げて、

$x^2 + y^2 < 1$

のエリア（半径1の円の4分の1）に当たるダーツの割合を数える。

それを4倍すると円周率 $\pi$ の近似値が計算できる。

In [None]:
n_darts = 100_000_000

darts = rn_gen.random(size=(n_darts, 2))
4 * ((darts**2).sum(axis=1) < 1.0).astype(int).sum() / n_darts