# Numpyの関数をまとめる。
### Table of Contents
- Numpy Basics:Arrays
- The Numpy ndarray: A multidimensional Array Object
- Creating ndarray
- Basic Indexing and slicing
- Indexing with slices
- Boolean Indexing
- Fancy Indexing
- Transposing Arrays and Swapping Axis
- Unique and other set logic
- 便利な統計の関数
- ブロードキャスト
- 確率分布に基づいた乱数生成
- 線形代数の関数
- 乱数

### NumPy Basics: Arrays

In [1]:
#設定
import numpy as np
import matplotlib.pyplot as plt
from IPython.display import display
np.random.seed(12345)
plt.rc('figure', figsize=(10, 6))
np.set_printoptions(precision=4, suppress=True)

In [2]:
# NumPyを使うとリストより早い。
import numpy as np
my_arr = np.arange(1000000)
my_list = list(range(1000000))

%time for _ in range(10): my_arr2 = my_arr * 2
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]

CPU times: user 15.9 ms, sys: 11.3 ms, total: 27.2 ms
Wall time: 27.2 ms
CPU times: user 584 ms, sys: 168 ms, total: 752 ms
Wall time: 754 ms


### The NumPy ndarray: A Multidimensional Array Object

In [3]:
import numpy as np
# Generate some random ndarray data
data = np.random.randn(2, 3)
data

array([[-0.2047,  0.4789, -0.5194],
       [-0.5557,  1.9658,  1.3934]])

In [4]:
# ベクトル演算
# ndarrayは、各要素を計算するときにfor文を書く必要がない。一括で計算してくれる。
data * 10

array([[-2.0471,  4.7894, -5.1944],
       [-5.5573, 19.6578, 13.9341]])

In [5]:
data + data

array([[-0.4094,  0.9579, -1.0389],
       [-1.1115,  3.9316,  2.7868]])

In [6]:
# 配列次元数とそのサイズを格納するタプル
data.shape

(2, 3)

In [7]:
# 配列の情報を抽出する。
print(data.ndim)  #配列の次元数
print(data.size)  #配列の要素数合計

2
6


In [8]:
# 指定した次元数に直す。
print(data.reshape(3,2))

[[-0.2047  0.4789]
 [-0.5194 -0.5557]
 [ 1.9658  1.3934]]


In [9]:
# 列数自動で形状を変更できる。
data.reshape(3, -1)  #自動で計算する際は引数に-1を与える。

array([[-0.2047,  0.4789],
       [-0.5194, -0.5557],
       [ 1.9658,  1.3934]])

In [10]:
# （応用）np.newaxisを用いた次元の自動拡張
# ベクトルや行列の演算をする際、例えばa+bの計算をする際、a[:, np.newaxis]と書くことで、bの次元数を考慮して、aの次元を調整してくれる。
# （参考）https://qiita.com/rtok/items/10f803a226892a760d75
data[:, np.newaxis]  #np.newaxisはNoneのエイリアス（言い換え）。つまり、data[:, None]と同値。ただし、newaxisと書いた方が分かりやすい。

array([[[-0.2047,  0.4789, -0.5194]],

       [[-0.5557,  1.9658,  1.3934]]])

In [11]:
# 1次元配列に戻す。
data.ravel()  #data.reshape(-1)と書いても同じ。

array([-0.2047,  0.4789, -0.5194, -0.5557,  1.9658,  1.3934])

In [12]:
# 配列要素に期待する型を示す
data.dtype

dtype('float64')

### Creating ndarrays

In [13]:
# リストを作ってndarrayにする。
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
arr1

array([6. , 7.5, 8. , 0. , 1. ])

In [14]:
# リストをネストさせることで、2次元配列（行列）を作れる。
data2 = [[1, 2, 3, 4], [5, 6, 7, 8]]
arr2 = np.array(data2)
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [15]:
# ndarrayの作り方1
print(np.zeros(10))
print(np.ones(10))

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]


In [16]:
# ndarrayの作り方2
# 生成するndarrayのshapeを第一引数に渡す。
np.zeros((3, 6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [17]:
# ndarrayの作り方3
# 生成するndarrayのshapeを第一引数に渡す。
#  結果は環境依存。メモリ上のゴミを拾ってくる可能性がある。
np.empty((2, 3, 2))

array([[[ 0.0000e+000,  0.0000e+000],
        [ 0.0000e+000,  0.0000e+000],
        [ 0.0000e+000,  0.0000e+000]],

       [[ 0.0000e+000,  0.0000e+000],
        [-2.6816e+154, -2.6816e+154],
        [-2.6816e+154, -2.6816e+154]]])

In [18]:
# 等間隔に増減させた値で要素を満たす
np.arange(15)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [19]:
# 等差数列を利用した配列の作成
# 一般項：初項＋交差（n-1）
# グラフの描画に便利。
np.linspace(0, 1, 10)  #第一引数：初項、第二引数：末項、第三引数：返ってくる配列のサイズ。今回は10個あり、区間は10-1＝9つあることになるため、9等分。

array([0.    , 0.1111, 0.2222, 0.3333, 0.4444, 0.5556, 0.6667, 0.7778,
       0.8889, 1.    ])

### Basic Indexing and Slicing

In [20]:
# スライスが使える。
arr = np.arange(10)
arr[5:8] = 12
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [21]:
# スライスが使える。
arr_slice = arr[5:8]
arr_slice

array([12, 12, 12])

In [22]:
# スライスを格納した変数に対する変更は、もとのndarrayにも反映される。
arr_slice[0] = 12345
arr

array([    0,     1,     2,     3,     4, 12345,    12,    12,     8,
           9])

In [23]:
# 2次元配列のインデックス
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print('2次元配列に対して、インデックスを1つ指定した場合、該当行を返す;', arr2d[2])
print('2次元配列に対して、列を指定する場合、次のように[行,列]を書く。', arr2d[:,2])

# 下記2つの書き方は同じ場所を参照できる。
print(arr2d[0][2])
print(arr2d[0, 2])

2次元配列に対して、インデックスを1つ指定した場合、該当行を返す; [7 8 9]
2次元配列に対して、列を指定する場合、次のように[行,列]を書く。 [3 6 9]
3
3


In [24]:
# 3次元配列のインデックス
# 基本的にn次元のndarrayに対して、m個のインデックスを指定すると、(n-m)次元のndarrayが抽出できる。
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print('original:\n', arr3d)
print('\n')
print('indexing:\n', arr3d[0])
print('\n')
print('indexing2:\n', arr3d[1, 0])

original:
 [[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


indexing:
 [[1 2 3]
 [4 5 6]]


indexing2:
 [7 8 9]


### Indexing with slices

In [25]:
# 2次元配列に対して、次のようにスライスできる。
# ndarrayのスライスは「始点：終点-1」という感じで抽出する。
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print('arr2d:\n', arr2d)
print('\n')
print('slicing:\n', arr2d[:2]) # これは0軸に対して、2番目まで抽出する。
print('\n')
print('slicing2:\n', arr2d[:2, 1:]) # これは0軸に対して、2番目まで抽出し、1軸に対して2行目から抽出する。

arr2d:
 [[1 2 3]
 [4 5 6]
 [7 8 9]]


slicing:
 [[1 2 3]
 [4 5 6]]


slicing2:
 [[2 3]
 [5 6]]


参考画像：
<img src="ndarray's slice.png"> 

### Boolean Indexing

In [26]:
# データの準備
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
data = np.random.randn(7, 4)
print('names\n', names)
print('data\n', data)

names
 ['Bob' 'Joe' 'Will' 'Bob' 'Will' 'Joe' 'Joe']
data
 [[ 0.0929  0.2817  0.769   1.2464]
 [ 1.0072 -1.2962  0.275   0.2289]
 [ 1.3529  0.8864 -2.0016 -0.3718]
 [ 1.669  -0.4386 -0.5397  0.477 ]
 [ 3.2489 -1.0212 -0.5771  0.1241]
 [ 0.3026  0.5238  0.0009  1.3438]
 [-0.7135 -0.8312 -2.3702 -1.8608]]


In [27]:
# indexに次のような真偽値を渡して抽出することができる。つまり、0と3をindexに指定するのと同じこと。
# ブールインデックスで参照する場合、必ず「参照先配列の軸の要素数」と「真偽値の配列の要素数」が一致していなければならない。今回の場合、7個で一致。
print(names == 'Bob')
data[names == 'Bob']

[ True False False  True False False False]


array([[ 0.0929,  0.2817,  0.769 ,  1.2464],
       [ 1.669 , -0.4386, -0.5397,  0.477 ]])

In [28]:
# (参考)ブール値の反転のさせ方
#1: 「!=」を使う。
names != 'Bob'
#2: 「~(ブール値)」を使う。
data[~(names == 'Bob')]

array([[ 1.0072, -1.2962,  0.275 ,  0.2289],
       [ 1.3529,  0.8864, -2.0016, -0.3718],
       [ 3.2489, -1.0212, -0.5771,  0.1241],
       [ 0.3026,  0.5238,  0.0009,  1.3438],
       [-0.7135, -0.8312, -2.3702, -1.8608]])

In [29]:
# 複数ブール条件の指定の仕方
mask = (names == 'Bob') | (names == 'Will')  #複数ブール条件を指定する際は、各条件を()で囲う必要がある。
data[mask]

array([[ 0.0929,  0.2817,  0.769 ,  1.2464],
       [ 1.3529,  0.8864, -2.0016, -0.3718],
       [ 1.669 , -0.4386, -0.5397,  0.477 ],
       [ 3.2489, -1.0212, -0.5771,  0.1241]])

In [30]:
# 比較演算子を使った指定
data[data < 0] = 0
data

array([[0.0929, 0.2817, 0.769 , 1.2464],
       [1.0072, 0.    , 0.275 , 0.2289],
       [1.3529, 0.8864, 0.    , 0.    ],
       [1.669 , 0.    , 0.    , 0.477 ],
       [3.2489, 0.    , 0.    , 0.1241],
       [0.3026, 0.5238, 0.0009, 1.3438],
       [0.    , 0.    , 0.    , 0.    ]])

### Fancy Indexing

In [31]:
# ファンシーインデックス参照：インデックス参照に整数配列を用いる方法
arr = np.empty((8, 4))
for i in range(8):
    arr[i] = i
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [32]:
# 複数の配列をインデックスに指定する場合：組み合わせを意識すること

# データの準備
arr = np.arange(32).reshape((8, 4))

print(arr)

arr[[1, 5, 7, 2], [0, 3, 1, 2]] # ここでは、(1,0),(5,3),(7,1),(2,2)の組み合わせでインデックス参照する。

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]
 [24 25 26 27]
 [28 29 30 31]]


array([ 4, 23, 29, 10])

In [33]:
# 個人的に気に入った使い方
# 全行の、指定した列を抽出する。
arr[:,[1,3]]

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11],
       [13, 15],
       [17, 19],
       [21, 23],
       [25, 27],
       [29, 31]])

### Transposing Arrays and Swapping Axes

In [34]:
# 転置行列の作り方： オブジェクト.T
# 3次元以上の場合、「オブジェクト.transpose()」も使える。引数の数はオブジェクトの次元数分必要で、順番を引数に指定する。例：transpose(1,0,2)
arr = np.arange(15).reshape((3, 5))
print('オリジナルの行列:\n', arr)
print('\n')
print('転置行列：\n', arr.T)

オリジナルの行列:
 [[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


転置行列：
 [[ 0  5 10]
 [ 1  6 11]
 [ 2  7 12]
 [ 3  8 13]
 [ 4  9 14]]


In [35]:
# 行列の内積演算
np.dot(arr.T, arr)

array([[125, 140, 155, 170, 185],
       [140, 158, 176, 194, 212],
       [155, 176, 197, 218, 239],
       [170, 194, 218, 242, 266],
       [185, 212, 239, 266, 293]])

In [36]:
# @を使っても内積が計算できる。
arr.T@arr

array([[125, 140, 155, 170, 185],
       [140, 158, 176, 194, 212],
       [155, 176, 197, 218, 239],
       [170, 194, 218, 242, 266],
       [185, 212, 239, 266, 293]])

In [37]:
# ベクトルの内積
u = np.arange(4)
v = np.arange(3., 7.)

(u * v).sum()  #np.dot(u, v)と同義で、内積の別の計算方法。

32.0

### Unique and Other Set Logic

In [38]:
# .unique(): 1次元配列に対して、重複を削除する。
# 和集合など他の集合用の関数も用意されているので、気になる際は調べること。
names = np.array(['Bob', 'Joe', 'Will', 'Bob', 'Will', 'Joe', 'Joe'])
np.unique(names)
ints = np.array([3, 3, 3, 2, 2, 1, 1, 4, 4])
np.unique(ints)

array([1, 2, 3, 4])

In [39]:
# 行列の連結
a = np.array([[0, 1, 2], [3, 4, 5]])
b = np.array([[6, 7, 8], [9, 10, 11]])
print(np.r_[a, b])  #縦方向に連結
print(np.c_[a, b])  #横方向に連結

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]
[[ 0  1  2  6  7  8]
 [ 3  4  5  9 10 11]]


In [40]:
# 行列の連結（注意）
# 連結したい行列のランクが異なるとエラーになるため、reshape()などで数学的に正しくすること。
c = np.arange(3)  #1次元配列のため、shapeは(3, )。見た目が(1, 3)だからといって、プログラム上のshapeと数学のshapeは異なることに注意。
np.r_[a, c.reshape(1, -1)]  #reshape(1, -1)で1＊nの形に自動調整できる。

array([[0, 1, 2],
       [3, 4, 5],
       [0, 1, 2]])

In [71]:
# 1次元配列を組合わせた行列：　.meshgrid(x, y)
x = np.linspace(-5, 5, 300)  #初項-5, 未項5, サイズ300
y = np.linspace(-5, 5, 300) 
xmesh, ymesh = np.meshgrid(x, y)  #xとyを組合わせて行列化する。x軸はx, y軸はyの値を持つ格子をイメージする。

print('xmeshのランク：', xmesh.shape)  #今回はymeshも同値。
print('xmesh：\n', xmesh)

xmeshのランク： (300, 300)
xmesh：
 [[-5.     -4.9666 -4.9331 ...  4.9331  4.9666  5.    ]
 [-5.     -4.9666 -4.9331 ...  4.9331  4.9666  5.    ]
 [-5.     -4.9666 -4.9331 ...  4.9331  4.9666  5.    ]
 ...
 [-5.     -4.9666 -4.9331 ...  4.9331  4.9666  5.    ]
 [-5.     -4.9666 -4.9331 ...  4.9331  4.9666  5.    ]
 [-5.     -4.9666 -4.9331 ...  4.9331  4.9666  5.    ]]


### 便利な統計の関数
- np.sum(vals)  #合計
- np.mean(vals)  #平均を返す。
- np.std(vals, ddof=1)  #標準偏差を返す。
- np.min(vals)  #最小値を返す。
- np.max(vals)  #最大値を返す。

In [41]:
# axis引数にて計算単位をコントールする。
b = np.arange(9.).reshape(3, 3)
b.sum(axis=0)  #列毎の合計。考え方として、縦ベクトルを行方向に（左から右側へ）足していく。

array([ 9., 12., 15.])

In [42]:
b.sum(axis=1)  #行毎の合計。考え方として、横ベクトルを列方向に（上から下側に）足していく。

array([ 3., 12., 21.])

### ブロードキャスト
NumPyの配列が、その配列を含む演算を行う場合に次元数や形状を自動的に調整する機能のこと。
- np.exp()
- np.log()
- np.sqrt()  

ブロードキャストされる関数はユニバーサル関数と呼ばれる。
また、for文などで同じ処理をさせるよりも計算速度が一般に早い。

In [43]:
a = np.arange(3., 8.)
np.exp(a)  #特にfor文などを書かなくても、aの配列の数分、計算する。

array([  20.0855,   54.5982,  148.4132,  403.4288, 1096.6332])

In [44]:
b = np.arange(9.).reshape(3, 3)
np.exp(b)

array([[   1.    ,    2.7183,    7.3891],
       [  20.0855,   54.5982,  148.4132],
       [ 403.4288, 1096.6332, 2980.958 ]])

In [45]:
print(a ** 2)
print(a !=3)

[ 9. 16. 25. 36. 49.]
[False  True  True  True  True]


In [46]:
b = np.arange(3.).reshape(1, 3)
c = np.arange(4.).reshape(4, 1)

print('b:\n', b)
print('c:\n', c)
print('b-c:\n', b - c)  #ブロードキャストと演算の混合処理。bとcの次元数に自動で合わせて計算する。

b:
 [[0. 1. 2.]]
c:
 [[0.]
 [1.]
 [2.]
 [3.]]
b-c:
 [[ 0.  1.  2.]
 [-1.  0.  1.]
 [-2. -1.  0.]
 [-3. -2. -1.]]


### 確率分布に基づいた乱数生成
以下の例以外にも、必要なら下記分布から選べる。
- 二項分布
- ベータ分布
- ガンマ分布
- カイ二乗分布

なお、scipyのページにも正規分布などの確率密度関数を計算するメソッド（例：scipy.stats.norm.pdf）がある。

In [47]:
# 一様分布に基づいた乱数を3×5行列として出力する。
np.random.rand(3,5)

array([[0.7095, 0.1781, 0.5314, 0.1677, 0.7688],
       [0.9282, 0.6095, 0.1502, 0.4896, 0.3773],
       [0.8486, 0.9111, 0.3838, 0.3155, 0.5684]])

In [48]:
# 正規分布に基づいた乱数を4×4行列として出力する。
# 引数は、平均、分散、件数
# ちなみに、標準正規分布を指定したい場合は、np.random.randn(size)でよい。
samples = np.random.normal(size=(4, 4))
samples

array([[-0.2464, -0.2056,  0.9982,  0.625 ],
       [ 0.4103,  0.0638,  0.8375,  0.2891],
       [-2.2029, -0.0681,  0.0338,  1.8408],
       [-0.7317, -0.7872, -0.0241,  1.4626]])

In [49]:
# 乱数の範囲を指定して乱数生成する。
# 引数は、下限、上限、件数
np.random.randint(1, 100, 10)

array([33, 97, 87, 70, 84, 80, 99, 29,  8,  5])

In [50]:
# 出力する乱数の再現性が重要な場合、np.random.seed(種)が使える
# 下記ソースコードを別の場所で試しても、同じ値が出力されるはずだ。
np.random.seed(1234)
np.random.rand()

0.1915194503788923

In [51]:
# 配列をランダムに並び替える。
# 多分、スライスとかうまく使うといい感じにできる。
arr1 = ['A', 'B', 'C', 'D', 'E']
np.random.shuffle(arr1)
arr1

['C', 'B', 'D', 'A', 'E']

### 線形代数の関数

In [52]:
# 逆行列
# A * A^-1 = 対角行列I となるような行列A^-1を逆行列という。

A = np.array([[2, 1], [1, -3]])
print('逆行列の計算：\n', np.linalg.inv(A)) 

逆行列の計算：
 [[ 0.4286  0.1429]
 [ 0.1429 -0.2857]]


In [53]:
# 方程式 y = Axを解く
# Aとyが判明しており、ベクトルxを計算で求めたい。

A = np.array([[2, 1], [1, -3]])
y = np.array([3, 5])
print('方程式の計算：\n', np.linalg.solve(A, y))

方程式の計算：
 [ 2. -1.]


np.linalg.solve（）を使った方法は、1つの方程式を解く際は効率がよいし直感的である。  
しかし、実は上記のように同じ係数の複数の方程式を解く際には効率が良くない。  
つまり、係数の行列Aと未知数xを使って、Ax = y1, Ax = y2, Ax = y3のような方程式の集まりを解く場合は、  
下記LU分解を使うとよい。

In [54]:
# LU分解
# LU分解を利用して、Ax=yを解いてみる。
# A = PLUとみなし、連立方程式Ps=y, Lt=s, Ux=tを解く手法。
# Aは正方行列、Ｐは置換行列、Lは下三角行列、Uは上三角行列

A = np.array([[3, 1, 1], [1, 2, 1], [0, -1, 1]])
y = np.array([1, 2, 3])
from scipy import linalg
lu, p = linalg.lu_factor(A)  #LU分解。L, U, Pを計算する。
linalg.lu_solve((lu, p), y)

array([-0.5714, -0.1429,  2.8571])

### 乱数
Python標準モジュールのrandomもあるが、Numpyに含まれるnp.randomの方が多機能で数学的計算をするのに便利。

In [55]:
# 0~1の範囲の浮動小数点数を返す。
np.random.rand()

0.7799758081188035

In [56]:
# 乱数の行列を作る。
print(np.random.rand(3, 2))  #多次元の場合
print(np.random.rand(5))  #1次元の場合

[[0.2726 0.2765]
 [0.8019 0.9581]
 [0.8759 0.3578]]
[0.501  0.6835 0.7127 0.3703 0.5612]


In [57]:
# 整数型の乱数を作る。
print(np.random.randint(4))  #0以上4までの乱数
print(np.random.randint(10, 20))  #10以上20未満の乱数

0
15


In [58]:
# 整数型の乱数行列
np.random.randint(5, size=(3, 3))

array([[2, 2, 3],
       [3, 0, 1],
       [3, 0, 3]])

In [59]:
# 乱数の種を指定する。
np.random.seed(10)  #乱数処理の前に1行追記すれば、乱数の種を固定できる。
np.random.rand(5)

array([0.7713, 0.0208, 0.6336, 0.7488, 0.4985])

In [60]:
# RandomStateを用いた、独立したインスタンスの作成
# 　上述の乱数の種はグローバル変数に干渉するのに対して、RandomStateはローカル変数に干渉する。
# すなわち、乱数の種を設定するのに比べて、柔軟に乱数の再現性を確保できる。
rs = np.random.RandomState(10)
rs.rand()

0.771320643266746