# Numpyの基礎：配列とベクトル演算

* ベクトル化記法による高速計算。データの変更、整頓、取り出しやフィルタリング、変更などの操作
* 一般的な配列操作。ソートや重複除外操作、集合計算
* 効率的な記述統計学的データ操作。またそれに必要なデータの統合、要約
* 種類の異なるデータセットに対する結合や統合といった、データ整理や関係データ処理
* 配列内での条件記述。ループを書くことなく、配列内で直接if-elif-else相当の制御を記述
* グループ単位でのデータ操作(データ集計、データ構造の変更、関数の適用)

## 4.1 Numpy ndarray:多次元配列オブジェクト(P95)

In [1]:
import numpy as np

In [2]:
data = np.random.randn(2,3)

In [3]:
data

array([[ 0.70028973, -0.7244043 ,  1.32296933],
       [ 0.86410928, -0.44093423,  0.89605761]])

In [4]:
data *10

array([[ 7.00289735, -7.24404299, 13.22969325],
       [ 8.64109275, -4.40934226,  8.96057611]])

- nadarrayの特徴
- すべて同じ型である必要がある
- shapeとdtypeという属性がある
    - shapeは配列の次元ことの要素数を格納するタプル
    - dtypeは配列要素の型を表示

In [5]:
data.shape

(2, 3)

In [6]:
data.dtype

dtype('float64')

## 4.1.1 ndarrayの生成

- array関数を用いる(引数にシーケンス型やそれに類する形式の変数)

In [7]:
data1 = [6,7.5,8,0,1]
arr1 = np.array(data1)
arr1[0]

6.0

- 配列の内部構造はndimとshapeで表現される
    - ndimは配列の次元数を表示する

In [8]:
# 配列の次元数を確認する
arr1.ndim

1

- np.zeorsはすべての要素に0を設定

In [9]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [10]:
np.zeros((3,6))

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

- np.onesはすべての要素に1を設定

In [11]:
np.ones(5)

array([1., 1., 1., 1., 1.])

- np.emptyは各要素を初期化せずに戻す　 ※前に作成した配列が初期化(0)にならない

In [12]:
np.empty((2,2))

array([[1.44442819e-311, 7.23614903e+159],
       [1.28014464e-152, 6.20198208e+223]])

In [13]:
np.empty((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

- np.arangeは等間隔に増減させた要素を満たす

In [14]:
c=np.arange(15)

In [15]:
d = np.asarray(c)
d

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [16]:
e = np.array(c)
e

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [17]:
np.full((3,5),5)

array([[5, 5, 5, 5, 5],
       [5, 5, 5, 5, 5],
       [5, 5, 5, 5, 5]])

## ☆ndarray生成関数まとめ☆

- array：入力にリスト、タプルなどで生成する。dtypeは推測されたもの、明示的に指定されたものを使用
- asarray：array同様、ただし入力がndarrayだとコピーを作成できない　
    - array()がオブジェクト自体をコピー（別人格）
    - asarray()が参照オブジェクト（名前が違うが中身同じ）
- arange: range関数と同じ動作
- ones,ones_like：onesは要素全て1で埋める、ones_likeは引数に別のndarrayを受け、  
  それをテンプレートして全部1を埋める
- empty,empty_like: ones,ones_like同様だが、各要素は初期化されず不定のまま
- full,full_like: 要素を全て指定した値で埋める
     - np.full(shape, fill_value, dtype=None, order='C')
- eye,identity: N×Nの単位行列を作成       　　       　　　　　　　　　　　　　 
    - np.eye(2, dtype=int)

## 4.1.2 ndarrayのデータ型

In [18]:
arr1 = np.array([1,2,3], dtype=np.int32) 

In [19]:
arr1.dtype

dtype('int32')

- 型変換する場合はastypeメソッド、コピーした新しいndarrayを戻す ※必ず新規ndarrayが生成される

In [20]:
float_arr = arr1.astype(np.float64)

In [21]:
float_arr.dtype

dtype('float64')

In [22]:
empty_uint32 = np.empty(8,dtype='u4')

In [23]:
empty_uint32

array([2977439600,        680, 1293951008, 1629517921, 1819243362,
        543519861, 1717987684, 1852142181], dtype=uint32)

## 4.1.3 ndarrayの算術演算

In [24]:
arr = np.array([[1.,2.,3.],[4.,5.,6.]])

In [25]:
arr

array([[1., 2., 3.],
       [4., 5., 6.]])

In [26]:
arr2 = np.array([[0.,4.,1.],[7.,2.,12.]])

In [27]:
arr2 > arr

array([[False,  True, False],
       [ True, False,  True]])

In [28]:
arr + arr2

array([[ 1.,  6.,  4.],
       [11.,  7., 18.]])

In [29]:
arr * arr2

array([[ 0.,  8.,  3.],
       [28., 10., 72.]])

## 4.1.4 インデックス参照とスライシング基礎

1. スライスのあらゆる変更はオリジナルのndarryに反映される
2. ブールインデックス参照で抽出されたデータは必ず元データのコピーが生成
3. ファンシーインデックス参照は常に元データのコピーが生成
4. 転置はオリジナル行列を再構成、コピーの生成無

In [30]:
arr = np.arange(10)

In [31]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [32]:
arr[3:6]

array([3, 4, 5])

In [33]:
arr[5:8]=12

In [34]:
arr

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

In [35]:
arr[:]

array([ 0,  1,  2,  3,  4, 12, 12, 12,  8,  9])

- スライスをビューではなくコピーして生成が必要な場合はarr[5:8].copy()

- 2次元以上の高次元配列の場合

In [36]:
arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])
arr2d

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [37]:
arr2d[2]

array([7, 8, 9])

In [38]:
arr2d[0][2]

3

In [39]:
arr2d[1,2]

6

## 4.1.4.1 スライスによるインデックス参照

In [40]:
arr2d[:2] #arr2の最初の2行を切り出す

array([[1, 2, 3],
       [4, 5, 6]])

In [41]:
arr2d[:2,1:]

array([[2, 3],
       [5, 6]])

In [42]:
arr2d[:,:1]

array([[1],
       [4],
       [7]])

## 4.1.5 ブールインデックス参照

- 比較演算子を使用してブールインデックス参照が出来る

In [43]:
names = np.array(["AA","BB","CC","AA","CC","BB",'BB'])

In [44]:
data = np.random.randn(7,4)

In [45]:
data

array([[-2.26603715e-01, -9.43157968e-01,  7.41271755e-01,
        -3.61798578e-01],
       [-4.69799722e-01, -5.62542736e-01, -1.82325545e+00,
         1.30452515e+00],
       [-9.06911766e-01,  8.41448221e-02, -2.03307839e-01,
         8.02478630e-01],
       [-1.04106506e+00,  5.84558465e-01, -1.01170987e+00,
         4.96979459e-01],
       [ 1.20356441e+00,  2.47904160e-01,  6.12048395e-01,
        -6.75981564e-06],
       [ 8.83277268e-01, -3.50067935e-01, -4.57944821e-01,
         5.24808676e-01],
       [ 1.19953920e+00,  7.47791878e-01,  1.88653065e-01,
         1.78724631e-01]])

In [46]:
names == 'AA'

array([ True, False, False,  True, False, False, False])

In [47]:
data[names == 'AA',2:] #必ず参照先配列の軸と真偽値配列の要素数が一致していること

array([[ 0.74127176, -0.36179858],
       [-1.01170987,  0.49697946]])

- 'AA'以外の名前だと、!= や　~を使う   ←真偽を逆転させる

In [48]:
names != 'AA'

array([False,  True,  True, False,  True,  True,  True])

In [49]:
data[~(names == 'AA')]

array([[-4.69799722e-01, -5.62542736e-01, -1.82325545e+00,
         1.30452515e+00],
       [-9.06911766e-01,  8.41448221e-02, -2.03307839e-01,
         8.02478630e-01],
       [ 1.20356441e+00,  2.47904160e-01,  6.12048395e-01,
        -6.75981564e-06],
       [ 8.83277268e-01, -3.50067935e-01, -4.57944821e-01,
         5.24808676e-01],
       [ 1.19953920e+00,  7.47791878e-01,  1.88653065e-01,
         1.78724631e-01]])

- 2つ以上の条件組み合わせだと,&(and)や|（or）を使う

In [50]:
mask = (names == 'AA') | (names == 'BB')

In [51]:
data[mask]

array([[-0.22660372, -0.94315797,  0.74127176, -0.36179858],
       [-0.46979972, -0.56254274, -1.82325545,  1.30452515],
       [-1.04106506,  0.58455846, -1.01170987,  0.49697946],
       [ 0.88327727, -0.35006793, -0.45794482,  0.52480868],
       [ 1.1995392 ,  0.74779188,  0.18865306,  0.17872463]])

- 真偽値配列を使って各要素に値代入できる

In [52]:
data[data < 0] =0

In [53]:
data

array([[0.        , 0.        , 0.74127176, 0.        ],
       [0.        , 0.        , 0.        , 1.30452515],
       [0.        , 0.08414482, 0.        , 0.80247863],
       [0.        , 0.58455846, 0.        , 0.49697946],
       [1.20356441, 0.24790416, 0.6120484 , 0.        ],
       [0.88327727, 0.        , 0.        , 0.52480868],
       [1.1995392 , 0.74779188, 0.18865306, 0.17872463]])

## 4.1.6 ファンシーインデックス参照

- インデックス参照に整数配列を用いる

In [54]:
arr = np.empty([8,4])

In [55]:
for i in range(8):
    arr[i] = i

In [56]:
arr

array([[0., 0., 0., 0.],
       [1., 1., 1., 1.],
       [2., 2., 2., 2.],
       [3., 3., 3., 3.],
       [4., 4., 4., 4.],
       [5., 5., 5., 5.],
       [6., 6., 6., 6.],
       [7., 7., 7., 7.]])

In [57]:
# ある特定の順序で行を抽出するにはその順番を示す整数リストを渡す
arr[[4,3,0,6]]

array([[4., 4., 4., 4.],
       [3., 3., 3., 3.],
       [0., 0., 0., 0.],
       [6., 6., 6., 6.]])

In [58]:
arr = np.arange(32).reshape((8,4))

In [59]:
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23],
       [24, 25, 26, 27],
       [28, 29, 30, 31]])

In [60]:
arr[[1,5,7,2],[0,3,1,2]] #列のそれぞれの位置の値を取り出している

array([ 4, 23, 29, 10])

In [61]:
arr[[1,5,7,2]][:,[0,3,1,2]] #行指定と列の順番を変えている

array([[ 4,  7,  5,  6],
       [20, 23, 21, 22],
       [28, 31, 29, 30],
       [ 8, 11,  9, 10]])

- ファンシーインデックス参照は常に元データのコピー

## 4.1.7 転置行列、行と列の入れ替え

- 転置はオリジナル行列を再構成、コピーの生成無
- 置はtranspose関数かTかswapaxes

In [62]:
arr = np.arange(15).reshape((3,5))

In [63]:
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [64]:
arr.T

array([[ 0,  5, 10],
       [ 1,  6, 11],
       [ 2,  7, 12],
       [ 3,  8, 13],
       [ 4,  9, 14]])

In [65]:
arr = np.random.randn(6,3)

In [66]:
arr

array([[ 0.30945766,  0.66358164, -0.01199792],
       [-2.88074874, -0.70701969,  0.50524096],
       [ 1.06563009, -0.66028196, -0.29220571],
       [ 0.77405199,  0.18360191, -0.03633929],
       [ 0.56412833,  1.85599478,  0.84657837],
       [ 0.20951252,  0.3321235 ,  0.12462794]])

In [67]:
np.dot(arr.T,arr) #np.dotは内積計算

array([[10.49133755,  2.79720087, -1.29500685],
       [ 2.79720087,  4.96492201,  1.43372618],
       [-1.29500685,  1.43372618,  1.07434415]])

In [68]:
arr = np.arange(16).reshape((2,2,4))

In [69]:
arr

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

- 高次元配列の場合transposeの引数に軸の順序を与え、その順に入れ替え出来る

In [70]:
arr.transpose((0,2,1)) #元の0軸はここに移動, 元の2軸はここに移動, 元の1軸はここに移動

array([[[ 0,  4],
        [ 1,  5],
        [ 2,  6],
        [ 3,  7]],

       [[ 8, 12],
        [ 9, 13],
        [10, 14],
        [11, 15]]])

- wapaxesは任意の軸順序で転置出来る

In [71]:
arr.swapaxes(0,2)

array([[[ 0,  8],
        [ 4, 12]],

       [[ 1,  9],
        [ 5, 13]],

       [[ 2, 10],
        [ 6, 14]],

       [[ 3, 11],
        [ 7, 15]]])

## 4.2　ユニバーサル関数：すべての配列要素への関数適用

- ・引数に１つのnaddaryを取るものを単項ufunc

In [72]:
np.sqrt(arr)

array([[[0.        , 1.        , 1.41421356, 1.73205081],
        [2.        , 2.23606798, 2.44948974, 2.64575131]],

       [[2.82842712, 3.        , 3.16227766, 3.31662479],
        [3.46410162, 3.60555128, 3.74165739, 3.87298335]]])

In [73]:
np.exp(arr)

array([[[1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01],
        [5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03]],

       [[2.98095799e+03, 8.10308393e+03, 2.20264658e+04, 5.98741417e+04],
        [1.62754791e+05, 4.42413392e+05, 1.20260428e+06, 3.26901737e+06]]])

- 引数に2つのnaddaryを取るものを二項ufunc

In [74]:
x = np.random.randn(8)
y = np.random.randn(8)

In [75]:
np.maximum(x,y)

array([ 1.39228857,  1.17493225,  1.88868502,  1.52211379,  0.09852439,
       -0.47288748,  1.52022586,  1.55313344])

- 整数と小数からなる配列を分割

In [76]:
arr = np.random.randn(7) * 5
arr

array([10.75005814, -6.11828667, -0.15672279,  9.70156141,  4.54440594,
       -5.03857222, -1.6148722 ])

In [77]:
aa, bb = np.modf(arr)

In [78]:
aa #小数部分

array([ 0.75005814, -0.11828667, -0.15672279,  0.70156141,  0.54440594,
       -0.03857222, -0.6148722 ])

In [79]:
bb # 整数部分

array([10., -6., -0.,  9.,  4., -5., -1.])

### ■単項ufunc　　
- abs,fabs: 絶対値を計算する、fabsは高速版で対象を整数と小数に限定
- sqrt：平方根を計算する　arr**0.5と同等
- square：2乗を計算する　arr**2と同等
- exp：自然対数の底eのべき乗(e2)を計算 
- log,log10,log2：対数計算
- sign：各要素の符号を返す、正は1、ゼロは0、負は-1
- ceil：各要素の切り上げ計算
- floor：各要素の切り捨て計算
- rint：各要素の丸め値を計算　その数にもっとも近い整数をとる
- modf：各要素ごとに整数部分と小数部分に分割し、それぞれの配列を返す
- isnan：要素ごとにNaNかどうか判定し真偽値配列を返す
- isfinite,isinf：isfiniteは有限(infでなく、NaNでもない)を判定し真偽値配列を返す
    - isinfは無限(inf)かどうか判定し真偽値配列を返す
- cos,cosh,sin,sinh,tan,tanh: 余弦、正弦、正接を計算
- arccos,arccosh,arcsin,arcsinh,arctan,arctanh: 逆余弦、逆正弦、逆正接を計算　
- logical_not: 各要素の論理否定を返す。~arrと同じ

## ■二項ufunc
- add：配列の要素ごとの和をとる
- subtract：1番目の配列から2番目の配列のそれぞれの差をとる
- multiply: 要素ごとに積をとる
- divide,floor_divide: divideは要素ごとの商をとる、floor_divideは商をとってあまりを切り捨てる
- power: 1番目の配列要素を底とし、2番目の配列要素でべき乗する
- maximum,fmax: 各要素の最大値を計算、要素がNaNの場合、minimumはNaNを選びfmaxはNaNでない要素を選ぶ
- minimum,fmin：上記のmin版
- mod: 要素ごとの剰余を計算
- copysign：1番目の配列の値に2番目の配列要素の符号をつける
- greater, greater_equal, less, less_equal, equal, not_equal:比較結果を真偽値で返す
    - >, >=, <, <=, ==, != と同じ
- logical_and,logical_or,logical_xor:論理演算する　中置二項演算と同等 &, |, ^

## 4.3　nadarrayによる配列指向プログラミング

### 4.3.1 条件制御のndarrayでの表現

In [82]:
xarr = np.array([1.1,1.2,1.3,1.4,1.5])
yarr = np.array([2.1,2.2,2.3,2.4,2.5])
cond = np.array([True,False,True,True,False])

In [111]:
#三項演算子をリスト内表記で書いた場合
result =[ (x if c else y)
         for x,y,c in zip(xarr,yarr,cond)]

In [84]:
result

[1.1, 2.2, 1.3, 1.4, 2.5]

- np.whereはPythonの三項演算子(条件文)のベクトル演算版
    - np.whereの主な使用場面は、ある配列を元に別の配列を作るとき

In [113]:
result_w = np.where(cond,xarr,yarr)
result_w

array([1.1, 2.2, 1.3, 1.4, 2.5])

## 4.3.2 数学関数、統計関数

- Numpyの統計関数はndarray配列全体、又は特定の軸を中心とした統計処理ができる
- sumやmeanは配列の次元を下げる処理で次元削減と呼ばれる

In [127]:
arr= np.random.randn(5,4)

In [128]:
arr

array([[-0.52211233,  0.22208424, -0.03421426, -0.56522422],
       [ 0.34304638,  0.31317923,  2.85348466, -0.09646781],
       [-0.0933846 ,  0.51948134,  0.45519527, -1.40440056],
       [-0.38429608, -0.43277142,  0.77202648, -1.23275979],
       [-1.116749  ,  0.14116285, -0.21563777,  0.53775005]])

In [130]:
arr.mean() #np.mean(arr)でもいい

0.0029696323330785646

In [131]:
arr.sum()

0.05939264666157129

In [132]:
arr.sum(axis=0) #行ことに合計を計算 arr.sum(0)でもいい

array([-1.77349564,  0.76313623,  3.83085438, -2.76110233])

In [134]:
arr.sum(axis=1) #列ごとに合計を計算

array([-0.89946657,  3.41324246, -0.52310856, -1.27780081, -0.65347387])

In [135]:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [137]:
arr.cumsum() #途中経過を含めた累積の計算結果を返す

array([ 0,  1,  3,  6, 10, 15, 21, 28], dtype=int32)

### ■基本的なndarrayの統計関数
- sum: 配列の和を指定された軸に沿って計算、長さ0の配列は0を返す
- mean: 算術平均、長さ0の配列はNaNを返す
- std,var：標準偏差、分散
- min,max：最小値、最大値           
- argmin,argmax：最小値/最大値を持つインデックス
- cumsum: 累積和
- cumprod：累積積

## 4.3.3 真偽値配列関数

- 真偽値に関数を適用するとき、Trueは1、Falseは0として扱われる

In [139]:
(arr>0).sum() #正の個数を数える

7

- anyは要素に1個でもTrueがあるか確認できる
- allは要素全てがTrueか確認できる
- any,allは真偽値配列以外でも使用可、この場合、0以外がTrueとみなされる

In [92]:
bools = np.array([False,False,True])
bools.any()

True

In [93]:
arr.any()

True

In [94]:
arr.all()

False

## 4.3.4 ソート

- sort関数で並び替え可能、これは元のndarrayを直接置換している
- sortにはnp.ndarray.sort関数とnp.sort関数がある

In [140]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [142]:
arr.sort()
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [144]:
arr5 = np.random.randn(5,3)
arr5

array([[-2.41026044,  0.95099983, -1.69094313],
       [-1.03221525, -1.0875674 ,  0.95501857],
       [-0.10060826,  1.52743906,  1.75039584],
       [ 0.16781955, -0.21561226,  1.17181574],
       [ 0.34664556,  2.28319702, -1.39700039]])

In [147]:
arr5.sort(0) #列ごとにsort
arr5

array([[-2.41026044, -1.0875674 , -1.69094313],
       [-1.03221525, -0.21561226, -1.39700039],
       [-0.10060826,  0.95099983,  0.95501857],
       [ 0.16781955,  1.52743906,  1.17181574],
       [ 0.34664556,  2.28319702,  1.75039584]])

In [149]:
arr5.sort(1) #行ごとにsort
arr5

array([[-2.41026044, -1.69094313, -1.0875674 ],
       [-1.39700039, -1.03221525, -0.21561226],
       [-0.10060826,  0.95099983,  0.95501857],
       [ 0.16781955,  1.17181574,  1.52743906],
       [ 0.34664556,  1.75039584,  2.28319702]])

- np.sort関数

In [150]:
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [151]:
y1 = np.sort(arr) #配列xの要素を昇順ソートします
y2 = np.sort(arr)[::-1] #配列xの要素を降順ソートします

In [152]:
y1

array([0, 1, 2, 3, 4, 5, 6, 7])

In [153]:
y2

array([7, 6, 5, 4, 3, 2, 1, 0])

## 4.3.5 集合関数：uniqueなど

- np.uniqueは配列要素から重複を取り除き、ソートした結果を返す

In [154]:
names = np.array(["AA","BB","CC","AA","CC","BB",'BB'])

In [104]:
np.unique(names)

array(['AA', 'BB', 'CC'], dtype='<U2')

In [155]:
# Python標準機能で書くと
sorted(set(names))

['AA', 'BB', 'CC']

### NumPyの集合関数
- unique(x): 配列xに対し重複削除してソート
- intersectid(x,y)：配列x,yのうち、共通する要素を取り出しソートする(積集合)
- union1d(x,y): 配列x,yのうち、少なくとも一方に存在する要素を取り出しソートする(和集合)
- in1d(x,y): 配列xの各要素に対し配列yが含まれているか真偽値配列として返す
- setdiff1d(x,y): 配列xから配列yに存在する要素を取り除きソートする(差集合)
- setxor1d(x,y): 配列x,yのうちどちらか一方にのみ存在する要素を取り出す(両方に含まれる要素は除く)

## 4.5　行列計算(P126)

- NumPyで内積を計算するためには関数dotを使う

In [105]:
x = np.array([[1.,2.,3.],[4.,5.,6.]])
y = np.array([[6.,23.],[-1,7],[8,9]])

In [106]:
x.dot(y)

array([[ 28.,  64.],
       [ 67., 181.]])

In [107]:
np.dot(x,y)

array([[ 28.,  64.],
       [ 67., 181.]])

In [108]:
np.ones(3)

array([1., 1., 1.])

In [157]:
np.dot(x, np.ones(3))

array([ 6., 15.])

- Python3.5から行列の掛け算を表す二項演算子として@記号がある

In [158]:
x @ np.ones(3)

array([ 6., 15.])

- 標準的な行列の分解、逆、行列式の計算機能はnumpy.linalgモジュールで提供されている  
  from numpy.linalg import inv, qr

### よく用いられるnumpy.linalg関数
- diag：正方行列の対角要素を1次元配列として返す
- dot：２つの行列の内積を計算
- trace：対角要素の総和を計算する
- det：行列式を計算
- eig：正方行列に対して固有値および固有値ベクトルを計算する
- inv：正方行列に対して逆行列を計算 
- pinv：ムーアーペンローズの疑似逆行列を計算
- qr：qr分解を計算
- svd：特異値分解を計算する
- solve：正方行列Aに対して線形方程式Ax=bをxに対して解く
- lstsq:Ax=bに対して最小二乗法による近似を求める

## 4.5 疑似乱数生成(P128)

- Python組み込みのrandomを補完する形でnp.randomモジュールがある  
さまざまな種類の確率分布関数に基づく乱数値を生成できる

In [109]:
sample = np.random.normal(size=(4,4))

In [110]:
sample

array([[-0.38572133,  0.28932184,  0.55964576, -2.08084359],
       [ 1.37151385, -0.90881044,  0.2693955 , -0.23158442],
       [ 0.1582887 , -0.69253912, -0.56833533, -1.21009991],
       [ 0.16141823, -0.44117508, -0.17989595,  1.04927563]])

- numpy.randomで提供される乱数データはいずれも共通(グローバル)乱数シードを参照する  
  グローバル参照を避けるにはnumpy.random.RandomStateを用いると他と分離される

## 代表的なnumpy.random関数
- seed： 乱数生成器のシード
- permutation: 引数が配列だとランダムに並べた新しい配列を返す  
  引数が整数だとその引数でnp.arangeを呼び出し結果をランダムに並べた配列を返す
- shuffle： その配列自体の要素をランダムに並べ替える
- rand: 連続一様分布に従う乱数を返す
- randint: 与えられた整数範囲内での整数乱数を返す
- randn： 平均0、標準偏差1である正規分布に従う乱数を返す
- binomial： 二項分布に従う乱数を返す
- normal： 正規分布に従う乱数を返す
- beta： ベータ分布に従う乱数を返す
- chisquare： カイ二乗に従う乱数を返す
- gamma： ガンマ分布に従う乱数を返す
- uniform： 区間[0,1)の一様分布に従う乱数を返す

# 付録A Numpyの応用

## A.1.1 Numpy dtypeの階層構造

In [3]:
# dtypeにはnp.integerやnp.flotingといったスーパークラスがある
import numpy as np

ints = np.ones(10, dtype=np.uint16)
floats = np.ones(10, dtype=np.float32)

np.issubdtype(ints.dtype, np.integer)

True

In [5]:
np.issubdtype(floats.dtype, np.floating)

True

In [6]:
# 親クラスをすべて見ることもできる
np.float64.mro()

[numpy.float64,
 numpy.floating,
 numpy.inexact,
 numpy.number,
 numpy.generic,
 float,
 object]

## A.2 配列操作：応用編

### A.2.1 配列の形状の再形成

In [7]:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [8]:
arr.reshape((4,2))

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7]])

In [12]:
# 多次元配列も再形成できる
arr.reshape((4,2)).reshape((2,4))

array([[0, 1, 2, 3],
       [4, 5, 6, 7]])

In [13]:
# 次元の-1を指定出来る、その次元の要素数は無視される
arr = np.arange(15)

arr.reshape((5,-1))

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [14]:
# 配列のshape属性はタプルなので、そのままreshpeに渡すことができる
other_arr = np.ones((3,5))
other_arr.shape

(3, 5)

In [15]:
arr.reshape(other_arr.shape)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [16]:
# 高次元から1次元に戻す場合
arr = np.arange(15).reshape((5,3))
arr

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [17]:
# ravelメソッドは内部の値データのコピーを作成しない
arr.ravel()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [18]:
# flattenメソッドは必ずデータのコピーを戻す
arr.flatten()

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

### A.2.3 配列の結合と分割

#### 配列の結合関数
- concatenate: 最も汎用的な関数。特定の軸に沿って配列を結合する
- vstack,row_stack_: 行方向(第0軸に沿って)配列を並べる
- hstack: 列方向(第1軸に沿って)配列を並べる
- column_stack: hstackと似てるが処理前に1次元配列を2次元配列の列ベクトルに変換。np.vstack(arr).Tと同じ
- dstack: 深さ方向(第2軸に沿って)配列を並べる
- hsplit/vsplit: それぞれ第0軸、第1軸において分割する

In [19]:
# numpy.concatenateは指定された軸に沿った順序で結合する関数

arr1 = np.array([[1,2,3], [4,5,6]])
arr2 = np.array([[7,8,9], [10,11,12]])

In [20]:
np.concatenate([arr1, arr2], axis=0)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [21]:
np.concatenate([arr1, arr2], axis=1)

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [23]:
# vstackやhstackでも結合できる

np.vstack((arr1, arr2))

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

In [24]:
np.hstack((arr1, arr2))

array([[ 1,  2,  3,  7,  8,  9],
       [ 4,  5,  6, 10, 11, 12]])

In [25]:
# splitは軸に沿って、配列を複数の配列に分割する関数
arr = np.random.randn(5,2)

arr

array([[-0.24071199,  1.22023061],
       [-1.38999439,  0.91574809],
       [ 0.75562436,  0.59799083],
       [ 1.239505  ,  1.94167488],
       [ 1.9328518 , -1.30132369]])

In [26]:
first, second, third = np.split(arr, [1, 3])
first

array([[-0.24071199,  1.22023061]])

In [27]:
second

array([[-1.38999439,  0.91574809],
       [ 0.75562436,  0.59799083]])

In [28]:
third

array([[ 1.239505  ,  1.94167488],
       [ 1.9328518 , -1.30132369]])

### A.2.3.1 配列を並べるためのヘルパー関数：r_とc_

In [29]:
#　r_とc_という2つの特殊なオブジェクトを使うとさらに簡単に積み重ねできる
arr = np.arange(6)

arr1 = arr.reshape((3,2))
arr2 = np.random.randn(3,2)

In [30]:
np.r_[arr1,arr2]

array([[ 0.        ,  1.        ],
       [ 2.        ,  3.        ],
       [ 4.        ,  5.        ],
       [ 1.06405571, -0.124667  ],
       [ 0.05281182,  1.10892386],
       [-0.14620659,  0.19912379]])

In [31]:
np.c_[np.r_[arr1, arr2], arr]

array([[ 0.        ,  1.        ,  0.        ],
       [ 2.        ,  3.        ,  1.        ],
       [ 4.        ,  5.        ,  2.        ],
       [ 1.06405571, -0.124667  ,  3.        ],
       [ 0.05281182,  1.10892386,  4.        ],
       [-0.14620659,  0.19912379,  5.        ]])

In [32]:
# r_とc_はスライスを配列に変換できる
np.c_[1:6, -10:-5]

array([[  1, -10],
       [  2,  -9],
       [  3,  -8],
       [  4,  -7],
       [  5,  -6]])

### A.2.4 要素の繰り返し: tileとrepeat

In [33]:
# repeatは配列内の各要素を指定した回数だけ複製してより大きな配列をつくる
# 整数を渡すと各要素がその回数だけ繰り返される
arr = np.arange(3)
arr

array([0, 1, 2])

In [34]:
arr.repeat(3)

array([0, 0, 0, 1, 1, 1, 2, 2, 2])

In [35]:
# 整数の配列を渡せば繰り返し回数を要素ごとに変化できる
arr.repeat([2,3,4])

array([0, 0, 1, 1, 1, 2, 2, 2, 2])

In [36]:
# 多次元配列は特定の軸に沿って要素を繰り返す
# 軸を指定しないと配列が最初に平坦化される
arr = np.random.randn(2,2)
arr

array([[-0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364]])

In [37]:
arr.repeat(2, axis=0)

array([[-0.23935955, -0.05384514],
       [-0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364],
       [ 0.56886067,  0.55583364]])

In [39]:
arr.repeat([2,3], axis=0)

array([[-0.23935955, -0.05384514],
       [-0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364],
       [ 0.56886067,  0.55583364],
       [ 0.56886067,  0.55583364]])

In [40]:
arr.repeat([2,3], axis=1)

array([[-0.23935955, -0.23935955, -0.05384514, -0.05384514, -0.05384514],
       [ 0.56886067,  0.56886067,  0.55583364,  0.55583364,  0.55583364]])

In [41]:
arr

array([[-0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364]])

In [42]:
# tileは特定の軸に沿って配列のコピーを積み重ねる
# スカラー値だとコピーの配列は行ごと
np.tile(arr,2)

array([[-0.23935955, -0.05384514, -0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364,  0.56886067,  0.55583364]])

In [43]:
np.tile(arr, (2,1))

array([[-0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364],
       [-0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364]])

In [44]:
np.tile(arr,(3,2))

array([[-0.23935955, -0.05384514, -0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364,  0.56886067,  0.55583364],
       [-0.23935955, -0.05384514, -0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364,  0.56886067,  0.55583364],
       [-0.23935955, -0.05384514, -0.23935955, -0.05384514],
       [ 0.56886067,  0.55583364,  0.56886067,  0.55583364]])

### A.2.5 ファインシーインデックス参照の別法: takeとput

In [46]:
arr = np.arange(10) * 100
inds = [7, 1, 2, 6]
arr[inds]

array([700, 100, 200, 600])

In [47]:
# takeとputは特定の軸に対する操作を提供し、ファンシーインデックス参照と同等の機能を実現
arr.take(inds)

array([700, 100, 200, 600])

In [49]:
arr.put(inds, 42)
arr

array([  0,  42,  42, 300, 400, 500,  42,  42, 800, 900])

In [50]:
arr.put(inds, [40, 41, 42, 43])
arr

array([  0,  41,  42, 300, 400, 500,  43,  40, 800, 900])

In [51]:
# 他の軸に対してtakeを適用する場合はキーワード引数axisを使う
inds = [2,0,2,1]
arr = np.random.randn(2,4)
arr

array([[-0.05898106, -0.11958312,  0.59597064,  0.09170039],
       [-0.12636976,  0.33520858,  0.05639489,  0.46055772]])

In [52]:
arr.take(inds, axis=1)

array([[ 0.59597064, -0.05898106,  0.59597064, -0.11958312],
       [ 0.05639489, -0.12636976,  0.05639489,  0.33520858]])

## A.3 ブロードキャスト
- ブロードキャストとは形状の異なる2つの配列間での算術

In [54]:
arr = np.arange(5)
arr

array([0, 1, 2, 3, 4])

In [55]:
arr * 4

array([ 0,  4,  8, 12, 16])

In [56]:
arr = np.random.randn(4,3)
arr

array([[-0.40097915, -0.64544573,  1.05654144],
       [-0.32732108,  0.70589508, -0.42975485],
       [-0.60525804, -2.12733596,  0.18998454],
       [ 0.18952673,  0.4447786 ,  0.98317115]])

In [57]:
arr.mean(0)

array([-0.28600789, -0.405527  ,  0.44998557])

In [59]:
# 配列の各列から平均値を引く
demeaned = arr - arr.mean(0)
demeaned

array([[-0.11497126, -0.23991873,  0.60655587],
       [-0.0413132 ,  1.11142208, -0.87974042],
       [-0.31925015, -1.72180895, -0.26000103],
       [ 0.47553461,  0.8503056 ,  0.53318558]])

In [60]:
demeaned.mean(0)

array([ 2.77555756e-17, -8.32667268e-17,  2.77555756e-17])

In [61]:
a = np.array([[[1],[2],[3]], [[4],[5],[6]]])
a

array([[[1],
        [2],
        [3]],

       [[4],
        [5],
        [6]]])

In [62]:
a.shape

(2, 3, 1)

In [63]:
b = np.array([[1,2,3,4], [5,6,7,8],[9,10,11,12]])
b

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

In [64]:
b.shape

(3, 4)

In [65]:
a + b

array([[[ 2,  3,  4,  5],
        [ 7,  8,  9, 10],
        [12, 13, 14, 15]],

       [[ 5,  6,  7,  8],
        [10, 11, 12, 13],
        [15, 16, 17, 18]]])

In [68]:
# 上記の算術は次のイメージ
np.tile(a,(1,1,4))

array([[[1, 1, 1, 1],
        [2, 2, 2, 2],
        [3, 3, 3, 3]],

       [[4, 4, 4, 4],
        [5, 5, 5, 5],
        [6, 6, 6, 6]]])

In [69]:
np.tile([b],(2,1,1))

array([[[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]],

       [[ 1,  2,  3,  4],
        [ 5,  6,  7,  8],
        [ 9, 10, 11, 12]]])

In [70]:
np.tile(a,(1,1,4)) + np.tile([b],(2,1,1))

array([[[ 2,  3,  4,  5],
        [ 7,  8,  9, 10],
        [12, 13, 14, 15]],

       [[ 5,  6,  7,  8],
        [10, 11, 12, 13],
        [15, 16, 17, 18]]])

In [71]:
# 第1軸から引く場合
arr

array([[-0.40097915, -0.64544573,  1.05654144],
       [-0.32732108,  0.70589508, -0.42975485],
       [-0.60525804, -2.12733596,  0.18998454],
       [ 0.18952673,  0.4447786 ,  0.98317115]])

In [72]:
row_means = arr.mean(1)
row_means

array([ 0.00337218, -0.01706028, -0.84753648,  0.53915883])

In [74]:
row_means.shape

(4,)

In [75]:
row_means.reshape((4,1))

array([[ 0.00337218],
       [-0.01706028],
       [-0.84753648],
       [ 0.53915883]])

In [76]:
demeaned = arr - row_means.reshape((4,1))

In [77]:
demeaned.mean(1)

array([-7.40148683e-17,  1.85037171e-17,  0.00000000e+00, -1.85037171e-17])

## A.3.1 他の軸へのブロードキャスト

In [78]:
# インデックス参照を使って新たな軸を挿入できる特殊な構文がある
# np.newaxisという特殊な属性を「完全」なスライス(:)とともに用いると、新たな軸を挿入できる

arr = np.zeros((4,4))

arr_3d = arr[:, np.newaxis, :]

In [80]:
arr_3d.shape

(4, 1, 4)

In [81]:
arr_1d = np.random.normal(size=3)
arr_1d

array([ 0.96039055, -2.78621778,  0.51975012])

In [83]:
arr_1d[:, np.newaxis]

array([[ 0.96039055],
       [-2.78621778],
       [ 0.51975012]])

In [85]:
arr_1d[np.newaxis, :]

array([[ 0.96039055, -2.78621778,  0.51975012]])

In [89]:
# 3次元配列の第2軸の平均からの差分を求めたい場合
arr = np.random.randn(3, 4, 5)

In [91]:
depth_mean = arr.mean(2)
depth_mean

array([[ 0.01858372,  0.62681316,  0.18213621,  0.3056778 ],
       [-0.59917526,  0.0976334 ,  0.40717472,  0.19010687],
       [-0.43048646, -0.03425519,  0.70288652, -0.28445734]])

In [93]:
depth_mean[:,:,np.newaxis]

array([[[ 0.01858372],
        [ 0.62681316],
        [ 0.18213621],
        [ 0.3056778 ]],

       [[-0.59917526],
        [ 0.0976334 ],
        [ 0.40717472],
        [ 0.19010687]],

       [[-0.43048646],
        [-0.03425519],
        [ 0.70288652],
        [-0.28445734]]])

In [97]:
demeaned = arr - depth_mean[:,:, np.newaxis]

In [98]:
demeaned.mean(2)

array([[-2.77555756e-18,  4.44089210e-17,  0.00000000e+00,
        -1.11022302e-17],
       [ 0.00000000e+00,  0.00000000e+00, -1.11022302e-17,
         3.33066907e-17],
       [ 0.00000000e+00,  0.00000000e+00,  3.33066907e-17,
        -3.33066907e-17]])

## A.3.2 ブロードキャストによる配列への値の設定

In [100]:
arr = np.zeros((4,3))
arr[:] = 5
arr

array([[5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.],
       [5., 5., 5.]])

In [101]:
# 1次元配列に配列の列を設定する場合はブロードキャスト規則にあうようにする必要がある
col = np.array([1.28, -0.42, 0.44, 1.6])
arr[:] = col[:, np.newaxis]
arr

array([[ 1.28,  1.28,  1.28],
       [-0.42, -0.42, -0.42],
       [ 0.44,  0.44,  0.44],
       [ 1.6 ,  1.6 ,  1.6 ]])

In [102]:
arr[:2] = [[-1.73],[0.509]]
arr

array([[-1.73 , -1.73 , -1.73 ],
       [ 0.509,  0.509,  0.509],
       [ 0.44 ,  0.44 ,  0.44 ],
       [ 1.6  ,  1.6  ,  1.6  ]])

## A.4 ufuncの使い方:応用編

### A.4.1 ufuncのインスタンスメソッド

#### ufuncメソッド
- reduce(x): 演算を連続的に適用して値を集計する
- accumulate(x): 途中の部分集計結果を保存しながら値を集計する
- reduceat(x, bins): データを連続したスライスに分けてreduceを実行し、集計された配列を生成
- outer(x, y):x,yの要素の全てのペアに対して演算を適用する

In [103]:
# ある配列内の要素の合計を求めるのに順に足していく代わりにnp.add.reduceが使える
arr = np.arange(10)

np.add.reduce(arr)

45

In [104]:
arr.sum()

45

In [105]:
np.random.seed(12346)
arr = np.random.randn(5,5)

# 0行目、2行目、4行目のみソートする
arr[::2].sort(1)

In [106]:
# 各行の0~3番目の要素と、1~4番目までの要素を比較
# ソート済みの行では全ての要素がTrueになる

arr[:,:-1] < arr[:, 1:]

array([[ True,  True,  True,  True],
       [False,  True, False, False],
       [ True,  True,  True,  True],
       [ True, False,  True,  True],
       [ True,  True,  True,  True]])

In [108]:
# 行要素がTrueであるか（ソート済みか）を確認
np.logical_and.reduce(arr[:,:-1] < arr[:, 1:], axis=1)

array([ True, False,  True, False,  True])

In [109]:
# accumlateは処理途中の累積値を含んだ与えれた配列と同じサイズの配列を生成する
arr = np.arange(15).reshape((3,5))
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [110]:
np.add.accumulate(arr, axis=1)

array([[ 0,  1,  3,  6, 10],
       [ 5, 11, 18, 26, 35],
       [10, 21, 33, 46, 60]], dtype=int32)

In [111]:
# outerは２つの配列の直積を計算
arr = np.arange(3).repeat([1,2,3])
arr

array([0, 1, 1, 2, 2, 2])

In [112]:
np.multiply.outer(arr, np.arange(5))

array([[0, 0, 0, 0, 0],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 2, 4, 6, 8],
       [0, 2, 4, 6, 8],
       [0, 2, 4, 6, 8]])

In [113]:
# reduceatは配列をスライスごとに集計するgroupby操作を行うメソッド
# 境界を[0,5,8]と指定すると、arr[:5],arr[5:8],arr[8:]に対する集計

arr = np.arange(10)

np.add.reduceat(arr, [0,5,8])

array([10, 18, 17], dtype=int32)

In [118]:
arr = np.multiply.outer(np.arange(4), np.arange(5))
arr

array([[ 0,  0,  0,  0,  0],
       [ 0,  1,  2,  3,  4],
       [ 0,  2,  4,  6,  8],
       [ 0,  3,  6,  9, 12]])

In [119]:
np.add.reduceat(arr, [0,2,4], axis=1)

array([[ 0,  0,  0],
       [ 1,  5,  4],
       [ 2, 10,  8],
       [ 3, 15, 12]], dtype=int32)

## A.6 ソートについてさらに詳しく

In [120]:
# インスタンスメソッドのsortはinplceのソート
arr = np.random.randn(3,5)
arr

array([[ 0.52241759,  0.10641604,  0.10271336, -0.10823261,  0.05485992],
       [ 0.1963653 , -0.19387262, -1.45657748,  0.85744762, -0.74157558],
       [-0.78036253, -0.1064245 ,  0.59371272, -1.28346227,  0.47796048]])

In [121]:
# 1つ目の列をinplceでソート
arr[:,0].sort()
arr

array([[-0.78036253,  0.10641604,  0.10271336, -0.10823261,  0.05485992],
       [ 0.1963653 , -0.19387262, -1.45657748,  0.85744762, -0.74157558],
       [ 0.52241759, -0.1064245 ,  0.59371272, -1.28346227,  0.47796048]])

In [122]:
# numpy.sortは配列のコピーを作成
arr = np.random.randn(5)
arr

array([ 1.29244703,  0.1516492 , -1.46631428, -1.43337431, -0.09775255])

In [123]:
np.sort(arr)

array([-1.46631428, -1.43337431, -0.09775255,  0.1516492 ,  1.29244703])

In [124]:
arr

array([ 1.29244703,  0.1516492 , -1.46631428, -1.43337431, -0.09775255])

In [126]:
# 降順にソートする場合はvalues[::-1]を使う
arr[::-1]

array([-0.09775255, -1.43337431, -1.46631428,  0.1516492 ,  1.29244703])

### A.6.1 間接ソート:argsortとlexsort

In [135]:
# argsortでソートされた後の並び順を表す、整数のインデックスの配列を得る
values = np.array([5,0,1,3,2])
indexer = values.argsort()
indexer

array([1, 2, 4, 3, 0], dtype=int64)

In [134]:
values.sort()
values

array([0, 1, 2, 3, 5])