# 4章NumPyによる数値計算
## 西野泰平

### 4.1データ配列

#### Pythonのリストによる配列

In [2]:
#listオブジェクトはどんなオブジェクトも要素にすることができ、ほかのlistオブジェクトを要素にすることもできる。
v = [0.5, 0.75, 1.0, 1.5, 2.0]
m = [v, v, v]
print(m)

[[0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0], [0.5, 0.75, 1.0, 1.5, 2.0]]


In [3]:
#行は、二重インデックスの要素をインデックスで参照できます。
m[1]

[0.5, 0.75, 1.0, 1.5, 2.0]

In [4]:
m[1][0]

0.5

In [5]:
#入れ子を使うとさらに複雑な構造も実現できます。
v1 = [0.5, 1.5] 
v2 = [1, 2 ] 
m = [v1, v2] 
c = [m, m] 
c

[[[0.5, 1.5], [1, 2]], [[0.5, 1.5], [1, 2]]]

In [6]:
c[1][1][0]

1

In [7]:
#このようなオブジェクトの構成は、一般に元のオブジェクトの参照によります。
v = [0.5, 0.75, 1.0, 1.5, 2.0] 
m = [v, v, v] 
m 

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

In [8]:
#vの第1要素を変更すると、mのすべての行が変更されます。
v[0] = 'Python'
m

[['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0],
 ['Python', 0.75, 1.0, 1.5, 2.0]]

In [9]:
#意図しない変更はcopyモジュールのdeepcopy関数を使って回避できます。
#参照の代わりにコピーを使う。(3行目)
from copy import deepcopy 
v = [0.5, 0.75, 1.0, 1.5, 2.0] 
m = 3 * [ deepcopy(v),] 
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

In [10]:
#結果として、vの変更はmに影響しません。
v[0] = 'Python'
m

[[0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0],
 [0.5, 0.75, 1.0, 1.5, 2.0]]

#### Pythonの配列クラス

##### Pythonには専用のarrayモジュールがあります。
##### このモジュールでは、基本的な値（文字、整数、浮動小数点数）の配列をコンパクトに表現できるオブジェクト型を定義しています。
##### 次のコードは listオブジェクトから arrayオブジェクトをインスタンス化します。

In [11]:
#型コードfloatでarrayオブジェクトのインスタンス化(3行目)
v = [0.5, 0.75, 1.0, 1.5, 2.0]
import array
a = array.array('f', v)
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0])

In [12]:
#主なメソッドは listオプジェクトと同じです。
a.append(0.5)
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5])

In [13]:
a.extend([5.0,6.75])
a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75])

In [14]:
#「スカラー乗算」もできるが、結果は数学で期待するのとは異なり、要素の繰り返しになります。
2*a

array('f', [0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75, 0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75])

In [15]:
#異なるデータ型のオブジェクト追加は TypeErrorを起こします。
#floatオブジェクトだけが追加可能で、他のデータ型ではエラーを起こす。
a.append('string')

TypeError: must be real number, not str

In [16]:
#他のデータ型を追加するといった柔軟が必要なら、arrayオブジェクトは簡単にlistオブジェクトに戻せる。
a.tolist()

[0.5, 0.75, 1.0, 1.5, 2.0, 0.5, 5.0, 6.75]

##### arrayクラスには組み込みのファイルヘの格納、検索機能を持っているという利点があります。

In [17]:
#書き込み・バイナリモードで開く。(1行目)
#arrayデータをファイルに書く。(2行目)
#ファイルを閉じる。(3行目)
f = open ('array. apy','wb')
a.tofile(f)
f.close()

In [18]:
#別の記法： withを使って同じ操作
with open('array.apy','wb') as f:a.tofile(f)

In [19]:
#書いたファイルの表示
!ls -n arr-rw-r--r--@ 1 503 20 32 Nov 7 11:46 array.apy

'ls' �́A�����R�}���h�܂��͊O���R�}���h�A
����\�ȃv���O�����܂��̓o�b�` �t�@�C���Ƃ��ĔF������Ă��܂���B


### 4.2通常のNumPy配列

#### 基本操作

In [20]:
import numpy as np

In [21]:
#floatのlistオブジェクトからndarrayオブジェクト作成
a=np.array([0, 0.5, 1.0, 1.5, 2.0])
a

array([0. , 0.5, 1. , 1.5, 2. ])

In [22]:
#strのlistオブジェクトからndarrayオプジェクト作成
a= np.array(['a','b','c'])
a

array(['a', 'b', 'c'], dtype='<U1')

In [23]:
a = np.arange(2, 20, 2)
a

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [24]:
#np.arange()はrange()に似ているが、dtype引数を追加できる
a= np.arange(8,dtype=np.float)
a

AttributeError: module 'numpy' has no attribute 'float'.
`np.float` was a deprecated alias for the builtin `float`. To avoid this error in existing code, use `float` by itself. Doing this will not modify any behavior and is safe. If you specifically wanted the numpy scalar type, use `np.float64` here.
The aliases was originally deprecated in NumPy 1.20; for more details and guidance see the original release note at:
    https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations

In [25]:
a[5:]

array([12, 14, 16, 18])

In [26]:
a[:2]

array([2, 4])

In [27]:
#ndarrayクラスには多数の組み込みメソッドがあります。
#全要素の総和
a.sum()

90

In [28]:
#標準偏差
a.std()

5.163977794943222

In [29]:
#（インデックス0からの）累積和
a.cumsum()

array([ 2,  6, 12, 20, 30, 42, 56, 72, 90])

In [30]:
#ndarrayオブジェクトで定義される（ベクトル化）数学演算も特長です。
#listオブジェクトのスカラー乗算は要素の反復
l = [0.,0.5,1.5,3.,5.]
2*l

[0.0, 0.5, 1.5, 3.0, 5.0, 0.0, 0.5, 1.5, 3.0, 5.0]

In [31]:
a

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [32]:
#ndarrayオブジェクトのスカラー乗算は、要素のスカラー乗算そのもの
2*a

array([ 4,  8, 12, 16, 20, 24, 28, 32, 36])

In [33]:
#要素ごとに二乗
a**2

array([  4,  16,  36,  64, 100, 144, 196, 256, 324])

In [34]:
#ndarrayの要素をべき指数と解釈
2 * a

array([ 4,  8, 12, 16, 20, 24, 28, 32, 36])

In [35]:
#要素を要素自身でべき乗
a**a

array([          4,         256,       46656,    16777216,  1410065408,
        -251658240, -1282129920,           0,   457441280])

In [36]:
#ユ二バーサル関数は、ndarrayオブジェクトの要素に適用できる関数です。
#要素ごとに指数計算
np.exp(a)

array([7.38905610e+00, 5.45981500e+01, 4.03428793e+02, 2.98095799e+03,
       2.20264658e+04, 1.62754791e+05, 1.20260428e+06, 8.88611052e+06,
       6.56599691e+07])

In [37]:
#要素ごとに平方根
np.sqrt(a)

array([1.41421356, 2.        , 2.44948974, 2.82842712, 3.16227766,
       3.46410162, 3.74165739, 4.        , 4.24264069])

In [38]:
#floatオブジェクトの平方根
np.sqrt(2.5)

1.5811388300841898

In [39]:
#mathモジュールで同じ計算する
import math

In [40]:
#math.sqrt()関数は直接ndarrayオブジェクトに使えない
math.sqrt(a)

TypeError: only size-1 arrays can be converted to Python scalars

In [41]:
#Python floatオブジェクトにユニバーサル関数np.sqrt()を使うとmath.sqrt()関数よりかなり遅い
%timeit np.sqrt(2.5)


889 ns ± 18.5 ns per loop (mean ± std. dev. of 7 runs, 1,000,000 loops each)


In [42]:
%timeit math.sqrt(2.5)

92.6 ns ± 0.494 ns per loop (mean ± std. dev. of 7 runs, 10,000,000 loops each)


#### 多次元配列

In [43]:
#1次元のndarrayオブジェクトから2次元オブジェクトを作る
b = np.array([a, a*2])
b

array([[ 2,  4,  6,  8, 10, 12, 14, 16, 18],
       [ 4,  8, 12, 16, 20, 24, 28, 32, 36]])

In [44]:
b[0]

array([ 2,  4,  6,  8, 10, 12, 14, 16, 18])

In [45]:
#第1行の第3要素を選択。インデックスは角括弧でカンマ区切る
b[0,2]

6

In [46]:
#第2列を選択
b[:,1]

array([4, 8])

In [47]:
#すべての値の総和
b.sum()

270

In [48]:
#縦方向（第1軸）、すなわち列ごとの総和
b.sum(axis=0)

array([ 6, 12, 18, 24, 30, 36, 42, 48, 54])

In [49]:
#横方向（第2軸）、すなわち行ごとの総和
b.sum(axis=1)

array([ 90, 180])

#### 形とサイズの変更

In [50]:
g = np.arange(15)
g

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [51]:
#元のndarrayオブジェクトの形状
g.shape

(15,)

In [52]:
np.shape(g)

(15,)

In [53]:
#2次元に変更（メモリビュー）
g.reshape((3,5))

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [54]:
#新たなオブジェクト作成
h=g.reshape((5,3))
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [55]:
#新たなndarrayオブジェクトの転置
h.T

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

In [56]:
h.transpose()

array([[ 0,  3,  6,  9, 12],
       [ 1,  4,  7, 10, 13],
       [ 2,  5,  8, 11, 14]])

#### プール値配列

In [57]:
h

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [58]:
h>8

array([[False, False, False],
       [False, False, False],
       [False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]])

In [59]:
h<=7

array([[ True,  True,  True],
       [ True,  True,  True],
       [ True,  True, False],
       [False, False, False],
       [False, False, False]])

In [60]:
h == 5

array([[False, False, False],
       [False, False,  True],
       [False, False, False],
       [False, False, False],
       [False, False, False]])

In [61]:
(h == 5).astype(int)

array([[0, 0, 0],
       [0, 0, 1],
       [0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

In [62]:
(h > 4) & (h <= 12)

array([[False, False, False],
       [False, False,  True],
       [ True,  True,  True],
       [ True,  True,  True],
       [ True, False, False]])

In [63]:
#ブール値配列はブール値インデックス参照によるデータ選択に使えます。
h[h>8]

array([ 9, 10, 11, 12, 13, 14])

In [64]:
h[(h>4)&(h<=12)]

array([ 5,  6,  7,  8,  9, 10, 11, 12])

In [65]:
h[(h<4)|(h>=12)]

array([ 0,  1,  2,  3, 12, 13, 14])

In [66]:
#Trueなら1、その他なら0で新たなオブジェクト
np.where(h > 7, 1, 0) 

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 1],
       [1, 1, 1],
       [1, 1, 1]])

In [67]:
#Trueならeven,その他ならoddで新たなオブジェクト
np.where(h % 2 == 0,'even','odd')

array([['even', 'odd', 'even'],
       ['odd', 'even', 'odd'],
       ['even', 'odd', 'even'],
       ['odd', 'even', 'odd'],
       ['even', 'odd', 'even']], dtype='<U4')

In [67]:
#Trueなら要素の倍、その他なら要素の半分の値で新たなオブジェクト
np.where(h <= 7, h * 2, h / 2)

array([[ 0. ,  2. ,  4. ],
       [ 6. ,  8. , 10. ],
       [12. , 14. ,  4. ],
       [ 4.5,  5. ,  5.5],
       [ 6. ,  6.5,  7. ]])

### 4.3NumPyの構造化配列

In [68]:
#複雑なdtypeをつくる
dt = np.dtype([('Name','S10'), ('Age','i4'), ('Height','f'), ('Children/Pets','i4', 2)])
dt

dtype([('Name', 'S10'), ('Age', '<i4'), ('Height', '<f4'), ('Children/Pets', '<i4', (2,))])

In [69]:
#別の構文で同じ結果
dt = np.dtype({'names': ['Name','Age','Height','Children/Pets'],'formats':'0 int float int, int'. split()})
dt

TypeError: data type '' not understood

In [70]:
#2レコードの構造化ndarrayをインスタンス化
s = np.array([ ('Smith', 45, 1.83, (0, 1)), ('Jones', 53, 1.72, (2, 2))], dtype=dt)
s


array([(b'Smith', 45, 1.83, [0, 1]), (b'Jones', 53, 1.72, [2, 2])],
      dtype=[('Name', 'S10'), ('Age', '<i4'), ('Height', '<f4'), ('Children/Pets', '<i4', (2,))])

In [71]:
#オブジェクト型はndarray
type(s)

numpy.ndarray

In [72]:
#名前による列選択
s['Name']

array([b'Smith', b'Jones'], dtype='|S10')

In [73]:
#選択した列でメソッド呼び出し、レコード選択
s['Height'].mean()


1.7750001

In [74]:
s[0]

(b'Smith', 45, 1.83, [0, 1])

In [75]:
#レコードのフィールド選択
s[1]['Age']

53

### 4.4ベクトル化コード

#### 基本のベクトル化

In [76]:
#擬似乱数が設定された1番目のndarrayオブジェクト
#擬似乱数が設定された2番目のndarrayオブジェクト
np.random.seed(100) 
r = np.arange(12).reshape((4, 3))
s = np.arange(12).reshape((4, 3)) * 0.5

In [77]:
r

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [78]:
s

array([[0. , 0.5, 1. ],
       [1.5, 2. , 2.5],
       [3. , 3.5, 4. ],
       [4.5, 5. , 5.5]])

In [79]:
#ベクトル化演算で（ループせず）要素ごとに加算
r + s

array([[ 0. ,  1.5,  3. ],
       [ 4.5,  6. ,  7.5],
       [ 9. , 10.5, 12. ],
       [13.5, 15. , 16.5]])

##### NumPyは、いわゆるブロードキャスティングもサポートします。つまり、1つの演算に異なる形のオブジェクトを一緒に使うことができます。

In [80]:
#スカラー加算では、スカラーがブロードキャストされて全要素に加えられる。
r + 3

array([[ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11],
       [12, 13, 14]])

In [81]:
#スカラー乗算では、スカラーがブロードキャストされて全要素に掛けられる。
2*r

array([[ 0,  2,  4],
       [ 6,  8, 10],
       [12, 14, 16],
       [18, 20, 22]])

In [82]:
#この線形変換は、上の2演算を組み合わせている。
2 * r + 3 

array([[ 3,  5,  7],
       [ 9, 11, 13],
       [15, 17, 19],
       [21, 23, 25]])

In [83]:
#この演算は、異なる形の ndarrayオブジェクトもある程度は扱うことができます。
r

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [84]:
r.shape

(4, 3)

In [85]:
#長さ3の新たな1次元ndarrayオブジェクト
s = np.arange(0, 12, 4)
s

array([0, 4, 8])

In [86]:
#r（行列)と S（ベクトル）オブジェクトは直接加算できる
r + s

array([[ 0,  5, 10],
       [ 3,  8, 13],
       [ 6, 11, 16],
       [ 9, 14, 19]])

In [87]:
#別の長さ4の1次元ndarrayオプジェクト
s=np.arange(0, 12, 3)
s

array([0, 3, 6, 9])

In [88]:
#新たな5（ベクトル）オプジェクトの長さがrオブジェクトの第2次元の長さと異なる
r + s

ValueError: operands could not be broadcast together with shapes (4,3) (4,) 

In [89]:
#rオブジェクトを再度転置して、ベクトル化加算ができる
r. transpose() + s

array([[ 0,  6, 12, 18],
       [ 1,  7, 13, 19],
       [ 2,  8, 14, 20]])

In [90]:
#代わりに、sの形状を(4,1)に変えて加算できるようにする（ただし、結果は異なる。）
sr = s.reshape(-1, 1)
sr

array([[0],
       [3],
       [6],
       [9]])

In [91]:
sr. shape

(4, 1)

In [92]:
r + s.reshape(-1, 1)

array([[ 0,  1,  2],
       [ 6,  7,  8],
       [12, 13, 14],
       [18, 19, 20]])

##### カスタム定義のPython関数でもndarrayオブジェクトを扱えます。実装によっては、intやfloatオブジェクトのように配列を関数で扱えます。

In [94]:
#引数Xの線形変換を実装した簡単な Python関数。
def f(x): return 3 * x + 5

In [95]:
#Python floatオブジェクトヘの関数f()の適用
f(0.5)

6.5

In [96]:
#同じ関数を ndarrayオブジェクトに適用、結果は要素ごとに関数評価されたベクトル。
f(r)

array([[ 5,  8, 11],
       [14, 17, 20],
       [23, 26, 29],
       [32, 35, 38]])

#### メモリ配置

##### 配列が大きくなると、実装される（ファイナンス）アルゴリズムによっては、性能が大きく違ってくるので、メモリ配置が重要になります。

In [97]:
#大きな 2次元非対称ndarrayオフジェクト
x = np.random.standard_normal((1000000, 5))

In [98]:
#元のオブジェクトデータの線形変換
y = 2 * x + 3

In [99]:
#2次元ndarrayオブジェクトをC順序(行順)で作る
C = np.array((x, y), order='C') 


In [100]:
#2次元ndarrayオブジェクトをF順序(列順)で作る
F = np.array((x, y), order='F') 

In [101]:
#メモリ解放（実際にはガベージコレクション次第）
x = 0.0; y = 0.0

In [102]:
#Cオブジェクトの数値
C[:2].round(2)

array([[[-1.75,  0.34,  1.15, -0.25,  0.98],
        [ 0.51,  0.22, -1.07, -0.19,  0.26],
        [-0.46,  0.44, -0.58,  0.82,  0.67],
        ...,
        [-0.05,  0.14,  0.17,  0.33,  1.39],
        [ 1.02,  0.3 , -1.23, -0.68, -0.87],
        [ 0.83, -0.73,  1.03,  0.34, -0.46]],

       [[-0.5 ,  3.69,  5.31,  2.5 ,  4.96],
        [ 4.03,  3.44,  0.86,  2.62,  3.51],
        [ 2.08,  3.87,  1.83,  4.63,  4.35],
        ...,
        [ 2.9 ,  3.28,  3.33,  3.67,  5.78],
        [ 5.04,  3.6 ,  0.54,  1.65,  1.26],
        [ 4.67,  1.54,  5.06,  3.69,  2.07]]])

##### 2つの型の ndarrayオブジェクトについて基本的な演算例から、メモリ配置によって速度に差が出るかを調べる。

In [103]:
#全要素の総和
%timeit C.sum()


15.6 ms ± 208 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [104]:
%timeit F.sum()

16.1 ms ± 325 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [105]:
#行ごとの総和（多い）と列ごとの総和（少ない）
%timeit C.sum(axis=0)

25.9 ms ± 1.3 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [106]:
%timeit C.sum(axis=1) 

52.2 ms ± 2.75 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [107]:
%timeit F.sum(axis=0)

80.2 ms ± 4.69 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [108]:
%timeit F.sum(axis=1)

107 ms ± 2.06 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [109]:
F = 0.0; c = 0.0

###### 結果として、
###### •全要素の総和ではメモリ配置はあまり問題にならない
###### • C順序の ndarrayオブジェクトの総和は、行でも列でも速い（絶対的な速度上の利点）
###### • C順序（行順） ndarrayオブジェクトでは行ごとの和の方が相対的に列ごとの和よ りも速い
###### • F順序（列順） ndarrayオブジェクトでは列ごとの和の方が相対的に行ごとの和よりも速い

### 4.5結論

##### Pythonで数値計算を行うには NumPyパッケージを使います。ndarrayクラスは（巨大）数値データ
##### を効率的に便利に扱えるよう設計されています。強力なメソッドと NumPyユニバーサル関数によるべ
##### クトル化コードは Pythonレベルの遅いループの代わりになります。本章で示した方法の多くがpandas
##### とその DataFrameクラスで使えます。(「5章 pandasによるデータ分析」を参照)。
