# Numpy  

## Numpyとは  

ベクトル（１次元配列）や行列（２次元配列）など、多次元配列の計算を高速に処理するライブラリ  
機械学習やディープラーニングを行う場合は必ず利用される 


## 参考  
- Chainer[「8.Numpy入門」](https://tutorials.chainer.org/ja/08_Introduction_to_NumPy.html)  
- Pythonで学ぶ入門計量経済学[「単回帰分析」](https://py4etrics.github.io/8_Simple_Regression.html)  
- Sci-pursuit[「最小二乗法の意味と計算方法 - 回帰直線の求め方」](https://sci-pursuit.com/math/statistics/least-square-method.html)  


In [1]:
import numpy as np



---

## その前に、Pythonのリストを復習  

- リストを作成  


In [2]:
#一次元
l = ['apple', 100, 0.123]
print(l)

['apple', 100, 0.123]


In [3]:
#二次元
l_2d = [[0, 1, 2], [3, 4, 5], [6, 7, 8]]
print(l_2d)

[[0, 1, 2], [3, 4, 5], [6, 7, 8]]


- リストを取得  

In [4]:
print(l[1])
print(l_2d[1])
print(l_2d[1][1])

100
[3, 4, 5]
4


- スライス：リストを範囲指定で取得  
  - 選択範囲の開始位置startと終了位置stopを、`[start:stop]`のように書く  
    `start <= x < stop`の範囲が選択される。
  - 開始位置startを省略した場合：最初から選択される  
  - 終了位置stopを省略した場合：最後までが選択される  
  - 両方とも省略した場合：すべての値が選択される  
  - 位置を負の値で指定した場合：末尾(-1)からの位置となる
  - 増分stepも指定可能、`[start:stop:step]`のように書く  


In [5]:
print(l[:])
print(l[:2])
print(l_2d[0][:1])
print(l_2d[0][1:])
print(l_2d[0][:])
print(l[-1:])
print(l[-2:])
print(l_2d[0][0::2])

['apple', 100, 0.123]
['apple', 100]
[0]
[1, 2]
[0, 1, 2]
[0.123]
[100, 0.123]
[0, 2]




---

## Numpy  

### 基礎  

- array：データクラス(=ndarray)を作成  


In [6]:
a = np.array([1, 2, 3])
#a = np.array([1, 2])

print(str(a))
print(type(a))

[1 2 3]
<class 'numpy.ndarray'>


- shape：要素数を返却  

In [7]:
a.shape

(3,)

- ndim：次元数を返却  

In [8]:
a.ndim

1

- size：要素数  

In [9]:
a.size

3

- 二次元配列の場合  

In [10]:
b = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print('b = ' + str(b))
print('shape = ' + str(b.shape))
print('ndim = ' + str(b.ndim))
print('size = ' + str(b.size))

b = [[1 2 3]
 [4 5 6]]
shape = (2, 3)
ndim = 2
size = 6


- 空の配列を作成  
  `dtype`でデータ型を指定、デフォルトは`float64`  

In [11]:
c = np.empty(0, dtype='int')
c

array([], dtype=int64)

- 配列に要素を追加  

In [12]:
c = np.append(c, 1)
c

array([1])


---

### データ型  


- 整数  


In [13]:
x = np.array([1, 2, 3])

x.dtype

dtype('int64')

- 浮動小数点  

In [14]:
x = np.array([1., 2., 3.])

x.dtype

dtype('float64')

- 指数表現(e)のfloatを、指定した桁数で丸める  

In [15]:
x = np.array([8.40517241e-01, 1.38777878e-17])
for i, row in enumerate(x):
    print(np.around(row,10))

0.840517241
0.0



---

## 配列の並び替え  


- [[x, y], [x, y], …] の配列を、[x, x, …], [y, y, …]の配列に変換  

In [16]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])
D[:,0], D[:,1]

(array([1, 3, 6, 8]), array([3, 6, 5, 7]))

上記の逆  

- [x, x, …], [y, y, …] の配列を、[[x, y], [x, y], …]の配列に変換  

In [17]:
X = np.array([1, 3, 6, 8])
Y = np.array([3, 6, 5, 7])

D = np.dstack([X, Y])
D

array([[[1, 3],
        [3, 6],
        [6, 5],
        [8, 7]]])

複数の配列を、行として結合  

In [18]:
b = np.vstack([X, Y])
b

array([[1, 3, 6, 8],
       [3, 6, 5, 7]])

二次元配列の転置ビューを生成  
元の値を変更すると、ビューの値も変更される  

In [19]:
b_t = b.T
b_t

array([[1, 3],
       [3, 6],
       [6, 5],
       [8, 7]])

- Xの形状を変更  
  - 行, 列 を指定  
  - 列 を指定  
  - `-1`を指定した場合、もう一つの要素数から自動算出  

In [20]:
X = np.array([1, 2, 3, 4, 5, 6, 7, 8])
D = X.reshape(2, 4)
D

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [21]:
D = D.reshape(8)
D

array([1, 2, 3, 4, 5, 6, 7, 8])

In [22]:
D = X.reshape(-1, 1)
D

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8]])


---

### 値を生成  

- `np.arange(end)`  
  0から1つずつカウント、`end`の手前で終了(endは含まれない)  
- `np.arange(start, end)`  
  `start`から1つずつカウント、`end`の手前で終了  
- `np.arange(start, end, i)`  
  `start`から`i`ずつカウント、`end`の手前で終了  


In [23]:
np.arange(3), np.arange(0,3), np.arange(0,10,2)

(array([0, 1, 2]), array([0, 1, 2]), array([0, 2, 4, 6, 8]))

- 範囲内で複数の値を生成  
  `np.linspace(最小値, 最大値, 要素数)`


In [24]:
print(np.linspace(0, 10, 5))
print(np.linspace(0, 10, 4))
print(np.linspace(0, 6, 13))
print(np.linspace(0, 1, 21))

[ 0.   2.5  5.   7.5 10. ]
[ 0.          3.33333333  6.66666667 10.        ]
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6. ]
[0.   0.05 0.1  0.15 0.2  0.25 0.3  0.35 0.4  0.45 0.5  0.55 0.6  0.65
 0.7  0.75 0.8  0.85 0.9  0.95 1.  ]


- 0.0以上、1.0未満の乱数を生成  
  引数(縦：行, 横：列)を指定することで、行×列数分の配列を生成  


In [25]:
c = np.random.rand(4, 5) 
c

array([[0.1200861 , 0.45826217, 0.37613779, 0.26066123, 0.47662229],
       [0.41496432, 0.11152284, 0.99770703, 0.24561629, 0.0697288 ],
       [0.16200274, 0.49667588, 0.42905942, 0.26653493, 0.59775968],
       [0.05492486, 0.52673726, 0.33356201, 0.24736575, 0.46158823]])

- 正規分布：平均0、標準偏差1の乱数  
  高速に生成できる`Generator.standard_normal`を使用する  
  `standard_normal()`や`randn()`は古いとのこと  
  - `default_rng`：コンストラクタ(乱数ジェネレータのインスタンスを生成)  

In [26]:
rng = np.random.default_rng()
r = rng.standard_normal(10)
r

array([-1.53098828,  0.46666346,  0.94294774, -0.16160524,  0.91091922,
       -0.32995883,  0.17119028, -2.81525244, -1.99338688,  1.52062283])

- 正規分布：範囲を指定する場合  
  `rng.normal(平均値, 標準偏差, 個数 or (配列数))`  

In [27]:
rng = np.random.default_rng()
r = rng.normal(0, 10, (5,2))
r

array([[-15.99739876,   7.58512288],
       [ 20.70066857,  -0.50051724],
       [ -8.01858208,  -5.61732351],
       [ -2.40047504, -12.19075185],
       [ -1.2461701 ,  10.50245607]])

- meshgrid：格子点の組み合わせパターンを作成  

In [28]:
x = np.arange(3)
y = np.arange(3)
print('x = ' + str(x))
print('y = ' + str(y))

# 格子点の組み合わせパターン
X, Y = np.meshgrid(x, y)

# 格子点を作成 → 深さ方向に結合
Z = np.dstack([X, Y])

print('\nX\n{}\n'.format(X))
print("Y\n{}".format(Y))
print("\nX,Y\n{}".format(Z))

x = [0 1 2]
y = [0 1 2]

X
[[0 1 2]
 [0 1 2]
 [0 1 2]]

Y
[[0 0 0]
 [1 1 1]
 [2 2 2]]

X,Y
[[[0 0]
  [1 0]
  [2 0]]

 [[0 1]
  [1 1]
  [2 1]]

 [[0 2]
  [1 2]
  [2 2]]]



---

### 配列から抽出  
- 1つ抽出  

In [29]:
v = c[0, 1]
v

0.45826217072344166

- 範囲指定抽出  
  - 2～3行目  
  - 2～4列目  


In [30]:
v = c[1:3, 1:4]

v

array([[0.11152284, 0.99770703, 0.24561629],
       [0.49667588, 0.42905942, 0.26653493]])


---

### 配列を更新  


In [31]:
c[1:3, 1:4] = 0

c

array([[0.1200861 , 0.45826217, 0.37613779, 0.26066123, 0.47662229],
       [0.41496432, 0.        , 0.        , 0.        , 0.0697288 ],
       [0.16200274, 0.        , 0.        , 0.        , 0.59775968],
       [0.05492486, 0.52673726, 0.33356201, 0.24736575, 0.46158823]])

- `ones_like()` ：既存の配列と同じ構成で、値が「すべて1」の配列を生成  

In [32]:
c1 = np.ones_like(c)
c1

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [33]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])
X = np.vstack([D[:,0], np.ones_like(D[:,0])])
X

array([[1, 3, 6, 8],
       [1, 1, 1, 1]])

In [34]:
X_T = X.T
X_T

array([[1, 1],
       [3, 1],
       [6, 1],
       [8, 1]])

他の配列要素数を参考にして、値が0の配列を作成  

In [35]:
w = np.zeros(X.shape[1])
w

array([0., 0., 0., 0.])


---

### 計算  

テストデータ  

In [36]:
x = np.random.randint(0, 10, (8, 10))

x

array([[7, 4, 8, 6, 7, 2, 0, 1, 2, 8],
       [4, 1, 2, 3, 1, 1, 0, 0, 7, 5],
       [8, 0, 5, 4, 9, 3, 9, 8, 7, 2],
       [0, 8, 7, 9, 9, 2, 5, 0, 7, 9],
       [8, 9, 8, 4, 6, 7, 2, 5, 6, 9],
       [5, 8, 2, 7, 8, 8, 0, 6, 7, 6],
       [9, 2, 6, 8, 9, 8, 6, 7, 6, 0],
       [9, 0, 0, 1, 6, 9, 7, 1, 1, 0]])

- 平均  
  - axis：平均を計算したい軸(何次元目に沿って計算するか)  

In [37]:
x.mean()

4.95

In [38]:
x.mean(axis=1)

array([4.5, 2.4, 5.5, 5.6, 6.4, 5.7, 6.1, 3.4])

In [39]:
np.array([
    x[0, :].mean(),
    x[1, :].mean(),
    x[2, :].mean(),
    x[3, :].mean(),
    x[4, :].mean(),
    x[5, :].mean(),
    x[6, :].mean(),
    x[7, :].mean(),
])

array([4.5, 2.4, 5.5, 5.6, 6.4, 5.7, 6.1, 3.4])

- 最大・最小  

In [40]:
x.max()

9

In [41]:
x.min()

0

テストデータ  
- 説明変数 X：平均気温(抜粋)  
- 被説明変数 Y：支出額(抜粋)  

In [42]:
X = np.array([
        9.1, 11.2, 12.3, 18.9, 22.2, 26. , 30.9, 31.2, 28.8, 23. , 18.3, 11.1
    ])

Y = np.array([
        463.,  360.,  380.,  584.,  763.,  886., 1168., 1325.,  847., 542.,  441.,  499.
    ])


- 合計  

In [43]:
X.sum(), Y.sum()

(243.00000000000003, 8258.0)

- 平均  

In [44]:
X.mean(), Y.mean()

(20.250000000000004, 688.1666666666666)

- 中央値  

In [45]:
np.median(X), np.median(Y)

(20.549999999999997, 563.0)

- 四分位数  

In [46]:
np.percentile(X, 25), np.percentile(X, 50), np.percentile(X, 75)

(12.025, 20.549999999999997, 26.7)

In [47]:
np.percentile(Y, 25), np.percentile(Y, 50), np.percentile(Y, 75)

(457.5, 563.0, 856.75)

- 標準偏差  

In [48]:
X.std(), Y.std()

(7.68998266144556, 301.13862625412605)

- 分散  
  - 未指定 または `ddof=0`：標本分散 → 提示されたデータから、分散を「計算」 【通常はこちらを使用】  
  - `ddof=1`：不偏分散 → 提示されたデータから、母集団全体の分散を「推定」  

In [49]:
X.var(), Y.var()

(59.135833333333345, 90684.4722222222)

In [50]:
X.var(ddof=1), Y.var(ddof=1)

(64.51181818181819, 98928.51515151514)

- ルート(√, 平方根)  
  - 分散で二乗された数字を戻す  

In [51]:
np.sqrt(X.var()), np.sqrt(Y.var())

(7.68998266144556, 301.13862625412605)

- 共分散  
  標本分散の場合、`ddof=0`を指定すること → `var()`とデフォルト値が異なる  
  結果は以下のように格納される  
  - 1行1列目(0,0)：Xの分散 → 上記var計算結果と同じ  
  - 2行2列目(1,1)：Yの分散 → 上記var計算結果と同じ  
  - (0,1)と(1,0)：XとYの共分散、どちらも同じ値(どちらかを取得すれば良い)  

In [52]:
v = np.cov(X,Y,ddof=0)
v

array([[5.91358333e+01, 2.05058333e+03],
       [2.05058333e+03, 9.06844722e+04]])

In [53]:
xvar = v[0,0]
yvar = v[1,1]
xvar, yvar

(59.13583333333333, 90684.4722222222)

In [54]:
sxy = v[0, 1]
sxy

2050.5833333333335

In [55]:
sxy = v[1, 0]
sxy

2050.5833333333335


---

### 最小二乗法による回帰係数の計算  

#### 単回帰  
- 回帰直線：Y = aX + b  
- 傾き：a = x と y の共分散 / x の分散  
- 切片：b = Yの平均 - (a * Xの平均)  

In [56]:
a = sxy / xvar
xmean = X.mean()
ymean = Y.mean()
b = ymean - a * xmean
a, b

(34.67581697504334, -14.018627077961128)

- `numpy.polyfit()`：線形回帰モデルのパラメータ `a` , `b` を算出  
  - 回帰直線(単回帰)の場合：3番目の引数(次元数)に1を指定する  

In [57]:
W = np.polyfit(X, Y, 1)
W

array([ 34.67581698, -14.01862708])

- 値を検証  
  `assert_allclose()` ：値がほぼ同じ場合は何も表示しない、差がある場合は`AssertionError`  

In [58]:
np.testing.assert_allclose((a, b), (W[0], W[1]))

- AssertionErrorを発生させる場合は、コメントを外して実行  

In [59]:
#np.testing.assert_allclose((a, b), (35, W[1]))

- `numpy.polyval()`：回帰直線：Y = aX + bの`Y`を算出  

In [60]:
y_hat = np.polyval(W, X)
y_hat

array([ 301.53130739,  374.35052304,  412.49392172,  641.35431375,
        755.78450977,  887.55261427, 1057.46411745, 1067.86686254,
        984.6449018 ,  783.52516335,  620.54882357,  370.88294135])


#### 多項式回帰  

- 3次曲線：y = b0 + (b1 * x) + (b2 * x^2) + (b3 * x^3)  


テストデータ  


In [61]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])
X = D[:,0]
Y = D[:,1]
X, Y

(array([1, 3, 6, 8]), array([3, 6, 5, 7]))

フィッティング  
- 3次曲線：3番目の引数(次元数)に3を指定する  
- 結果は b3, b2, b1, b0 の順番で返却される  

In [62]:
W = np.polyfit(X, Y, 3)
W

array([ 0.09047619, -1.27142857,  5.40952381, -1.22857143])


---

### 配列のまま計算  

要素毎に計算し、結果を配列で返却  

- 例：各行で`(y - a * x - b)^2`を計算、平均を算出  

In [63]:
D = np.array([[2, 4],
              [3, 6], 
              [4, 8] 
             ])
a = 3
b = 4

v = (D[:,1] - a * D[:,0] - b) ** 2
print('v = ' + str(v))
print('v.mean() = ' + str(v.mean()))


v = [36 49 64]
v.mean() = 49.666666666666664



---

### ベクトル・行列  


ベクトルの内積  
- (a1, a2)(b1, b2) = a1b1 + a2b2  

In [64]:
a = np.array([1, 2])
b = np.array([4, 3])
np.dot(a, b)

10

In [65]:
a @ b

10

- 「a」の列数と「b」の行数とが等しくないと、積の計算ができないルールがある  
  → ルールに合わせるため、bを転置(T)する  

In [66]:
a = np.array([[1, 2, 3]])
b = np.array([[1, 2, 3]])
b_T = b.T
a, b, b_T

(array([[1, 2, 3]]),
 array([[1, 2, 3]]),
 array([[1],
        [2],
        [3]]))

In [67]:
# 以下はエラーになる
#a @ b


\begin{align*}
\begin{pmatrix}a1 & a2 & a3\end{pmatrix} \begin{pmatrix}b1 \\ b2 \\ b3\end{pmatrix}
\end{align*}

\begin{align*}
\ =
\begin{pmatrix}a1b1 + a2b2 + a3b3\end{pmatrix}
\end{align*}


In [68]:
a @ b_T

array([[14]])

In [69]:
b_T @ a

array([[1, 2, 3],
       [2, 4, 6],
       [3, 6, 9]])


---

行列の積  

\begin{align*}
\begin{pmatrix}
a1 & a2 \\
a3 & a4 \\
\end{pmatrix}
\begin{pmatrix}
b1\\
b2\\
\end{pmatrix}
\end{align*}

\begin{align*}
\ =
\begin{pmatrix}
a1b1 + a2b2\\
a3b1 + a4b2\\
\end{pmatrix}
\end{align*}


In [70]:
a = np.array([[1,2], [3,4]])
b = np.array([[4], [2]])
a @ b

array([[ 8],
       [20]])


\begin{align*}
\begin{pmatrix}
a1 & a2\\
\end{pmatrix}
\begin{pmatrix}
b1 & b2 \\
b3 & b4 \\
\end{pmatrix}
\end{align*}

\begin{align*}
\ =
\begin{pmatrix}
a1b1 + a2b3 & a1b2 + a2b4\\
\end{pmatrix}
\end{align*}


In [71]:
a = np.array([[1,2]])
b = np.array([[4, 3], [2,1]])
a @ b

array([[8, 5]])


\begin{align*}
\begin{pmatrix}
a1 & a2 \\
a3 & a4 \\
\end{pmatrix}
\begin{pmatrix}
b1 & b2 \\
b3 & b4 \\
\end{pmatrix}
\end{align*}

\begin{align*}
\ =
\begin{pmatrix}
a1b1 + a2b3 & a1b2 + a2b4 \\
a3b1 + a4b3 & a3b2 + a4b4 \\
\end{pmatrix}
\end{align*}

- ( [a1, a2], [a3, a4] )( [b1, b2], [b3, b4] )  
  ( [1, 2], [3, 4] )( [4, 3], [2, 1] )  
  = ( [4 + 4, 3 + 2], [12 + 8, 9 + 4] )  
  = ( [8, 5], [20, 13] )  


In [72]:
a = np.array([[1,2], [3,4]])
b = np.array([[4, 3], [2,1]])
a @ b

array([[ 8,  5],
       [20, 13]])

In [73]:
c = np.array([[1, 2],
              [3, 4]])

In [74]:
c @ c

array([[ 7, 10],
       [15, 22]])


---
