# Numpy  

## Numpyとは  

ベクトル（１次元配列）や行列（２次元配列）など、多次元配列の計算を高速に処理するライブラリ  
機械学習やディープラーニングを行う場合は必ず利用される 


## 参考  
- Chainer[「8.Numpy入門」](https://tutorials.chainer.org/ja/08_Introduction_to_NumPy.html)  
- Pythonで学ぶ入門計量経済学[「単回帰分析」](https://py4etrics.github.io/8_Simple_Regression.html)  
- Sci-pursuit[「最小二乗法の意味と計算方法 - 回帰直線の求め方」](https://sci-pursuit.com/math/statistics/least-square-method.html)  


In [1]:
import numpy as np



---

## その前に、Pythonのリストを復習  

- リストを作成  


In [2]:
#一次元
l = ['apple', 100, 0.123]
print(l)

['apple', 100, 0.123]


In [3]:
#二次元
l_2d = [[0, 1, 2], [3, 4, 5], [6, 7, 8]]
print(l_2d)

[[0, 1, 2], [3, 4, 5], [6, 7, 8]]


- リストを取得  

In [4]:
print(l[1])
print(l_2d[1])
print(l_2d[1][1])

100
[3, 4, 5]
4


- スライス：リストを範囲指定で取得  
  - 選択範囲の開始位置startと終了位置stopを、`[start:stop]`のように書く  
    `start <= x < stop`の範囲が選択される。
  - 開始位置startを省略した場合：最初から選択される  
  - 終了位置stopを省略した場合：最後までが選択される  
  - 両方とも省略した場合：すべての値が選択される  
  - 位置を負の値で指定した場合：末尾(-1)からの位置となる
  - 増分stepも指定可能、`[start:stop:step]`のように書く  


In [5]:
print(l[:])
print(l[:2])
print(l_2d[0][:1])
print(l_2d[0][1:])
print(l_2d[0][:])
print(l[-1:])
print(l[-2:])
print(l_2d[0][0::2])

['apple', 100, 0.123]
['apple', 100]
[0]
[1, 2]
[0, 1, 2]
[0.123]
[100, 0.123]
[0, 2]




---

## Numpy  

### 基礎  

- array：データクラス(=ndarray)を作成  


In [6]:
a = np.array([1, 2, 3])
#a = np.array([1, 2])

print(str(a))
print(type(a))

[1 2 3]
<class 'numpy.ndarray'>


- shape：要素数を返却  

In [7]:
a.shape

(3,)

- ndim：次元数を返却  

In [8]:
a.ndim

1

- size：要素数  

In [9]:
a.size

3

- 二次元配列の場合  

In [10]:
b = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print('b = ' + str(b))
print('shape = ' + str(b.shape))
print('ndim = ' + str(b.ndim))
print('size = ' + str(b.size))

b = [[1 2 3]
 [4 5 6]]
shape = (2, 3)
ndim = 2
size = 6


- 空の配列を作成  
  `dtype`でデータ型を指定、デフォルトは`float64`  

In [11]:
c = np.empty(0, dtype='int')
c

array([], dtype=int64)

- 配列に要素を追加  

In [12]:
c = np.append(c, 1)
c

array([1])


---

### データ型  


- 整数  


In [13]:
x = np.array([1, 2, 3])

x.dtype

dtype('int64')

- 浮動小数点  

In [14]:
x = np.array([1., 2., 3.])

x.dtype

dtype('float64')

- 指数表現(e)のfloatを、指定した桁数で丸める  

In [15]:
x = np.array([8.40517241e-01, 1.38777878e-17])
for i, row in enumerate(x):
    print(np.around(row,10))

0.840517241
0.0



---

## 配列の並び替え  


- [[x, y], [x, y], …] の配列を、[x, x, …], [y, y, …]の配列に変換  

In [16]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])
D[:,0], D[:,1]

(array([1, 3, 6, 8]), array([3, 6, 5, 7]))

上記の逆  

- [x, x, …], [y, y, …] の配列を、[[x, y], [x, y], …]の配列に変換  

In [17]:
X = np.array([1, 3, 6, 8])
Y = np.array([3, 6, 5, 7])

D = np.dstack([X, Y])
D

array([[[1, 3],
        [3, 6],
        [6, 5],
        [8, 7]]])

- Xの形状を変更  
  - 行, 列 を指定  
  - 列 を指定  
  - `-1`を指定した場合、もう一つの要素数から自動算出  

In [18]:
X = np.array([1, 2, 3, 4, 5, 6, 7, 8])
D = X.reshape(2, 4)
D

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [19]:
D = D.reshape(8)
D

array([1, 2, 3, 4, 5, 6, 7, 8])

In [20]:
D = X.reshape(-1, 1)
D

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8]])


---

### 値を生成  

- `np.arange(end)`  
  0から1つずつカウント、`end`の手前で終了(endは含まれない)  
- `np.arange(start, end)`  
  `start`から1つずつカウント、`end`の手前で終了  
- `np.arange(start, end, i)`  
  `start`から`i`ずつカウント、`end`の手前で終了  


In [21]:
np.arange(3), np.arange(0,3), np.arange(0,10,2)

(array([0, 1, 2]), array([0, 1, 2]), array([0, 2, 4, 6, 8]))

- 範囲内で複数の値を生成  
  `np.linspace(最小値, 最大値, 要素数)`


In [22]:
print(np.linspace(0, 10, 5))
print(np.linspace(0, 10, 4))
print(np.linspace(0, 6, 13))
print(np.linspace(0, 1, 21))

[ 0.   2.5  5.   7.5 10. ]
[ 0.          3.33333333  6.66666667 10.        ]
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6. ]
[0.   0.05 0.1  0.15 0.2  0.25 0.3  0.35 0.4  0.45 0.5  0.55 0.6  0.65
 0.7  0.75 0.8  0.85 0.9  0.95 1.  ]


- 0.0以上、1.0未満の乱数を生成  
  引数(縦：行, 横：列)を指定することで、行×列数分の配列を生成  


In [23]:
c = np.random.rand(4, 5) 
c

array([[0.15288795, 0.11019678, 0.88093778, 0.71296679, 0.54998241],
       [0.27342422, 0.45303177, 0.26227489, 0.66089498, 0.31900504],
       [0.09322902, 0.57983716, 0.77286416, 0.23224791, 0.79939185],
       [0.15514542, 0.73666912, 0.135337  , 0.25083672, 0.35167218]])

- 正規分布：平均0、標準偏差1の乱数  
  高速に生成できる`Generator.standard_normal`を使用する  
  `standard_normal()`や`randn()`は古いとのこと  
  - `default_rng`：コンストラクタ(乱数ジェネレータのインスタンスを生成)  

In [24]:
rng = np.random.default_rng()
r = rng.standard_normal(10)
r

array([-0.57762399, -0.90318523, -0.4807359 , -0.48970118, -0.20494291,
        0.5620672 , -0.10051568,  0.736961  , -1.50288774, -0.31611523])

- 正規分布：範囲を指定する場合  
  `rng.normal(平均値, 標準偏差, 個数 or (配列数))`  

In [25]:
rng = np.random.default_rng()
r = rng.normal(0, 10, (5,2))
r

array([[ 1.11586006e+00, -7.98614777e+00],
       [-2.53749804e+01, -2.16101013e+00],
       [-4.17585265e-03, -2.59219346e+01],
       [-1.28227318e+01, -6.81429118e+00],
       [-1.10783525e+01,  1.98789638e+01]])

- meshgrid：格子点の組み合わせパターンを作成  

In [26]:
x = np.arange(3)
y = np.arange(3)
print('x = ' + str(x))
print('y = ' + str(y))

# 格子点の組み合わせパターン
X, Y = np.meshgrid(x, y)

# 格子点を作成 → 深さ方向に結合
Z = np.dstack([X, Y])

print('\nX\n{}\n'.format(X))
print("Y\n{}".format(Y))
print("\nX,Y\n{}".format(Z))

x = [0 1 2]
y = [0 1 2]

X
[[0 1 2]
 [0 1 2]
 [0 1 2]]

Y
[[0 0 0]
 [1 1 1]
 [2 2 2]]

X,Y
[[[0 0]
  [1 0]
  [2 0]]

 [[0 1]
  [1 1]
  [2 1]]

 [[0 2]
  [1 2]
  [2 2]]]



---

### 配列から抽出  
- 1つ抽出  

In [27]:
v = c[0, 1]
v

0.11019678012353429

- 範囲指定抽出  
  - 2～3行目  
  - 2～4列目  


In [28]:
v = c[1:3, 1:4]

v

array([[0.45303177, 0.26227489, 0.66089498],
       [0.57983716, 0.77286416, 0.23224791]])


---

### 配列を更新  


In [29]:
c[1:3, 1:4] = 0

c

array([[0.15288795, 0.11019678, 0.88093778, 0.71296679, 0.54998241],
       [0.27342422, 0.        , 0.        , 0.        , 0.31900504],
       [0.09322902, 0.        , 0.        , 0.        , 0.79939185],
       [0.15514542, 0.73666912, 0.135337  , 0.25083672, 0.35167218]])


---

### 計算  

テストデータ  

In [30]:
x = np.random.randint(0, 10, (8, 10))

x

array([[6, 5, 6, 2, 8, 3, 6, 8, 0, 0],
       [0, 4, 1, 7, 1, 9, 3, 4, 0, 4],
       [2, 6, 0, 6, 3, 0, 1, 5, 7, 2],
       [9, 2, 6, 5, 8, 4, 3, 8, 6, 8],
       [9, 1, 8, 8, 4, 0, 3, 5, 3, 4],
       [8, 6, 1, 3, 3, 6, 1, 9, 6, 4],
       [6, 8, 5, 3, 7, 6, 7, 9, 3, 8],
       [2, 3, 3, 2, 1, 4, 7, 7, 0, 7]])

- 平均  
  - axis：平均を計算したい軸(何次元目に沿って計算するか)  

In [31]:
x.mean()

4.475

In [32]:
x.mean(axis=1)

array([4.4, 3.3, 3.2, 5.9, 4.5, 4.7, 6.2, 3.6])

In [33]:
np.array([
    x[0, :].mean(),
    x[1, :].mean(),
    x[2, :].mean(),
    x[3, :].mean(),
    x[4, :].mean(),
    x[5, :].mean(),
    x[6, :].mean(),
    x[7, :].mean(),
])

array([4.4, 3.3, 3.2, 5.9, 4.5, 4.7, 6.2, 3.6])

- 最大・最小  

In [34]:
x.max()

9

In [35]:
x.min()

0

テストデータ  
- 説明変数 X：平均気温(抜粋)  
- 被説明変数 Y：支出額(抜粋)  

In [36]:
X = np.array([
        9.1, 11.2, 12.3, 18.9, 22.2, 26. , 30.9, 31.2, 28.8, 23. , 18.3, 11.1
    ])

Y = np.array([
        463.,  360.,  380.,  584.,  763.,  886., 1168., 1325.,  847., 542.,  441.,  499.
    ])


- 合計  

In [37]:
X.sum(), Y.sum()

(243.00000000000003, 8258.0)

- 平均  

In [38]:
X.mean(), Y.mean()

(20.250000000000004, 688.1666666666666)

- 中央値  

In [39]:
np.median(X), np.median(Y)

(20.549999999999997, 563.0)

- 四分位数  

In [40]:
np.percentile(X, 25), np.percentile(X, 50), np.percentile(X, 75)

(12.025, 20.549999999999997, 26.7)

In [41]:
np.percentile(Y, 25), np.percentile(Y, 50), np.percentile(Y, 75)

(457.5, 563.0, 856.75)

- 標準偏差  

In [42]:
X.std(), Y.std()

(7.68998266144556, 301.13862625412605)

- 分散  
  - 未指定 または `ddof=0`：標本分散 → 提示されたデータから、分散を「計算」 【通常はこちらを使用】  
  - `ddof=1`：不偏分散 → 提示されたデータから、母集団全体の分散を「推定」  

In [43]:
X.var(), Y.var()

(59.135833333333345, 90684.4722222222)

In [44]:
X.var(ddof=1), Y.var(ddof=1)

(64.51181818181819, 98928.51515151514)

- ルート(√, 平方根)  
  - 分散で二乗された数字を戻す  

In [45]:
np.sqrt(X.var()), np.sqrt(Y.var())

(7.68998266144556, 301.13862625412605)

- 共分散  
  標本分散の場合、`ddof=0`を指定すること → `var()`とデフォルト値が異なる  
  結果は以下のように格納される  
  - 1行1列目(0,0)：Xの分散 → 上記var計算結果と同じ  
  - 2行2列目(1,1)：Yの分散 → 上記var計算結果と同じ  
  - (0,1)と(1,0)：XとYの共分散、どちらも同じ値(どちらかを取得すれば良い)  

In [46]:
v = np.cov(X,Y,ddof=0)
v

array([[5.91358333e+01, 2.05058333e+03],
       [2.05058333e+03, 9.06844722e+04]])

In [47]:
xvar = v[0,0]
yvar = v[1,1]
xvar, yvar

(59.13583333333333, 90684.4722222222)

In [48]:
sxy = v[0, 1]
sxy

2050.5833333333335

In [49]:
sxy = v[1, 0]
sxy

2050.5833333333335


---

### 最小二乗法による回帰係数の計算  

#### 単回帰  
- 回帰直線：Y = aX + b  
- 傾き：a = x と y の共分散 / x の分散  
- 切片：b = Yの平均 - (a * Xの平均)  

In [50]:
a = sxy / xvar
xmean = X.mean()
ymean = Y.mean()
b = ymean - a * xmean
a, b

(34.67581697504334, -14.018627077961128)

- `numpy.polyfit()`：線形回帰モデルのパラメータ `a` , `b` を算出  
  - 回帰直線(単回帰)の場合：3番目の引数(次元数)に1を指定する  

In [51]:
W = np.polyfit(X, Y, 1)
W

array([ 34.67581698, -14.01862708])

- 値を検証  
  `assert_allclose()` ：値がほぼ同じ場合は何も表示しない、差がある場合は`AssertionError`  

In [52]:
np.testing.assert_allclose((a, b), (W[0], W[1]))

- AssertionErrorを発生させる場合は、コメントを外して実行  

In [53]:
#np.testing.assert_allclose((a, b), (35, W[1]))

- `numpy.polyval()`：回帰直線：Y = aX + bの`Y`を算出  

In [54]:
y_hat = np.polyval(W, X)
y_hat

array([ 301.53130739,  374.35052304,  412.49392172,  641.35431375,
        755.78450977,  887.55261427, 1057.46411745, 1067.86686254,
        984.6449018 ,  783.52516335,  620.54882357,  370.88294135])


#### 多項式回帰  

- 3次曲線：y = b0 + (b1 * x) + (b2 * x^2) + (b3 * x^3)  


テストデータ  


In [55]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])
X = D[:,0]
Y = D[:,1]
X, Y

(array([1, 3, 6, 8]), array([3, 6, 5, 7]))

フィッティング  
- 3次曲線：3番目の引数(次元数)に3を指定する  
- 結果は b3, b2, b1, b0 の順番で返却される  

In [56]:
W = np.polyfit(X, Y, 3)
W

array([ 0.09047619, -1.27142857,  5.40952381, -1.22857143])


---

### 配列のまま計算  

要素毎に計算し、結果を配列で返却  

- 例：各行で`(y - a * x - b)^2`を計算、平均を算出  

In [57]:
D = np.array([[2, 4],
              [3, 6], 
              [4, 8] 
             ])
a = 3
b = 4

v = (D[:,1] - a * D[:,0] - b) ** 2
print('v = ' + str(v))
print('v.mean() = ' + str(v.mean()))


v = [36 49 64]
v.mean() = 49.666666666666664



---
