# Numpy  

## Numpyとは  

ベクトル（１次元配列）や行列（２次元配列）など、多次元配列の計算を高速に処理するライブラリ  
機械学習やディープラーニングを行う場合は必ず利用される 


## 参考  
- Chainer[「8.Numpy入門」](https://tutorials.chainer.org/ja/08_Introduction_to_NumPy.html)  
- Pythonで学ぶ入門計量経済学[「単回帰分析」](https://py4etrics.github.io/8_Simple_Regression.html)  
- Sci-pursuit[「最小二乗法の意味と計算方法 - 回帰直線の求め方」](https://sci-pursuit.com/math/statistics/least-square-method.html)  


In [1]:
import numpy as np



---

## その前に、Pythonのリストを復習  

- リストを作成  


In [2]:
#一次元
l = ['apple', 100, 0.123]
print(l)

['apple', 100, 0.123]


In [3]:
#二次元
l_2d = [[0, 1, 2], [3, 4, 5], [6, 7, 8]]
print(l_2d)

[[0, 1, 2], [3, 4, 5], [6, 7, 8]]


- リストを取得  

In [4]:
print(l[1])
print(l_2d[1])
print(l_2d[1][1])

100
[3, 4, 5]
4


- スライス：リストを範囲指定で取得  
  - 選択範囲の開始位置startと終了位置stopを、`[start:stop]`のように書く  
    `start <= x < stop`の範囲が選択される。
  - 開始位置startを省略した場合：最初から選択される  
  - 終了位置stopを省略した場合：最後までが選択される  
  - 両方とも省略した場合：すべての値が選択される  
  - 位置を負の値で指定した場合：末尾(-1)からの位置となる
  - 増分stepも指定可能、`[start:stop:step]`のように書く  


In [5]:
print(l[:])
print(l[:2])
print(l_2d[0][:1])
print(l_2d[0][1:])
print(l_2d[0][:])
print(l[-1:])
print(l[-2:])
print(l_2d[0][0::2])

['apple', 100, 0.123]
['apple', 100]
[0]
[1, 2]
[0, 1, 2]
[0.123]
[100, 0.123]
[0, 2]




---

## Numpy  

### 基礎  

- array：データクラス(=ndarray)を作成  


In [6]:
a = np.array([1, 2, 3])
#a = np.array([1, 2])

print(str(a))
print(type(a))

[1 2 3]
<class 'numpy.ndarray'>


- shape：要素数を返却  

In [7]:
a.shape

(3,)

- ndim：次元数を返却  

In [8]:
a.ndim

1

- size：要素数  

In [9]:
a.size

3

- 二次元配列の場合  

In [10]:
b = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print('b = ' + str(b))
print('shape = ' + str(b.shape))
print('ndim = ' + str(b.ndim))
print('size = ' + str(b.size))

b = [[1 2 3]
 [4 5 6]]
shape = (2, 3)
ndim = 2
size = 6



---

### データ型  


- 整数  


In [11]:
x = np.array([1, 2, 3])

x.dtype

dtype('int64')

- 浮動小数点  

In [12]:
x = np.array([1., 2., 3.])

x.dtype

dtype('float64')


---

## 配列の並び替え  


- [[x, y], [x, y], …] の配列を、[x, x, …], [y, y, …]の配列に変換  

In [13]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])
D[:,0], D[:,1]

(array([1, 3, 6, 8]), array([3, 6, 5, 7]))

上記の逆  

- [x, x, …], [y, y, …] の配列を、[[x, y], [x, y], …]の配列に変換  

In [14]:
X = np.array([1, 3, 6, 8])
Y = np.array([3, 6, 5, 7])

D = np.dstack([X, Y])
D

array([[[1, 3],
        [3, 6],
        [6, 5],
        [8, 7]]])


---

### 値を生成  

- `np.arange(end)`  
  0から1つずつカウント、`end`の手前で終了(endは含まれない)  
- `np.arange(start, end)`  
  `start`から1つずつカウント、`end`の手前で終了  
- `np.arange(start, end, i)`  
  `start`から`i`ずつカウント、`end`の手前で終了  


In [15]:
np.arange(3), np.arange(0,3), np.arange(0,10,2)

(array([0, 1, 2]), array([0, 1, 2]), array([0, 2, 4, 6, 8]))

- 範囲内で複数の値を生成  
  `np.linspace(最小値, 最大値, 要素数)`


In [16]:
print(np.linspace(0, 10, 5))
print(np.linspace(0, 10, 4))
print(np.linspace(0, 6, 13))
print(np.linspace(0, 1, 21))

[ 0.   2.5  5.   7.5 10. ]
[ 0.          3.33333333  6.66666667 10.        ]
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6. ]
[0.   0.05 0.1  0.15 0.2  0.25 0.3  0.35 0.4  0.45 0.5  0.55 0.6  0.65
 0.7  0.75 0.8  0.85 0.9  0.95 1.  ]


- 0.0以上、1.0未満の乱数を生成  
  引数(縦：行, 横：列)を指定することで、行×列数分の配列を生成  


In [17]:
c = np.random.rand(4, 5) 
c

array([[0.81057894, 0.59813836, 0.27213179, 0.45439839, 0.49423025],
       [0.17949538, 0.43686416, 0.1717366 , 0.80077854, 0.64910179],
       [0.60140224, 0.42792329, 0.20031192, 0.96697972, 0.41086111],
       [0.32167407, 0.76325084, 0.55984019, 0.82790769, 0.6770371 ]])

- 正規分布：平均0、標準偏差1の乱数  
  高速に生成できる`Generator.standard_normal`を使用する  
  `standard_normal()`や`randn()`は古いとのこと  
  - `default_rng`：コンストラクタ(乱数ジェネレータのインスタンスを生成)  

In [18]:
rng = np.random.default_rng()
r = rng.standard_normal(10)
r

array([ 0.1286807 ,  0.03641106, -0.86850029,  0.02201438,  0.79275828,
       -0.64491558, -1.03509074,  0.0449761 ,  1.06508813,  0.09618555])

- 正規分布：範囲を指定する場合  
  `rng.normal(平均値, 標準偏差, 個数 or (配列数))`  

In [19]:
rng = np.random.default_rng()
r = rng.normal(0, 10, (5,2))
r

array([[-19.04870618,  -3.89025971],
       [ -8.48700001,   2.17749522],
       [  7.98819242,   2.40992524],
       [-16.7638931 ,  -6.89189829],
       [-25.44845615,  -2.62718589]])

- meshgrid：格子点の組み合わせパターンを作成  

In [20]:
x = np.arange(3)
y = np.arange(3)
print('x = ' + str(x))
print('y = ' + str(y))

# 格子点の組み合わせパターン
X, Y = np.meshgrid(x, y)

# 格子点を作成 → 深さ方向に結合
Z = np.dstack([X, Y])

print('\nX\n{}\n'.format(X))
print("Y\n{}".format(Y))
print("\nX,Y\n{}".format(Z))

x = [0 1 2]
y = [0 1 2]

X
[[0 1 2]
 [0 1 2]
 [0 1 2]]

Y
[[0 0 0]
 [1 1 1]
 [2 2 2]]

X,Y
[[[0 0]
  [1 0]
  [2 0]]

 [[0 1]
  [1 1]
  [2 1]]

 [[0 2]
  [1 2]
  [2 2]]]



---

### 配列から抽出  
- 1つ抽出  

In [21]:
v = c[0, 1]
v

0.598138355847687

- 範囲指定抽出  
  - 2～3行目  
  - 2～4列目  


In [22]:
v = c[1:3, 1:4]

v

array([[0.43686416, 0.1717366 , 0.80077854],
       [0.42792329, 0.20031192, 0.96697972]])


---

### 配列を更新  


In [23]:
c[1:3, 1:4] = 0

c

array([[0.81057894, 0.59813836, 0.27213179, 0.45439839, 0.49423025],
       [0.17949538, 0.        , 0.        , 0.        , 0.64910179],
       [0.60140224, 0.        , 0.        , 0.        , 0.41086111],
       [0.32167407, 0.76325084, 0.55984019, 0.82790769, 0.6770371 ]])


---

### 計算  

テストデータ  

In [24]:
x = np.random.randint(0, 10, (8, 10))

x

array([[7, 3, 2, 6, 1, 7, 6, 6, 9, 9],
       [5, 3, 5, 9, 9, 0, 4, 4, 3, 0],
       [5, 2, 2, 9, 9, 7, 8, 3, 2, 4],
       [9, 4, 2, 9, 3, 9, 0, 0, 0, 5],
       [5, 7, 2, 1, 9, 1, 0, 1, 1, 1],
       [4, 3, 2, 9, 3, 6, 0, 5, 6, 0],
       [5, 2, 3, 8, 0, 6, 9, 8, 1, 7],
       [3, 4, 0, 8, 8, 6, 7, 5, 1, 4]])

- 平均  
  - axis：平均を計算したい軸(何次元目に沿って計算するか)  

In [25]:
x.mean()

4.3875

In [26]:
x.mean(axis=1)

array([5.6, 4.2, 5.1, 4.1, 2.8, 3.8, 4.9, 4.6])

In [27]:
np.array([
    x[0, :].mean(),
    x[1, :].mean(),
    x[2, :].mean(),
    x[3, :].mean(),
    x[4, :].mean(),
    x[5, :].mean(),
    x[6, :].mean(),
    x[7, :].mean(),
])

array([5.6, 4.2, 5.1, 4.1, 2.8, 3.8, 4.9, 4.6])

- 最大・最小  

In [28]:
x.max()

9

In [29]:
x.min()

0

テストデータ  
- 説明変数 X：平均気温(抜粋)  
- 被説明変数 Y：支出額(抜粋)  

In [30]:
X = np.array([
        9.1, 11.2, 12.3, 18.9, 22.2, 26. , 30.9, 31.2, 28.8, 23. , 18.3, 11.1
    ])

Y = np.array([
        463.,  360.,  380.,  584.,  763.,  886., 1168., 1325.,  847., 542.,  441.,  499.
    ])


- 平均  

In [31]:
X.mean(), Y.mean()

(20.250000000000004, 688.1666666666666)

- 中央値  

In [32]:
np.median(X), np.median(Y)

(20.549999999999997, 563.0)

- 四分位数  

In [33]:
np.percentile(X, 25), np.percentile(X, 50), np.percentile(X, 75)

(12.025, 20.549999999999997, 26.7)

In [34]:
np.percentile(Y, 25), np.percentile(Y, 50), np.percentile(Y, 75)

(457.5, 563.0, 856.75)

- 標準偏差  

In [35]:
X.std(), Y.std()

(7.68998266144556, 301.13862625412605)

- 分散  
  - `ddof=1`：一部のデータから全体のデータの分散を計算する不偏分散を算出  

In [36]:
X.var(ddof=1), Y.var(ddof=1)

(64.51181818181819, 98928.51515151514)

- ルート(√, 平方根)  
  - 分散で二乗された数字を戻してみると、標準偏差と差が出た  

In [37]:
np.sqrt(X.var(ddof=1)), np.sqrt(Y.var(ddof=1))

(8.03192493626641, 314.5290370562234)

- 共分散  
  結果は以下のように格納される  
  - 1行1列目(0,0)：Xの分散 → 上記var計算結果と同じ  
  - 2行2列目(1,1)：Yの分散 → 上記var計算結果と同じ  
  - (0,1)と(1,0)：XとYの共分散、どちらも同じ値(どちらかを取得すれば良い)  

In [38]:
v = np.cov(X,Y)
v

array([[6.45118182e+01, 2.23700000e+03],
       [2.23700000e+03, 9.89285152e+04]])

In [39]:
xvar = v[0,0]
yvar = v[1,1]
xvar, yvar

(64.51181818181819, 98928.51515151514)

In [40]:
sxy = v[0, 1]
sxy

2237.0000000000005

In [41]:
sxy = v[1, 0]
sxy

2237.0000000000005

- 最小二乗法による回帰係数の計算  
  - 回帰直線：Y = aX + b  
  - 傾き：a = XYの共分散 / x の分散  
  - 切片：b = Yの平均 - (a * Xの平均)  

In [42]:
a = sxy / xvar
xmean = X.mean()
ymean = Y.mean()
b = ymean - a * xmean
a, b

(34.67581697504334, -14.018627077961128)


---

### 配列のまま計算  

要素毎に計算し、結果を配列で返却  

- 例：各行で`(y - a * x - b)^2`を計算、平均を算出  

In [43]:
D = np.array([[2, 4],
              [3, 6], 
              [4, 8] 
             ])
a = 3
b = 4

v = (D[:,1] - a * D[:,0] - b) ** 2
print('v = ' + str(v))
print('v.mean() = ' + str(v.mean()))


v = [36 49 64]
v.mean() = 49.666666666666664



---
