# Numpy  

## Numpyとは  

ベクトル（１次元配列）や行列（２次元配列）など、多次元配列の計算を高速に処理するライブラリ  
機械学習やディープラーニングを行う場合は必ず利用される 


## 参考  
- Chainer[「8.Numpy入門」](https://tutorials.chainer.org/ja/08_Introduction_to_NumPy.html)  
- Pythonで学ぶ入門計量経済学[「単回帰分析」](https://py4etrics.github.io/8_Simple_Regression.html)  
- Sci-pursuit[「最小二乗法の意味と計算方法 - 回帰直線の求め方」](https://sci-pursuit.com/math/statistics/least-square-method.html)  


In [None]:
!pip install japanize-matplotlib

In [1]:
import numpy as np



---

## その前に、Pythonのリストを復習  

- リストを作成  


In [2]:
#一次元
l = ['apple', 100, 0.123]
print(l)

['apple', 100, 0.123]


In [3]:
#二次元
l_2d = [[0, 1, 2], [3, 4, 5], [6, 7, 8]]
print(l_2d)

[[0, 1, 2], [3, 4, 5], [6, 7, 8]]


- リストを取得  

In [4]:
print(l[1])
print(l_2d[1])
print(l_2d[1][1])

100
[3, 4, 5]
4


- スライス：リストを範囲指定で取得  
  - 選択範囲の開始位置startと終了位置stopを、`[start:stop]`のように書く  
    `start <= x < stop`の範囲が選択される。
  - 開始位置startを省略した場合：最初から選択される  
  - 終了位置stopを省略した場合：最後までが選択される  
  - 両方とも省略した場合：すべての値が選択される  
  - 位置を負の値で指定した場合：末尾(-1)からの位置となる
  - 増分stepも指定可能、`[start:stop:step]`のように書く  


In [5]:
print(l[:])
print(l[:2])
print(l_2d[0][:1])
print(l_2d[0][1:])
print(l_2d[0][:])
print(l[-1:])
print(l[-2:])
print(l_2d[0][0::2])

['apple', 100, 0.123]
['apple', 100]
[0]
[1, 2]
[0, 1, 2]
[0.123]
[100, 0.123]
[0, 2]


In [6]:
D = np.array([[1, 3], [3, 6], [6, 5], [8, 7]])
v = D[:,1]
print(v)

[3 6 5 7]




---

## Numpy  

### 基礎  

- array：データクラス(=ndarray)を作成  


In [7]:
a = np.array([1, 2, 3])
#a = np.array([1, 2])

print(str(a))
print(type(a))

[1 2 3]
<class 'numpy.ndarray'>


- shape：要素数を返却  

In [8]:
a.shape

(3,)

- ndim：次元数を返却  

In [9]:
a.ndim

1

- size：要素数  

In [10]:
a.size

3

- 二次元配列の場合  

In [11]:
b = np.array(
    [[1, 2, 3],
     [4, 5, 6]]
)

print('b = ' + str(b))
print('shape = ' + str(b.shape))
print('ndim = ' + str(b.ndim))
print('size = ' + str(b.size))

b = [[1 2 3]
 [4 5 6]]
shape = (2, 3)
ndim = 2
size = 6


### データ型  


- 整数  


In [12]:
x = np.array([1, 2, 3])

x.dtype

dtype('int64')

- 浮動小数点  

In [13]:
x = np.array([1., 2., 3.])

x.dtype

dtype('float64')

### 値を生成  

- `np.arange(end)`  
  0から1つずつカウント、`end`の手前で終了(endは含まれない)  
- `np.arange(start, end)`  
  `start`から1つずつカウント、`end`の手前で終了  
- `np.arange(start, end, i)`  
  `start`から`i`ずつカウント、`end`の手前で終了  


In [14]:
np.arange(3), np.arange(0,3), np.arange(0,10,2)

(array([0, 1, 2]), array([0, 1, 2]), array([0, 2, 4, 6, 8]))

- 範囲内で複数の値を生成  
  `np.linspace(最小値, 最大値, 要素数)`


In [15]:
print(np.linspace(0, 10, 5))
print(np.linspace(0, 10, 4))
print(np.linspace(0, 6, 13))
print(np.linspace(0, 1, 21))

[ 0.   2.5  5.   7.5 10. ]
[ 0.          3.33333333  6.66666667 10.        ]
[0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5 5.  5.5 6. ]
[0.   0.05 0.1  0.15 0.2  0.25 0.3  0.35 0.4  0.45 0.5  0.55 0.6  0.65
 0.7  0.75 0.8  0.85 0.9  0.95 1.  ]


- 0.0以上、1.0未満の乱数を生成  
  引数(縦：行, 横：列)を指定することで、行×列数分の配列を生成  


In [16]:
c = np.random.rand(4, 5) 
c

array([[0.72571516, 0.82181129, 0.24373787, 0.40059714, 0.64353413],
       [0.82358874, 0.74376869, 0.00924171, 0.65619891, 0.13326198],
       [0.27367909, 0.33471296, 0.46024984, 0.21569677, 0.26470804],
       [0.8590214 , 0.76745097, 0.18781106, 0.20446312, 0.19984948]])

### 配列から抽出  
- 1つ抽出  

In [17]:
v = c[0, 1]
v

0.8218112860846645

- 範囲指定抽出  
  - 2～3行目  
  - 2～4列目  


In [18]:
v = c[1:3, 1:4]

v

array([[0.74376869, 0.00924171, 0.65619891],
       [0.33471296, 0.46024984, 0.21569677]])

### 配列を更新  


In [19]:
c[1:3, 1:4] = 0

c

array([[0.72571516, 0.82181129, 0.24373787, 0.40059714, 0.64353413],
       [0.82358874, 0.        , 0.        , 0.        , 0.13326198],
       [0.27367909, 0.        , 0.        , 0.        , 0.26470804],
       [0.8590214 , 0.76745097, 0.18781106, 0.20446312, 0.19984948]])

### 計算  

テストデータ  

In [20]:
x = np.random.randint(0, 10, (8, 10))

x

array([[6, 6, 2, 5, 3, 8, 3, 0, 0, 9],
       [6, 3, 5, 5, 6, 7, 4, 2, 0, 1],
       [1, 6, 8, 8, 5, 5, 5, 4, 6, 2],
       [5, 3, 9, 9, 8, 2, 0, 1, 5, 4],
       [7, 9, 1, 3, 8, 7, 1, 0, 0, 0],
       [4, 2, 1, 3, 4, 7, 7, 8, 9, 3],
       [9, 1, 0, 9, 5, 9, 2, 7, 7, 1],
       [1, 6, 2, 2, 7, 9, 6, 6, 7, 3]])

- 平均  
  - axis：平均を計算したい軸(何次元目に沿って計算するか)  

In [21]:
x.mean()

4.5

In [22]:
x.mean(axis=1)

array([4.2, 3.9, 5. , 4.6, 3.6, 4.8, 5. , 4.9])

In [23]:
np.array([
    x[0, :].mean(),
    x[1, :].mean(),
    x[2, :].mean(),
    x[3, :].mean(),
    x[4, :].mean(),
    x[5, :].mean(),
    x[6, :].mean(),
    x[7, :].mean(),
])

array([4.2, 3.9, 5. , 4.6, 3.6, 4.8, 5. , 4.9])

- 最大・最小  

In [24]:
x.max()

9

In [25]:
x.min()

0

テストデータ  
- 説明変数 X：平均気温(抜粋)  
- 被説明変数 Y：支出額(抜粋)  

In [26]:
X = np.array([
        9.1, 11.2, 12.3, 18.9, 22.2, 26. , 30.9, 31.2, 28.8, 23. , 18.3, 11.1
    ])

Y = np.array([
        463.,  360.,  380.,  584.,  763.,  886., 1168., 1325.,  847., 542.,  441.,  499.
    ])


- 平均  

In [27]:
X.mean(), Y.mean()

(20.250000000000004, 688.1666666666666)

- 中央値  

In [28]:
np.median(X), np.median(Y)

(20.549999999999997, 563.0)

- 四分位数  

In [29]:
np.percentile(X, 25), np.percentile(X, 50), np.percentile(X, 75)

(12.025, 20.549999999999997, 26.7)

In [30]:
np.percentile(Y, 25), np.percentile(Y, 50), np.percentile(Y, 75)

(457.5, 563.0, 856.75)

- 標準偏差  

In [31]:
X.std(), Y.std()

(7.68998266144556, 301.13862625412605)

- 分散  
  - `ddof=1`：一部のデータから全体のデータの分散を計算する不偏分散を算出  

In [32]:
X.var(ddof=1), Y.var(ddof=1)

(64.51181818181819, 98928.51515151514)

- ルート(√, 平方根)  
  - 分散で二乗された数字を戻してみると、標準偏差と差が出た  

In [33]:
np.sqrt(X.var(ddof=1)), np.sqrt(Y.var(ddof=1))

(8.03192493626641, 314.5290370562234)

- 共分散  
  結果は以下のように格納される  
  - 1行1列目(0,0)：Xの分散 → 上記var計算結果と同じ  
  - 2行2列目(1,1)：Yの分散 → 上記var計算結果と同じ  
  - (0,1)と(1,0)：XとYの共分散、どちらも同じ値(どちらかを取得すれば良い)  

In [34]:
v = np.cov(X,Y)
v

array([[6.45118182e+01, 2.23700000e+03],
       [2.23700000e+03, 9.89285152e+04]])

In [35]:
xvar = v[0,0]
yvar = v[1,1]
xvar, yvar

(64.51181818181819, 98928.51515151514)

In [36]:
sxy = v[0, 1]
sxy

2237.0000000000005

In [37]:
sxy = v[1, 0]
sxy

2237.0000000000005

- 最小二乗法による回帰係数の計算  
  - 回帰直線：Y = aX + b  
  - 傾き：a = XYの共分散 / x の分散  
  - 切片：b = Yの平均 - (a * Xの平均)  

In [38]:
a = sxy / xvar
xmean = X.mean()
ymean = Y.mean()
b = ymean - a * xmean
a, b

(34.67581697504334, -14.018627077961128)


---
