<a href="https://colab.research.google.com/github/chonholee/tutorial/blob/main/bigdata/BigDataII_10_learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from google.colab import drive
drive.mount('/content/drive')

%cd /content/drive/MyDrive/XXX

# モデルの学習

## 10.0 事前準備

In [None]:
# 必要ライブラリのインストール

!pip install japanize_matplotlib | tail -n 1
!pip install torchviz | tail -n 1

In [None]:
# 必要ライブラリのインポート

%matplotlib inline
import numpy as np
import matplotlib.pyplot as plt
import japanize_matplotlib
from IPython.display import display

In [None]:
# PyTorch関連ライブラリ
import torch
from torchviz import make_dot

In [None]:
# デフォルトフォントサイズ変更
plt.rcParams['font.size'] = 14

# デフォルトグラフサイズ変更
plt.rcParams['figure.figsize'] = (6,6)

# デフォルトで方眼表示ON
plt.rcParams['axes.grid'] = True

# numpyの浮動小数点の表示精度
np.set_printoptions(suppress=True, precision=4)

In [None]:
# warning表示off
import warnings
warnings.simplefilter('ignore')

## 10.1 勾配降下法の実装例

$L = 3u^2+3v^2-uv+7u-7v+10$

$\dfrac{dL}{du} = 6u-v+7$

$\dfrac{dL}{dv} = 6v-u+7$


In [None]:
def L(u, v):
    return

def Lu(u, v):
    return

def Lv(u, v):
    return

u = np.linspace(-5, 5, 501)
v = np.linspace(-5, 5, 501)

U, V = np.meshgrid(u, v)    # uとvの座標点の全組み合わせを作成

Z = L(U, V)                 # 全組み合わせに対する値

**勾配降下法のシミュレーション**

パラメータの修正　$w_{i,j} = w_{i.j} - \alpha \dfrac{dL}{dw_{i,j}}$

In [None]:
W = np.array([4.0, 4.0])
W1 = [W[0]] # リスト
W2 = [W[1]] # リスト
N = 21
alpha = 0.05
for i in range(N):
    W = here
    W1.append(W[0])
    W2.append(W[1])

In [None]:
L(W[0], W[1])  # <--- N回学習させたときのLの値（最小値かどうかはまだわからない）

In [None]:
W #その時のパラメータの値

In [None]:
n_loop=11

WW1 = np.array(W1[:n_loop])
WW2 = np.array(W2[:n_loop])
ZZ = L(WW1, WW2)
fig = plt.figure(figsize=(8,8))
ax = plt.axes(projection='3d')
ax.set_zlim(0,250)
ax.set_xlabel('W')
ax.set_ylabel('B')
ax.set_zlabel('loss')
ax.view_init(50, 240)
ax.xaxis._axinfo["grid"]['linewidth'] = 2.
ax.yaxis._axinfo["grid"]['linewidth'] = 2.
ax.zaxis._axinfo["grid"]['linewidth'] = 2.
ax.contour3D(U, V, Z, 100, cmap='Blues', alpha=0.7)
ax.plot3D(WW1, WW2, ZZ, 'o-', c='k', alpha=1, markersize=7)
plt.show()

# 学習のステップ

データ前処理

5人の人の身長と体重のデータを使う。  
1次関数で身長から体重を予測する場合、最適な直線を求めることが目的。

In [None]:
# サンプルデータの宣言
sampleData1 = np.array([
    [166, 58.7],
    [176.0, 75.7],
    [171.0, 62.1],
    [173.0, 70.4],
    [169.0,60.1]
])
print(sampleData1)

In [None]:
# 機械学習モデルで扱うため、身長だけを抜き出した変数xと
# 体重だけを抜き出した変数yをセットする

x = sampleData1[:, 0]
y = sampleData1[:, 1]
print(x)
print(y)

In [None]:
# 散布図表示で状況の確認

plt.scatter(x,  y,  c='k',  s=50)
plt.xlabel('$x$: 身長(cm) ')
plt.ylabel('$y$: 体重(kg)')
plt.title('身長と体重の関係')
plt.show()

### 座標系の変換
機械学習モデルでは、データは0に近い値を持つことが望ましい。  
そこで、x, y ともに平均値が0になるように平行移動し、新しい座標系をX, Yとする。

In [None]:
X = x - x.mean()
Y = y - y.mean()

In [None]:
# 散布図表示で結果の確認

plt.scatter(X,  Y,  c='k',  s=50)
plt.xlabel('$X$')
plt.ylabel('$Y$')
plt.title('加工後の身長と体重の関係')
plt.show()

## 10.2 予測計算

In [None]:
# XとYをテンソル変数化する

X = torch.tensor(X).float()
Y = torch.tensor(Y).float()

In [None]:
# 結果確認

print(X)
print(Y)

In [None]:
# 重み変数の定義
# WとBは勾配計算をするので、requires_grad=Trueとする

W = torch.tensor(1.0, requires_grad=True).float()
B = torch.tensor(1.0, requires_grad=True).float()
print(W, B)

In [None]:
# 身長と体重の関係式を求める
# 予測関数は一次関数（線形回帰）

def pred(X):
    f = W * X + B
    return f

In [None]:
# 予測値の計算

Yp =  pred(X)

In [None]:
# 結果標示

print(Yp)

In [None]:
# 予測値の計算グラフ可視化

params = {'W': W, 'B': B}
g = make_dot(Yp, params=params)
display(g)

## 10.3 損失計算

In [None]:
# 損失関数は誤差二乗平均

def mse(Yp, Y):
    loss = ((Yp - Y) ** 2).mean()
    return loss

In [None]:
# 損失計算
# 予測値 Yp と 真値 Y

here

In [None]:
# 結果標示

print(loss)

In [None]:
# 損失の計算グラフ可視化

params = {'W': W, 'B': B}
g = make_dot(loss, params=params)
display(g)

## 10.4 勾配計算

In [None]:
# 勾配計算

here

In [None]:
# 勾配値確認

print(W.grad)
print(B.grad)

## 10.5 パラメータ修正

In [None]:
# 学習率の定義

lr = 0.001

In [None]:
#  勾配を元にパラメータ修正

W = here
B = here

WとBは一度計算済みなので、この状態で値の更新ができない  
次の書き方にする必要がある

In [None]:
# 勾配を元にパラメータ修正
# with torch.no_grad() を付ける必要がある

with torch.no_grad():
    W = here
    B = here

    # 計算済みの勾配値をリセットする
    W.grad.zero_()
    B.grad.zero_()

In [None]:
# パラメータと勾配値の確認

print(W)
print(B)
print(W.grad)
print(B.grad)

元の値はどちらも1.0だったので、Wは微少量増加、Bは微少量減少したことがわかる。  
この計算を繰り返すことで、最適なWとBを求めるのが勾配降下法となる。

## 10.6 繰り返し計算

In [None]:
# 初期化

# WとBを変数として扱う
W = torch.tensor(1.0, requires_grad=True).float()
B = torch.tensor(1.0, requires_grad=True).float()

# 繰り返し回数
num_epochs = 500

# 学習率
lr = 0.001

# 記録用配列初期化
history = np.zeros((0, 2))

In [None]:
# ループ処理

for epoch in range(num_epochs):

    # 予測計算
    here

    # 損失計算
    here

    # 勾配計算
    here

    with torch.no_grad():
        # パラメータ修正
        here

        # 勾配値の初期化
        W.grad.zero_()
        B.grad.zero_()

    # 損失の記録
    if (epoch %10 == 0):
        item = np.array([epoch, loss.item()])
        history = np.vstack((history, item))
        print(f'epoch = {epoch}  loss = {loss:.4f}')


## 10.7 結果確認

In [None]:
# パラメータの最終値
print('W = ', W.data.numpy())
print('B = ', B.data.numpy())

#損失の確認
print(f'初期状態: 損失:{history[0,1]:.4f}')
print(f'最終状態: 損失:{history[-1,1]:.4f}')

In [None]:
# 学習曲線の表示 (損失)

plt.plot(history[:,0], history[:,1], 'b')
plt.xlabel('繰り返し回数')
plt.ylabel('損失')
plt.title('学習曲線(損失)')
plt.show()

### 散布図に回帰直線を重ね書きする

In [None]:
# xの範囲を求める(Xrange)
X_max = X.max()
X_min = X.min()
X_range = np.array((X_min, X_max))
X_range = torch.from_numpy(X_range).float()
print(X_range)

# 対応するyの予測値を求める
Y_range = pred(X_range)
print(Y_range.data)

In [None]:
# グラフ描画

plt.scatter(X,  Y,  c='k',  s=50)
plt.xlabel('$X$')
plt.ylabel('$Y$')
plt.plot(X_range.data, Y_range.data, lw=2, c='b')
plt.title('身長と体重の相関直線(加工後)')
plt.show()

### 加工前データへの回帰直線描画

In [None]:
# y座標値とx座標値の計算

x_range = X_range + x.mean()
yp_range = Y_range + y.mean()

In [None]:
# グラフ描画

plt.scatter(x,  y,  c='k',  s=50)
plt.xlabel('$x$')
plt.ylabel('$y$')
plt.plot(x_range, yp_range.data, lw=2, c='b')
plt.title('身長と体重の相関直線(加工前)')
plt.show()

## 10.8 最適化関数とstep関数の利用

In [None]:
# 初期化

# WとBを変数として扱う
W = torch.tensor(1.0, requires_grad=True).float()
B = torch.tensor(1.0, requires_grad=True).float()

# 繰り返し回数
num_epochs = 500

# 学習率
lr = 0.001

# optimizerとしてSGD(確率的勾配降下法)を指定する
import torch.optim as optim
optimizer = optim.SGD([W, B], lr=lr)

# 記録用配列初期化
history = np.zeros((0, 2))

In [None]:
# ループ処理

for epoch in range(num_epochs):

    # 予測計算
    Yp = pred(X)

    # 損失計算
    loss = mse(Yp, Y)

    # 勾配計算
    loss.backward()

    # パラメータ修正
    here

    #勾配値初期化
    here

    # 損失値の記録
    if (epoch %10 == 0):
        item = np.array([epoch, loss.item()])
        history = np.vstack((history, item))
        print(f'epoch = {epoch}  loss = {loss:.4f}')

10.8 の結果と同じか確認

In [None]:
# パラメータの最終値
print('W = ', W.data.numpy())
print('B = ', B.data.numpy())

#損失の確認
print(f'初期状態: 損失:{history[0,1]:.4f}')
print(f'最終状態: 損失:{history[-1,1]:.4f}')

In [None]:
# 学習曲線の表示 (損失)

plt.plot(history[:,0], history[:,1], 'b')
plt.xlabel('繰り返し回数')
plt.ylabel('損失')
plt.title('学習曲線(損失)')
plt.show()

10.8の結果と見比べるとまったく同じであることがわかる。  
つまり、step関数でやっていることは、次のコードと同じ。

```py3

 with torch.no_grad():
        # パラメータ修正 (フレームワークを使う場合はstep関数)
        W -= lr * W.grad
        B -= lr * B.grad
```

### 最適化関数のチューニング

momentumを追加（学習を速くする工夫）

In [None]:
# 初期化

# WとBを変数として扱う
W = torch.tensor(1.0, requires_grad=True).float()
B = torch.tensor(1.0, requires_grad=True).float()

# 繰り返し回数
num_epochs = 500

# 学習率
lr = 0.001

# optimizerとしてSGD(確率的勾配降下法)を指定する
import torch.optim as optim
optimizer = optim.SGD([W, B], lr=lr, momentum=0.9)

# 記録用配列初期化
history2 = np.zeros((0, 2))

In [None]:
# ループ処理

for epoch in range(num_epochs):

    # 予測計算
    Yp = pred(X)

    # 損失計算
    loss = mse(Yp, Y)

    # 勾配計算
    loss.backward()

    # パラメータ修正
    optimizer.step()

    #勾配値初期化
    optimizer.zero_grad()

    # 損失値の記録
    if (epoch %10 == 0):
        item = np.array([epoch, loss.item()])
        history2 = np.vstack((history2, item))
        print(f'epoch = {epoch}  loss = {loss:.4f}')


In [None]:
# 学習曲線の表示 (損失)

plt.plot(history[:,0], history[:,1], 'b', label='デフォルト設定')
plt.plot(history2[:,0], history2[:,1], 'k', label='momentum=0.9')
plt.xlabel('繰り返し回数')
plt.ylabel('損失')
plt.legend()
plt.title('学習曲線(損失)')
plt.show()

# MLPの学習

## 10.9 アヤメの種類の分類

In [None]:
import torch
from torch.autograd import Variable
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split

### データセット

iris(アヤメ)の３品種：Setosa、Versicolor、Virginicaに関する分類

<img src="https://i0.wp.com/liclog.net/wp-content/uploads/2020/12/iris-machinelearning.png?w=1275&ssl=1" width="500">


<img src="https://camo.qiitausercontent.com/2320245e32edd1aaf04e0b4e6ec7d779a892e97b/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e61702d6e6f727468656173742d312e616d617a6f6e6177732e636f6d2f302f3437363338372f30306138326330312d396130342d636438332d366539382d6430636433663632343239382e6a706567" width="500">

In [None]:
iris = datasets.load_iris()

**データの中身を見てみましょう**

[+Code] でコードセルを開いて、以下のプログラムを実行 [**Ctr + Enter**] または [**Shift + Enter**] してみてください

```
print("与えられたデータ")
print(iris.data)
print(iris.data.shape)
print("予測するデータ")
print(iris.target)
print(iris.target.shape)
print(iris.target_names)
```

150個のデータ、1つのデータにつき4つの特徴量

出力を見ると、「数値が書かれた150×4の2次元配列」と「0,1,2と書かれた150×1の1次元配列」が得られます。

また0, 1, 2はそれぞれ「setosa」,「versicolor」,「virginica」に対応していることも分かります。

In [None]:
y = np.zeros((len(iris.target), 1 + iris.target.max()), dtype=int)
y[np.arange(len(iris.target)), iris.target] = 1

X_train, X_test, y_train, y_test = here

x = Variable(torch.from_numpy(X_train).float(), requires_grad=True)
y = Variable(torch.from_numpy(y_train).float())

### MLPモデル

In [None]:
class MyModel(nn.Module):

    def __init__(self):
        super(MyModel, self).__init__()

        here

    def forward(self, x):

        here

### 学習

In [None]:
net = MyModel()

# 最適化アルゴリズムの定義
optimizer =

# 損失関数の定義
loss_func =

for i in range(500):
    optimizer.zero_grad()

    # 予測計算
    here

    # 損失計算
    here

    # 勾配計算
    here

    # パラメータ修正
    here

    if i % 10 == 0:
      print(f'epoch {i}: loss {loss.item()}')


### 評価

In [None]:
# 評価
outputs = net(Variable(torch.from_numpy(X_test).float()))
value, predicted = torch.max(outputs.data, 1)

y_predicted = predicted.numpy()
y_true = np.argmax(y_test, axis=1)
accuracy = (int)(100 * np.sum(y_predicted == y_true) / len(y_predicted))

print('accuracy: {0}%'.format(accuracy))