# Day01
## Iris Dataset
Iris Datasetヤマメの花の特徴からヤマメの種類を推測するタスクに用いられるデータセットである。

今回は `scilit-learn` に内蔵されている Iris dataset を利用する。

`scilit-learn` から `dataset` をインポートしてその中の `load-iris()` 関数で Iris dataset を取得する。

- `.data` で特徴量にアクセスでき、特徴量は `ndarray` 型の二次元配列で格納されていることがわかる。
- `.target` でラベルにアクセスでき、は `ndarray` 型の1次元配列で各種類に対応する数字が割り当てられている。
- `.feature_names` で特徴量の名前にアクセスできる。これも `ndarray` 型

In [1]:
# データセットを取得して中身(5つまで)と方を表示
from sklearn import datasets

iris = datasets.load_iris()

print('特徴量:\n', iris.data[:5], type(iris.data))
print('ラベル:\n',iris.target[:5], type(iris.data))
print('特徴量の名前:\n', iris.feature_names, type(iris.data))

特徴量:
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]] <class 'numpy.ndarray'>
ラベル:
 [0 0 0 0 0] <class 'numpy.ndarray'>
特徴量の名前:
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)'] <class 'numpy.ndarray'>


今回は触れないがpandasのDataframeを利用すると、簡単にデータセットを処理できる。
試しにIris datasetをDataframeに変換して行事してみる。

In [2]:
# pandas Dataframe に変換して表示
import pandas as pd

df_x = pd.DataFrame(iris.data, columns=iris.feature_names)
df_y = pd.DataFrame(iris.target, columns=['label'])

df = pd.concat([df_x, df_y], axis=1)

df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


これ以降では二値分類の問題を考えるため、Iris-Virginica(label:2)を扱わないものとする。  
よって、labelが2である行をすべて削除する。(厳密にはラベルが0,1のところを切り出す)

In [3]:
# ラベルが2の行をすべて削除
iris.data = iris.data[:100]
iris.target = iris.target[:100]

# 表示
df_x = pd.DataFrame(iris.data, columns=iris.feature_names)
df_y = pd.DataFrame(iris.target, columns=['label'])
df = pd.concat([df_x, df_y], axis=1)
df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
95,5.7,3.0,4.2,1.2,1
96,5.7,2.9,4.2,1.3,1
97,6.2,2.9,4.3,1.3,1
98,5.1,2.5,3.0,1.1,1


## 標準化
$x_{j}^{'} = \frac{x_j - \bar{x} _j}{\sigma_j}$  
上の式を利用して平均0、分散1になるようにスケーリングを行う。

In [4]:
import numpy as np

# 標準化
avg = np.average(iris.data)
std = np.std(iris.data)

iris.data = (iris.data-avg)/std

# 片眼後の表を表示
df_x = pd.DataFrame(iris.data, columns=iris.feature_names)
df_y = pd.DataFrame(iris.target, columns=['label'])
df = pd.concat([df_x, df_y], axis=1)
display(df)

# 変換後の平均と分散を表示
avg = np.average(iris.data)
std = np.std(iris.data)
print('平均', avg)
print('分散', std)

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,1.091322,0.237789,-0.882473,-1.522623,0
1,0.984630,-0.028940,-0.882473,-1.522623,0
2,0.877939,0.077752,-0.935819,-1.522623,0
3,0.824593,0.024406,-0.829127,-1.522623,0
4,1.037976,0.291135,-0.882473,-1.522623,0
...,...,...,...,...,...
95,1.411397,-0.028940,0.611210,-0.989165,1
96,1.411397,-0.082286,0.611210,-0.935819,1
97,1.678126,-0.082286,0.664555,-0.935819,1
98,1.091322,-0.295669,-0.028940,-1.042510,1


平均 -8.881784197001253e-17
分散 0.9999999999999999


## パーセプトロンの実装
パーセプトロンは内部情報(重みなど)を保持するアルゴリズムなので、
クラスを用いて実装を行う。メソッドの名前は `scikit-learn` の命名規則と統一した。

### コンストラクタ
パーセプトロンインスタンスの生成時に、入力される特徴量の次元$n$に対して重みベクトル$\bm{w}$を作成し、小さな乱数で初期化する。 
ここで、重みの次元が$w \in \mathbb{R} ^{n+1}$ なのはバイアスユニットの関係で、入力$\bm{x}$が$[ 1, x_1, x_2, \cdots, x_n ]$
であるためである。

### 決定関数
総入力$z$を受け取り、$z$が0よりも小さければ1を返し、それ以外なら0を返す関数。  
$
threshhold(z) = 
    \begin{aligned}
        & \left\{ \,
            \begin{aligned}
                &  1 & \quad &(z \geq 0) \\
                & -1 & \quad &(z < 0)
            \end{aligned}
        \right.
    \end{aligned}
$

### 損失関数
SSEを計算する関数。なくても良いが、損失が下がる様子を見るために実装。  
$SSE = \frac{1}{2}\sum_{i}^{}(y^{(i)} - \phi(z^{(i)}))^2$

### 勾配関数
次の式に基づいて、損失関数$J$の勾配$\nabla J$を計算する。結果は重みと同じ次元のベクトル。  
$\frac{\partial J}{\partial w_j}=-\sum_{n}^{}(y^{(i)}-\phi(z^{(i)})) x_{j}^{(i)}$  

### 学習
訓練データ、訓練ラベルを受け取って学習を行う。デフォルトでepoch数が5、学習率$\eta$が0.0001に設定されている。  
ます、特徴量$\bm{X}$をバイアスユニットに対応するために、次のように整形する。 

$
\begin{bmatrix}
    x_{1}^{(1)} & x_{2}^{(1)} & x_{3}^{(1)} & x_{4}^{(1)} \\
    x_{1}^{(2)} & x_{2}^{(2)} & x_{3}^{(2)} & x_{4}^{(2)} \\
    \vdots & \vdots & \vdots & \vdots \\
    x_{1}^{(N)} & x_{2}^{(N)} & x_{3}^{(N)} & x_{4}^{(N)} \\
\end{bmatrix}
\Rightarrow 
\begin{bmatrix}
    1 & x_{1}^{(1)} & x_{2}^{(1)} & x_{3}^{(1)} & x_{4}^{(1)} \\
    1 & x_{1}^{(2)} & x_{2}^{(2)} & x_{3}^{(2)} & x_{4}^{(2)} \\
    \vdots & \vdots & \vdots & \vdots & \vdots \\
    1 & x_{1}^{(N)} & x_{2}^{(N)} & x_{3}^{(N)} & x_{4}^{(N)} \\
\end{bmatrix}
$

次に、以下の処理を `epoches`回繰り返す。
1. データセット内のすべてのデータに対して、総入力、出力を計算する
1. すべてのデータに対して、総入力、出力を計算が完了すると、`nablaJ`関数を利用して、勾配を計算する
1. 計算された勾配を使って重みを更新。  
$\Delta \bm{w} = - \eta \nabla J(\bm{w})$


### 予測
受け取る複数のデータを受け取ることを前提としている。  
学習と同様に、バイアスユニットに対応するため、入力特徴量$\bm{X}$を整形する。  
入力されたデータそれぞれに対して、出力を計算し結果を返す。(結果的には予測したクラスラベルのリストが返される。)

In [5]:
class Perceptron:
    
    # コンストラクタ
    def __init__(self, input_dim: int) -> None:
        #1
        self.w = np.random.randn(input_dim+1) * 0.0001
        
    # 決定関数
    def threshhold(self, z: float) -> int:
        return 1 if z >= 0 else 0
    
    # 損失関数
    def J(self) -> float:
        return 0.5 * np.sum((self.y-self.y_pred)**2)
    
    # 損失関数の勾配
    def nablaJ(self) -> np.ndarray:
        return - self.x.T @ (self.y-self.y_pred)
    
    #　学習   
    def fit(self, X: np.ndarray, Y: np.ndarray, epoches: int=5, eta: float=0.0001) -> None:
        
        # xを整形して、アトリビュートにする
        self.x = np.hstack((np.ones((len(X), 1)), X))
        self.y = Y
        
        # epochの回数、勾配を計算して重みを更新
        for epoch in range(epoches):
        
            # i番目のデータの予測が入るリスト
            self.y_pred = []

            # すべてのデータに対して、総入力、出力を計算
            for xi in self.x:
                z = self.w.T @ xi
                self.y_pred.append(self.threshhold(z))
            
            # 勾配を計算して更新
            delta_w = -eta * self.nablaJ()
            self.w += delta_w
            
            # 途中経過を出力
            print('epoch: {:>2} | loss: {:.3f}'.format(epoch+1, self.J()))
        
    # 推論
    def predict(self, x: np.ndarray) -> np.ndarray:
        x = np.hstack((np.ones((len(x), 1)), x))
        return [self.threshhold(self.w.T @ xi) for xi in x]


## 学習&推論

分類タスクの目的は**未知の**データに対して正しい予測を行うことなので、学習用と推論用にデータを分割する。
分割には `scikit-learn` の `train_test_split` 関数を利用して学習8、推論2の割合で分割する。
  
学習がうまく行けば正確に予測できる。

In [6]:
from sklearn.model_selection import train_test_split

# データを学習用と推論用に分割
X, y = iris.data, iris.target
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, stratify=y)

# 入力の次元数を渡してパーセプトロンのインスタンスを生成
model = Perceptron(4)

# 学習
model.fit(X_train, y_train)

# 推論
pred = model.predict(X_test)

# 推論結果から正答率を出力してみる。
print('accuracy:', 100*np.sum(pred==y_test)/len(y_test), '%')

epoch:  1 | loss: 19.000
epoch:  2 | loss: 18.500
epoch:  3 | loss: 0.000
epoch:  4 | loss: 0.000
epoch:  5 | loss: 0.000
accuracy: 100.0 %
