<a href="https://colab.research.google.com/github/ymuto0302/RW2024_Re/blob/main/perceptron.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 線形モデル(パーセプトロン)

In [None]:
'''
パーセプトロン
'''
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
from sklearn.model_selection import train_test_split

# データの読み込み
iris = load_iris()

# 特徴量とラベルの分離
# "sepal length" と "petal length" の列のみを取り出す
X = iris.data[:, [0,2]]
y = iris.target

# モデルの構築
model = Perceptron()

# 学習データとテストデータに分割 (学習:テスト=7:3)
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.3,
                                                    stratify=y)

# モデルの学習
model.fit(X_train, y_train)

# 予測
predictions = model.predict(X_test)

# 評価
print("accuracy:", np.mean(predictions == y_test))

# 決定境界の描画
from sklearn.inspection import DecisionBoundaryDisplay
import matplotlib.pyplot as plt
fig, ax = plt.subplots() # ax を取得するため subplots を使う
DecisionBoundaryDisplay.from_estimator(model, X_test,
                                       alpha=0.4, ax=ax) # 決定境界の描画
ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, edgecolor='black') # テストサンプルを描画

---
## step-by-step によるコードの解説

### ライブラリのインポート
冒頭の import 文は，この後の処理に必要なモジュールの読み込みを行う機能を提供する。

In [None]:
import numpy as np
from sklearn.datasets import load_iris
from sklearn.linear_model import Perceptron
from sklearn.model_selection import train_test_split

- `import numpy as np` : numpy を np という名前で読み込む。終盤の平均の計算に用いる。
- `from sklearn.datasets import load_iris` : Iris データセットを読み込むための import 文
- `from sklearn.linear_model import Perceptron` : 識別器であるパーセプトロンを利用するための import 文
- `from sklearn.model_selection import train_test_split` : データセットを学習用・テスト用に分割する train_test_split を読み込むための import 文

### データの読み込み ＆ 特徴量とラベルの分離

In [None]:
# データの読み込み
iris = load_iris()

# print(iris.data.shape) # (150,4)
# print(iris.target.shape) # (150,)

# 特徴量とラベルの分離
# "sepal length" と "petal length" の列のみを取り出す
X = iris.data[:, [0,2]]
y = iris.target

`load_iris()` を用いて Iris データセットを読み込む。

変数 `iris.data` に４次元データが (行,列)=(サンプル数, 特徴量) の次元で収まっている。ここでは "sepal length" と "petal length" の列のみを取り出したいから，行は「全て」を表すコロンを指定し，列に「0番目と 2番目のインデックスのみ」という指定を行う。

変数 `iris.target` にはラベル番号が１次元配列として格納されている。

また，scikit-learn の流儀に従い，特徴を変数 `X` へ，ラベルを変数 `y` へ代入している

### モデルの定義・学習・予測
下記がパーセプトロンの学習および学習済みモデルを用いた予測を行う，本コードの核心の部分である。

In [None]:
# モデルの構築
model = Perceptron()

# 学習データとテストデータに分割 (学習:テスト=7:3)
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size=0.3,
                                                    stratify=y)
# モデルの学習
model.fit(X_train, y_train)

# 予測
predictions = model.predict(X_test)

- `model = Perceptron()` : パーセプトロンを定義(インスタンス化)する。実際には `penalty` や `alpha` など多くのパラメータがあるが，全てデフォルト値とする。
- `train_test_split(X, y, test_size=0.3, stratify=y)` : データセットを学習用データとテスト用データに分割するための関数である。第１引数の `X` は特徴量（本コードの場合，２次元データ）を，第２引数 `y` はラベルである。その他の引数の意味は以下のとおり：
    - `test_size=0.3` : 学習用データとテスト用データの比率を 7:3 として分割する。
    - `stratify=y` : ラベル毎の偏りが生じないよう，変数 `y` に含まれる値の分布に応じた分割を行う。
    
    `train_test_split()` の返し値は「学習データの特徴量, テストデータの特徴量, 学習データのラベル, テストデータのラベル」の順で返される。
    
- `model.fit()` : scikit-learn では，モデルの学習に `fit()` 関数を用いる。与えるパラメータは学習データの特徴量とラベルである。
- `mode.predict()` : テストデータの特徴値を渡し，各特徴がいずれのクラスに属するかを予測させる。scikit-learn では予測（または分類）に `predict()` 関数を用いる。`predict()` 関数の返し値は，予測値の格納された配列である。

### モデルの評価
変数 predictions に予測されたラベル値が収められている。これを正解ラベル y_test と比較し，正解した値の割合を求める。

In [None]:
# 評価
print("accuracy:", np.mean(predictions == y_test))

### (おまけ) 決定境界の描画
scikit-learn には決定境界を可視化するクラスとして `DecisionBoundaryDisplay` が存在する。このコードの解説は，機械学習やデータサイエンスの学習の本質から外れるため，その解説を省略する。

In [None]:
# 決定境界の描画
from sklearn.inspection import DecisionBoundaryDisplay
import matplotlib.pyplot as plt
fig, ax = plt.subplots() # ax を取得するため subplots を使う
DecisionBoundaryDisplay.from_estimator(model, X_test,
                                       alpha=0.4, ax=ax) # 決定境界の描画
ax.scatter(X_test[:, 0], X_test[:, 1], c=y_test, edgecolor='black') # テストサンプルを描画