[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/TMDU-AI/AI-yodosha/blob/main/Chapter3/chap3.ipynb)

# **3章　さまざまな機械学習を理解しよう**

# 3-2　サポートベクターマシンを実践してみよう

**STEP0　事前準備**

コード3-2-1　利用するライブラリをインポートする

In [None]:
import numpy as np
import pandas as pd

**STEP1　データの用意**

コード3-2-2　乳がんのデータセットを読み込む

In [None]:
from sklearn.datasets import load_breast_cancer
bc = load_breast_cancer(as_frame=True)

コード3-2-3　特徴量と正解値を学習用データと検証用データに分割

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(
    bc.data, bc.target, test_size=0.3, random_state=0)

**STEP2　学習モデルの選択**

コード3-2-4　サポートベクターマシンを選択

In [None]:
from sklearn.svm import SVC
model_svm = SVC(kernel='rbf', random_state=0)

**STEP3　データを入れて学習**

コード3-2-5　学習用データを入れて学習させる

In [None]:
model_svm.fit(x_train, y_train)

**STEP4　予測を行う**

コード3-2-6　検証用データで予測を行う

In [None]:
print(model_svm.predict(x_test)) # x_testから予測した予測値yを出力
print(np.array(y_test))          # 実際の正解値y_testを出力

**STEP5　モデルの評価**

コード3-2-7　モデルの性能評価を行う

In [None]:
print(model_svm.score(x_test, y_test))

# 3-3　決定木分析を実践してみよう

**STEP0　事前準備**

コード3-3-1　利用するライブラリをインポートする

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

**STEP1　データの用意**

コード3-3-2　乳がんのデータセットを読み込む

In [None]:
from sklearn.datasets import load_breast_cancer
bc = load_breast_cancer(as_frame=True)

コード3-3-3　特徴量と正解値を学習用データと検証用データに分割

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(
    bc.data, bc.target, test_size=0.3, random_state=0)

**STEP2　学習モデルの選択**

コード3-3-4　決定木分析を選択

In [None]:
from sklearn.tree import DecisionTreeClassifier
model_tree_c = DecisionTreeClassifier(
    criterion='gini', max_depth=2,
    min_samples_split=10, random_state=0)

**STEP3　データを入れて学習**

コード3-3-5　学習用データを入れて学習させる

In [None]:
model_tree_c.fit(x_train, y_train)

**STEP4　予測を行う**

コード3-3-6　検証用データで予測を行う

In [None]:
print(model_tree_c.predict(x_test)) # x_testから予測した予測値yを出力
print(np.array(y_test))             # 実際の正解値y_testを出力

**STEP5　モデルの評価**

コード3-3-7　モデルの性能評価を行う

In [None]:
print(model_tree_c.score(x_test, y_test))

コード3-3-8　決定木の図示

In [None]:
from sklearn.tree import plot_tree
plot_tree(
    model_tree_c,
    feature_names=bc.feature_names,
    class_names=bc.target_names, filled=True)
plt.show()

コード3-3-9　変数bcのfeature_names（特徴量名）の出力

In [None]:
bc.feature_names

コード3-3-10　bc.feature_namesの配列の形状とデータ型の確認


In [None]:
print(bc.feature_names.shape)
print(type(bc.feature_names))

コード3-3-11　変数bcのtarget_names（分類名）の出力

In [None]:
bc.target_names

コード3-3-12　bc.target_namesの配列の形状とデータ型の確認

In [None]:
print(bc.target_names.shape)
print(type(bc.target_names))

# 3-4　ランダムフォレストを実践してみよう

**STEP0　事前準備**

コード3-4-1　利用するライブラリをインポートする

In [None]:
!pip install japanize-matplotlib
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib

**STEP1　データの用意**

コード3-4-2　乳がんのデータセットを読み込む

In [None]:
from sklearn.datasets import load_breast_cancer
bc = load_breast_cancer(as_frame=True)

コード3-4-3　特徴量xと正解値yを学習用データと検証用データに分割

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(
    bc.data, bc.target, test_size=0.3, random_state=0)

**STEP2　学習モデルの選択**

コード3-4-4　ランダムフォレストを選択

In [None]:
from sklearn.ensemble import RandomForestClassifier
model_forest = RandomForestClassifier(
    n_estimators=100, max_depth=3,
    max_features=5, random_state=0)

**STEP3　データを入れて学習**

コード3-4-5　学習用データを入れて学習させる

In [None]:
model_forest.fit(x_train, y_train)

**STEP4　予測を行う**

コード3-4-6　検証用データで予測を行う

In [None]:
print(model_forest.predict(x_test)) # x_testから予測した予測値yを出力
print(np.array(y_test))             # 実際の正解値y_testを出力

**STEP5　モデルの評価**

コード3-4-7　モデルの性能評価を行う

In [None]:
print(model_forest.score(x_test, y_test))

コード3-4-8　特徴量の重要度の出力

In [None]:
forest_importances = pd.DataFrame(
    model_forest.feature_importances_,
    index=bc.feature_names,
    columns=['重要度'])
forest_importances

コード3-4-9　特徴量の重要度を並べ替える

In [None]:
forest_importances.sort_values('重要度', ascending=False)

コード3-4-10　特徴量の重要度のグラフ化

In [None]:
forest_importances.plot.bar()
plt.show()

コード3-4-11　特徴量の重要度Permutation Feature Importance（PFI）の出力

In [None]:
from sklearn.inspection import permutation_importance
importance = permutation_importance(
    model_forest, x_test, y_test, n_repeats=10, random_state=0)
print(importance.importances_mean)

コード3-4-12　特徴量の重要度Permutation Feature Importance（PFI）のグラフ化

In [None]:
forest_pfi = pd.Series(
    importance.importances_mean, index=bc.feature_names)
forest_pfi.plot.bar()
plt.axhline(y=0, color='black')
plt.show()