<a href="https://colab.research.google.com/github/yajima-yasutoshi/DataMining2024/blob/main/20241224/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 機械学習

## 資料の置かれたサイト

20241224

https://github.com/yajima-yasutoshi/DataMining2024/tree/main/20241224

#講義の目的

機械学習による分類手法に関する説明を行う。
ここでは、代表的な手法である
**決定木**および**ランダムフォレスト**
と呼ばれる2つの分類モデルの構築法を理解する。


# 準備


## 必要なライブラリーのインポート

In [None]:
# 日本語環境のインストール
!pip install japanize-matplotlib

# 必要なライブラリをインポート
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import japanize_matplotlib

# 必要なライブラリのインポート
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

from sklearn.model_selection import train_test_split, GridSearchCV

# 決定木に必要なライブラリー
from sklearn.tree import DecisionTreeClassifier, plot_tree

# ランダムフォレストに必要なライブラリー
from sklearn.ensemble import RandomForestClassifier

# その他必要なライブラリー
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

# Cancer データ

## データの概要確認

sklean ライブラリーに格納されているサンプルデータ（cancer data）を使い、
**決定木**の説明を行う。
以下のコードセルでは、データを読み込み、 info() を使い概要を表示する。

In [None]:
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()
df = pd.DataFrame(cancer.data, columns = cancer.feature_names)
df['diagnosis'] = cancer.target

#データの概要を表示
df.info()

Cancer データ とは、
30項目の細胞に関連したデータ（サイズ、形状、など）と
そこから判断された癌の診断結果（'diagnosis'）のデータである。

全ての項目は数値型で、
特に診断結果（'diagnosis'）は

* 悪性の場合には 0
* 良性の場合には 1

が入力されており、
このような項目を**2値**の項目と呼ぶ。

このデータを学習させて、**癌の診断（良性か悪性かの分類）を行うAIを構築**する。

まず初めに、目的変数となる項目 diagnosis が2値となっていることを確認する。

In [None]:
df['diagnosis'].value_counts()

項目 diagnosis は数値型の項目ではあるが、値は 0 と 1 の2値となっていることが確かめられる。
よって、
diagnosis は、2 値の分類問題の目的変数として利用が可能である。

ヒストグラムを作成して、各項目の分布を確認する。
hue を使い目的変数の項目（diagnosis）で色分けしてみる。

In [None]:
sns.histplot(data=df, x='mean radius', hue='diagnosis', kde=True)

diagnosis は、0 が悪性、1 が良性であった。
このグラフからは、mean radius がおよそ18をこえるとほぼ全てが悪性、
逆に10を下回るとほぼ全てが良性になっていることが分かる。

一方で、10から18の間では、良性も悪性もあり、この項目だけでは
悪性か良性かを判断できないが、
これ以外の検査項目も説明変数に用いることで
癌の診断を行うAIを作る。

# 決定木
悪性か良性かといった分類問題に対する代表的な機械学習の手法として、
**決定木**の使い方を説明する。

## 変数

目的変数と説明変数は以下のとおりである。

* **目的変数：** 予測の対象となる項目。上のデータでは diagnosis である。
* **説明変数：** 予測する元になる項目。上のデータでは30項目の数値型データがある。


なお、決定木の場合には、**説明変数の標準化は不要である**。


##決定木モデルを学習する

説明変数と目的変数をそれぞれ変数 X と y にセットし、
その後、
train_test_split() を使い、全データを**学習用データ**と**検証データ**に分割をする。

In [None]:
# 項目'diagnosis'は変数dfの最後にある項目なので、それを除くと説明変数のみとなる
X = df.iloc[:,:-1]
y = df[['diagnosis']]

# データを学習用データと検証用データに分割
# test_size は、0.2 程度が良いとされる
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=0)

決定木の作成には、DecisionTreeClassifier() を用いる。
なお、max_depth は決定木のハイパーパラメータである。
説明の都合、max_depth = 2 として決定木を作るが、
後ほど、ハイパーパラメータチューニングを行う。

In [None]:
# 決定木に必要なライブラリー
from sklearn.tree import DecisionTreeClassifier

# 決定木の準備
model = DecisionTreeClassifier(max_depth=2, random_state=0)

# 学習
model.fit(X_train, y_train.values.ravel())

決定木の内部では、以下の図に示すような
予測がモデルが構築される。

In [None]:
#@title 決定木の可視化
plt.figure(figsize=(16,6))
plot_tree(model, filled=True, feature_names=cancer.feature_names, class_names=['0（悪性）','1（良性）'], fontsize=14)
plt.title("Decision Tree of Cancer Dataset")
plt.show()

決定木モデルでは、説明変数の値の大小で
上の図のように枝分かれしながら予測が行われる。
説明変数の値が不等式の条件を満たせば（True）左、
満たさない（False）場合は右方向に枝を下方向にたどりながら、
最後に到達した箱の class が予測結果である。

なお、上の例では max_depth=2 と指定したので、
二回枝分かれをするモデルになっている。
また、枝分かれに用いられた項目は
worst concave points
と
worst area
の二つであった。
他の説明変数の中から
この二つが目的変数（この例では良性か悪性か）の判断に有効である、
との結果になったことを意味している。

例えば、ある細胞のデータが、

* worst concave points = 0.2
* worst area = 700

であった場合、予測結果は class=1 (良性)と判定される。





決定木の様子を、散布図を使って可視化すると以下のようになる。

In [None]:
# Plotting with added lines
sns.jointplot(x='worst concave points', y='worst area', data=df, hue='diagnosis')
plt.axvline(x=0.142, color='red', linestyle='--')  # Add vertical line at x = 0.142
plt.plot([-0.02, 0.142], [957.45, 957.45], color='red', linestyle='--') # Add line segment
plt.plot([0.142,0.35], [729.55, 729.55], color='red', linestyle='--') # Add line segment
plt.show()

In [None]:
sns.histplot(data=df, x='worst concave points', hue='diagnosis', kde=True)

In [None]:
sns.histplot(data=df, x='worst area', hue='diagnosis', kde=True)

### 評価用のデータを使い予測精度を確認する

In [None]:
# テストデータで予測
y_pred = model.predict(X_val)

# 精度を計算
accuracy = accuracy_score(y_val, y_pred)
print(f'Accuracy: {accuracy}')

混同行列（confusion matrix）でも確認する。

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_val, y_pred)

# Titanic データを使った例（決定木）

In [None]:
# データを読み込む
data = sns.load_dataset("titanic") #タイタニックのデータ
data.info()
data.head(5)

##データの説明

列名 | 意味
---  | ---
survived	| 生存フラグ（0=死亡、1=生存）
pclass	| チケットクラス（1stクラス、2ndクラス、3rdクラス）
sex	| 性別（male=男性、female＝女性）
sge	| 年齢
sibsp	| タイタニックに同乗している兄弟/配偶者の数
parch	| タイタニックに同乗している親/子供の数
fare	| 料金
embarked	| 出港地（タイタニックへ乗った港）(C=Cherbourg、Q=Queenstown、S=Southampton)
class | 乗船クラス
who |男性 or 女性
adult_male | 成人男性であるかどうか
deck | 乗船していたデッキ
embark_town | 出港地
alive | 生存したかどうか
alone | 一人であったかどうか

In [None]:
# 欠損値を埋める
data['age'] = data['age'].fillna(data['age'].mean() )
data['embarked'] = data['embarked'].fillna(data['embarked'].mode()[0] )
data['embark_town'] = data['embark_town'].fillna(data['embark_town'].mode()[0] )
# 結果を確認
data.isnull().sum()

カテゴリ変数の項目に対しては One Hot Encoding を行い、
数値型の変数に変換を行う。

In [None]:
# カテゴリ変数をOne Hot Encoding
data_encoded = pd.get_dummies(data[['sex', 'embarked', 'class', 'who', 'adult_male', 'alone']], drop_first=True)

# 説明変数と目的変数を設定
X = pd.concat([data[['age', 'fare', 'sibsp', 'parch']], data_encoded], axis=1)
y = data['survived']

ハイパーパラメータの max_depth を 2 として決定木を作る。

In [None]:
# データを訓練セットとテストセットに分割
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)

# 最適なモデルを作成
model = DecisionTreeClassifier(max_depth=2, random_state=0)
model.fit(X_train, y_train.values.ravel())

# 検証用データで予測
y_pred = model.predict(X_val)

# 精度を計算
accuracy = accuracy_score(y_val, y_pred)
print(f'Accuracy: {accuracy}')

In [None]:
# 決定木を可視化する
plt.figure(figsize=(10,5))
plot_tree(model, filled=True,  fontsize=14, feature_names=X.columns[:-1], class_names=['0(死亡)','1(生存)'])
plt.show()

一番上の who_man は、カテゴリ項目 who を One hot encoding した項目で、
who の値が man であれば 1 、そうでないなら 0 になっている。

who_man <= 0.5 という不等式なので、0 （すなわち man でない）ならば左側に、
1 ならば右側に枝分かれする。

例えば、
* who = woman
* class = Third
の場合は「死亡」と予測されることになる。


## ハイパーパラメータチューニング

決定木のハイパーパラメータは max_depth である。
max_depth を 2から20の範囲で
以下のようにグリッドサーチを行う。


In [None]:
from sklearn.model_selection import GridSearchCV

# ハイパーパラメータの候補
param_grid = {
    'max_depth': [2, 3, 4, 5, 10, 20]
    }

# グリッドサーチで最適なハイパーパラメータを探す
grid_search = GridSearchCV( DecisionTreeClassifier(), param_grid=param_grid, cv=5)
grid_search.fit(X_train, y_train.values.ravel())

最適なパラメータは grid_search.best_estimator_ にセットされる。

In [None]:
grid_search.best_params_

In [None]:
# 最適なモデルを作成
model = grid_search.best_estimator_
model.fit(X_train, y_train.values.ravel())

# テストデータで予測
y_pred = model.predict(X_val)

# 精度を計算
accuracy = accuracy_score(y_val, y_pred)
print(f'Accuracy: {accuracy}')

In [None]:
# 決定木を可視化する
plt.figure(figsize=(15,7))
plot_tree(model, filled=True,  fontsize=13, feature_names=X.columns[:-1], class_names=['0(死亡)','1(生存)'])
plt.show()

---
---
---


# ランダムフォレスト
分類問題に対する代表的な機械学習の手法として、
**「ランダムフォレスト」**の使い方を説明する。

ランダムフォレストは、決定木を複雑に組み合わせた構造を持ち、
高い予測精度となるように工夫されてる。
決定木と同様に、カテゴリ型の予測だけでなく
数値型の予測も行える高精度な万能な予測手法である。
ビジネスでも多く用いられている手法である。

ただし、決定木のように予測の内部構造を可視化することができない。
また、ランダムフォレストを利用するためには、
複数のハイパーパラメータの調整が必要で、
他の機械学習法と比べて多くの計算時間を必要とする。


##ランダムフォレストモデルを学習する

モデル構築の手順は決定木と同様で、
以下のように変数 model に RandomForestClassifier() をセットした後、
 fit で学習を行う。
```
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()
model.fit(説明変数, 目的変数)
```

Titanic データを使いランダムフォレストモデルの予測精度を評価する。

In [None]:
# ランダムフォレストに必要なライブラリー
from sklearn.ensemble import RandomForestClassifier

# ランダムフォレストの準備（初期設定）
model = RandomForestClassifier()

# 学習
model.fit(X_train, y_train.values.ravel())

In [None]:
from sklearn.metrics import accuracy_score

# 評価データで予測
y_pred = model.predict(X_val)

# 精度を計算
accuracy = accuracy_score(y_val, y_pred)
accuracy

## 変数の重要度

ランダムフォレストでは、説明変数の重要度を表示できる。
値が大きいほど、予測精度に寄与する度合いが大きいことを意味している。
逆に、
重要度の小さな変数は、それを用いなくてもほとんど精度に影響がない変数である。
また、重要度の値は全て正となり、回帰係数とは異なる意味合いの物である。

In [None]:
model.feature_importances_

In [None]:
# 特徴量の重要度を可視化
sns.barplot(x=model.feature_importances_, y=X.columns)
plt.show()

## ハイパーパラメータチューニング

ランダムフォレストを利用するためには、
いくつかのハイパーパラメータを適切に設定する必要がある。
上の例ではデフォルト値が用いられているが、
変更することでより精度を向上させることが可能である。

調整することで精度の向上が期待できるパラメーターには以下のものがある。

*  n_estimators（木の数）: 10 ～ 1000 程度
*  max_depth（木の深さ） : 3 ～ 100 程度
*  min_samples_split（分割の最小のサンプル数）: 2 ～ 100 程度

In [None]:
# ランダムフォレストに必要なライブラリー
from sklearn.ensemble import RandomForestClassifier

# ハイパーパラメータの候補
param_grid = {
    'n_estimators': [20, 50],
    'max_depth': [3, 10, 20],
    'min_samples_split': [2, 5]
}

# グリッドサーチで最適なハイパーパラメータを探す
grid_search = GridSearchCV( RandomForestClassifier(), param_grid=param_grid, cv=3)
grid_search.fit(X_train, y_train.values.ravel())

# 最適なハイパーパラメータを出力
print("Best Parameters: ", grid_search.best_params_)

# 最適なモデルを作成
model = grid_search.best_estimator_

# 学習
model.fit(X_train, y_train.values.ravel())


## 精度の評価

評価用のデータセットを用いて精度の評価を行う。


In [None]:
from sklearn.metrics import accuracy_score

# 評価データで予測
y_pred = model.predict(X_val)

# 精度を計算
accuracy = accuracy_score(y_val, y_pred)
accuracy

検証用データの場合で、混同行列を作成する。

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_val, y_pred)

---
---
---


#【参考】詳しい説明が書かれたサイト

各モジュールの詳しい使い方は以下のサイトに記載されている。

https://scikit-learn.org/stable/api/sklearn.tree.html
