<a href="https://colab.research.google.com/github/kytk/AI-MAILs/blob/main/python_4_scikit-learn-1.ipynb?hl=ja" target="_blank"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


## 医療従事者のためのPython: 機械学習

根本清貴 (筑波大学医学医療系精神医学)

Ver.20240719




### 1. 機械学習とは
- 機械学習の定義
    - 「データからルールやパターンを導き出し、予測や意思決定を行う技術」
    - (従来: 人間がルールを決める)
- 機械学習の種類
    - 教師あり学習
        - 入力データとその対応する正解(ラベル)がペアになったデータセットを用いてモデルを訓練
        - 新しいデータが入ってきた時にそのモデルから正しいラベルを予測
        - 例: 画像の分類(犬と猫の画像を分類)、スパムメールの分類、価格予測
    - 教師なし学習
        - ラベルのないデータを用いてモデルを訓練
        - データの内部構造やパターンを見つけ出す
        - 例: クラスタリング(似たデータをグループに分ける)、次元削減(データの特徴を少数の重要な特徴に圧縮する)
    - 強化学習
        - エージェント(学習者)が環境と相互作用しながら学習する。エージェントは行動を選択し、その結果として得られる報酬を基に次の行動を改善する
        - 長期的な累積報酬を最大化することが目標
        - 例: ゲーム、ロボット制御、自動運転




### 2. 機械学習のステップ

1. データの収集 (Data Collection):
    - 必要なデータを収集する
    - 例：センサーデータ、ユーザー行動データ、画像データなど

2. データの確認とクレンジング (Data Inspection and Cleaning):
    - データの品質を確認し、不足している値やノイズを処理する
    - 例：欠損値の補完、異常値の除去など

3. **データの分割 (Data Splitting)**:
    - データセットを訓練データ、検証データ、テストデータに分ける
    - 例：訓練データ 70%、検証データ 15%、テストデータ 15%

4. **データの前処理 (Data Preprocessing)**:
    - データをモデルに適した形式に変換する
    - 例：標準化、正規化、カテゴリ変数のエンコーディングなど

5. 特徴量エンジニアリング (Feature Engineering):
    - モデルの性能を向上させるために、新しい特徴量を作成する
    - 例：日付から曜日や月を抽出する、テキストデータから単語の出現頻度を計算するなど

6. **モデルの選択 (Model Selection)**:
    - 解決する問題に最適なモデルを選ぶ
    - 例：回帰モデル、決定木、ニューラルネットワークなど

7. **モデルの学習 (Model Training)**:
    - 訓練データを用いてモデルを訓練する
    - 例：パラメータの最適化、ハイパーパラメータチューニングなど

8. **モデルの検証 (Model Validation)**:
    - 検証データを使ってモデルの性能を評価する
    - 例：クロスバリデーション、精度、再現率、F1スコアなどの評価指標を計算する

9. **データの予測 (Data Prediction)**:
    - テストデータを使って予測を行う
    - 例：未知のデータに対する予測結果を得る

10. **モデルの評価 (Model Evaluation)**:
    - テストデータを用いてモデルの最終的な性能を評価する
    - 例：精度、再現率、F1スコア、混同行列などの評価指標を計算する

11. モデルの改善 (Model Improvement):
    - 必要に応じてモデルを改善し、再訓練する
    - 例：特徴量の追加や削除、別のモデルの試行など

12. モデルの展開 (Model Deployment):
    - モデルを実際の環境に展開し、運用する
    - 例：Webサービスとしてデプロイ、組み込みシステムへの実装など

13. モデルの監視とメンテナンス (Model Monitoring and Maintenance):
    - 展開後のモデルの性能を監視し、必要に応じて更新や再訓練を行う
    - 例：モデルのドリフト検出、定期的な再訓練など


### 3. Pythonでの機械学習
- Pythonには、scikit-learn (サイキット ラーン)という機械学習に特化したパッケージがある
- scikit-learn の中に医療のサンプルデータとして、糖尿病データセット(Pandasで使用)と乳がんデータセットが提供されている
- 今回は乳がんデータセットを使って教師あり学習を体験する

### 4. 乳がんデータセット
- データセットの名称: Breast Cancer Wisconsin (Diagnostic) dataset
- サンプル数: 569
- 特徴量の数: 30
- ターゲットの種類: 2クラス（良性と悪性）
- 特徴量の種類: 実数値

#### 4.1. データセットの30の特徴量
- 細胞診における細胞核の特徴

| 英語 | 日本語 |
| --- | --- |
| mean radius | 平均半径 |
| mean texture | 平均テクスチャ |
| mean perimeter | 平均周囲長 |
| mean area | 平均面積 |
| mean smoothness | 平均平滑度 |
| mean compactness | 平均コンパクト度 |
| mean concavity | 平均陥凹度 |
| mean concave points | 平均陥凹点数 |
| mean symmetry | 平均対称性 |
| mean fractal dimension | 平均フラクタル次元 |
| radius error | 半径誤差 |
| texture error | テクスチャ誤差 |
| perimeter error | 周囲長誤差 |
| area error | 面積誤差 |
| smoothness error | 平滑度誤差 |
| compactness error | コンパクト度誤差 |
| concavity error | 陥凹度誤差 |
| concave points error | 陥凹点数誤差 |
| symmetry error | 対称性誤差 |
| fractal dimension error | フラクタル次元誤差 |
| worst radius | 最悪の半径 |
| worst texture | 最悪のテクスチャ |
| worst perimeter | 最悪の周囲長 |
| worst area | 最悪の面積 |
| worst smoothness | 最悪の平滑度 |
| worst compactness | 最悪のコンパクト度 |
| worst concavity | 最悪の陥凹度 |
| worst concave points | 最悪の陥凹点数 |
| worst symmetry | 最悪の対称性 |
| worst fractal dimension | 最悪のフラクタル次元 |


#### 4.2. 教師あり学習: 乳がんデータセットの読み込みと確認
- scikit-learn ライブラリを使用してデータセットを読み込み、データを確認する

In [None]:
from sklearn.datasets import load_breast_cancer
import pandas as pd

# データセットの読み込み
dataset = load_breast_cancer()

# データセットの基本情報を表示
print(dataset.DESCR)



In [None]:
# データをPandas の DataFrameに変換
df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
df['target'] = dataset.target

# データの先頭30行を表示
df.head(30)


In [None]:
# 正解ラベル target の 0 と 1 の数を数える
# target が 0 であるかどうかを判断
df['target'] == 0

In [None]:
# (df['target'] == 0).sum() とすると 0 がTrue の数を調べられる
# 悪性が212, 良性が357 より、0 は悪性、1 は良性
num0 = (df['target'] == 0).sum()
num1 = (df['target'] == 1).sum()

print(f'number of 0 = {num0}')
print(f'number of 1 = {num1}')

- 欠損値の確認
    - 乳がんデータセットはサンプルデータなので欠損値はないが、実際のデータを扱う際には欠損値の確認が重要
    - 欠損値がどこにあるかを調べるためには、 `df.isnull().sum()` を使う
    - このメソッドは、各列に含まれる欠損値の数を表示する

In [None]:
# 欠損値の確認
missing_values = df.isnull().sum()
print(missing_values)


In [None]:
# 参考
# df を Excelファイルで出力しておくと、自分が機械学習を実際に行う時の参考になる
df.to_excel('breast_cancer.xlsx', header=True)

#### 4.3. データの分割 (Data Splitting)

- データセットを訓練用データ（training data）とテスト用データ（test data）に分割することで、モデルの訓練と評価を行う
- モデルのハイパーパラメータ調整や性能評価を行うために、検証用データ（validation data）を使用することもある

    1. 訓練データ (Training Data):
        - モデルの訓練に使用する。モデルがこのデータに基づいて学習する
    2. 検証データ (Validation Data):
        - モデルのハイパーパラメータ調整や性能評価に使用する
        - 通常、訓練データの一部を検証データとして使用する
    3. テストデータ (Test Data):
        - モデルの最終的な評価に使用する
        - このデータは、訓練や検証には使用しない

- 一般的な分割比率
    - 訓練データ: 70% - 80%
    - 検証データ: 10% - 15%
    - テストデータ: 10% - 15%

- scikit-learn では、 `train_test_split` という関数を用いて、データを分割できる


In [None]:
# train_test_split をインポートする
from sklearn.model_selection import train_test_split

# データフレーム df を 特徴量 X とターゲット(正解ラベル) y に分ける
X = df.drop(columns=['target'])
y = df['target']

# データを訓練用, 検証用, テスト用に分割する
# test_size=0.4 は、データの30%をテストデータに割り当てることを意味する
# random_state=42 は、分割の再現性を保つためのシード値 任意の値でよい
# 今、訓練データを70%, 残りのデータを30%として分割化し、
# 残りのデータをさらに 半分ずつ 検証用 (val) と テスト用 (test) に分割する
# つまり検証用 15%, テスト用 15%

X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)

# 分割後のデータサイズを表示
print(f'訓練データのサイズ: {X_train.shape}')
print(f'検証データのサイズ: {X_val.shape}')
print(f'テストデータのサイズ: {X_test.shape}')


#### 4.4. データの標準化と正規化
- 標準化 (Standardization)
    - データの平均を0、標準偏差を1に変換することで、異なるスケールの特徴量を同じスケールに揃える方法
    - これにより、モデルが特徴量のスケールに影響されずに学習できるようになる
    - scikit-learn では、 `StandardScalar` という関数を用いる
- 正規化 (Normalization)
    - データを特定の範囲 (通常0から1) にスケーリングする
    - 特徴量の範囲が大きく異なる場合に有効
    - scikit-learn では、 `MinMaxScaler` という関数を用いることが多い
- なお、標準化と正規化は、データを分割した後に行う。そのことで、テストデータに関する情報が訓練データに漏れる (リーク) を防止する
- 標準化と正規化は必須ではない。自分のデータにあわせて考慮する


In [None]:
# 標準化
from sklearn.preprocessing import StandardScaler

# StandardScaler() 関数を用いて、std_scaler という標準化するオブジェクトを作成
std_scaler = StandardScaler()

# 訓練データに対して標準化を適用
# fit_transform は、標準化するパラメータを計算(fit)して、それをあてはめる(transform)
X_train_standardized = std_scaler.fit_transform(X_train)

# 検証用、テストデータに対しても標準化を適用
# 訓練データで求めた標準化パラメータを用いて訓練データに適用
X_val_standardized = std_scaler.transform(X_val)
X_test_standardized = std_scaler.transform(X_test)


In [None]:
# X_train, X_val, X_test の元データの1列目の分布を確認
# X_train, X_val, X_test は Pandas DataFrame 形式なので、X_train.iloc[:,0] で取り出す

import matplotlib.pyplot as plt
import seaborn as sns
sns.histplot(X_train.iloc[:,0], label='train')
sns.histplot(X_val.iloc[:,0], label='val')
sns.histplot(X_test.iloc[:,0], label='test')
plt.legend()
plt.show()

In [None]:
# 標準化された X_train_standardized, X_val_standardized, X_test_standardized の1列目の分布を確認
# X_train_standardized, X_val_standardized, X_test_standardized は numpy 形式なので、
# X_train_standardized[:,0] で取り出す
# ヒストグラムは同じでも、X軸の値が変わっていることに注意
sns.histplot(X_train_standardized[:,0], label='train')
sns.histplot(X_val_standardized[:,0], label='val')
sns.histplot(X_test_standardized[:,0], label='test')
plt.legend()
plt.show()

In [None]:
#平均値と標準偏差を確認

print(f'X_train mean: {X_train.iloc[:,0].mean(): .2f}')
print(f'X_train std: {X_train.iloc[:,0].std(): .2f}')

print(f'X_train_standardized mean: {X_train_standardized[:,0].mean(): .2f}')
print(f'X_train_standardized std: {X_train_standardized[:,0].std(): .2f}')
print('')
print(f'X_val mean: {X_val.iloc[:,0].mean(): .2f}')
print(f'X_val std: {X_val.iloc[:,0].std(): .2f}')

print(f'X_val_standardized mean: {X_val_standardized[:,0].mean(): .2f}')
print(f'X_val_standardized std: {X_val_standardized[:,0].std(): .2f}')

print('')
print(f'X_test mean: {X_test.iloc[:,0].mean(): .2f}')
print(f'X_test std: {X_test.iloc[:,0].std(): .2f}')

print(f'X_test_standardized mean: {X_test_standardized[:,0].mean(): .2f}')
print(f'X_test_standardized std: {X_test_standardized[:,0].std(): .2f}')



In [None]:
# 正規化
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler() 関数を使用して、norm_scaler という正規化を行うオブジェクトを作成
norm_scaler = MinMaxScaler()

# 訓練データに対して正規化を適用
X_train_normalized = norm_scaler.fit_transform(X_train_standardized)

# 検証データに対して正規化を適用（訓練データのスケーリングパラメータを使用）
X_val_normalized = norm_scaler.transform(X_val_standardized)

# テストデータに対して正規化を適用（訓練データのスケーリングパラメータを使用）
X_test_normalized = norm_scaler.transform(X_test_standardized)


In [None]:
#正規化された X_train_noramlized, X_val_normalized, X_test_normalized の1列目を確認
sns.histplot(X_train_normalized[:,0], label='train')
sns.histplot(X_val_normalized[:,0], label='val')
sns.histplot(X_test_normalized[:,0], label='test')
plt.legend()
plt.show()

#### 4.6. モデルの選択

- 教師あり学習でよく使われるモデルとその特徴

| モデル名 | 特徴 | 主な用途 |
| --- | --- | --- |
| ロジスティック回帰 (Logistic Regression) | 線形モデル。二項分類問題に適している。解釈しやすい。 | 二項分類（例：スパム検出、病気の有無の判定） |
| 線形回帰 (Linear Regression) | 連続値の予測に使用。特徴量とターゲットの関係を線形で表現。 | 連続値の予測（例：住宅価格予測、売上予測） |
| 決定木 (Decision Tree) | 直感的で解釈しやすい。過学習しやすいが、剪定によって改善可能。 | 分類・回帰（例：顧客分類、売上予測） |
| ランダムフォレスト (Random Forest) | 多数の決定木を組み合わせて性能を向上。過学習を抑制。 | 分類・回帰（例：顧客分類、売上予測） |
| サポートベクターマシン (Support Vector Machine, SVM) | 高次元空間でも有効。カーネルを使用して非線形問題も解決可能。 | 分類（例：画像分類、テキスト分類） |
| k近傍法 (k-Nearest Neighbors, k-NN) | シンプルで直感的。計算コストが高いが、効果的。 | 分類・回帰（例：パターン認識、推奨システム） |
| ナイーブベイズ (Naive Bayes) | 確率モデル。特にテキスト分類に有効。計算が高速。 | 分類（例：スパムフィルタリング、感情分析） |
| ニューラルネットワーク (Neural Network) | 複雑な関係を学習可能。深層学習を含む。大量のデータに適している。 | 分類・回帰（例：画像認識、自然言語処理） |
| 勾配ブースティング (Gradient Boosting) | 多数の弱い学習器を組み合わせて性能を向上。過学習しにくい。 | 分類・回帰（例：競技プログラミング、金融予測） |



- 参考: 各モデルをscikit-learnからインポートする時のコマンドの一覧

| モデル名 | インポートコマンド |
| --- | --- |
| ロジスティック回帰 (Logistic Regression) | `from sklearn.linear_model import LogisticRegression` |
| 線形回帰 (Linear Regression) | `from sklearn.linear_model import LinearRegression` |
| 決定木 (Decision Tree) | `from sklearn.tree import DecisionTreeClassifier` （分類の場合）<br>`from sklearn.tree import DecisionTreeRegressor` （回帰の場合） |
| ランダムフォレスト (Random Forest) | `from sklearn.ensemble import RandomForestClassifier` （分類の場合）<br>`from sklearn.ensemble import RandomForestRegressor` （回帰の場合） |
| サポートベクターマシン (Support Vector Machine, SVM) | `from sklearn.svm import SVC` （分類の場合）<br>`from sklearn.svm import SVR` （回帰の場合） |
| k近傍法 (k-Nearest Neighbors, k-NN) | `from sklearn.neighbors import KNeighborsClassifier` （分類の場合）<br>`from sklearn.neighbors import KNeighborsRegressor` （回帰の場合） |
| ナイーブベイズ (Naive Bayes) | `from sklearn.naive_bayes import GaussianNB` |
| ニューラルネットワーク (Neural Network) | `from sklearn.neural_network import MLPClassifier` （分類の場合）<br>`from sklearn.neural_network import MLPRegressor` （回帰の場合） |
| 勾配ブースティング (Gradient Boosting) | `from sklearn.ensemble import GradientBoostingClassifier` （分類の場合）<br>`from sklearn.ensemble import GradientBoostingRegressor` （回帰の場合） |



#### 4.7. モデルの訓練
- LogisticRegression() 関数から、 model という推定器となるオブジェクトを生成する
- modelのメソッド fit() 関数を用いて、訓練データと正解ラベルを指定することで、学習が行われる

In [None]:
# ロジスティック回帰モデルを用いて分類する

# LogisticRegression をインポートする
from sklearn.linear_model import LogisticRegression

# ロジスティック回帰モデルの推定器 model を作成
model = LogisticRegression()

# モデルの訓練
model.fit(X_train_normalized, y_train)


#### 4.8 モデルの検証
- model のメソッド predict() に 検証データを入れ、どのような結果を出すかを見る
- この時、以下を計算する
    - 混同行列 Confusion matrix

|     | 予測: Positive | 予測: Negative |
| --- | --- | --- |
| 実際: Positive | True Positive (TP) | False Negative (FN) |
| 実際: Negative | False Positive (FP) | True Negative (TN) |

- **True Positive (TP)**: 悪性を悪性と予測した数
- **True Negative (TN)**: 良性を良性と予測した数
- **False Positive (FP)**: 良性を悪性と予測した数（偽陽性）
- **False Negative (FN)**: 悪性を良性と予測した数（偽陰性）
- 正解率 Accuracy        
    - Accuracy = 正しく予測されたサンプルの数 / 全サンプル数



In [None]:
# 検証データをモデルに代入し、予測ラベルを計算する
y_val_pred = model.predict(X_val_normalized)


In [None]:
# 検証データに対する評価結果を表示
# confusion matrix を計算する
# scikit-learn の metrics モジュールから confusion_matrix() 関数をインポートする
from sklearn.metrics import confusion_matrix

# 検証データの正解ラベル y_val と 予測ラベル y_val_pred から混同行列を作成する
val_conf_matrix = confusion_matrix(y_val, y_val_pred)

# 混同行列を可視化する
sns.heatmap(val_conf_matrix, annot=True)

In [None]:
# 検証データに対する評価結果を表示
# 正確度 accuracy を見る
# scikit-learn の metrics モジュールから accuracy_score() 関数をインポートする

from sklearn.metrics import accuracy_score

val_accuracy = accuracy_score(y_val, y_val_pred)
print(f'Validation Accuracy: {val_accuracy: .2f}')


In [None]:
# 分類のレポートを見る
# scikit-learn の metrics モジュールから classification_report() 関数をインポートする
from sklearn.metrics import classification_report

val_class_report = classification_report(y_val, y_val_pred)

print('Validation Classification Report')
print(val_class_report)

#### 4.9 テストデータを使ったデータの予測
- 本来は、データの一部を分割し、検証データとし、その後、全く違うデータセットをテストデータとして使用し、モデルの汎化性能を見る
- model のメソッド predict() に テストデータを入れ、予測ラベルを計算する

In [None]:
# テストデータをモデルに代入し、予測ラベルを計算する
y_test_pred = model.predict(X_test_normalized)


#### 4.10 テストデータを使ったモデルの評価
- 検証データと同様、混同行列を作成し、正解率を計算する

In [None]:
# テストデータの正解ラベル y_test と 予測ラベル y_test_pred から混同行列を作成する
test_conf_matrix = confusion_matrix(y_test, y_test_pred)

# 混同行列を可視化する
sns.heatmap(test_conf_matrix, annot=True)

In [None]:
# テストデータに対する評価結果を表示
# 正確度 accuracy を見る

test_accuracy = accuracy_score(y_test, y_test_pred)
print(f'Test Accuracy: {test_accuracy: .2f}')


In [None]:
# 分類のレポートを見る

test_class_report = classification_report(y_test, y_test_pred)

print('Test Classification Report')
print(test_class_report)

### 5. 異なるモデルを選択する
- scikit-learn では、モデルを選択する1行を変更するだけで、異なる方法での機械学習を行うことができる

In [None]:
# 上記で行ったことをまとめて、関数とする
# 練習問題でモデルの違いを簡単に検討できるようにするため

import pandas as pd
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report


# 前処理の関数
def breast_cancer_preprocessing():
    # データセットの読み込み
    dataset = load_breast_cancer()

    # データをPandas の DataFrameに変換
    df = pd.DataFrame(dataset.data, columns=dataset.feature_names)
    df['target'] = dataset.target

    # データフレーム df を 特徴量 X とターゲット(正解ラベル) y に分ける
    X = df.drop(columns=['target'])
    y = df['target']

    # データを訓練用, 検証用, テスト用に分割する
    # 訓練データを70%, 残りのデータを30%として分割化し、
    # 残りのデータをさらに 半分ずつ 検証用 (val) と テスト用 (test) に分割する
    # つまり検証用 15%, テスト用 15%

    X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.3, random_state=42)
    X_val, X_test, y_val, y_test = train_test_split(X_temp, y_temp, test_size=0.5, random_state=42)    

    # StandardScaler() 関数を使用して、standard_scalerという標準化を行うオブジェクトを作成
    std_scaler = StandardScaler()

    # 訓練データに対して標準化を適用
    # fit_transform は、標準化するパラメータを計算(fit)して、それをあてはめる(transform)
    X_train_standardized = std_scaler.fit_transform(X_train)

    # 検証用、テストデータに対しても標準化を適用
    # 訓練データで求めた標準化パラメータを用いて訓練データに適用
    X_val_standardized = std_scaler.transform(X_val)
    X_test_standardized = std_scaler.transform(X_test)

    # MinMaxScaler() 関数を使用して、norm_scaler という正規化を行うオブジェクトを作成
    norm_scaler = MinMaxScaler()

    # 訓練データに対して正規化を適用
    X_train_normalized = norm_scaler.fit_transform(X_train_standardized)

    # 検証データ、テストデータに対して正規化を適用（訓練データのスケーリングパラメータを使用）
    X_val_normalized = norm_scaler.transform(X_val_standardized)
    X_test_normalized = norm_scaler.transform(X_test_standardized)


# 学習・検証・評価の関数
def breast_cancer_evaluation():
    #選択したモデルを用いて訓練データを用いて学習する
    model.fit(X_train_normalized, y_train)

    # 検証データをモデルに代入し、予測ラベルを計算する
    y_val_pred = model.predict(X_val_normalized)
    
    # 検証データに対する評価結果を表示
    # confusion matrix を計算する
    # 検証データの正解ラベル y_val と 予測ラベル y_val_pred から混同行列を作成する
    val_conf_matrix = confusion_matrix(y_val, y_val_pred)
    print('Validation confusion matrix')
    print(val_conf_matrix)

    # 正確度 accuracy を見る
    val_accuracy = accuracy_score(y_val, y_val_pred)
    print(f'Validation Accuracy: {val_accuracy: .2f}')

    # 分類のレポートを見る
    val_class_report = classification_report(y_val, y_val_pred)
    print('Validation Classification Report')
    print(val_class_report)

    # テストデータをモデルに代入し、予測ラベルを計算する
    y_test_pred = model.predict(X_test_normalized)
    
    # テストデータの正解ラベル y_test と 予測ラベル y_test_pred から混同行列を作成する
    test_conf_matrix = confusion_matrix(y_test, y_test_pred)
    print('Test confusion matrix')
    print(test_conf_matrix)

    # テストデータに対する評価結果を表示
    # 正確度 accuracy を見る
    test_accuracy = accuracy_score(y_test, y_test_pred)
    print(f'Test Accuracy: {test_accuracy: .2f}')

    # 分類のレポートを見る
    test_class_report = classification_report(y_test, y_test_pred)
    print('Test Classification Report')
    print(test_class_report)

#### 5.1 練習問題
- 下のセルで異なるモデルを選んでみましょう
- 前処理と評価はすでに上のセルで関数で定義してあるので心配いりません
- 自分が使いたいと思うモデルのコメントを2行外してください
- 他のモデルはすべてコメントアウト(行頭に # がついている)されていることを確認してください

In [None]:
#前処理: ここはいじらなくて大丈夫です
breast_cancer_preprocessing()

######## モデル一覧 ########
### このセクションに自分が使いたいモデルのコメントを外してください
### 初期状態では、決定木のモデルを使うようになっています

#from sklearn.linear_model import LogisticRegression #ロジスティック回帰
#model = LogisticRegression()

from sklearn.tree import DecisionTreeClassifier #決定木
model = DecisionTreeClassifier()

#from sklearn.ensemble import RandomForestClassifier #ランダムフォレスト
#model = RandomForestClassifier()

#from sklearn.svm import SVC #サポートベクターマシン
#model = SVC()

#from sklearn.neighbors import KNeighborsClassifier #k近傍法
#model = KNeighborsClassifier()

#from sklearn.naive_bayes import GaussianNB #ナイーブベイズ
#model = GaussianNB()

#from sklearn.neural_network import MLPClassifier #ニューラルネットワーク
#model = MLPClassifier()

#from sklearn.ensemble import GradientBoostingClassifier #勾配ブースティング
#model = GradientBoostingClassifier()

######## モデル一覧 ここまで ########


####ここから下はいじらなくて大丈夫です。
#評価
breast_cancer_evaluation()