# 【課題】腫瘍の良性／悪性を予測（分類）しよう

## データを読み込む

`breast_cancer_wisconsin_data.csv` を読み込みましょう。

In [None]:
# Pandasを使ってbreast_cancer_wisconsin_data.csvを読み込む（変更しないでください）
import pandas as pd
bc_data = pd.read_csv("breast_cancer_wisconsin_data.csv")

読み込んだデータについて確認します。

In [None]:
# 読み込んだデータが何行何列かをshapeで確認する（変更しないでください）
print(bc_data.shape)

In [None]:
# 読み込んだデータの先頭5行を確認する（変更しないでください）
bc_data.head()

In [None]:
# 読み込んだデータの先頭の1行だけを確認する（変更しないでください）
bc_data.iloc[0, :]

このCSVファイルには30以上の列があります。主要な列のみ、以下に概要を記載します。

- id：連番
- diagnosis："B"か"M"の文字が格納されている（"B"：良性、"M"：悪性）
- radius_mean：中心から外周までの平均距離（半径）
- texture_mean：グレースケール（色の濃さ）の平均値
- perimeter_mean：外周の平均の長さ

今回は `radius_mean`（半径）と `perimeter_mean`（外周の長さ）を説明変数、`diagnosis`（良性か悪性か）を目的変数として分類を行ないます。

データの前処理や分割を行なう前に、スライスを使って、`radius_mean`列と`perimeter_mean`列を変数`X`、`diagnosis` 列のみを変数 `y` に格納してください。また、PandasでCSVを読み込んだため、データはDataFrame形式となっています。そのため、データはndarray形式に変換してください。

In [None]:
# スライスとndarrayへの変換をして X と y を作成する
# （以下にコードを書いてください）


## データの前処理を行なう

さて、`y` には "B" もしくは "M" という文字データが入っています。数値化した方がコンピュータは学習しやすくなるので、データの前処理の1つ「カテゴリ値の数値化」を実行しましょう。カテゴリ値の数値化をするには `LabelEncoder` というものを利用します。

[sklearn.preprocessing.LabelEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html)

※ `LabelEncoder` は、レッスン本文では登場しませんでしたので、以下のコードをそのまま実行すれば大丈夫です。このコードは、上記の公式ドキュメントの内容に沿って記述されています。**なお、このとき `y` は、NumPyのndarray形式に変換されている必要があります。**

In [None]:
# カテゴリ値の数値化
# （変更しないでください）
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
le.fit(["B", "M"])    # 良性：0, 悪性：1
y = le.transform(y)

# 数値化した状態を確認してみる（変更しないでください）
y

## データを訓練データとテストデータに分ける

`X` および `y` を訓練データとテストデータに分けましょう。その際、訓練データ8割、テストデータ2割としてください。また、並び順がランダムになるよう、分割してください。

In [None]:
# 訓練データ8割、テストデータ2割に分割する
# （以下にコードを書いてください）


## モデルを作成して訓練する

ここでは、レッスン本文でも利用した「サポートベクターマシン」（`SVC`）の線形分類モデルを使います。また、作成したモデルに訓練データを渡して、学習を行ないます。

In [None]:
# SVCの線形分類モデルを作成する
# （以下にコードを書いてください）


# 訓練データを使って訓練を行なう
# （以下にコードを書いてください）


## 期待する性能が出たかを評価する

分類を行ないましょう。

In [None]:
# テストデータを使って分類を実行する
# （以下にコードを書いてください）


この分類結果を用いて、モデルの評価を行ないます。

まずは、予測値と実際の値をそのまま表示してください。

In [None]:
# 予測値を表示する
# （以下にコードを書いてください）


In [None]:
# 実際の値を表示する
# （以下にコードを書いてください）


予測の精度を混同行列で示しましょう。

In [None]:
# 混同行列で集計結果を表示する
# （以下にコードを書いてください）


最後に `classification_report()` を実行し、結果を表示してください。

In [None]:
# classification_report()の実行結果を表示する
# （以下にコードを書いてください）
