## 医療診断データ
データファイルは `rawdata/biopsy.csv` です。これは、683名の乳がん診断結果(生検の各評価項目)をまとめた　CSVファイルです([参照URL](https://www.neuraldesigner.com/learning/examples/breast-cancer-diagnosis))。

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.manifold import MDS, TSNE
import umap
import toorpia.utils as toorpia

# CSV ファイルを読み込む
df = pd.read_csv('rawdata/biopsy.csv')

# 必要なカラムを選択する
data = df.iloc[:, 2:-1]

def plot_reduction(ax, method, data, title):
    method_data = method.fit_transform(data)
    method_df = pd.DataFrame(data=method_data, columns=['Dimension 1', 'Dimension 2'])
    method_df = pd.concat([method_df, df[['Diagnosis']]], axis=1)

    colors = {'benign': 'b', 'malignant': 'r'}
    ax.scatter(method_df['Dimension 1'], method_df['Dimension 2'],
               c=method_df['Diagnosis'].apply(lambda x: colors[x]), s=50)
    ax.set_title(title, fontsize=20)

# サブプロットのグリッドを作成する
fig, axs = plt.subplots(2, 3, figsize=(24, 16))

# 各次元削減手法をプロットする
plot_reduction(axs[0, 0], PCA(n_components=2), data, 'PCA')
plot_reduction(axs[0, 1], MDS(n_components=2), data, 'MDS')
plot_reduction(axs[0, 2], TSNE(n_components=2), data, 't-SNE')
plot_reduction(axs[1, 0], umap.UMAP(n_components=2), data, 'UMAP')
plot_reduction(axs[1, 1], toorpia, data, 'toorPIA')

# グリッドの残りの部分を非表示にする
axs[1, 2].axis('off')

plt.tight_layout()
plt.show()


## toorPIAを使って、特徴属性を発見してみましょう

次のセルを実行して、'rawdata'の欄に（最初は空欄になっています）、`rawdata/biopsy.csv` と入力して 'Save Params'ボタンをクリックしてください。

In [None]:
toorpia.edit_params('analysis')

次のセルを実行して、解析に使う項目の重みを1にして、その他の項目の重みを0に設定してください。設定が完了したら最後に"Save"ボタンをクリックしてください。

In [None]:
toorpia.create_type_weight()

次のセルを実行するとGUI画面が起動しますので、「悪性(malignant)」と診断されたに着目して、その診断根拠（特徴属性）を調べてください。

In [None]:
x, y = toorpia.create_basemap()

## すでに解析したマップを用いて、新たな診断データに対する診断を行いましょう

再び、`toorpia.edit_params()`を実行して、今度は `add_rawdata` 欄（最初は空白のはずです）に、`rawdata/biopsy-add.csv` と入力してください。
入力できたら最後に "Save Params"ボタンをクリックすることを忘れずに。

In [None]:
toorpia.edit_params()

次のセルを実行することによって、`rawdata/biopsy-add.csv`の内容が、先ほど作成した `rawdata/biopsy.csv`のマップ上に上書きプロットされます。

新たに追加された各プロットが、良性か悪性か等を評価してみましょう。

In [None]:
xadd, yadd = toorpia.addplot()