## 主成分分析

In [None]:
%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.decomposition import PCA #主成分分析用ライブラリ
from sklearn.preprocessing import StandardScaler

## 簡単な例で、主成分分析を行ってみる
### 架空のデータをつくる
### 生徒20人分の数学テスト結果と物理テスト結果

In [None]:
df_test = pd.DataFrame({"math":[41,37,40,30,40,60,46,61,67,68,55,61,59,66,69,54,50,35,80,75],
                                         "physics":[26,32,31,24,60,40,26,27,33,25,26,30,29,37,41,36,31,29,36,34]})
df_test.index.name = "id"
df_test["total"] = df_test["math"]  + df_test["physics"]#点数の合計
df_test

### 散布図を作成

In [None]:
df_test.plot(kind="scatter",x="math",y="physics",xlim=[0,100],ylim=[0,100])

数学テスト結果と物理テスト結果に正の相関が見られる。   
これは、数学のテスト結果があれば、物理のテスト結果を推測できるし、逆に、物理のテスト結果があれば、数学のテスト結果を推測できるということになる。
であれば、この2つの変数を1つにまとめてしまっても元々の情報は損なわれない。  
では、2つの変数(2次元)を1つの変数(1次元)にまとめる(削減)するにはどうすればいいか？  
ここで、主成分分析の登場!

### 主成分分析をやってみよう
### 入力データのセッティング
scikit learnは、この形式で入力データを用意することが多い

In [None]:
X = np.array(df_test[["math","physics"]])
X

### 主成分分析の実行

In [None]:
pca = PCA(n_components=2) #主成分分析用のオブジェクトをつくる。削減後の次元数を引数で指定する。2次元データなので、3以上にするとエラーになる
pca.fit(X) #主成分分析の実行

### 固有ベクトル(主成分の方向を決めるベクトル、基底)

In [None]:
pca.components_

### [問]
以下の計算は何を確認しているでしょうか？

In [None]:
print(np.linalg.norm(pca.components_[0]), np.linalg.norm(pca.components_[1]))
np.dot(pca.components_[0], pca.components_[1])

### 平均値

In [None]:
pca.mean_

### 主成分をグラフに描画
第1主成分(PC1)と第2主成分(PC2)は必ず直交する

In [None]:
fig = plt.figure()#グラフオブジェクトをつくる
ax = fig.add_subplot(111,aspect='equal')#キャンバスをつくる
ax.scatter(X[:,0],X[:,1])#散布図
ax.set_xlim([0, 100])#X軸の範囲の設定
ax.set_ylim([0, 100])#Y軸の範囲の設定
ax.set_xlabel('math')#X軸の名称の設定
ax.set_ylabel('physics')#Y軸の名称の設定
ax.quiver(pca.mean_[0], pca.mean_[1], pca.components_[0,0],pca.components_[0,1], color='b', width=0.01, scale=3)#第1主成分のベクトルを描く
ax.quiver(pca.mean_[0], pca.mean_[1], pca.components_[1,0],pca.components_[1,1], color='r', width=0.01, scale=3)#第2主成分のベクトルを描く

### 各主成分の寄与率
第一主成分で約76%説明できることがわかる。合計は1になる。

In [None]:
print("寄与率=",pca.explained_variance_ratio_)
print("合計＝", pca.explained_variance_ratio_.sum())

### 第1主成分軸(PC1)と第2主成分軸(PC2)の2次元平面に射影する
元データから平均を引き、固有ベクトルとの行列積を計算する

In [None]:
Y = np.dot((X - pca.mean_), pca.components_.T)
Y

In [None]:
# 新しい軸に射影されたベクトルは、fit_transform()でも求められる
X_pca = pca.fit_transform(X)
X_pca

In [None]:
pd.DataFrame(Y,columns=["PC1","PC2"]).plot(kind="scatter",x="PC1",y="PC2")

### [問]
- id=4,id=5,id=8は、どの生徒も合計が100点です。第一主成分(理系軸)で評価した場合は、どの生徒の得点が高いことになりますか？

## 肺がんデータ・セットを用いた肺がん患者推定
* https://archive.ics.uci.edu/ml/datasets/Breast+Cancer+Wisconsin+(Diagnostic)
* 診断結果の意味：M = malignant(悪性), B = benign(良性)
* 3列目以降は、細胞核のデジタル画像から算出され30個の実数値が入っている。

In [None]:
# 3列目以降は、細胞核のデジタル画像から算出され30個の実数値が入っている。
df_wdbc = pd.read_csv("../1_data/wdbc.csv",index_col=[0])
print(df_wdbc.shape)
display(df_wdbc.head())
df_wdbc  = df_wdbc.iloc[:,2:] # 3説明変数だけにする

### 各説明変数の平均値の確認

In [None]:
df_wdbc.mean().plot()

### 説明変数の標準化
平均値の大きな変数が混じっているので標準化しておく

In [None]:
stdsc = StandardScaler()
X = stdsc.fit_transform(df_wdbc)

### 主成分分析の実行

In [None]:
pca = PCA(n_components=30) #主成分分析用のオブジェクトをつくる。削減後の次元数を引数で指定する。
pca.fit(X) #主成分分析の実行

### 固有ベクトル(主成分の方向を決めるベクトル、基底)

In [None]:
pca.components_

### [問]
以下の計算は何を確認しているでしょうか？

In [None]:
for i in range(len(pca.components_)):
    print(np.linalg.norm(pca.components_[i]))
for i in range(len(pca.components_)):
    for r in range(len(pca.components_)):
        if i==r:
            continue
        print(np.dot(pca.components_[i], pca.components_[r]).round(5))

### 各主成分の寄与率

In [None]:
print("寄与率=",pca.explained_variance_ratio_)
print("合計＝", pca.explained_variance_ratio_.sum())