# PCA (Principal Component Analysis)

In [None]:
import numpy as np               
import matplotlib.pyplot as plt  
import pandas as pd

主成分分析を行うには scikit-learn パッケージを使用して，sklearn.decomposition の PCA でインスタンスを生成します．

以下の例では，Davis データを用いて主成分分析を行っています．

Davisデータ（Davis.csv）はJupyter Notebookの保存されているディレクトリと同じディレクトリに保存されているものとします．

Davisデータの読み込みには pandas パッケージの pd.read_csv を使用します．

データ配列の第1, 2列の各行がデータ点${\bf{x_{i}}} = ( w_{i}, h_{i} )$に対応しています（$x_{i}$は$i$番目の人の体重[kg]，$h_{i}$は身長[cm]に対応）．

In [None]:
from sklearn.decomposition import PCA         # Use sklearn's PCA．
dat = pd.read_csv('data/Davis.csv').values    # Read data (use pandas)
# Convert the unit of height to [m] and calculate the value of logarithm.
logdat = np.log(np.c_[dat[:,1],dat[:,2]/100].astype('float'))
# Plot data
plt.plot(logdat[:,0], logdat[:,1], '.'); plt.show()

In [None]:
# PCA of data
pca = PCA()    
pca.fit(logdat) 
pca.components_       # Principal component

In [None]:
# Data at index 11 are removed as outliers.
clean_logdat = np.delete(logdat, 11, axis=0)

# Principal component analysis of data from which outliers have been removed
pca = PCA()    
pca.fit(clean_logdat) 
pca.components_       # Principal component

# 因子分析

In [None]:
import numpy as np
from sklearn.datasets import load_boston  # BostonHousing を使う
BostonHousing = load_boston()             # データ読み込み

In [None]:
from sklearn.decomposition import FactorAnalysis
from sklearn.preprocessing import scale
X = scale(BostonHousing.data)  # データのスケーリング(相関行列に因子分解を適用)

In [None]:
X.shape                        # データ行列のサイズ：13次元506サンプル

In [None]:
fa = FactorAnalysis(n_components=3)   # 因子数3で推定
rX = fa.fit_transform(X)              # 因子スコア

In [None]:
rX.shape

In [None]:
fa.components_                        # 因子負荷行列

In [None]:
fa.components_.shape                  # サイズは(因子数, 次元)

In [None]:
# 因子負荷行列の要素：絶対値の大きさでソート．
BostonHousing.feature_names[np.argsort(np.abs(fa.components_[0,]))]

# 多次元尺度構成法

In [7]:
import numpy as np 
import matplotlib.pyplot as plt  
import pandas as pd
from sklearn.decomposition import PCA    # Use sklearn's PCA．
from sklearn.datasets import load_boston  # BostonHousing を使う
from sklearn.decomposition import FactorAnalysis
from sklearn.preprocessing import scale

import statsmodels.api as sm
from statsmodels.multivariate.factor_rotation import rotate_factors
L, T = sm.multivariate.factor_rotation.rotate_factors(fa.components_.T,'varimax')  # バリマックス回転基準
L

NameError: name 'fa' is not defined

In [None]:
from sklearn.manifold import MDS
from sklearn.metrics.pairwise import euclidean_distances 
n = 10                              # データ数
k = 2                               # データの次元
V = np.random.rand(n,k)             # 真の配置
d = euclidean_distances(V)          # 距離行列

In [None]:
# 計量的MDS(次元2): 10個の初期値で計算し最適な解を採用
md = MDS(n_components=2, metric=True, dissimilarity='precomputed', n_init=10, max_iter=3000)
md.fit(d)
rV2 = md.embedding_                 # 再構成された2次元点配置

In [None]:
# 計量的MDS(次元1) 
md.set_params(n_components=1)          
md.fit(d)        
rV1 = md.embedding_                 # 再構成された1次元点配置

In [None]:
rV1

In [None]:
# 元データのプロット
plt.scatter(V[:,0],V[:,1],marker='.'); 
for i,(x,y) in enumerate(zip(V[:,0],V[:,1])): # 点番号も表示
    plt.annotate(str(i),(x,y),fontsize=20)
plt.show()

In [None]:
# 計量的MDSで再構成した点のプロット
plt.scatter(rV2[:,0],rV2[:,1],marker='.');    # 点番号も表示
for i,(x,y) in enumerate(zip(rV2[:,0],rV2[:,1])):
    plt.annotate(str(i),(x,y),fontsize=20)
plt.show()

In [None]:
from sklearn.manifold import MDS
data = pd.read_csv('data/voting.csv').values
#  S:非類似度行列(投票行動)，pidx: 所属する党(0/1)
S=data[:,:15]; pidx=data[:,15]  
col=['red','blue']; mk = ['x','o'] # 所属する党を区別するマーク

In [None]:
# 非計量的MDS
nmd = MDS(n_components=2, metric=False, dissimilarity='precomputed',  n_init=20,max_iter=3000)
nmd.fit(S)          # フィッティング
px = nmd.embedding_[:,0]; py = nmd.embedding_[:,1]
for i in [0,1]:     # プロット
    plt.scatter(px[pidx==i],py[pidx==i],c=col[i],marker=mk[i],s=100)
for i,(x,y) in enumerate(zip(px,py)):
    plt.annotate(str(i),(x,y),fontsize=20)    
plt.show()

In [None]:
# 計量的MDS
nmd.set_params(metric=True)
nmd.fit(S)          # フィッティング
px = nmd.embedding_[:,0]; py = nmd.embedding_[:,1]
for i in [0,1]:     # プロット
    plt.scatter(px[pidx==i],py[pidx==i],c=col[i],marker=mk[i],s=100)
for i,(x,y) in enumerate(zip(px,py)):
    plt.annotate(str(i),(x,y),fontsize=20)    
plt.show()