In [1]:
import numpy as np

In [None]:
# Dataset

In [3]:
np.random.seed(4)
m = 60
w1, w2 = 0.1, 0.3
noise = 0.1

angles = np.random.rand(m)*3*np.pi/2-0.5
X = np.empty((m,3))
X[:,0] = np.cos(angles) + np.sin(angles)/2 + noise * np.random.randn(m)/2
X[:,1] = np.sin(angles)*0.7+noise*np.random.randn(m)/2
X[:,2] = X[:,0]*w1+X[:,1]*w2+noise*np.random.randn(m)

print('X.shape:',X.shape)

X.shape: (60, 3)


In [4]:
# eigen-decomposition을 이용한 PCA 구하기

In [5]:
# 공분산 구하기
X_cen = X - X.mean(axis=0)
X_cov = np.dot(X_cen.T,X_cen)/59
print(X_cov)

[[0.69812855 0.17640539 0.12137931]
 [0.17640539 0.1801727  0.07253614]
 [0.12137931 0.07253614 0.04552382]]


In [12]:
w, v = np.linalg.eig(X_cov)

print('eigenvalue :',w)
print('eigenvector :\n',v)

eigenvalue : [0.77830975 0.1351726  0.01034272]
eigenvector :
 [[ 0.93636116  0.34027485 -0.08626012]
 [ 0.29854881 -0.90119108 -0.31420255]
 [ 0.18465208 -0.2684542   0.94542898]]


In [16]:
print('explained variance ratio :',w/w.sum())

explained variance ratio : [0.84248607 0.14631839 0.01119554]


In [7]:
# SVD를 이용한 PCA 구하기

In [8]:
U, D, V_t = np.linalg.svd(X_cen)
print('singular value :', D)
print('singular vector :\n', V_t.T)


singular value : [6.77645005 2.82403671 0.78116597]
singular vector :
 [[ 0.93636116 -0.34027485 -0.08626012]
 [ 0.29854881  0.90119108 -0.31420255]
 [ 0.18465208  0.2684542   0.94542898]]


In [14]:
# eigenvalue의 square root한 값이 singular value이기 때문에 제곱하여 계산해 준다
print('explained variance ratio :',D**2/np.sum(D**2))

explained variance ratio : [0.84248607 0.14631839 0.01119554]


In [9]:
# Scikit-Learn을 이용한 PCA 구하기

In [10]:
from sklearn.decomposition import PCA

pca = PCA(n_components=3)
pca.fit(X)

PCA(n_components=3)

In [11]:
print('singular value :', pca.singular_values_)
print('singular vector :\n', pca.components_.T)

singular value : [6.77645005 2.82403671 0.78116597]
singular vector :
 [[-0.93636116  0.34027485 -0.08626012]
 [-0.29854881 -0.90119108 -0.31420255]
 [-0.18465208 -0.2684542   0.94542898]]


In [15]:
print('eigen_value :', pca.explained_variance_)
print('explained variance ratio :', pca.explained_variance_ratio_)

eigen_value : [0.77830975 0.1351726  0.01034272]
explained variance ratio : [0.84248607 0.14631839 0.01119554]


### Explained Variance Ratio
explained variance ratio는 각각의 주성분 벡터가 이루는 축에 투영한 결과의 분산의 비율이며, 각 eignevalue의 비율과 같다

위의 결과의 의미는 원 데이터 셋 분산의 84.2%가 첫번째 주성분 축에 놓여있고, 14.6%가 두번째 주성분 축에 놓여있다는 것을 말한다.

그리고 세번째 주성분 축에는 1.1% 정도로 매우 적은 양의 정보가 들어있다는 것을 알게 된다

따라서 3차원 데이터셋을 2차원으로 투영할 경우 원래 데이터셋의 분산에서 1.1%를 잃게 된다