# 공분산 행렬 구하기

In [2]:
import numpy as np

np.set_printoptions(precision=2, suppress=True)

In [3]:
x = [[177.7, 68.1, 91.8], [168, 60.2, 89.3], [165.3, 49.1, 84.9], [159.1, 42, 86.3], [176.4, 73.3, 93.8],
     [176, 57.2, 92.5], [170, 59.8, 89.8], [164.6, 51.6, 88.5], [174.4, 70.2, 91.7], [174.8, 58.8, 91.6]]

X = np.array(x)
print(X)
print('-'*30)
# 키 / 몸무게 / 가슴둘레
print('키 컬럼 분산: ', np.var(X[:,0], ddof=1)) # 표분분산

# 데이터 분포의 중심을 중심축으로 이동시키기 위해 행렬의 각 열들의 평균값을 0으로 맞춰준다. (모든 관측값에서 평균값을 빼기)
X = X - np.mean(X, axis=0)
print(X)
print('-'*30)

print('공분산 행렬')
cov = X.T@X / (len(X)-1)
# cov = (X.T.dot(X)) / (len(X)-1)
print(cov)
# 변수가 3개이므로 변수 간 공분산 값으로 이루어진 3x3 행렬
# 대각선 : 자기 자신의 분산

[[177.7  68.1  91.8]
 [168.   60.2  89.3]
 [165.3  49.1  84.9]
 [159.1  42.   86.3]
 [176.4  73.3  93.8]
 [176.   57.2  92.5]
 [170.   59.8  89.8]
 [164.6  51.6  88.5]
 [174.4  70.2  91.7]
 [174.8  58.8  91.6]]
------------------------------
키 컬럼 분산:  38.74900000000002
[[  7.07   9.07   1.78]
 [ -2.63   1.17  -0.72]
 [ -5.33  -9.93  -5.12]
 [-11.53 -17.03  -3.72]
 [  5.77  14.27   3.78]
 [  5.37  -1.83   2.48]
 [ -0.63   0.77  -0.22]
 [ -6.03  -7.43  -1.52]
 [  3.77  11.17   1.68]
 [  4.17  -0.23   1.58]]
------------------------------
공분산 행렬
[[38.75 52.03 15.78]
 [52.03 95.54 23.16]
 [15.78 23.16  7.98]]


# np.cov 함수와 결과 비교

In [4]:
# np.cov() : numpy에서 제공하는 공분산 함수
print(['Covariance Matrix'])
cm = np.cov(X, rowvar=False)
# X : 위의 행렬 데이터
# rowvar : 행이 변수입니까? (DEFUALT : True)
# True : 행은 변수 / 열은 각 변수의 관측값 # False : 행은 관측값 / 열은 변수
# 현재 행렬 A는 열이 변수이고 각 행이 관측치이므로 rowvar=False
print(cm)

['Covariance Matrix']
[[38.75 52.03 15.78]
 [52.03 95.54 23.16]
 [15.78 23.16  7.98]]


# 고유값, 고유벡터 행렬 구하기

In [6]:
# linalg.eig() : 선형대수학이라는 패키지에 있는 eig 함수 : 괄호에 공분산을 넣어주면 고유값과 고유벡터를 튜플의 형식으로 반환해준다
eigenvalue, eigenvector = np.linalg.eig(cov)

print('고유값 (λ) : ', eigenvalue)
print('-'*30)

print('고유벡터 행렬 (V)')
print(eigenvector)
print('-'*30)
# 각 열벡터 : 각 고유값에 해당하는 고유벡터
# ex) 고유값 132.7로 만들어진 고유벡터 [-0.5 -0.84 -0.22]

print('고유값 대각행렬 (∧)')
eig_matrix = np.identity(3)*eigenvalue
print(eig_matrix)
print('-'*30)
# 고유값이 큰 순서대로 자동 정렬됨

print('첫 번째 고유벡터와 두 번째 고유벡터와의 내적')
c = eigenvector[:,0].T.dot(eigenvector[:,1])
print(np.round(c)) # 소수점 이하 세 자리에서 반올림
# 두 벡터가 서로 직교하면 내적값이 0이 된다.
# PC2는 PC1과 직교하는 벡터가 된다.

# ++ 설명)
# 분산이 가장 큰 벡터 : 첫 번째 주성분 : PC1
# 위와 직교하는 벡터 : 두 번째 주성분 : PC2
# 직교하는 두 성분을 내적하면 0이 나온다.

고유값 (λ) :  [132.7    8.31   1.27]
------------------------------
고유벡터 행렬 (V)
[[-0.5  -0.8  -0.32]
 [-0.84  0.54 -0.05]
 [-0.22 -0.24  0.94]]
------------------------------
고유값 대각행렬 (∧)
[[132.7    0.     0.  ]
 [  0.     8.31   0.  ]
 [  0.     0.     1.27]]
------------------------------
첫 번째 고유벡터와 두 번째 고유벡터와의 내적
0.0


In [26]:
print('고유값 분해를 통한 공분산 행렬 계산')
A = eigenvector@eig_matrix@np.linalg.inv(eigenvector)
# A = V * λ * V의 역행렬
# inverter : 역행렬 함수
print(A)
print('-'*30)
print(cov)

# 두 결과값이 동일한 것을 확인할 수 있다

고유값 분해를 통한 공분산 행렬 계산
[[38.75 52.03 15.78]
 [52.03 95.54 23.16]
 [15.78 23.16  7.98]]
------------------------------
[[38.75 52.03 15.78]
 [52.03 95.54 23.16]
 [15.78 23.16  7.98]]


# 첫 번째 주성분(PC1) 구하기

In [30]:
pc1 = eigenvector[:,0].T@X.T
# X.T : X는 열이 독립변수, 행이 관측치이므로 전치시켜주는 것
print(pc1)

# 10명의 신체 데이터의 고유값이 가장 큰 것의 고유벡터

[-11.53   0.49  12.11  20.85 -15.67  -1.7   -0.28   9.57 -11.61  -2.24]


# 공분산을 이용한 주성분 분석

In [33]:
print('PCA를 이용한 차원 축소')
# 3차원 -> 2차원 (독립변수가 3개였으니까 3차원)
# 1개의 차원을 축소했을 때, 변량을 어느 정도 보존하는지 확인하기

VT = np.array([eigenvector[:,0],eigenvector[:,1]])
# 첫 번째 주성분과 두 번째 주성분 = 고유값이 가장 큰 두 개
# VT : V를 Transpose 한 것 : 열 백터 -> 행 벡터
print('고유벡터 VT - 주성분 두 개 선택')
print(VT)

print('고유벡터 VT와 원데이터 XT의 내적')
# 고유벡터VT와 원데이터 X와의 내적
Z = VT@X.T
print(Z.T)

# [첫 번째 주성분에 따른 값, 두 번째 주성분에 따른 값]
# [-11.53  -1.18] : 원점을 기준으로 -11.53만큼, -1.18만큼 떨어져있다
# 해당 출력값으로 시각화하는 것

PCA를 이용한 차원 축소
고유벡터 VT - 주성분 두 개 선택
[[-0.5  -0.84 -0.22]
 [-0.8   0.54 -0.24]]
고유벡터 VT와 원데이터 XT의 내적
[[-11.53  -1.18]
 [  0.49   2.92]
 [ 12.11   0.13]
 [ 20.85   0.91]
 [-15.67   2.2 ]
 [ -1.7   -5.91]
 [ -0.28   0.98]
 [  9.57   1.17]
 [-11.61   2.64]
 [ -2.24  -3.86]]


# PCA 클래스와 결과 비교

In [38]:
from sklearn.decomposition import PCA
model = PCA(n_components=2)
# n_components : 축소하고자 하는 차원의 개수
pca = model.fit_transform(X)
# fit_transform : 위의 모든 연산이 포함되어 있음 : 바로 두 개의 주성분이 반환됨
print(pca.shape)
print(pca)

(10, 2)
[[-11.53   1.18]
 [  0.49  -2.92]
 [ 12.11  -0.13]
 [ 20.85  -0.91]
 [-15.67  -2.2 ]
 [ -1.7    5.91]
 [ -0.28  -0.98]
 [  9.57  -1.17]
 [-11.61  -2.64]
 [ -2.24   3.86]]


# PCA가 차지하는 분산 비율 구하기

In [41]:
# 분산의 설명력
print(model.explained_variance_ratio_)
# 0.93 : 첫 번째 주성분으로 축소했을 때의 분산의 설명력 : 원데이터의 93퍼센트를 설명할 수 있다 (차원을 한 개 축소하여 3차원 -> 2차원)
# 0.06 : 두 번째 주성분으로 축소했을 때의 분산의 설명력 : 원데이터의 6퍼센트를 설명할 수 있다 (차원을 한 개 축소하여 3차원 -> 2차원)
# 0.99 : 첫 & 두 번째 주성분으로 축소했을 때의 분산의 설명력 : 원데이터의 99퍼센트를 설명할 수 있다 (차원을 두 개 축소하여 3차원 -> 1차원 됐을 때의 분산의 설명력)

print(f'분산 합 : {np.sum(model.explained_variance_ratio_):.2f}')
ratio = (eigenvalue[0]+eigenvalue[1]) / np.sum(eigenvalue)
print(ratio)

# PC1의 설명력 = L1 / (L1+L2+L3) = 고유값1 / 고유값1+2+3
# 분산의 설명력은 고유값으로 해석된다!!

[0.93 0.06]
분산 합 : 0.99
0.9910760305908326


In [42]:
# 고유벡터 행렬
model.components_

array([[-0.5 , -0.84, -0.22],
       [ 0.8 , -0.54,  0.24]])

In [43]:
# 고유값
model.explained_variance_
# 첫 번째 주성분에 대한 고유값, 두 번째 주성분에 대한 고유값

array([132.7 ,   8.31])