# 공분산 행렬 구하기

In [1]:
import numpy as np
np.set_printoptions(precision=3, suppress=True)

In [6]:
x = [[177.7, 68.1, 91.8],
     [168, 60.2, 89.3],
     [165.3, 49.1, 84.9], 
     [159.1, 42, 86.3], 
     [176.4, 73.3, 93.8],
     [176, 57.2, 92.5], 
     [170, 59.8, 89.8], 
     [164.6, 51.6, 88.5], 
     [174.4, 70.2, 91.7], 
     [174.8, 58.8, 91.6]]
x = np.array(x)
print(f'키 컬럼 분산: {np.var(x[:,0], ddof=1):.3f}')
print(f'열 평균 : {np.mean(x, axis = 0)}')
# 데이터의 분포의 중심을 중심축으로 이동시키기 위해 각 열들의 평균 값을 0으로 맞춘다.
x = x - np.mean(x, axis = 0)
print(x)
print('-' * 30)
print('공분산 행렬')
cov = (x.T@x)/(len(x)-1)
print(cov)

키 컬럼 분산: 38.749
열 평균 : [170.63  59.03  90.02]
[[  7.07   9.07   1.78]
 [ -2.63   1.17  -0.72]
 [ -5.33  -9.93  -5.12]
 [-11.53 -17.03  -3.72]
 [  5.77  14.27   3.78]
 [  5.37  -1.83   2.48]
 [ -0.63   0.77  -0.22]
 [ -6.03  -7.43  -1.52]
 [  3.77  11.17   1.68]
 [  4.17  -0.23   1.58]]
------------------------------
공분산 행렬
[[38.749 52.035 15.779]
 [52.035 95.54  23.158]
 [15.779 23.158  7.984]]


# np.cov 함수와 결과 비교

In [7]:
print(np.cov(x, rowvar=False)) # False : 열을 각각의 독립변수로 인식

[[38.749 52.035 15.779]
 [52.035 95.54  23.158]
 [15.779 23.158  7.984]]


# 고유값, 고유벡터 행렬 구하기

In [18]:
eigenvalue, eigenvector = np.linalg.eig(cov)
print('고유값:', eigenvalue)
print()
print('고유벡터:', eigenvector)
print()
print()
print('고유값 대각행렬:')
eig_matrix = np.identity(3) * eigenvalue
print(eig_matrix)
print()
print('첫 번째 고유벡터와 두 번째 고유벡터와의 내적')
# 두 벡터가 서로 직교하면 내적 값이 0이 된다.
# PC2(두번째 주성분)는 원점을 통과해서 PC1과 직교하는 벡터가 된다.
a = eigenvector[:,0].T.dot(eigenvector[:,1])
print(np.round(a,3))

print('첫 번째 고유벡터와 세 번째 고유벡터와의 내적')
a = eigenvector[:,0].T.dot(eigenvector[:,2])
print(np.round(a,3))

print('두 번째 고유벡터와 세 번째 고유벡터와의 내적')
a = eigenvector[:,1].T.dot(eigenvector[:,2])
print(np.round(a,3))

고유값: [132.696   8.307   1.27 ]

고유벡터: [[-0.501 -0.803 -0.323]
 [-0.838  0.544 -0.054]
 [-0.219 -0.244  0.945]]


고유값 대각행렬:
[[132.696   0.      0.   ]
 [  0.      8.307   0.   ]
 [  0.      0.      1.27 ]]

첫 번째 고유벡터와 두 번째 고유벡터와의 내적
0.0
첫 번째 고유벡터와 세 번째 고유벡터와의 내적
0.0
두 번째 고유벡터와 세 번째 고유벡터와의 내적
0.0


In [20]:
print('공분산 행렬')
print(cov)
print()
print('고유값 분해를 통한 공분산 행렬')
print('고유벡터 행렬@고유값 대각행렬@고유벡터 행렬의 역행렬')
print(eigenvector@eig_matrix@np.linalg.inv(eigenvector)) # inv : 역행렬 구하는 함수

공분산 행렬
[[38.749 52.035 15.779]
 [52.035 95.54  23.158]
 [15.779 23.158  7.984]]

고유값 분해를 통한 공분산 행렬
고유벡터 행렬@고유값 대각행렬@고유벡터 행렬의 역행렬
[[38.749 52.035 15.779]
 [52.035 95.54  23.158]
 [15.779 23.158  7.984]]


# 첫 번째 주성분(PC1) 구하기
- 가장 큰 분산을 나타내는 가장 큰 고유값으로 만든 고유 벡터에 표준화된 관측치를 내적하여 만든다.

In [24]:
print(x)

[[  7.07   9.07   1.78]
 [ -2.63   1.17  -0.72]
 [ -5.33  -9.93  -5.12]
 [-11.53 -17.03  -3.72]
 [  5.77  14.27   3.78]
 [  5.37  -1.83   2.48]
 [ -0.63   0.77  -0.22]
 [ -6.03  -7.43  -1.52]
 [  3.77  11.17   1.68]
 [  4.17  -0.23   1.58]]


In [23]:
PC1 = eigenvector[:,0].dot(x.T)
print(np.round(PC1, 3))

[-11.526   0.494  12.106  20.85  -15.668  -1.699  -0.281   9.574 -11.61
  -2.241]


# 공분산을 이용한 주성분 분석

In [26]:
print('PCA를 이용한 차원 축소(3차원->2차원)')
VT = np.array([eigenvector[:,0], eigenvector[:,1]]) # 가장 큰 분산으로 만들어낸 두개의 벡터를 가져와서 2차원으로 축소
print('고유벡터 VT - 주성분 2개 선택')
print(VT)
print()
print('고유벡터 VT와 원본 데이터 XT의 내적')
Z = VT.dot(x.T)
print(Z.T)

PCA를 이용한 차원 축소(3차원->2차원)
고유벡터 VT - 주성분 2개 선택
[[-0.501 -0.838 -0.219]
 [-0.803  0.544 -0.244]]

고유벡터 VT와 원본 데이터 XT의 내적
[[-11.526  -1.18 ]
 [  0.494   2.924]
 [ 12.106   0.129]
 [ 20.85    0.906]
 [-15.668   2.204]
 [ -1.699  -5.912]
 [ -0.281   0.978]
 [  9.574   1.173]
 [-11.61    2.637]
 [ -2.241  -3.859]]


# PCA 클래스와 결과 비교

In [27]:
from sklearn.decomposition import PCA

model = PCA(n_components=2) # n_components : 2개 차원으로 축소
pca = model.fit_transform(x)
print(pca.shape)
print(pca)

(10, 2)
[[-11.526   1.18 ]
 [  0.494  -2.924]
 [ 12.106  -0.129]
 [ 20.85   -0.906]
 [-15.668  -2.204]
 [ -1.699   5.912]
 [ -0.281  -0.978]
 [  9.574  -1.173]
 [-11.61   -2.637]
 [ -2.241   3.859]]


# PC가 차지하는 분산 비율 구하기

In [31]:
print(model.explained_variance_ratio_)
print(f'분산 합계 : {np.sum(model.explained_variance_ratio_):.2f}%')

[0.933 0.058]
분산 합계 : 0.99%


# 고유 벡터 행렬

In [32]:
print(model.components_)

[[-0.501 -0.838 -0.219]
 [ 0.803 -0.544  0.244]]


In [34]:
# 고유값
print(model.explained_variance_)

[132.696   8.307]
