In [1]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
from numpy.linalg import inv, det, eig, svd

In [2]:
a = np.array([[8, 3],[2, 7]])

* a의 고유값, 고유벡터 계산

In [3]:
ea = eig(a)
ea

(array([10.,  5.]),
 array([[ 0.83205029, -0.70710678],
        [ 0.5547002 ,  0.70710678]]))

* 고유벡터들로 이루어진 행렬

In [4]:
v = ea[1].T
v

array([[ 0.83205029,  0.5547002 ],
       [-0.70710678,  0.70710678]])

* $ A v_1 = \lambda_1 v_1 $ 확인

In [5]:
a.dot(v[0])

array([8.32050294, 5.54700196])

In [6]:
ea[0][0] * v[0]

array([8.32050294, 5.54700196])

* $ A^T A $의 고유값, 고유벡터 계산

In [7]:
b = a.T.dot(a)

c = a.dot(a.T)

In [39]:
b

array([[68, 38],
       [38, 58]])

In [40]:
c

array([[73, 37],
       [37, 53]])

In [8]:
eig(b)  #A.T*A

(array([101.32753579,  24.67246421]),
 array([[ 0.75181597, -0.65937299],
        [ 0.65937299,  0.75181597]]))

In [9]:
eig(c)  #A*A.T

(array([101.32753579,  24.67246421]),
 array([[ 0.79401166, -0.60790253],
        [ 0.60790253,  0.79401166]]))

* $A$의 svd 계산

In [10]:
svda = svd(a)
mu, s, mvt = svda

In [11]:
print(mu) 
print()
print(s)
print()
print(mvt)

[[-0.79401166 -0.60790253]
 [-0.60790253  0.79401166]]

[10.06615795  4.96713843]

[[-0.75181597 -0.65937299]
 [-0.65937299  0.75181597]]


* $A = U \Sigma V^T $ 확인

In [12]:
mu.dot(np.diag(s)).dot(mvt)

array([[8., 3.],
       [2., 7.]])

* iris data 주성분분석과 svd

In [13]:
iris = load_iris()

columns = ['sepal_length','sepal_width','petal_length','petal_width']
irisDF = pd.DataFrame(iris.data , columns=columns)
irisDF['target']=iris.target

In [14]:
from sklearn.preprocessing import StandardScaler
iris_scaled = StandardScaler().fit_transform(irisDF.iloc[:, :-1])  #irisDF.iloc[:, :-1] : 맨 마지막 열 타겟데이터 빼고 스케일링
# 표준화를 하는 이유 : 변수들에 해당하는 범위가 달라지면 변수들이 어느정도까지 관련성이 강한건지 알 수 없다.

# PCA를 적용하기 전에 개별 속성을 함께 스케일링해야 합니다. PCA는 여러 속성의 값을 연산해야 하므로 속성의 스케일에 영향을 받는다. 
# 따라서 여러 속성을 PCA로 압축 하기 전에 각 속성값을 동일한 스케일로 변환하는 것이 필요하다.

In [15]:
from sklearn.decomposition import PCA
pca = PCA(n_components = 2)

pca.fit(iris_scaled)
iris_pca = pca.transform(iris_scaled)

print(iris_pca.shape)

(150, 2)


In [16]:
iris_pca[:5]

array([[-2.26470281,  0.4800266 ],
       [-2.08096115, -0.67413356],
       [-2.36422905, -0.34190802],
       [-2.29938422, -0.59739451],
       [-2.38984217,  0.64683538]])

In [17]:
cov_m = np.cov(iris_scaled, rowvar = False)  #rowvar = False : (iris_scaled).T * ris_scaled = 4x150 * 150x4 = 4x4
cov_m

array([[ 1.00671141, -0.11835884,  0.87760447,  0.82343066],
       [-0.11835884,  1.00671141, -0.43131554, -0.36858315],
       [ 0.87760447, -0.43131554,  1.00671141,  0.96932762],
       [ 0.82343066, -0.36858315,  0.96932762,  1.00671141]])

In [18]:
eig_iris = eig(cov_m)  
eig_iris

(array([2.93808505, 0.9201649 , 0.14774182, 0.02085386]),
 array([[ 0.52106591, -0.37741762, -0.71956635,  0.26128628],
        [-0.26934744, -0.92329566,  0.24438178, -0.12350962],
        [ 0.5804131 , -0.02449161,  0.14212637, -0.80144925],
        [ 0.56485654, -0.06694199,  0.63427274,  0.52359713]]))

In [None]:
cov_m = np.cov(iris_scaled)  #디폴트 : ris_scaled * (iris_scaled).T  = 150x4 * 4x150 = 150x150
cov_m

사이킷런의 PCA는 특이값분해 **(p.380쪽 참고)**

$$  \mathbf A =  \mathbf U  \mathbf \Sigma  \mathbf V^T $$

를 이용해서 주성분을 계산한다 (실제로 특이값분해 결과를 보려면 `np.linalg.svd()` 또는 `scipy.linalg.svd()` 이용).

`np.linalg.svd()`의 결과는 세 항목으로 된 튜플이다. 위의 결과를 `np.linalg.eig()`로 계산한 결과와 비교해보자.

In [19]:
U, s, Vt = svd(cov_m)

In [20]:
Vt

array([[-0.52106591,  0.26934744, -0.5804131 , -0.56485654],
       [-0.37741762, -0.92329566, -0.02449161, -0.06694199],
       [ 0.71956635, -0.24438178, -0.14212637, -0.63427274],
       [ 0.26128628, -0.12350962, -0.80144925,  0.52359713]])

In [21]:
s

array([2.93808505, 0.9201649 , 0.14774182, 0.02085386])

In [22]:
eig_iris[0]

array([2.93808505, 0.9201649 , 0.14774182, 0.02085386])

처음 두 주성분은 `Vt.T`의 첫 두 컬럼이다. `np.linalg.eig()`로 계산한 결과와 비교해보면 부호만 서로 다르다. 이제 아래와 같이 `원래데이터를 투영하면 새로운 데이터를 얻게된다.`

In [23]:
svd_iris = iris_scaled.dot(Vt.T[:, :2])
svd_iris[:5]

array([[ 2.26470281, -0.4800266 ],
       [ 2.08096115,  0.67413356],
       [ 2.36422905,  0.34190802],
       [ 2.29938422,  0.59739451],
       [ 2.38984217, -0.64683538]])

위의 결과를 `iris_pca[:5]`의 결과와 비교해보라.

* 교재에서는 6.4절에서 SVD와 truncated SVD에 대해 설명하고 사이킷런의 `TruncatedSVD`클래스를 이용해서 iris data를 분석하는 과정도 설명하고 있다. 

`cov_m`과 같은 **실수 대칭행렬의 특이값분해는 고유치-고유벡터 분해와 같다.** 하지만 특이값분해는 `행의 수와  열의 수가 다른 일반적인 행렬에 대해서도 구할 수 있기 때문에 고유치-고유벡터 분해보다 더 일반적이다.` 원래 feature 데이터 행렬 `iris_scaled`을 특이값분해해보자.

행렬 $\mathbf A$ 가 $ m \times n ~~(m \ge n)$행렬이라고 하자. 그리고 $n$개의 `열벡터가 선형독립이라고 하자.` 특이값 분해는 다음과 같다.

$$  \mathbf A \mathbf V = \mathbf U \mathbf \Sigma, ~~~~~~~~ \mathbf A =  \mathbf U  \mathbf \Sigma  \mathbf V^T $$

여기서 $\mathbf U $는 모든 열벡터가 정직교벡터인 $ m \times n$ 행렬이다. 즉 $ \mathbf U^T  \mathbf U =  \mathbf I_n $이며 $\mathbf U $의 열벡터들은 $\mathbf A  \mathbf A^T$의 고유벡터들 가운데 처음 $n$개로 이루어진다. 또한  $\mathbf V $는 모든 열벡터가 정직교벡터인 $ n \times n $ 행렬이다. 즉 $ \mathbf V^T \mathbf V =  \mathbf I_n $이며 $\mathbf V $의 열벡터들은 $\mathbf A^T  \mathbf A$의 고유벡터들이다. 또 $ \Sigma $는 특이값 $ \sigma_1, \sigma_2 , \ldots, \sigma_n $ 들을 대각선 원소로 갖는 $ n \times n $ 대각행렬이다. $ \sigma_1^2, \sigma_2^2 , \ldots, \sigma_n^2$들은 $\mathbf A^T  \mathbf A$와 $\mathbf A  \mathbf A^T$의 0이 아닌 고유값들이다.

In [24]:
u, s, vh = svd(iris_scaled)

In [25]:
vh

array([[ 0.52106591, -0.26934744,  0.5804131 ,  0.56485654],
       [-0.37741762, -0.92329566, -0.02449161, -0.06694199],
       [ 0.71956635, -0.24438178, -0.14212637, -0.63427274],
       [ 0.26128628, -0.12350962, -0.80144925,  0.52359713]])

In [26]:
u

array([[-1.08239531e-01, -4.09957970e-02,  2.72186462e-02, ...,
         5.43380310e-02,  1.96438400e-03,  2.46978090e-03],
       [-9.94577561e-02,  5.75731483e-02,  5.00034005e-02, ...,
         5.12936114e-03,  8.48544595e-02,  5.83496936e-03],
       [-1.12996303e-01,  2.92000319e-02, -9.42089147e-03, ...,
         2.75184277e-02,  1.78604309e-01,  1.49419118e-01],
       ...,
       [ 7.27030413e-02, -2.29793601e-02, -3.84023516e-02, ...,
         9.89532683e-01, -1.25488246e-02, -7.17729676e-04],
       [ 6.56112167e-02, -8.63643414e-02, -1.98939364e-01, ...,
        -1.41206665e-02,  9.52049996e-01, -2.32048811e-02],
       [ 4.59137323e-02,  2.07800179e-03, -1.12588405e-01, ...,
        -8.30595907e-04, -2.19201906e-02,  9.77300244e-01]])

In [27]:
s

array([20.92306556, 11.7091661 ,  4.69185798,  1.76273239])

`np.linalg.svd()`의 결과에서 길이 $n$인 벡터 `s`에 들어있는 값들이 특이값들이다. 그리고 출력 가운데 `u`는 $\mathbf A \mathbf A^T$의 고유벡터들로 이루어진 행렬인데 그 가운데 처음 $n$개가 행렬 $\mathbf A$의 왼쪽 특이벡터가 된다. 또 `vh`의 행들은 오른쪽 특이벡터로 이루어진 행렬 $\mathbf V$다(즉 `vh`는 $\mathbf V^T$다). 곱해서 확인해보자. $\mathbf A = u \Sigma vh $가 되어야한다. `iris_scaled`는 $150 \times 4$ 행렬이고 네 개의 열이 선형독립이므로 아래와 같이 곱하면 되겠다. 150개 벡터 가운데 처음 세 개만 확인하자.

In [28]:
u[:,:4].dot(np.diag(s)).dot(vh)[:3]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ]])

In [29]:
iris_scaled[:3]

array([[-0.90068117,  1.01900435, -1.34022653, -1.3154443 ],
       [-1.14301691, -0.13197948, -1.34022653, -1.3154443 ],
       [-1.38535265,  0.32841405, -1.39706395, -1.3154443 ]])

서로 일치한다. 위에서 구한 `iris_scaled의 특이값`과 `공분산행렬의 고유치` 사이의 관계도 확인해보자. 

In [30]:
cov_m

array([[ 1.00671141, -0.11835884,  0.87760447,  0.82343066],
       [-0.11835884,  1.00671141, -0.43131554, -0.36858315],
       [ 0.87760447, -0.43131554,  1.00671141,  0.96932762],
       [ 0.82343066, -0.36858315,  0.96932762,  1.00671141]])

이와 같은 cov(공분산행렬)은 다음과 같이 계산한 것이다.

In [31]:
iris_scaled.T.dot(iris_scaled)/149

array([[ 1.00671141, -0.11835884,  0.87760447,  0.82343066],
       [-0.11835884,  1.00671141, -0.43131554, -0.36858315],
       [ 0.87760447, -0.43131554,  1.00671141,  0.96932762],
       [ 0.82343066, -0.36858315,  0.96932762,  1.00671141]])

`A = iris_scaled`라고 할 때 $ \mathbf A^T \mathbf A $ / 149 = cov_m 이므로, $ \mathbf A^T \mathbf A $의 고유값은 아래와 같다.

In [32]:
sm, Vtm = eig(cov_m)
149 * sm

array([437.77467248, 137.10457072,  22.01353134,   3.10722546])

In [33]:
sm

array([2.93808505, 0.9201649 , 0.14774182, 0.02085386])

In [34]:
Vtm

array([[ 0.52106591, -0.37741762, -0.71956635,  0.26128628],
       [-0.26934744, -0.92329566,  0.24438178, -0.12350962],
       [ 0.5804131 , -0.02449161,  0.14212637, -0.80144925],
       [ 0.56485654, -0.06694199,  0.63427274,  0.52359713]])

위의 결과는 `A = iris_scaled`의 특이값을 제곱한 것과 같아야한다. 확인해보자.

In [35]:
u, s, vh = np.linalg.svd(iris_scaled)

In [36]:
s

array([20.92306556, 11.7091661 ,  4.69185798,  1.76273239])

In [37]:
s**2

array([437.77467248, 137.10457072,  22.01353134,   3.10722546])

정확히 일치한다.

위와 같은 특이값 중 큰 값 둘은 주성분이 2인 PCA의 결과로부터 아래처럼 출력할 수 있다.

In [38]:
print(pca.singular_values_)

[20.92306556 11.7091661 ]
