# 머신러닝을 위한 선형대수

주성분 분석

In [1]:
from sklearn.decomposition import PCA
import numpy as np

In [2]:
M = np.array([[-1, -1, -1],
              [-2, -1, 2],
              [-3, -2, 0],
              [1, 1, 2],
              [2, 1, 1],
              [3, 2, 4],
              [2, 0, 3],
              [3, 5, 1],
              [4, 2, 3],
              [3, 3, 2]])

In [3]:
pca = PCA(n_components=2)

In [27]:
#주성분 분석
pca.fit(M)
PCA(copy=True,
    iterated_power='auto',
    n_components=2,
    random_state=None,
    svd_solver='auto',
    tol=0.0,
    whiten=False)

In [5]:
PC = pca.transform(M)
w, V = np.linalg.eig(pca.get_covariance())
#w = 고윳값, V = 고유 벡터
V.T.dot(M.T).T

array([[-1.63789386,  0.38309423, -0.41296792],
       [-1.50265209, -1.67967793,  1.98008049],
       [-3.43143719, -0.83088857,  0.73134327],
       [ 1.9287851 , -0.84878936,  1.24873722],
       [ 2.3753258 ,  0.28259255,  0.52722744],
       [ 4.59500215, -1.03189193,  2.61173397],
       [ 2.3475376 , -0.06571181,  2.73582697],
       [ 5.55104049, -1.38406422, -1.5067567 ],
       [ 5.04154285,  0.09948998,  1.89022418],
       [ 4.62279035, -0.68358757,  0.40313444]])

numpy, scipy를 이용한 선형대수 연산

In [6]:
#library
import numpy as np
from scipy import linalg, sparse

In [7]:
#행렬 생성
A = np.matrix(np.random.random((2,2)))
b = np.random.random((2,2))
B = np.asmatrix(b)
C = np.mat(np.random.random((10,5)))
D = np.mat([[3,4], [5,6]])

In [8]:
A.I #A의 역행렬

matrix([[-0.86416052,  2.42147514],
        [ 4.37026617, -2.38529798]])

In [9]:
linalg.det(A)  #A의 행렬식

-0.11735421819958224

In [10]:
A.T  #A의 전치행렬

matrix([[0.27992478, 0.51286917],
        [0.28417032, 0.10141288]])

In [11]:
np.add(A, D)  #행렬의 합

matrix([[3.27992478, 4.28417032],
        [5.51286917, 6.10141288]])

In [12]:
np.subtract(A, D) #행렬의 차

matrix([[-2.72007522, -3.71582968],
        [-4.48713083, -5.89858712]])

In [13]:
np.divide(A, D) #행렬 나누기(A/D)

matrix([[0.09330826, 0.07104258],
        [0.10257383, 0.01690215]])

In [14]:
print(D@B)   #D와B 행렬의 곱을 @로 표현

[[0.369811   0.04362094]
 [0.59497085 0.06598911]]


In [15]:
print(np.dot(D, B)) #행렬곱을 numpy의 dot을 이용

[[0.369811   0.04362094]
 [0.59497085 0.06598911]]


In [16]:
print(np.multiply(D,B))  #행렬곱이 아닌 대응대는 원소끼리의 곱

[[0.24152609 0.0044616 ]
 [0.16035614 0.0604121 ]]


In [17]:
G = np.mat(np.identity(2))  #2x2 항등행렬
G

matrix([[1., 0.],
        [0., 1.]])

행렬 A의 고윳값, 고유벡터 구하기

In [18]:
linalg.eigvals(A)   #행렬 A의 고윳값 확인

array([ 0.582726  +0.j, -0.20138833+0.j])

In [19]:
la, v = linalg.eig(A)  #A의 고유벡터

In [20]:
l1, l2 = la  #고윳값을 l1, l2로 받기

In [21]:
v[:,0]

array([0.68431808, 0.72918363])

In [22]:
v[:,1]

array([-0.5084084 ,  0.86111608])

희소행렬을 만들고 확인하기

In [23]:
C[C>0.5] = 0

In [24]:
H = sparse.csr_matrix(C)  #C를 희소행렬 형태로 변환

In [25]:
H.todense()   #H를 일반적인 행렬로 변환

matrix([[0.40636355, 0.31706794, 0.31776481, 0.        , 0.        ],
        [0.2895111 , 0.        , 0.4311697 , 0.        , 0.24739058],
        [0.        , 0.19329143, 0.07430256, 0.        , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.        ],
        [0.29372767, 0.10411082, 0.39486946, 0.05539544, 0.        ],
        [0.296602  , 0.32818254, 0.46938987, 0.        , 0.        ],
        [0.19772447, 0.17779889, 0.        , 0.04458751, 0.19444042],
        [0.        , 0.43778451, 0.15443097, 0.25656828, 0.34914688],
        [0.        , 0.        , 0.        , 0.191792  , 0.        ],
        [0.        , 0.        , 0.        , 0.        , 0.01308584]])

In [26]:
sparse.isspmatrix_csr(H)

True