# 고유분해, 고윳값 분해 : 행렬 내부 구조 파악에 활용한다
- $A*v = \lambda*v$
- $A*V=V*\lambda$
- $A = V*\lambda*V^{-1}$ <대각화된 행렬 A>

In [10]:
#대각화 하기 
B = np.array([[2,3],
             [2,1]])

ld, V = np.linalg.eig(B)
ld_matrix = np.diag(ld)

print(B)
print(V@ld_matrix@np.linalg.inv(V))

[[2 3]
 [2 1]]
[[2. 3.]
 [2. 1.]]


In [26]:
# 3.3.7 연습문제
# 다음 행렬은 고윳값 & 고유벡터로 대각화 가능한가?
C = np.array([[1,1],
             [0,1]])

ld, V = np.linalg.eig(C)

ld_matrix1 = np.diag(ld)
V_INV = np.linalg.inv(V)

print(C)

print(V@ld_matrix1@V_INV)
print(np.linalg.matrix_rank(V)) #정방행렬 풀랭크가 아니다 --> 역행렬 없다

[[1 1]
 [0 1]]
[[1. 0.]
 [0. 1.]]
1


In [34]:
#3.3.8 연습문제
# 고윳값이 4, -1로 0인게 하나도 없다. 따라서 행렬 B는 역행렬 항상 존재한다
B = np.array([[2,3],
             [2,1]])

LD = np.diag([4, -1])
v1 = np.array([3/np.sqrt(13), 2/np.sqrt(13)])
v2 = np.array([-1/np.sqrt(2), 1/np.sqrt(2)])
V = np.vstack([v1,v2]).T

#역행렬
V@np.linalg.inv(LD)@np.linalg.inv(V)

array([[-0.25,  0.75],
       [ 0.5 , -0.5 ]])

In [86]:
# 실수로 구성된 대칭행렬 A 고유분해 하기 --> 랭크-1행렬 합으로 나타내는 방법
A = np.array([[60,30,20],
             [30,20,15],
             [20,15,12]])

LD, V = np.linalg.eig(A)
ld1 = LD[0]
ld2 = LD[1]
ld3 = LD[2]
v1 = V[:,0:1]
v2 = V[:,1:2]
v3 = V[:,2:3]

#랭크-1행렬
A1 = v1@v1.T
A2 = v2@v2.T
A3 = v3@v3.T

print((ld1*A1)+(ld2*A2)+(ld3*A3))

[[60. 30. 20.]
 [30. 20. 15.]
 [20. 15. 12.]]


In [93]:
# 위 행렬 A의 역행렬도 랭크-1 행렬 합으로 나타낼 수 있다. 
A_INV = np.linalg.inv(A)

ld_1 = 1/ld1
ld_2 = 1/ld2
ld_3 = 1/ld3

print((ld_1*A1)+(ld_2*A2)+(ld_3*A3))
print()
print(A_INV)

[[ 0.15 -0.6   0.5 ]
 [-0.6   3.2  -3.  ]
 [ 0.5  -3.    3.  ]]

[[ 0.15 -0.6   0.5 ]
 [-0.6   3.2  -3.  ]
 [ 0.5  -3.    3.  ]]


# 분산행렬 
$X^TX$ or $XX^T$

In [109]:
#3.3.9 연습문제
#1. 
from sklearn.datasets import load_iris

iris = load_iris()
X = iris.data

#아이리스 분산행렬 
SC = X.T@X

#고유분해 
ld, V = np.linalg.eig(SC)
print(ld)

print()

#2. 
from sklearn.datasets import load_boston
boston = load_boston()
X = boston.data

#보스턴 집값 분산행렬
X.T@X

#고윳값
ld2, V2 = np.linalg.eig(X.T@X)
print(ld2)

[9.20830507e+03 3.15454317e+02 1.19780429e+01 3.55257020e+00]

[1.58386796e+08 1.18747372e+07 4.17002244e+05 1.61644573e+05
 2.52697480e+04 1.47629635e+04 8.18396001e+03 6.07326738e+03
 4.23577535e+03 6.06399504e+02 3.27412564e+02 3.04157837e+01
 2.19326965e+00]


# 특이분해 
- $A = U*\sigma*V^T$
- 메서드 : np.linalg.svd()

In [123]:
A = np.array([[3,-1],
             [1,3],
             [1,1]])

U,S,VT = np.linalg.svd(A)

print(U) #왼쪽 특이벡터 행렬
print()
print(S) #특잇값 
print()
print(VT) #오른쪽 특이벡터 행렬의 전치행렬
print()

#특잇값 행렬 
print('특잇값 행렬')
SS = np.diag(S,1)[:,1:]
print(SS)

print()
print('특이분해 결과')
print(U@SS@VT)

[[-4.08248290e-01  8.94427191e-01 -1.82574186e-01]
 [-8.16496581e-01 -4.47213595e-01 -3.65148372e-01]
 [-4.08248290e-01 -1.94289029e-16  9.12870929e-01]]

[3.46410162 3.16227766]

[[-0.70710678 -0.70710678]
 [ 0.70710678 -0.70710678]]

특잇값 행렬
[[3.46410162 0.        ]
 [0.         3.16227766]
 [0.         0.        ]]

특이분해 결과
[[ 3. -1.]
 [ 1.  3.]
 [ 1.  1.]]


# 특이분해 축소형 : agrument : full_matrices=False

In [134]:
U1, S1, VT1 = np.linalg.svd(A, full_matrices=False)

print(A)
print()
print(U1) #왼쪽 특이벡터 행렬 : 가장 오른쪽 열 날라감
print()
print(S1) #특잇값
print()
print(VT1) #오른쪽 특이벡터 행렬
print()

# 특이벡터 행렬
print('축소된 특이벡터 행렬')
print(np.diag(S1))
SS2 = np.diag(S1)

print()
print(U1@SS2@VT1)

[[ 3 -1]
 [ 1  3]
 [ 1  1]]

[[-4.08248290e-01  8.94427191e-01]
 [-8.16496581e-01 -4.47213595e-01]
 [-4.08248290e-01 -1.94289029e-16]]

[3.46410162 3.16227766]

[[-0.70710678 -0.70710678]
 [ 0.70710678 -0.70710678]]

축소된 특이벡터 행렬
[[3.46410162 0.        ]
 [0.         3.16227766]]

[[ 3. -1.]
 [ 1.  3.]
 [ 1.  1.]]


In [169]:
# 연습문제 3.4.1
B = np.array([[3,2,2],
             [2,3,-2]])

C = np.array([[2,4],
             [1,3],
             [0,0],
             [0,0]])

# 축소하지 않고 특이분해 하기 
U1, S1, VT1 = np.linalg.svd(B)
SS1 = np.diag(S1, -1)[1:,] #특잇값 행렬

print(U1)
print()
print(SS1)
print()
print(VT1)
print()

print('결과')
print(U1@SS1@VT1)
print()
print('B')
print(B)
print()


U2, S2, VT2 = np.linalg.svd(C)
SS2 = np.diag(S2, 2)[:,2:]

print(U2)
print()
print(SS2)
print()
print(VT2)
print()


print(U2@SS2@VT2)
print()
print('-'*100)
print()


# 축소해서 특이분해 하기 
print('축소 적용')
print()

U11, S11, VT11 = np.linalg.svd(B, full_matrices=False)
SS11 = np.diag(S11) #축소형 특잇값 행렬

print(U11@SS11@VT11)

print()
print('축소적용 2')
print()

U12, S12, VT12 = np.linalg.svd(C, full_matrices=False)
SS12 = np.diag(S12) #축소형 특잇값 행렬

print(U12@SS12@VT12)

[[-0.70710678 -0.70710678]
 [-0.70710678  0.70710678]]

[[5. 0. 0.]
 [0. 3. 0.]]

[[-7.07106781e-01 -7.07106781e-01 -5.55111512e-17]
 [-2.35702260e-01  2.35702260e-01 -9.42809042e-01]
 [-6.66666667e-01  6.66666667e-01  3.33333333e-01]]

결과
[[ 3.  2.  2.]
 [ 2.  3. -2.]]

B
[[ 3  2  2]
 [ 2  3 -2]]

[[-0.81741556 -0.57604844  0.          0.        ]
 [-0.57604844  0.81741556  0.          0.        ]
 [ 0.          0.          1.          0.        ]
 [ 0.          0.          0.          1.        ]]

[[5.4649857  0.        ]
 [0.         0.36596619]
 [0.         0.        ]
 [0.         0.        ]]

[[-0.40455358 -0.9145143 ]
 [-0.9145143   0.40455358]]

[[2. 4.]
 [1. 3.]
 [0. 0.]
 [0. 0.]]

----------------------------------------------------------------------------------------------------

축소 적용

[[ 3.  2.  2.]
 [ 2.  3. -2.]]

축소적용 2

[[2. 4.]
 [1. 3.]
 [0. 0.]
 [0. 0.]]


# 특잇값과 특이벡터 관계 
- $A*v_i = \sigma_i*u_i$
- 특이벡터는 특잇값에 각각 대응된다. 
- 고유벡터도 고윳값에 각각 대응된다. 

In [218]:
# 3.4.2 연습문제 
B = np.array([[3,2,2],
             [2,3,-2]])

C = np.array([[2,4],
             [1,3],
             [0,0],
             [0,0]])

#####
U2, S2, VT2 = np.linalg.svd(B, full_matrices=False)
SS2 = np.diag(S2)

sg1 = SS2[0][0]
sg2 = SS2[1][1]

u1 = U2[:,0:1]
u2 = U2[:,1:2]

v1 = VT2[0]
v2 = VT2[1]

print(B@v1)  
print(sg1*u1)
print()
print(B@v2)
print(sg2*u2)
print()

######
U3, S3, VT3 = np.linalg.svd(C, full_matrices=False)
SS3 = np.diag(S3)

sg12 = SS3[0][0]
sg22 = SS3[1][1]

u12 = U3[:,0:1]
u22 = U3[:,1:2]

v12 = VT3[0]
v22 = VT3[1]

print(C@v12)
print(sg12*u12)
print()
print(C@v22)
print(sg22*u22)

[-3.53553391 -3.53553391]
[[-3.53553391]
 [-3.53553391]]

[-2.12132034  2.12132034]
[[-2.12132034]
 [ 2.12132034]]

[-4.46716435 -3.14809647  0.          0.        ]
[[-4.46716435]
 [-3.14809647]
 [ 0.        ]
 [ 0.        ]]

[-0.21081425  0.29914646  0.          0.        ]
[[-0.21081425]
 [ 0.29914646]
 [ 0.        ]
 [ 0.        ]]


# 특이분해와 고유분해 간 관계 
- 분산행렬 $A^TA$에 대해 고려한다
- 분산행렬 $A^TA$의 고유벡터는 행렬 A의 오른쪽 특이벡터와 같다.
- 분산행렬 $A^TA$의 고윳값은 행렬 A $(특잇값)^2$ (과 0)과 같다

In [233]:
LD, V = np.linalg.eig(A.T@A)
print(LD) #고윳값
print(V) #고유벡터 행렬
print()

U, SG, VT = np.linalg.svd(A)
print(VT.T) #오른쪽 특이벡터 행렬
print(SG**2) #특잇값 제곱


SSG = np.diag(SG**2)

VT.T@SSG@(VT.T).T

[12. 10.]
[[ 0.70710678 -0.70710678]
 [ 0.70710678  0.70710678]]

[[-0.70710678  0.70710678]
 [-0.70710678 -0.70710678]]
[12. 10.]


array([[11.,  1.],
       [ 1., 11.]])

In [234]:
A.T@A

array([[11,  1],
       [ 1, 11]])

In [290]:
#3.4.3 연습문제 
A = np.array([[3, -1],
             [1,3],
             [1,1]])

U, SG, VT = np.linalg.svd(A)
print(U)
print()

print(A@A.T)
print()

LD, V = np.linalg.eig(A@A.T)
print(np.diag(LD))
print()

print(V) # AA.T의 고유벡터행렬과 A의 왼쪽 특이벡터행렬이 같다. 
print()
SGG = np.diag(SG,1)[:,1:]
print(SGG) #특잇값 행렬
print()
print(SGG@SGG.T) # A 특잇값 제곱과 0이 곧 ATA 고윳값이다. 

[[-4.08248290e-01  8.94427191e-01 -1.82574186e-01]
 [-8.16496581e-01 -4.47213595e-01 -3.65148372e-01]
 [-4.08248290e-01 -1.94289029e-16  9.12870929e-01]]

[[10  0  2]
 [ 0 10  4]
 [ 2  4  2]]

[[ 0.  0.  0.]
 [ 0. 10.  0.]
 [ 0.  0. 12.]]

[[ 1.82574186e-01 -8.94427191e-01 -4.08248290e-01]
 [ 3.65148372e-01  4.47213595e-01 -8.16496581e-01]
 [-9.12870929e-01  5.07702013e-16 -4.08248290e-01]]

[[3.46410162 0.        ]
 [0.         3.16227766]
 [0.         0.        ]]

[[12.  0.  0.]
 [ 0. 10.  0.]
 [ 0.  0.  0.]]


In [303]:
#TEST 
T = np.array([[1,2,3],
             [2,4,5],
             [3,5,6]]) #대칭행렬

LD, V = np.linalg.eig(T) #고유분해

print(LD)
print()
print(V)
print()

print('-'*100)

U, SG, VT = np.linalg.svd(T)#특이분해
print(U)
print()
print(SG)
print()
print(VT)
print()

[11.34481428 -0.51572947  0.17091519]

[[-0.32798528 -0.73697623  0.59100905]
 [-0.59100905 -0.32798528 -0.73697623]
 [-0.73697623  0.59100905  0.32798528]]

----------------------------------------------------------------------------------------------------
[[-0.32798528 -0.73697623 -0.59100905]
 [-0.59100905 -0.32798528  0.73697623]
 [-0.73697623  0.59100905 -0.32798528]]

[11.34481428  0.51572947  0.17091519]

[[-0.32798528 -0.59100905 -0.73697623]
 [ 0.73697623  0.32798528 -0.59100905]
 [-0.59100905  0.73697623 -0.32798528]]



In [310]:
print(V)
print()
print(U)

## 왼쪽 특이벡터행렬과 고유벡터행렬 일치한다

[[-0.32798528 -0.73697623  0.59100905]
 [-0.59100905 -0.32798528 -0.73697623]
 [-0.73697623  0.59100905  0.32798528]]

[[-0.32798528 -0.73697623 -0.59100905]
 [-0.59100905 -0.32798528  0.73697623]
 [-0.73697623  0.59100905 -0.32798528]]


In [313]:
print(SG)
print()
print(LD) #일치한다

[11.34481428  0.51572947  0.17091519]

[11.34481428 -0.51572947  0.17091519]


In [315]:
print(V.T)
print()
print(VT) #거의 일치한다

[[-0.32798528 -0.59100905 -0.73697623]
 [-0.73697623 -0.32798528  0.59100905]
 [ 0.59100905 -0.73697623  0.32798528]]

[[-0.32798528 -0.59100905 -0.73697623]
 [ 0.73697623  0.32798528 -0.59100905]
 [-0.59100905  0.73697623 -0.32798528]]
