<a href="https://colab.research.google.com/github/HST0077/MME2025/blob/main/MatixDecomposition.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Gram-Schmidt orthogonalization process

### 두 벡터 u_1=(1,1)과 u_2=(1,0)은 서로 독립이지만 직교하지는 않는다. u_1 방향의 단위 벡터를 v_1,  v_1에 수직인 단위 벡터를 만들어 v_2라고 하자. 그리고, u_1,u_2를 v_1,v_2의 선형결합으로 표현하여 보아라.

In [None]:
import sympy as sp
u1,u2=sp.Matrix([1,1]),sp.Matrix([1,0])
# 벡터를 벡터의 크기로 나눔
v1=u1/u1.norm()
v1.norm() # 단위벡터 확인

1

In [None]:
v1

Matrix([
[sqrt(2)/2],
[sqrt(2)/2]])

In [None]:
v2=u2-((u2.dot(v1))/(v1.norm()))*v1
v2

Matrix([
[ 1/2],
[-1/2]])

In [None]:
# 단위벡터로 변환
v2=v2/v2.norm()
v2

Matrix([
[ sqrt(2)/2],
[-sqrt(2)/2]])

In [None]:
# 직교함을 증명
v1.dot(v2)

0

### 3차원 벡터 u_1=(1,1,1),u_2=(1,0,1),u_3=(-1,1,0) 은 서로 독립이지만 직교하지는 않는다. u_1 방향의 단위 벡터를 v_1,  v_1에 수직인 단위 벡터를 만들어 v_2, v_1,v_2에 수직인 단위 벡터를 만들어 v_3라고 하고, u_1,u_2,u_3를 v_1,v_2,v_3의 선형결합으로 표현하여 보아라

In [None]:
u1,u2,u3=sp.Matrix([1,1,1]),sp.Matrix([1,0,1]),sp.Matrix([-1,1,0])
# 벡터를 벡터의 크기로 나눔
v1=u1/u1.norm()
v1.norm() # 단위벡터 확인

1

In [None]:
v1

Matrix([
[sqrt(3)/3],
[sqrt(3)/3],
[sqrt(3)/3]])

In [None]:
v2=u2-((u2.dot(v1))/(v1.norm()))*v1
# 단위벡터로 변환
v2=v2/v2.norm()
v2

Matrix([
[ sqrt(6)/6],
[-sqrt(6)/3],
[ sqrt(6)/6]])

In [None]:
# 직교함을 증명
v1.dot(v2)

0

In [None]:
v3=u3-((u3.dot(v1))/(v1.norm()))*v1-((u3.dot(v2))/(v2.norm()))*v2
v3

Matrix([
[-1/2],
[   0],
[ 1/2]])

In [None]:
# 단위벡터로 변환
v3=v3/v3.norm()
v3

Matrix([
[-sqrt(2)/2],
[         0],
[ sqrt(2)/2]])

In [None]:
# 직교함을 증명
v1.dot(v3),v2.dot(v3)

(0, 0)

# QR Decomposition

In [None]:
# QR 분해 수행
from sympy import Matrix
A=Matrix([u1.T,u2.T,u3.T])
A=A.T
A

Matrix([
[1, 1, -1],
[1, 0,  1],
[1, 1,  0]])

In [None]:
# QR 분해
Q,R=A.QRdecomposition()
Q

Matrix([
[sqrt(3)/3,  sqrt(6)/6, -sqrt(2)/2],
[sqrt(3)/3, -sqrt(6)/3,          0],
[sqrt(3)/3,  sqrt(6)/6,  sqrt(2)/2]])

In [None]:
R

Matrix([
[sqrt(3), 2*sqrt(3)/3,          0],
[      0,   sqrt(6)/3, -sqrt(6)/2],
[      0,           0,  sqrt(2)/2]])

In [None]:
# Q의 열들이 서로 직각인지 확인
import numpy as np

for i in range(A.cols):
    for j in range(i):
        if i != j:
            out=Q[:,j].transpose() @ Q[:,i]
            out=np.array(out)
            print(f'{j+1}열과 {i+1}열의 내적: {out[0][0]}')

1열과 2열의 내적: 0
1열과 3열의 내적: 0
2열과 3열의 내적: 0


In [None]:
A-Q@R

Matrix([
[0, 0, 0],
[0, 0, 0],
[0, 0, 0]])

In [None]:
from sympy import det
det(Q)

-1

# Eigenvalue Decomposition

In [None]:
from sympy import Matrix, symbols, solve

In [None]:
A=Matrix(3,3,[2,0,-1,0,4,0,-1,0,1])
A

Matrix([
[ 2, 0, -1],
[ 0, 4,  0],
[-1, 0,  1]])

In [None]:
x1,x2,x3=symbols('x1 x2 x3') # 기호 정의
e=symbols('e',nonzero=True) # 기호 정의
x=Matrix(3,1,[x1,x2,x3])
# 행렬에서의 곱은 '@'을 쓰는게 좋다.
res=solve(A@x-e*x,[x1,x2,x3,e])
res

[(0, x2, 0, 4),
 (x3*(-1/2 + sqrt(5)/2), 0, x3, 3/2 - sqrt(5)/2),
 (x3*(-sqrt(5)/2 - 1/2), 0, x3, sqrt(5)/2 + 3/2),
 (0, 0, 0, e)]

In [None]:
# 첫번째 eigenvector 살펴보기
# x2에 1 대입
ev0 = [val.subs('x2',1) for val in res[0]]
# eigenvector, eigenvalue 분리
x,e=Matrix(ev0[:3]),ev0[-1]
# 검증
A@x-e*x

Matrix([
[0],
[0],
[0]])

In [None]:
# 두번째 eigenvector 살펴보기
# x3에 1 대입
ev = [val.subs('x3',1) for val in res[1]]
# eigenvector, eigenvalue 분리
x,e=Matrix(ev[:3]),ev[-1]
# 검증
A@x-e*x

Matrix([
[-2 - (-1/2 + sqrt(5)/2)*(3/2 - sqrt(5)/2) + sqrt(5)],
[                                                  0],
[                                                  0]])

In [None]:
_[0].simplify()

0

In [None]:
# 세번째 eigenvector 살펴보기
# x3에 1 대입
ev = [val.subs('x3',1) for val in res[2]]
# eigenvector, eigenvalue 분리
x,e=Matrix(ev[:3]),ev[-1]
# 검증
A@x-e*x

Matrix([
[-sqrt(5) - 2 - (-sqrt(5)/2 - 1/2)*(sqrt(5)/2 + 3/2)],
[                                                  0],
[                                                  0]])

In [None]:
_[0].simplify()

0

In [None]:
# 대입: 이름이 'x3'인 Symbol을 1로 바꾸기
# 대입 사전 정의
subs_dict = {'x3': 1}

# 항목 전체에 subs() 적용
ev1 = [val.subs(subs_dict) for val in res[1]]
Matrix(ev1)

Matrix([
[-1/2 + sqrt(5)/2],
[               0],
[               1],
[ 3/2 - sqrt(5)/2]])

In [None]:
P,D=A.diagonalize()
D

Matrix([
[4,               0,               0],
[0, 3/2 - sqrt(5)/2,               0],
[0,               0, sqrt(5)/2 + 3/2]])

In [None]:
P

Matrix([
[0, -1/2 + sqrt(5)/2, -sqrt(5)/2 - 1/2],
[1,                0,                0],
[0,                1,                1]])

In [None]:
from sympy import pprint
# 고유벡터인지 검증
for i in range(3):
    out=A@P[:,i]-D[i,i]*P[:,i]
    #pprint()를 사용하면 행렬 모양 출력
    pprint(out.evalf())

⎡0⎤
⎢ ⎥
⎢0⎥
⎢ ⎥
⎣0⎦
⎡-0.e-124⎤
⎢        ⎥
⎢   0    ⎥
⎢        ⎥
⎣   0    ⎦
⎡0.e-123⎤
⎢       ⎥
⎢   0   ⎥
⎢       ⎥
⎣   0   ⎦


In [None]:
# 고유벡터의 크기 출력
for i in range(3):
    out=P[:,i].T @ P[:,i]
    pprint(out.evalf())

[1.0]
[1.38196601125011]
[3.61803398874989]


In [None]:
O=P.T@P
O.evalf()

Matrix([
[1.0,                0,                0],
[  0, 1.38196601125011,          0.e-125],
[  0,          0.e-125, 3.61803398874989]])

In [None]:
A-P@D@P.inv() # P.inv()는 P의 역함수

Matrix([
[sqrt(5)*(-sqrt(5)/2 - 1/2)*(sqrt(5)/2 + 3/2)/5 - (-1/2 + sqrt(5)/2)*(1 - sqrt(5))*(3/2 - sqrt(5)/2)/(-5 + sqrt(5)) + 2, 0, -1 - (-1/2 + sqrt(5)/2)*(3/2 - sqrt(5)/2)/(5/2 - sqrt(5)/2) - (1/2 - sqrt(5)/10)*(-sqrt(5)/2 - 1/2)*(sqrt(5)/2 + 3/2)],
[                                                                                                                     0, 0,                                                                                                                     0],
[                                     -1 - (1 - sqrt(5))*(3/2 - sqrt(5)/2)/(-5 + sqrt(5)) + sqrt(5)*(sqrt(5)/2 + 3/2)/5, 0,                                       -(1/2 - sqrt(5)/10)*(sqrt(5)/2 + 3/2) - (3/2 - sqrt(5)/2)/(5/2 - sqrt(5)/2) + 1]])

In [None]:
_.evalf() # 도는 값들을 숫자로 계산

Matrix([
[-0.e-127, 0, 0.e-126],
[       0, 0,       0],
[ 0.e-126, 0, 0.e-125]])

In [None]:
sol=solve(A@x-e*x,[x1,x2,x3,e])
sol

[(x1, x2, x3, 1/2 - sqrt(4*sqrt(5) + 9)/2),
 (x1, x2, x3, 1/2 + sqrt(4*sqrt(5) + 9)/2)]

In [None]:
A@P-P@D

Matrix([
[0, -2 - (-1/2 + sqrt(5)/2)*(3/2 - sqrt(5)/2) + sqrt(5), -sqrt(5) - 2 - (-sqrt(5)/2 - 1/2)*(sqrt(5)/2 + 3/2)],
[0,                                                   0,                                                   0],
[0,                                                   0,                                                   0]])

## numpy를 이용한 고유값 분해

In [None]:
A=Matrix(3,3,[2,0,-1,0,4,0,-1,0,1])
A=np.array(A).astype(int) # 심파이형태를 넘파이로 변환
A

array([[ 2,  0, -1],
       [ 0,  4,  0],
       [-1,  0,  1]])

In [None]:
# eig()함수를 이용해 고유값과 고유벡터 계산
D,P=np.linalg.eig(A)
D

array([2.61803399, 0.38196601, 4.        ])

In [None]:
P

array([[ 0.85065081,  0.52573111,  0.        ],
       [ 0.        ,  0.        ,  1.        ],
       [-0.52573111,  0.85065081,  0.        ]])

In [None]:
# np.allclose(A,0) A가 거의 0이면 True 리턴
for i in range(3): #
    print(np.allclose(A@P.T[i]-D[i]*P.T[i],0))

True
True
True


In [None]:
D=np.diag(D) #대각행렬로 변환
D

array([[2.61803399, 0.        , 0.        ],
       [0.        , 0.38196601, 0.        ],
       [0.        , 0.        , 4.        ]])

In [None]:
# AP-PD의 거의 모든 원소가 0에 가까운지 검증
np.allclose(A@P-P@D,0)

True

In [None]:
Matrix(P)

Matrix([
[  0.85065080835204, 0.525731112119133, 0.0],
[               0.0,               0.0, 1.0],
[-0.525731112119133,  0.85065080835204, 0.0]])

In [None]:
Matrix(A@P)

Matrix([
[ 2.22703272882321, 0.200811415886227, 0.0],
[              0.0,               0.0, 4.0],
[-1.37638192047117, 0.324919696232906, 0.0]])

In [None]:
Matrix(P@D)

Matrix([
[ 2.22703272882321, 0.200811415886227, 0.0],
[              0.0,               0.0, 4.0],
[-1.37638192047117, 0.324919696232906, 0.0]])

In [None]:
Matrix(A@P.T[0])

Matrix([
[ 2.22703272882321],
[              0.0],
[-1.37638192047117]])

In [None]:
Matrix(D[0]*P.T[0])

Matrix([
[2.22703272882321],
[             0.0],
[             0.0]])

In [None]:
# np.allclose(A,0) A가 거의 0이면 True 리턴
for i in range(3): # i는 0부터 2까지, 각 칼럼을 선택함
    print(np.allclose(A@P.T[i]-D[i][i]*P.T[i],0))

True
True
True


In [None]:
# 각 고유벡터의 크기 계산
Matrix(P@P.T)

Matrix([
[1.0, 0.0, 0.0],
[0.0, 1.0, 0.0],
[0.0, 0.0, 1.0]])

In [None]:
Matrix(P.T@P)

Matrix([
[1.0, 0.0, 0.0],
[0.0, 1.0, 0.0],
[0.0, 0.0, 1.0]])

In [None]:
# A^n?
A=Matrix(3,3,[2,0,-1,0,4,0,-1,0,1])
A

Matrix([
[ 2, 0, -1],
[ 0, 4,  0],
[-1, 0,  1]])

In [None]:
P,D=A.diagonalize()
P_inv = P.inv()

In [None]:
res=A - P @ D @ P_inv
np.allclose(res.evalf(),np.zeros(3))

True

In [None]:
res1=A.pow(100)
res2=P @ D.pow(100)  @ P_inv
np.allclose(res1.evalf()-res2.evalf(), np.zeros(3))

True

In [None]:
res2.evalf()

Matrix([
[4.53973694165308e+41,                    0, -2.8057117299251e+41],
[                   0, 1.60693804425899e+60,                    0],
[-2.8057117299251e+41,                    0, 1.73402521172798e+41]])

In [None]:
# 상관계수가 -0.7인 정규분포 난수쌍 만들기
# 평균과 공분산 정의
mu = [0, 0]
cov = [[1, -0.7], [-0.7, 1]]  # 상관계수 -0.7

# 난수 생성
X = np.random.multivariate_normal(mu, cov, size=100000)
X = X.T # 100000 by 2 행렬로 전치
C=np.corrcoef(X[0],X[1])

In [None]:
C

array([[ 1.        , -0.70179715],
       [-0.70179715,  1.        ]])

In [None]:
D,P=np.linalg.eig(C)
P_inv=np.linalg.inv(P)
Matrix(P)

Matrix([
[ 0.707106781186548, 0.707106781186548],
[-0.707106781186547, 0.707106781186547]])

In [None]:
Z=P_inv@X
Z.shape

(2, 100000)

In [None]:
np.corrcoef(Z[0],Z[1])

array([[ 1.        , -0.00190314],
       [-0.00190314,  1.        ]])

# 블록행렬의 곱셈

In [None]:
from sympy import Matrix, BlockMatrix, symbols

# 심볼 정의
a, b, c, d, e, f, g, h = symbols('a b c d e f g h')

# Block matrix A 정의
A1 = Matrix([[a, b], [c, d]])
A2 = Matrix([[e, f], [g, h]])
A = BlockMatrix([[A1,A2]])

# Block matrix B 정의
B1 = Matrix([[a, b], [c, d]])
B2 = Matrix([[e, f], [g, h]])
B = BlockMatrix([[B1],[B2]])

# Block matrix 곱셈
A * B

Matrix([[Matrix([
[a, b],
[c, d]]), Matrix([
[e, f],
[g, h]])]])*Matrix([
[Matrix([
[a, b],
[c, d]])],
[Matrix([
[e, f],
[g, h]])]])

In [None]:
from sympy import MatrixSymbol,symbols, BlockMatrix, Matrix
p,q,r,s=symbols('p q r s',integer=True, positive=True)
A1=MatrixSymbol('A1',p,q)
A2=MatrixSymbol('A2',r,q)
B1=MatrixSymbol('B1',q,r)
B2=MatrixSymbol('B2',q,s)
A=Matrix([[A1],[A2]])
A

In [None]:
B=Matrix([[B1,B2]])
B

In [None]:
A@B

In [None]:
B@A

In [None]:
from sympy import Matrix, BlockMatrix
# Block matrix A 정의
A1 = Matrix([[1, 2], [3, 4]])
A2 = Matrix([[5, 6], [7, 8]])
A = Matrix.vstack(A1,A2)

# Block matrix B 정의
B1 = Matrix([[1, 2], [3, 4]])
B2 = Matrix([[5, 6], [7, 8]])
B = Matrix.hstack(B1,B2)

A@B

In [None]:
# numpy를 이용해서 검증
A1=np.array(A1).astype(int)
A2=np.array(A2).astype(int)
A=np.vstack((A1,A2))
B1=np.array(B1).astype(int)
B2=np.array(B2).astype(int)
B=np.hstack((B1,B2))
Matrix(A@B)

In [None]:
A1*B1

In [None]:
A1*B2

In [None]:
A2*B1

In [None]:
A2*B2

# 대칭행렬의 고유벡터 직교성 알아보기

In [None]:
import sympy as smp

n=smp.symbols('n') # 문자 기호 정의
A=smp.MatrixSymbol('A',n,n) # 행렬 정의
B=smp.MatrixSymbol('B',n,n) # 행렬 정의
(A@B).T # 곱 행렬의 전치행렬

B.T*A.T

In [None]:
(A@B).inv() # 곱 행렬의 역행렬

B**(-1)*A**(-1)

In [None]:
import sympy as smp
import numpy as np

A=smp.Matrix(3,3,[2,0,-1,0,4,0,-1,0,1])
A

Matrix([
[ 2, 0, -1],
[ 0, 4,  0],
[-1, 0,  1]])

In [None]:
A-A.T #대칭행렬 검증

Matrix([
[0, 0, 0],
[0, 0, 0],
[0, 0, 0]])

In [None]:
A=np.array(A).astype(int)
D,P=np.linalg.eig(A)
D=np.diag(D)
smp.Matrix(D)

Matrix([
[2.61803398874989,               0.0, 0.0],
[             0.0, 0.381966011250105, 0.0],
[             0.0,               0.0, 4.0]])

In [None]:
# 서로 같은 고유벡터의 내적값 확인
for i in range(3):
     print(P.T[i]@P.T[i])# 내적의 값구하기

0.9999999999999998
0.9999999999999998
1.0


In [None]:
# 서로 다른 고유벡터의 내적값 확인
for i in range(3): # i=0,1,2
    for j in range(i): #j=0,..,i-1
        print(P.T[j]@P.T[i])# 내적의 값구하기

0.0
0.0
0.0


In [None]:
P@P.T

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [None]:
np.allclose(np.linalg.inv(P)-P.T,0)

True

In [None]:
A=smp.Matrix(3,3,[2,0,-1,0,4,0,-1,0,1])
A

Matrix([
[ 2, 0, -1],
[ 0, 4,  0],
[-1, 0,  1]])

In [None]:
# 서로 같은 고유벡터의 내적값 확인
for i in range(3):
     print(P.T[i]@P.T[i])# 내적의 값구하기

0.9999999999999998
0.9999999999999998
1.0


In [None]:
# 서로 다른 고유벡터의 내적값 확인
for i in range(3): # i=0,1,2
    for j in range(i): #j=0,..,i-1
        print(P.T[j]@P.T[i])# 내적의 값구하기

0.0
0.0
0.0


# Singular Value Decompostion

In [None]:
from sympy import Matrix
import numpy as np
A=np.array([[-1,1,0],[0,-1,1]])
Matrix(A)

Matrix([
[-1,  1, 0],
[ 0, -1, 1]])

In [None]:
D,P=np.linalg.eig(A@A.T)
D=np.diag(D)
Matrix(D)

Matrix([
[3.0, 0.0],
[0.0, 1.0]])

In [None]:
Matrix(P)

Matrix([
[ 0.707106781186547, 0.707106781186547],
[-0.707106781186547, 0.707106781186547]])

In [None]:
Matrix(A)

Matrix([
[-1,  1, 0],
[ 0, -1, 1]])

In [None]:
U,S,Vt=np.linalg.svd(A)

In [None]:
Matrix(U)

Matrix([
[-0.707106781186548, 0.707106781186547],
[ 0.707106781186547, 0.707106781186548]])

In [None]:
Matrix(S)

Matrix([
[1.73205080756888],
[             1.0]])

In [None]:
Matrix(Vt)

Matrix([
[ 0.408248290463863,    -0.816496580927726, 0.408248290463863],
[-0.707106781186547, -2.78976253009266e-16, 0.707106781186548],
[ 0.577350269189626,     0.577350269189626, 0.577350269189626]])

In [None]:
# 특이값의 제곱은 고유값이 된다.
S**2

array([3., 1.])

In [None]:
# U,V 행렬은 모두 직교행렬(orthogonal matrix)
np.allclose(U@U.T,np.eye(2))

True

In [None]:
np.allclose(Vt@Vt.T,np.eye(3))

True

In [None]:
Matrix(A)

Matrix([
[-1,  1, 0],
[ 0, -1, 1]])

In [None]:
# scipy를 이용한 SVD
import scipy.linalg as LA
u,s,vt=LA.svd(A)
Matrix(u)

Matrix([
[-0.707106781186548, 0.707106781186547],
[ 0.707106781186547, 0.707106781186548]])

In [None]:
Matrix(s)

Matrix([
[1.73205080756888],
[             1.0]])

In [None]:
Matrix(vt)

Matrix([
[ 0.408248290463863,    -0.816496580927726, 0.408248290463863],
[-0.707106781186547, -2.78976253009266e-16, 0.707106781186548],
[ 0.577350269189626,     0.577350269189626, 0.577350269189626]])

In [None]:
s

array([1.73205081, 1.        ])

In [None]:
S = np.zeros_like(A, dtype=float)
np.fill_diagonal(S, s)  # s를 대각성분에 넣기
Matrix(S)

Matrix([
[1.73205080756888, 0.0, 0.0],
[             0.0, 1.0, 0.0]])

In [None]:
np.allclose(A , u@S@vt)

True

## Truncated SVD

In [None]:
import numpy as np

# 임의의 6x6 행렬 생성
X = np.random.rand(6, 6)

# numpy의 SVD 수행
U, S, Vt = np.linalg.svd(X, full_matrices=False)

# Truncated SVD: 상위 2개의 특이값만 사용하여 차원 축소
n_components = 2
X_reduced = np.dot(U[:, :n_components], np.diag(S[:n_components]))

# 결과 확인
print("원본 데이터의 모양:", X.shape)
print("축소된 데이터의 모양:", X_reduced.shape)

원본 데이터의 모양: (6, 6)
축소된 데이터의 모양: (6, 2)


In [None]:
S

array([3.11915134, 1.12617559, 0.77896378, 0.47067063, 0.16680025,
       0.10277704])

In [None]:
X_reduced

array([[-0.95440381,  0.36473648],
       [-1.46270321, -0.41407476],
       [-1.10614121,  0.29962638],
       [-0.82961266, -0.85961692],
       [-1.46131548,  0.36099525],
       [-1.62218041,  0.06889162]])

In [None]:
from sklearn.decomposition import TruncatedSVD

n_components = 2
X_r = TruncatedSVD(n_components=n_components)
X_r.fit_transform(X)

array([[ 1.21870476, -0.32332518],
       [ 1.20371177, -0.66348395],
       [ 1.71324606,  0.28632909],
       [ 0.90247812,  0.6358452 ],
       [ 1.70151094, -0.28374528],
       [ 1.36527407,  0.44759402]])

In [None]:
X[:,:2]

array([[0.38016392, 0.29096187],
       [0.55037983, 0.01196665],
       [0.53572204, 0.99246286],
       [0.09670984, 0.96528981],
       [0.82614584, 0.42950844],
       [0.68499177, 0.91068381]])

In [None]:
X_r.singular_values_

array([3.3827437 , 1.14537564])

# SVD를 이용한 사진 압축예제

In [None]:
file='C:\Temp\liberty.jpg'

In [None]:
from PIL import Image
import matplotlib.pyplot as plt
image=Image.open(file) # 파일열기
plt.imshow(image) # 이미지 출력하기

In [None]:
# 읽어온 이미지의 크기 살펴보기
image_N=np.array(image) # 이미지 파일을 넘파이 어레이로 변환
image_N.shape # 변환된 어레이의 크기, 모양 보기

In [None]:
# 맨 왼쪽 상단의 픽셀정보보기
C=image_N[0,0,:]
C

In [None]:
# 위 색깔 정보를 색으로 표현하기
D_img=np.zeros([5,5,3],dtype=np.uint8) # 가로 5, 세로 5 빈공간
D_img[:,:,:]=C # 모든 픽셀을 C 값으로
plt.imshow(D_img) # 이미지출력

In [None]:
# getdata()는 픽셀정보를 가져온다.
# band=0는 RGB에서 R에 대한 정보를 가져온다.
imageM=np.array(image.getdata(band=0),int)
# 보통 이미지를 다루는 라이브러리는 픽셀을 열 기준으로 먼저 읽고
# 넘파이는 행 기준으로 먼저 읽기 때문에, 넘파이의 가로, 세로를 바꿔줘야 함
imageM.shape=(image.size[1],image.size[0])
plt.imshow(imageM)

In [None]:
imageM.shape

In [None]:
from scipy.linalg import svd
u,s,vt=svd(imageM) # svd 수행
print(u.shape,s.shape,vt.shape)

In [None]:
# 특이값 10개의 값 그리기
# svd를 수행하면 항상 특이값이 큰 순서부터 자동 정렬된다.
plt.plot(s[:10])

In [None]:
plt.plot(s)

In [None]:
# 데이터의 일부를 발췌하여 이미지 다시 그려보기
n=20 # 불러올 특이값 개수 설정
IM=np.zeros([1517,1084])

# 원래 행렬에서 특이값이 큰 순서대로 n개에 해당하는 행렬로 축약
for i in range(n): # 첫번째 부터 n-1번째 특이값까지
    # u 행렬의 i번째 열, vt행렬의 i번째 행을 불러서 행렬 곱 수행 (1517 by 1084 행렬이 됨)
    # 이렇게 만든 행렬에 s[i]의 고유값을 곱해서 행렬 업데이트
    # 업데이트된 행렬을 기존 행렬(IM)에 계속 더해감
    IM+=s[i]*(u[:,i].reshape(-1,1)@vt[i,:].reshape(1,-1))
plt.imshow(IM)
plt.title(f'n={n}')

In [None]:
# 데이터의 일부를 발췌하여 이미지 다시 그려보기
n=10 # 불러올 특이값 개수 설정
IM=np.zeros([1517,1084])

# 원래 행렬에서 특이값이 큰 순서대로 n개에 해당하는 행렬로 축약
for i in range(n): # 첫번째 부터 n-1번째 특이값까지
    # u 행렬의 i번째 열, vt행렬의 i번째 행을 불러서 행렬 곱 수행 (1517 by 1084 행렬이 됨)
    # 이렇게 만든 행렬에 s[i]의 고유값을 곱해서 행렬 업데이트
    # 업데이트된 행렬을 기존 행렬(IM)에 계속 더해감
    IM+=s[i]*(u[:,i].reshape(-1,1)@vt[i,:].reshape(1,-1))
plt.imshow(IM)
plt.title(f'n={n}')

In [None]:
# 데이터의 일부를 발췌하여 이미지 다시 그려보기
n=5 # 불러올 특이값 개수 설정
IM=np.zeros([1517,1084])

# 원래 행렬에서 특이값이 큰 순서대로 n개에 해당하는 행렬로 축약
for i in range(n): # 첫번째 부터 n-1번째 특이값까지
    # u 행렬의 i번째 열, vt행렬의 i번째 행을 불러서 행렬 곱 수행 (1517 by 1084 행렬이 됨)
    # 이렇게 만든 행렬에 s[i]의 고유값을 곱해서 행렬 업데이트
    # 업데이트된 행렬을 기존 행렬(IM)에 계속 더해감
    IM+=s[i]*(u[:,i].reshape(-1,1)@vt[i,:].reshape(1,-1))
plt.imshow(IM)
plt.title(f'n={n}')

In [None]:
# 데이터의 일부를 발췌하여 이미지 다시 그려보기
n=100 # 불러올 특이값 개수 설정
IM=np.zeros([1517,1084])

# 원래 행렬에서 특이값이 큰 순서대로 n개에 해당하는 행렬로 축약
for i in range(n): # 첫번째 부터 n-1번째 특이값까지
    # u 행렬의 i번째 열, vt행렬의 i번째 행을 불러서 행렬 곱 수행 (1517 by 1084 행렬이 됨)
    # 이렇게 만든 행렬에 s[i]의 고유값을 곱해서 행렬 업데이트
    # 업데이트된 행렬을 기존 행렬(IM)에 계속 더해감
    IM+=s[i]*(u[:,i].reshape(-1,1)@vt[i,:].reshape(1,-1))
plt.imshow(IM)
plt.title(f'n={n}')

# 잠재의미분석

In [None]:
# 예제 문서
D = [
    "coke",
    "coke hamburger pizza",
    "hamburger",
    "라면",
    "짜장면 라면",
    "라면 떡뽂이"
]

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF 벡터화 객체 생성
vectorizer = TfidfVectorizer()

# TF-IDF 벡터화
vectorizer = TfidfVectorizer()
X = vectorizer.fit_transform(D)
X = X.toarray() # 밀집행렬로 변환
X.shape

In [None]:
X

In [None]:
from scipy.linalg import svd
from sympy import Matrix
import numpy as np

u,s,vt=svd(X) # svd 수행

M1=np.zeros([6,6])

# 원래 행렬에서 특이값이 큰 순서대로 n개에 해당하는 행렬로 축약
for i in range(2): # 첫번째 부터 n-1번째 특이값까지
    M1+=s[i]*(u[:,i].reshape(-1,1)@vt[i,:].reshape(1,-1))

Matrix(M1)

In [None]:
Matrix(lsa_topic_matrix)

In [None]:
from sklearn.decomposition import TruncatedSVD

# LSA 수행
num_topics = 2
lsa_model = TruncatedSVD(n_components=num_topics)
lsa_topic_matrix = lsa_model.fit_transform(X)

# 단어 목록
terms = vectorizer.get_feature_names_out()

In [None]:
terms

In [None]:
# 주제와 관련된 주요 단어 출력
for i, topic in enumerate(lsa_model.components_):
    top_keywords_idx = topic.argsort()[-3:][::-1]  # 주요 단어 3개 추출
    top_keywords = [terms[idx] for idx in top_keywords_idx]
    print(f"Topic {i + 1}: {', '.join(top_keywords)}")

# 문서별 주제 할당
document_topics = lsa_model.transform(X)
print("\nDocument-Topic Matrix:")
print(document_topics)