# Dekompozycja SVD

Analiza przykładu z zajęć

In [168]:
import numpy as np
np.set_printoptions(precision=2,suppress=True)

C = np.array([[1,0,1,0,0,0], [0,1,0,0,0,0], [1,1,0,0,0,0], [1,0,0,1,1,0], [0,0,0,1,0,1]])
np.set_printoptions(precision=3)
C

array([[1, 0, 1, 0, 0, 0],
       [0, 1, 0, 0, 0, 0],
       [1, 1, 0, 0, 0, 0],
       [1, 0, 0, 1, 1, 0],
       [0, 0, 0, 1, 0, 1]])

Dokonujemy dekompozycji SVD i wypisujemy odpowiednie składowe.
Uwaga: użyliśmy opcji *full_matrices=False*, co oznacza, że macierz $\mathbf U$ lub $\mathbf V^T$ będą przycięte tak, aby pasowały do kwadratowej macierzy $\Sigma$.
Uwaga: trzecia macierz zwracana jest już transponowana, czyli w istocie $\mathbf V^T$.

In [169]:
U, s, Vt = np.linalg.svd(C, full_matrices=False)
U.shape, s.shape, Vt.shape

((5, 5), (5,), (5, 6))

In [170]:
U

array([[ 0.44 , -0.296, -0.569,  0.577, -0.246],
       [ 0.129, -0.331,  0.587, -0.   , -0.727],
       [ 0.476, -0.511,  0.368, -0.   ,  0.614],
       [ 0.703,  0.351, -0.155, -0.577, -0.16 ],
       [ 0.263,  0.647,  0.415,  0.577,  0.087]])

In [171]:
S = np.diag(s)
S

array([[ 2.163,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  1.594,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  1.275,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  1.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.394]])

In [172]:
Vt

array([[ 0.749,  0.28 ,  0.204,  0.447,  0.325,  0.121],
       [-0.286, -0.528, -0.186,  0.626,  0.22 ,  0.406],
       [-0.28 ,  0.749, -0.447,  0.204, -0.121,  0.325],
       [-0.   ,  0.   ,  0.577,  0.   , -0.577,  0.577],
       [ 0.528, -0.286, -0.626, -0.186, -0.406,  0.22 ]])

Macierz $U_{M \times M}$ składa się z ortogonalnych wektorów własnych macierzy $CC^T$. Poniżej $lambda1$ to wektor wartości własnych, a $\mathbf X_1$ to macierz wektorów własnych. Zwróćmy uwagę na podobieństwo $\mathbf U$ oraz $\mathbf X_1$ (porównujemy kolumnami, które mogą być w różnej kolejności).

In [173]:
lambda1, X1 = np.linalg.eig(C.dot(C.T))
lambda1, X1

(array([ 4.676,  0.155,  1.   ,  1.626,  2.542]),
 array([[ 0.44 ,  0.246,  0.577, -0.569,  0.296],
        [ 0.129,  0.727, -0.   ,  0.587,  0.331],
        [ 0.476, -0.614, -0.   ,  0.368,  0.511],
        [ 0.703,  0.16 , -0.577, -0.155, -0.351],
        [ 0.263, -0.087,  0.577,  0.415, -0.647]]))

Macierz $V_{N \times N}$ składa się z ortogonalnych wektorów własnych macierzy $C^TC$. Poniżej $lambda2$ to wektor wartości własnych, a $\mathbf X_2$ to macierz wektorów własnych. Zwróćmy uwagę na podobieństwo $\mathbf V^T$ oraz $\mathbf X_2^T$ (porównujemyu wierszamy, które są w różnej kolejności). Wartości własne macierzy $CC^T$ oraz $C^TC$ są identyczne - wektory $lambda1$ i $lambda2$.

In [174]:
lambda2, X2 = np.linalg.eig(C.T.dot(C))
lambda2, X2.T

(array([ 4.676,  0.155,  1.626,  2.542,  1.   ,  0.   ]),
 array([[ 0.749,  0.28 ,  0.204,  0.447,  0.325,  0.121],
        [ 0.528, -0.286, -0.626, -0.186, -0.406,  0.22 ],
        [-0.28 ,  0.749, -0.447,  0.204, -0.121,  0.325],
        [-0.286, -0.528, -0.186,  0.626,  0.22 ,  0.406],
        [-0.   ,  0.   , -0.577, -0.   ,  0.577, -0.577],
        [-0.   ,  0.   ,  0.   , -0.577,  0.577,  0.577]]))

Sprawdźmy, czy macierz $\mathbf U$ jest ortogonalna, czyli czy $U^TU=I_M$

In [175]:
U.T.dot(U)

array([[ 1.,  0.,  0., -0.,  0.],
       [ 0.,  1.,  0.,  0., -0.],
       [ 0.,  0.,  1., -0.,  0.],
       [-0.,  0., -0.,  1.,  0.],
       [ 0., -0.,  0.,  0.,  1.]])

Podobnie, sprawdźmy, czy macierz $\mathbf V$ jest ortogonalna, czyli czy $V^TV=I_N$.
Uwaga: trzeba brać pod uwagę, że $\mathbf U$ lub odpowiednio $\mathbf V$ mogły być wcześniej przycięte i nie są już kwadratowe.

In [176]:
Vt.dot(Vt.T)

array([[ 1.,  0.,  0., -0., -0.],
       [ 0.,  1., -0., -0.,  0.],
       [ 0., -0.,  1.,  0.,  0.],
       [-0., -0.,  0.,  1.,  0.],
       [-0.,  0.,  0.,  0.,  1.]])

Sprawdźmy, czy zachodzi związek między SVD a dekompozycją diagonalną, tj. czy $CC^T = U \Sigma V^T \cdot V \Sigma^T U^T = U \Sigma \Sigma^T U^T = U \Sigma^2 U^T$

In [187]:
np.allclose(C.dot(C.T), U.dot(S).dot(S).dot(U.T))

True

oraz czy zachodzi $C^TC = V \Sigma^T U^T \cdot  U \Sigma V^T = V \Sigma^T \Sigma V^T = V \Sigma^2 V^T$

In [188]:
np.allclose(C.T.dot(C), Vt.T.dot(S).dot(S).dot(Vt))

True

Sprawdzamy, czy po przemnożeniu otrzymujemy tę samą macierz, tj. czy $C_{new}=USV^T=C$

In [178]:
C_new = U.dot(S.dot(Vt))
C_new

array([[ 1.,  0.,  1.,  0.,  0., -0.],
       [ 0.,  1.,  0.,  0.,  0., -0.],
       [ 1.,  1., -0.,  0.,  0.,  0.],
       [ 1.,  0., -0.,  1.,  1.,  0.],
       [ 0., -0., -0.,  1.,  0.,  1.]])

Możemy w tym celu użyć specjalnej funkcji do porównania

In [179]:
np.allclose(C, C_new)

True

Zredukujmy teraz liczbę wartości osobliwych do k=3

In [192]:
k = 3
sr = np.copy(s)
sr[k:] = 0
sr

array([ 2.163,  1.594,  1.275,  0.   ,  0.   ])

In [193]:
Sr = np.diag(sr)
Sr

array([[ 2.163,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  1.594,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  1.275,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.   ]])

Jaki będzie wpływ na macierz term-dokument? Wyniki nie wydają się już tak dobrze dopasowane. Policzmy $C_r=US_rV^T$

In [200]:
Cr = U.dot(Sr.dot(Vt))
Cr

array([[ 1.051, -0.028,  0.606, -0.018,  0.294, -0.312],
       [ 0.151,  0.918, -0.179, -0.053, -0.116,  0.063],
       [ 0.872,  1.069,  0.151,  0.045,  0.098, -0.053],
       [ 1.033, -0.018,  0.294,  0.988,  0.641,  0.347],
       [-0.018,  0.01 , -0.312,  1.006,  0.347,  0.659]])

Policzmy teraz nową reprezentację dokumentów, tj. wyznaczmy macierz $\mathbf C_k = \pmb \Sigma_r \mathbf V^T$.

In [201]:
Ck = Sr.dot(Vt)
Ck

array([[ 1.619,  0.605,  0.44 ,  0.966,  0.703,  0.263],
       [-0.457, -0.843, -0.296,  0.997,  0.351,  0.647],
       [-0.357,  0.955, -0.569,  0.26 , -0.155,  0.415],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.   ,  0.   ]])

W istocie nie potrzebujemy takiej dużej macierzy $\mathbf V^T$. Spróbujmy ją zredukować. Trzeba usunąć niepotrzebne kolumny i zostawić tylko pierwsze k, otrzymując $\mathbf V_k^T$. Analigocznie dla $\pmb \Sigma_K$, aby dały się nadal mnożyć. Ostatecznie $\mathbf C_k = \pmb \Sigma_k \mathbf V_k^T$.

In [202]:
sk = np.take(s, range(k), axis=0)
Sk = np.diag(sk)
Sk

array([[ 2.163,  0.   ,  0.   ],
       [ 0.   ,  1.594,  0.   ],
       [ 0.   ,  0.   ,  1.275]])

In [218]:
Vk = np.take(Vt, range(k), axis=0)
Vk

array([[ 0.749,  0.28 ,  0.204,  0.447,  0.325,  0.121],
       [-0.286, -0.528, -0.186,  0.626,  0.22 ,  0.406],
       [-0.28 ,  0.749, -0.447,  0.204, -0.121,  0.325]])

Ostatecznie zredukowana macierz $\mathbf C_k$ term-dokument wygląda następująco:

In [219]:
Ck = Sk.dot(Vk)
Ck

array([[ 1.619,  0.605,  0.44 ,  0.966,  0.703,  0.263],
       [-0.457, -0.843, -0.296,  0.997,  0.351,  0.647],
       [-0.357,  0.955, -0.569,  0.26 , -0.155,  0.415]])

Analogicznie musimy zredukować wektor zapytania, zgodnie ze wzorem $\vec{q}_k = \Sigma_k^{-1} U_k^T \vec{q}$

In [204]:
q = np.array([1,1,0,0,0]) # ship boat
Sk_1 = np.linalg.inv(Sk)
UkT = np.take(U.T, range(k), axis=0)
Sk_1, UkT, q

(array([[ 0.462,  0.   ,  0.   ],
        [ 0.   ,  0.627,  0.   ],
        [ 0.   ,  0.   ,  0.784]]),
 array([[ 0.44 ,  0.129,  0.476,  0.703,  0.263],
        [-0.296, -0.331, -0.511,  0.351,  0.647],
        [-0.569,  0.587,  0.368, -0.155,  0.415]]),
 array([1, 1, 0, 0, 0]))

In [205]:
qk = Sk_1.dot(UkT).dot(q)
qk

array([ 0.263, -0.394,  0.014])

## Alternatywne podejście
Alternatywne podejście polega na ustawieniu *full_matrices=True* i wtedy brane są pełne (czyli kwadratowe) macierze $\mathbf U $ oraz $\mathbf V$.

In [206]:
U2, s2, Vt2 = np.linalg.svd(C, full_matrices=True)
U2.shape, s2.shape, Vt2.shape

((5, 5), (5,), (6, 6))

Macierz $\pmb\Sigma$ nie musi być kwadratowa i trzeba ją trochę inaczej odtworzyć (tutaj będzie po prostu dodatkowa zerowa kolumna):

In [208]:
M,M = U2.shape
N,N = Vt2.shape
S2 = np.zeros((M, N))
K = min(M,N)
S2[:K, :K] = np.diag(s2)
S2

array([[ 2.163,  0.   ,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  1.594,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  1.275,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  1.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.394,  0.   ]])

In [209]:
U2.dot(S2).dot(Vt2)

array([[ 1.,  0.,  1.,  0.,  0., -0.],
       [ 0.,  1.,  0.,  0.,  0., -0.],
       [ 1.,  1., -0.,  0.,  0.,  0.],
       [ 1.,  0., -0.,  1.,  1.,  0.],
       [ 0., -0., -0.,  1.,  0.,  1.]])

In [210]:
U2.dot(U2.T)

array([[ 1., -0.,  0., -0., -0.],
       [-0.,  1., -0.,  0., -0.],
       [ 0., -0.,  1.,  0.,  0.],
       [-0.,  0.,  0.,  1.,  0.],
       [-0., -0.,  0.,  0.,  1.]])

In [212]:
Vt2.dot(Vt2.T)

array([[ 1.,  0.,  0., -0., -0.,  0.],
       [ 0.,  1., -0., -0.,  0.,  0.],
       [ 0., -0.,  1.,  0.,  0., -0.],
       [-0., -0.,  0.,  1.,  0.,  0.],
       [-0.,  0.,  0.,  0.,  1., -0.],
       [ 0.,  0., -0.,  0., -0.,  1.]])

In [216]:
sr2 = np.copy(s2)
sr2[k:]=0
Sk2 = np.zeros((M, N))
Sk2[:K, :K] = np.diag(sr2)
Sk2

array([[ 2.163,  0.   ,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  1.594,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  1.275,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.   ,  0.   ]])

In [217]:
Sk2.dot(Vt2)

array([[ 1.619,  0.605,  0.44 ,  0.966,  0.703,  0.263],
       [-0.457, -0.843, -0.296,  0.997,  0.351,  0.647],
       [-0.357,  0.955, -0.569,  0.26 , -0.155,  0.415],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.   ,  0.   ]])