---

# Data Mining:<br>Statistical Modeling and Learning from Data

## Dr. Ciro Cattuto<br>Dr. Laetitia Gauvin<br>Dr. André Panisson

### Exercises - SVD versus NMF

---

In [1]:
import sklearn
import numpy as np
from scipy.linalg import svd

In [22]:
A = np.matrix([[1,1,1,1,1],
               [0,1,0,1,0],
               [0,1,0,1,0]])

In [23]:
A

matrix([[1, 1, 1, 1, 1],
        [0, 1, 0, 1, 0],
        [0, 1, 0, 1, 0]])

# Singular Value Decomposition

In [4]:
U, S, Vh = svd(A, full_matrices=False) 
# full_matrices = False --> significa che U e Vh non sono quadrate: U: nxk,   Vh: kxm

#Singular vectors and diagonal matrix

In [5]:
U

array([[-7.66184591e-01,  6.42620551e-01,  1.60393107e-16],
       [-4.54401349e-01, -5.41774320e-01, -7.07106781e-01],
       [-4.54401349e-01, -5.41774320e-01,  7.07106781e-01]])

In [6]:
print (S)
# il terzo valore è praticamente zero
# ==> per riottenere la matrice originale scarteremo questa dimensione 
print ("\n shape:", S.shape)

[2.71519453e+00 1.27582079e+00 3.49481942e-17]

 shape: (3,)


In [7]:
Vh

array([[-0.28218405, -0.61689403, -0.28218405, -0.61689403, -0.28218405],
       [ 0.50369186, -0.34560347,  0.50369186, -0.34560347,  0.50369186],
       [-0.28130665,  0.66381468,  0.14065332, -0.66381468,  0.14065332]])

In [8]:
c1 = (U[:,0]*S[0])[:, np.newaxis].dot(Vh[[0],:])
# calcolo: prima riga di U * S[0], trasformo in vett. colonna, moltiplico per prima riga di Vh
c2 = (U[:,1]*S[1])[:, np.newaxis].dot(Vh[[1],:])

#non calcolo c3 --> trascuro informazione di k=3

print (c1.round(3))
print ("")
print (c2.round(3))

## Le prime due direzioni principali portano tutta l'informazione sostanzialmente 

[[0.587 1.283 0.587 1.283 0.587]
 [0.348 0.761 0.348 0.761 0.348]
 [0.348 0.761 0.348 0.761 0.348]]

[[ 0.413 -0.283  0.413 -0.283  0.413]
 [-0.348  0.239 -0.348  0.239 -0.348]
 [-0.348  0.239 -0.348  0.239 -0.348]]


In [9]:
(c1+c2).round(5)
# sommo le due componenti, vedo che riottengo la matrice originale
# vuol dire che non ho perso informazione, cioè ho fatto bene a trascurare 
# la terza dimensione.

# l'operazione che abbiamo fatto è:
# X = U S V , guardando le dimensioni: nxm = nxk kxk kxm

array([[1., 1., 1., 1., 1.],
       [0., 1., 0., 1., 0.],
       [0., 1., 0., 1., 0.]])

# Non-negative Matrix Factorization

In [9]:
from sklearn.decomposition import NMF

# qua avrò: X = L R ,guardando alla dimensione: nxd = nxk kxd

In [10]:
nmf = NMF(n_components=2)

# parametro principale è il numero di componenti
# voglio considerare 2 componenti

In [11]:
nmf.fit(A)
#creo l'oggetto

NMF(alpha=0.0, beta_loss='frobenius', init=None, l1_ratio=0.0, max_iter=200,
  n_components=2, random_state=None, shuffle=False, solver='cd',
  tol=0.0001, verbose=0)

In [12]:
R = nmf.components_     #matrice di fattorizzazione

In [13]:
R.round(3)

#abbiamo solo valori non negativi
# R ha dimensione 2x5 = kxd

# primo componente è fatto solo dalla seconda e quarta feature. il secondo 
#componente fatto dagli altri 3

array([[0.   , 1.191, 0.   , 1.191, 0.   ],
       [0.905, 0.   , 0.905, 0.   , 0.905]])

In [14]:
L=nmf.transform(A)  

In [15]:
L

# dimensione 3x2 = nxk

# seconda componente appartiene solo al primo punto
# prima componente appartiene a tutti i punti

array([[0.83940195, 1.10509402],
       [0.83940195, 0.        ],
       [0.83940195, 0.        ]])

In [25]:
A1 = np.round(np.matrix(L)[:,0]*np.matrix(R)[0,:])
A1
# prima "parte" della matrice A: sto facendo  L[*1]R[1*]

matrix([[0., 1., 0., 1., 0.],
        [0., 1., 0., 1., 0.],
        [0., 1., 0., 1., 0.]])

In [26]:
A2 = np.round(np.matrix(L)[:,1]*np.matrix(R)[1,:])
A2
# L[*2]R[2*]

matrix([[1., 0., 1., 0., 1.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [27]:
A == A1 + A2 # ok funziona 

matrix([[ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True],
        [ True,  True,  True,  True,  True]])