## <center> 🎶Probabilistička matrična faktorizacija za sisteme preporuke u oblasti muzike

<div style="text-align: justify"> Sa razvojem interneta kao medija za elektronske i poslovne transakcije, u mašinskom učenju se javila posebna grana otkrivanja zakonitosti u podacima koja se naziva <em> sistemi preporuka</em>. 
Korišćenjem sistema muzičkih preporuka, muzičke platforme mogu da predvide, a zatim ponude
odgovarajuće izvođače i pjesme svojim korisnicima na osnovu svojstava muzike koju su sami korisnici prethodno slušali.
Mogućnost efikasnog pružanja personalizovanih muzičkih preporuka je od suštinskog značaja za konkurentnost bilo koje muzičke platforme. Sistemi preporuka u muzičkoj industriji omogućuju povećanje zadovoljstva korisnika muzičke platforme, kao i kreiranje maksimalno personalizovane platforme. 
Kolaborativno filtriranje je primjer efektivne implementacije sistema preporuka. Međutim, kolaborativno filtriranje ima ograničenu primjenu ukoliko se radi sa prorijeđenim i neizbalansiranim podacima, što je česta pojava u kontekstu sistema preporuke u oblasti muzike. </div>


### Postavka problema

<div style="text-align: justify"> Data je matrica <em> R</em>  dimenzije  <em>N x M </em>sa nedostajućim poljima koje je potrebno popuniti tako da budu u skladu sa postojećim podacima. U našem slučaju, matrica <em>R</em> je matrica rejtinga koji su korisnici (njih <em>N</em>) dodijelili izvođačima (njih <em>M</em>). Na velikim muzičkim platformama postoji mnogo izvođača i očekivano je da neće svaki korisnik slušati i ocjenjivati svakog izvođača. Stoga, možemo očekivati da će matrica <em>R</em> imati mnogo praznih polja. U metodama dopunjavanja nedostajućih vrijednosti matrice izdvajaju se algoritmi faktorizacije kao veoma uspješni i popularni. U ovim algoritmima, svaki red i kolona matrice imaju po latentni vektor dobijen faktorizacijom djelimično popunjene matrice. Predviđanje svakog praznog polja matrice je skalarni proizvod latentnih vektora odgovarajućih vrsta i kolona. Međutim, ove metode se susreću sa čestim problemom prorijeđenosti  skupova podataka. Poznat je podatak da je gustina dostupnih rejtinga u većini komercijanih sistema preporuke manja od 1%. Stoga, veoma je teško uraditi predviđanje nedostajuće vrijednosti na osnovu tako prorijeđenog skupa podataka. Takođe, sa većinom klasičnih tehnika faktorizacije nije moguće u model ugraditi često dostupne dodatne informacije koje mogu biti od ključnog značaja za model, npr. društvenu mrežu korisnika na muzičkoj platformi. 
</div>

<div style="text-align: justify"> Probabilistička matrična faktorizacija (<em>eng. Probabilistic Matrix Factorization</em>), 
u nastavku PMF, se pokazala kao fleksibilan i efektivan okvir za rješavanje problema faktorizacije u slučaju velikih i prorijeđenih skupova podataka. Naknadno su razvijeni mnogi modeli koji su zasnovani na baznom PMF modelu. Specijalno, metoda Kernelizovane probabilističke matrične faktorizacije (<em>eng. Kernelized Probabilistic Matrix Factorization</em>), u nastavku KPMF, koju implementiramo u projektu, omogućuje uključivanje dodatnih informacija u model kroz kernelizovane matrice. 
Druga metoda koju implementiramo jeste ograničena probabilistička kernelizovana matrična faktorizacija (<em>eng. Constrained Kernelized Probabilistic Matrix Factorization</em>), u nastavku cKPMF, koja takođe omogućuje uključivanje dodatnih informacija u model i predstavlja modifikaciju metode cPMF (<em>eng. Constrained Probabilistic Matrix Factorization</em>).
Detaljnije o svim navedenim metodama i dodatnim informacijama koje koriste biće riječi u nastavku. Prvo uvodimo oznake koje se nadalje koriste.
</div>

#### Korišćene oznake

$R$ - *N x M* matrica rejtinga  
$N$ - broj korisnika (redovi matrice *R*) <br>
$M$ - broj izvođača <br>
$D$ - dimenzija latentnih faktora (vektora) <br>
$U$ - *N x D* latentna matrica redova matrice *R* <br>
$V$ - *M x D* latentna matrica kolona matrice *R* <br>
$W$ - *M x D* pomoćna latentna matrica <br>
$Y$ - *N x D* pomoćna latentna matica <br>
$R_{n, :}$- n - ti red matrice *R* <br>
$R_{:, m}$ - m - ta kolona matrice *R* <br>
$U_{n,:} \in\mathbb{R}{^D}$ - latentni faktori za *R<sub>n,:</sub>* <br>
$V_{m,:}\in\mathbb{R}{^D}$ - latentni faktori za *R<sub>:,m </sub>* <br>
$U_{:,d}\in\mathbb{R}{^N}$ - d - ti latentni faktor za sve redove matrice *R* <br>
$V_{:,d}\in\mathbb{R}{^M}$ - d - ti latentni faktor za sve kolone matrice *R* <br>
$K_{U,:}\in\mathbb{R}{^{NxN}}$ - kovarijaciona matrica redova <br>
$K_{V,:}\in\mathbb{R}{^{MxM}}$ - kovarijaciona matrica kolona <br>
$S_{U,:}$ - inverz matrice *K<sub>U</sub>* <br>
$S_{V,:}$ - inverz matrice *K<sub>V</sub>* <br>
$I\in\mathbb{R}{^{NxM}}$ - indikatorska matrica koja uzima vrijednost 1 ako je polje *R<sub>i,j</sub>* popunjeno, u suprotnom 0 <br>
$\alpha$ - stopa učenja


### PMF

<div style="text-align: justify"> Probabilistička matrična faktorizacija je generativni algoritam koji ima za cilj da faktoriše matricu <em> R</em> na matrice  <em>U</em>  i <em>V</em>. Uz pretpostavku da imamo dve latentne matrice <em>U<sub>N x D</sub></em> i <em>V<sub>M x D</sub></em>, gdje <em>U</em> i <em>V</em> sadrže informacije o latentnim faktorima redova i kolona matrice <em> R</em> redom, algoritam probabilističke matrične faktorizacije je sledeći (vidjeti sliku 2(a)):  </div> 

1.  Generisati $U_{i,:} \sim \mathcal{N}\left(0,\,\sigma^{2}_UI\right)$ za sve  $ i \in \{1, 2, \dots, N\}$,  
2.  Generisati $V_{j,:} \sim \mathcal{N}\left(0,\,\sigma^{2}_VI\right)$ za sve $j \in \{1, 2, \dots, M\}$,
3.  Za svako popunjeno polje $R_{i,j}$, generisati $R_{i,j} \sim \mathcal{N}\left(U_{i,:}V_{j,:}^T,\,\sigma^{2}\right)$.

U ovom modelu imamo sledeće pretpostavke o nezavisnosti: 
* Međusobna nezavisnost matrica *U* i *V*,
* Međusobna nezavisnost korisnika (redova matrice *U*),
* Međusobna nezavisnost izvođača (redova matrice *V*),
* Međusobna nezavisnost rejtinga.

<div style="text-align: justify"> Model pretpostavlja višedimenzionu apriornu normalnu raspodjelu za $U_{i,:}$, $i \in \{1, 2, \dots, N\}$  i $V_{j,:}$, $j \in \{1, 2, \dots, M\}$, a svaki element $R_{i,j}$ ima jednodimenzionu normalnu raspodjelu sa očekivanjem koje je određeno skalarnim proizvodom matrica <em>U</em> i <em>V</em>. Log-posteriorna raspodjela matrica <em>U</em> i <em>V</em> je data sa:
$$
\log{p\left(U, V| R, \sigma^{2},\sigma^{2}_U, \sigma^{2}_V\right)} = \log{p\left(R|U, V, \sigma^{2}\right)} + \log {p\left(U | \sigma^{2}_U\right)} + \log {p\left(V |\sigma^{2}_V\right)} + C,
\label{eq:vector_ray} \tag{1}
$$ <br /> gdje je $C$ konstanta koja ne zavisi od <em>U</em> i <em>V</em>. Koristimo maksimalnu aposteriornu ocjenu (MAP) za <em>U</em> i <em>V</em> koja maksimizuje (1) stohastičkim gradijentnim spustom. Za svaki element $R_{i,j}$, algoritam ažuriranja parametara modela je sledeći: </div>

<div style="text-align: justify">
$$
err_{i,j} = R_{i,j} - U_{i,:}V_{j,:}^T, 
\tag{2}
$$
</div>

$$U_{i,:} := U_{i,:} + \alpha\left(err_{i,j}V_{j,:} - \frac{\sigma^2}{\sigma^{2}_U\sum_{p=1}^{M}I_{i,p}}U_{i,:}\right),$$

$$V_{j,:} := V_{j,:} + \alpha\left(err_{i,j}U_{i,:} - \frac{\sigma^2}{\sigma^{2}_V\sum_{p=1}^{N}I_{p,j}}V_{j,:}\right).$$

### KPMF

<div style="text-align: justify"> Da bismo prevazišli prethodno pomenute probleme neizbalansiranosti podataka i nemogućnosti korišćenja dodatnih informacija u modelu, uvodimo novu metodu faktorizacije matrice <em> R</em> - kernelizovanu probabilističku faktorizaciju matrice. Podsjetimo se da smo u PMF modelu pretpostavili nezavisnost redova matrica <em> U</em> i <em>V</em> i da su ulazni podaci bili dati samo preko matrice rejtinga <em> R</em>. KPMF omogućuje da u model ugradimo kovarijaciju između bilo koja dva reda matrica <em> U</em> i <em> V</em> ponaosob tako što su kolone latentnih matrica <em> U</em> i <em> V</em> generisane iz Gausovog procesa (GP). Gausov proces je stohasički proces koji predstavlja uopštenje višedimenzione normalne raspodjele. Kovarijacione funkcije Gausovog procesa se određuju na osnovu dodatnih informacija iz podataka i omogućuju korišćenje informacije o korelacionoj strukturi podataka. U projektu se fokusiramo na određivanje kovarijacionih funkcija iz neusmjerenih grafova (društvena mreža korisnika). Uopšteni okvir algoritma omogućuje korišćenje drugih tipova dodatnih informacija. U slučaju kada su dodatne informacije zadate u vektorskom formatu, tada za kovarijacionu funkciju možemo koristiti RBF kernel (Radial Basis Function Kernel). O načinu generisanja kovarijacionih matrica i kernelima će detaljnije biti rečeno kasnije.
</div>

<div style="text-align: justify">
    Pod pretpostavkom da su kovarijacione matrice $K_{U}\in\mathbb{R}{^{NxN}}$ i $K_{V}\in\mathbb{R}{^{MxM}}$ poznate, generativni algoritam je sledeći: 

1.  Generisati $U_{:,d} \sim \mathcal{GP}(0, K_U)$ za sve $ d \in \{1, 2, \dots, D\}$, 
2.  Generisati $V_{:,d} \sim \mathcal{GP}(0, K_V)$ za sve $d \in \{1, 2, \dots, D\}$,
3.  Za svako popunjeno polje $R_{i,j}$, generisati $R_{i,j} \sim \mathcal{N}\left(U_{i,:}V_{j,:}^T,\,\sigma^{2}\right).$ 

<html>
<body>
    
<figure style='text-align:center'>
    <img src="slike/kpmf.jpg" title="pmf vs kpmf" style = "width:500px;height:300px"/>
    <figcaption>Slika 1.<br /> a) Popunjavanje matrice <i>U</i> se vrši po redovima u PMF, <br />b) Popunjavanje matrice <i>U</i> se vrši po kolonama u KPMF.</figcaption>
</figure>
</body>  
</html>


<div style="text-align: justify">KPMF predstavlja uopštenje metode PMF, jer u slučaju kada su matrice $K_{U}$ i $K_{V}$ dijagonalne, KPMF se svodi na PMF.
    U KPMF zadržavamo pretpostavke o nezavisnosti matrica <em>U</em> i <em>V </em>i međusobnoj nezavisnosti rejtinga, a izbacujemo pretpostavku o međusobnoj nezavisnosni korisnika i međusobnoj nezavisnosti izvođača koja nije adekvatna u realnom scenariju. Na slici 1(a) je ilustrovano kako se <em>U</em> generiše po redovima u PMF, odnosno latentni faktori $U_{n,:}$ su generisani za svaki red matrice rejtinga <em>R</em>. Iz ovoga slijedi da su $U_{n,:}$ - ovi uslovno nezavisni pri datoj apriornoj raspodjeli, pa korelacije između redova nisu ugrađene u model. Sa druge strane, u KPMF, matricu <em>U</em> generišemo po kolonama (slika 1(b)), odnosni svaki latentni vektor $U_{:,d}$ je generisan za sve redove matrice <em>R</em>.
Intuitivno, ukoliko dva reda imaju sličnost na osnovu dodatnih informacija, odgovarajući latentni faktori će takođe biti slični nakon obučavanja modela što je i cilj korišćenja dodatnih informacija. 
    
Da ne bismo rad opterećivali formulama, detalje o implementaciji stohastičkog gradijentnog spusta u KMPF možete pročitati u originalnom radu [KPMF](https://tinghuiz.github.io/papers/sdm12_kpmf.pdf). <br>
U metodi KPMF se od dodatnih informacija koriste društvena mreža korisnika i informacija o tagovima (žanrovima muzike) koji su korisnici dodijelili slušanim izvođačima. </div>

<html>
<body>
    
<figure style='text-align:center'>
    <img src="slike/gen_alg.jpg" title="pmf kpmf ckpmf" style = "width:550px;height:600px"/>
    <figcaption>Slika 2. Generativni proces za matricu rejtinga <em> R </em>. <br />a) PMF, b) cPMF, c) KPMF,  d) cKPMF.</figcaption>
</figure>
</body>  
</html>


### cPMF

<div style="text-align: justify">
U baznoj PMF metodi, latentni vektor za korisnika koji je rijetko ocjenjivao izvođače će biti blizak prosjeku rejtinga 
svih korisnika u treniranom modelu. Ovo je previše gruba ocjena za predikcije rejtinga u slučaju slabije aktivnih korisnika.
Bolji način pristupa jeste da se pronađu drugi korisnici koji su slušali iste ili slične izvođače kao slabije aktivni korisnici
i da se nametne uslov da su latentni vektori sličnih korisnika slični. Ograničena probabilistička matrična faktorizacija je modifikacija PMF metode koja koristi ovu intuiciju. U cPMF metodi, matrica <em>U</em> se ograničava latentnom matricom sličnosti $W \in\mathbb{R}{^{MxD}}$ na sledeći način:<div>


<div style="text-align: justify">
    $$U_{i,:} := Y_{i,:} + \frac{\sum_{k=1}^{M}I_{i,k}W_{k,:}}{\sum_{k=1}^{M}I_{i,k}},
    \tag{3}$$
</div>

<div style="text-align: justify"> gdje $k$ - ti red matrice <em>W</em> sadrži informaciju o efektu koji ocjenjivanje izvođača $k$ ima na latentni vektor korisnika, a matrica $Y \in\mathbb{R}{^{NxD}}$ sadrži informaciju o odstupanju rejtinga koji je korisnik dodijelio. Generativni algoritam je sledeći (vidjeti sliku 2(b)): 
</div>

1.  Generisati $W_{k,:} \sim \mathcal{N}\left(0,\,\sigma^{2}_WI\right)$ za sve  $ k \in \{1, 2, \dots, M\}$,  
2.  Generisati $Y_{i,:} \sim \mathcal{N}\left(0,\,\sigma^{2}_YI\right)$ za sve $i \in \{1, 2, \dots, N\}$,
3.  Generisati $V_{j,:} \sim \mathcal{N}\left(0,\,\sigma^{2}_VI\right)$ za sve $i \in \{1, 2, \dots, M\}$,
4.  Za svako popunjeno polje $R_{i,j}$, generisati $R_{i,j} \sim \mathcal{N}\left(U_{i,:}V_{j,:}^T,\,\sigma^{2}\right)$.

Koristimo stohastički gradijentni spust za pronalaženje maksimalne aposteriorne ocjene (MAP) za $Y$, $V$ i $W$. Za svaki element $R_{i,j}$, algoritam ažuriranja parametara modela je sledeći:<div>

<div style="text-align: justify">
$$
err_{i, j} = R_{i, j} - U_{i, :} \, V_{j, :},
\tag{4} $$ <br>
$$Y_{i, :} := Y_{i, :} + \alpha \left(err_{i, j}\,V_{j, :} - \frac{\sigma^2}{\sigma_Y^2 \, \sum_{p = 1}^{M}I_{i,p}}\,Y_{i, :}\right),$$ <br>
$$V_{j, :} := V_{j, :} + \alpha \left(err_{i, j}\,U_{i, :} - \frac{\sigma^2}{\sigma_V^2 \, \sum_{p = 1}^{N}I_{p,j}}\,V_{j, :}\right),$$ <br>
$$W := W + \alpha \, err_{i, j} \frac{I_{i, :} \bigotimes V_{j, :}}{\sum_{k=1}^{M}I_{i,k}},$$ <br>
$$W_{j, :} := W_{j, :} - \alpha \frac{\sigma^2}{\sigma_W^2 \, \sum_{p = 1}^{N}I_{p,j}}\,W_{j, :}.  $$
</div>

### cKPMF

<div style="text-align: justify"> Ideja metode cKPMF jeste da se u modelu objedine dodatne informacije i nametanje uslova za latentnu matricu korisnika <em> U </em> na način koji je opisan u metodi cPMF. U ovoj metodi ograničavamo matricu <em> U </em> matricom <em> W </em>, a istovremeno su kolone latentne matrice izvođača <em> V </em> generisane iz Gausovog procesa.
Na slici 2(d) je prikazan generativni algoritam metode cKPMF. Algoritam je sledeći: <div>
  

1.  Generisati $W_{k, :} \sim \mathcal{N}\left(0, \,\sigma_W^2I\right)$ za sve $ k \in \{1, 2, \dots, M\}$,
2.  Generisati $Y_{i, :} \sim \mathcal{N}\left(0, \,\sigma_Y^2I\right)$ za sve $i \in \{1, 2, \dots, N\}$,
3. Generisati $V_{:, d} \sim \mathcal{GP}\left(0, \,K_v\right)$ za sve $d \in \{1, 2, \dots, D\}$,
4. Generisati indikatorsku matricu $I$ takvu da je $I_{i,j} = 1$, ukoliko je rejting $R_{i,j}$ poznat, ili $I_{i, j} = 0$ u suprotnom,
5.  Za svako popunjeno polje $R_{i,j}$, generisati $R_{i,j} \sim \mathcal{N}\left(U_{i,:}V_{j,:}^T,\,\sigma^{2}\right)$.

<div style="text-align: justify"> Možemo primijetiti da cKPMF predstavlja uopštenje cPMF, jer u slučaju kada je matrica $K_{V}$ dijagonalna, cKPMF se svodi na cPMF. Formule ažuriranja parametara u matricama $Y$ i $W$ su iste kao u cPMF (4), dok je pravilo po kom se ažuriraju parametri matrice <em>V</em> sledeće: <div>

<div style="text-align: justify">
$$V_{j, :} := V_{j, :} + \alpha\left (err_{i, j}\,U_{i, :} - \frac{\sigma^2}{2 \sum_{p = 1}^{N}I_{p,j}}\,\left(\sum_{k=1}^M S_{vj, k} \, V_{k, :} + S_{vj, j} \, V_{j, :}\right)\right).
\tag{5}$$
<div>

Metoda cKPMF od dodatnih informacija ne koristi društvenu mrežu korisnika, već koristi samo informaciju o tagovima (žanrovima muzike) koji su korisnici dodijelili slušanim izvođačima. 

#### Konstrukcija kovarijacione matrice $K_{U}$

<div style="text-align: justify" > Validna kernel funkcija za Gausov proces treba da generiše kovarijacionu matricu koja je pozitivno semi-definitna. 
Za konstrukciju matrice $K_{U}$ koja odgovara našem problemu, posmatramo društvenu mrežu korisnika kao neusmjeren graf $G$ sa čvorovima i granama koji predstavljaju korisnike i njihove konekcije (prijatelje) na muzičkoj platformi. Elementi matrice povezanosti (<em>eng. Adjacency Matrix</em>) grafa $G$ su definisani kao $A_{i,j} = 1$, ako postoji grana (poveznica) između korisnika na poziciji ($i,j$), a u suprotnom je $A_{i,j} = 0$. Laplasova matrica grafa $G$ je definisana sa $L = D-A$, gdje je $D$ matrica stepena (<em>eng. Degree Matrix</em>) koja je dijagonalna sa elementima $d_i = \sum_{j=1}^{N}A_{i,j} , i \in \{1, 2, \dots,N\}.$ Grafovski kerneli služe za izvlačenje informacije o zamršenoj strukturi čvorova grafa. U našem slučaju, grafovski kernel definiše mjeru sličnosti muzičkog ukusa između korisnika. Korisnici često imaju sličan ukus za muziku kao njihovi prijatelji i porodica. Stoga, za rejtinge koje daju korisnik i njegov prijatelj se očekuje da budu korelisani. Grafovska reprezentacija društvene mreže korisnika je prikazana na slici 3(a). 
</div>

<div style="text-align: justify">
U našem projektu koristimo četiri različita kernela za generisanje kovarijacione matrice $K_{U}$ koje ćemo u nastavku detaljnije objasniti. 
</div>

#### 🎵 Kernel prosječnog vremena obilaska - Commute Time (CT) Kernel

<div style="text-align: justify" >Commute time (CT) kernel je usko povezan sa prosječnim vremenom obilaska (broj koraka koje je potrebno napraviti između dva čvora grafa) i može se izračunati pomoću pseudo-inverza Laplasove matrice: $K_{CT} = L^{\dagger}$. Dodatno, kako je $K_{CT}$ uslovno pozitivno-definitna, $\sqrt{K_{CT}(i,j)}$ oponaša euklidsko rastojanje između čvorova grafa $G$.
</div>

#### 🎵 Regularizacioni Laplasov Kernel - Regularized Laplacian (RL) Kernel

<div style="text-align: justify" >Glavna ideja regularizacionog Laplasovog kernela jeste da omogući primjenu regularizacije na grafove time što kažnjava varijaciju između susjednih čvorova. Ispostavlja se da se Laplasov graf može definisati kao linearni operator nad čvorovima grafa i prirodno definiše pseudo-normu na $\mathbb{R}{^N}$. Ova pseudo-norma kvantifikuje varijaciju susjednih čvorova i može da se koristi za konstrukciju regularizacionih operatora. Među njima izdvajamo jednog predstavnika skupa grafovskih kernela - Regularizacioni Laplasov Kernel: $K_{RL} = (I+\gamma L)^{-1}$, gdje je $\gamma>0$ konstanta.</div>

#### 🎵 Difuzioni Kernel - Diffusion Kernel 

<div style="text-align: justify" >Difuzioni kernel se zasniva na ideji eksponenta matrice i može se intuitivno razumjeti kroz proces difuzije neke supstance. Na primjer, ako ubacimo tečnost u čvor $i$ grafa i pustimo je da protiče kroz grane grafa, $K_D(i,j)$ možemo protumačiti kao količinu tečnosti akumuliranu u čvoru $j$ nakon stabilizacije sistema. Difuzioni kernel opisuje globalnu strukturu među čvorovima grafa i definiše se kao: $K_D = \lim_{n \to \infty} \left(1-\frac{\beta L}{n}\right)^{n} =e^{-\beta L}$, gdje je $\beta$ parametar koji određuje stepen difuzije ($\beta = 0$ znači da nema difuzije). </div>

<html>

    
<figure style='text-align:center'>
    <img src="slike/izgled_podataka.jpg" title="pmf vs kpmf" style = "width:500px;height:380px"/>
    <figcaption>Slika 3.  <br /> a) Grafovska reprezentacija korisnika i njihovih prijatelja, <br />b) Matrica rejtinga <i>R</i>, <br /> c) Reprezentacija dodjele tagova (žanrova) muzike izvođačima. </figcaption>
</figure>
</html>

#### 🎵 Radial Basis Function Kernel - RBF

<div style="text-align: justify" >Ukoliko imamo dodatne podatke zadate u vektorskom, a ne u grafovskom obliku, tada zamjenjujemo grafovske kernele sa RBF kernelom. RBF kernel se definiše sa:
$K_{RBF}(x, x') = e^{-\frac{\lVert  x-x'  \rVert ^2}{\gamma}}$. Kada su podaci o društvenoj mreži korisnika zadati u vektorskom obliku, tada za generisanje matrice $K_U$ koristimo RBF kernel.</div>


#### Konstrukcija kovarijacione matrice $K_{V}$

Fajl <em>user_tagged_artists.dat</em> sadrži informaciju o tagovima (žanrovima muzike) koji su korisnici dodijelili slušanim izvođačima. Da bismo dobili dodatne informacije o izvođačima kreiramo matricu $T$ dimenzija (M x broj tagova), tako da se na poziciji $T(i, j)$ nalazi 1, ukoliko je $i$ - ti izvođač okarakterisan odgovarajućim žanrom, a u suprotnom 0 (slika 3(c)). Matricu $K_V$ dobijamo primjenom kovarijacione funkcije na matricu $T$. 
