# Personalizovaný odporučací systém

#### Autori: Marek Drgoňa, Daniel Pekarčík

## Úvod a motivácia

S narastajúcim množstvom informácií dostupnych na internete sa stávajú odporúčacie systémy rozumnou stratégiou, ako predísť informačnému zahlteniu. Personalizované odporúčacie systémy sa prefiltrovať množstvo obsahu a zobraziť používateľovi len pre neho relevantné položky. Spôsob akým pracujú spočíva v odpozorovaní jeho preferencií na základe jeho interakcií so systémom a následnom vytvorení modelu používateľa. Podľa toho načo pri odporúčaní kladú dôraz ich môžeme deliť na:
 - **odporúčacie systémy založené na obsahu**, ktoré sa snažia odporúčať používateľovi položky, podobné položkám, ktoré používateľ už pred tým videl
 - **odporúčacie systémy založené na kolaboratívnom filtrovaní**, ktoré hľadajú podobnosti medzi hodnoteniami položiek používateľmi a odporúčaju položky, ktoré videli používateľovi podobný používateľia a sám ich pritom ešte nevidel
 - **hybridné odporúčacie systémy**, ktoré rôzne kombinujú aspoň dva typy prítupov (môžu byť aj z tej istej kategórie, napríklad dva rôzne obsahové prístupy)
Odporúčacie systémy čelia problémov nedostatku informácií pri nových položkách, riedkosti hodnotenia položiek a iným. Každý zo spomenutých spôsobov odporúčania má svoje silnejšie a slabšie stránky.

Neurónové siete dokážu úspešne riešiť rôznorodé problémy. Ich výpočtový model je založený na abstrakcií pravidiel medzi vstupnými a výstupnými dátami. Tento proces sa nazýva učenie. Použitie neurónových sietí v odporúčacích systémoch ešte nie je až tak rozšírené, no v posledných rokoch dosahujú neurónové siete výsledky vyrovnávajúce sa state of the art metódam v tejto doméne. V tomto zadaní sa budeme zaoberať implementáciou neurónovej siete kolaboratívneho filtrovania. 

## Podobné riešenia

Ako uz bolo spomenute v uvode, jednym z typom odporucacich systemov je kolaborativne filtrovanie, na ktore sa my zameriame. Avsak, metody kolaborativneho filtrovania je mozne dalej na **memory-based approaches**, kde algoritmus vacsinou hlada podobnych pouzivatelov vyuzitim kosinusovej podobnosti a **model-based approaches**, kde sa vyuzivaju modely strojoveho ucenia [1]. V ramci **model-based approaches**, s cielom zlepsit vysledky predoslych pristupov, pricom sa pouzivaju metody strojoveho ucenia, ako napr. redukcia dimenzionality (SVD, PCA) ale aj zhlukovanie [2].

Kedze bolo poukazane, ze aplikovanie hlbokeho ucenia v roznych oblastiach (napr. spracovania prirodzeneho jazyka alebo pocitacoveho videnia) dokaze zlepsovat vysledky dovtedy pouzivanych pristupov strojoveho ucenia, zacalo sa samozrejme experimentovat aj v oblasti odporucacich systemov. Napriek tomu, ze v oblasti kolaborativneho filtrovania nebolo doposial vykonaneho vela vyskumu, aplikovanie neuronovej siete dokazalo zvysit vysledky. V pracach boli pouzite nasledujuce typy neuronovych sieti [3]:
* **Viacvsrtvovy perceptron** (angl. multilayer perceptron, MLP) -> autori navrhli framework NCF (angl. neural collaborative filtering) pouzitim spomenuteho viacvrstoveho perceptronu s cielom naucit siet interakcie medzi pouzivatelom a objektom, ktory hodnoti. Pouzitie MLP dokazalo zlepsit vysledky klasickych pristupov [4],
* **CNN** -> v tomto pripade bola snaha vylepsit predchadzajuce riesenie NCF, pricom autor vytvoril novu metodu ktoru nazval ConvNCF. Vysledky NCF sa podarilo prekonat [5],
* **AutoEncoder**


## Datasety

V domene odporucanich systemov existuje mnozstvo datasetov v roznych domenach odporucania, ako napr. domena filmov, hudby, produktov na e-shopoch a inych. My sme sa rozhodli pre trochu netradicnejsiu domenu a to domenu vtipov. Vybrali sme si znamy dataset **Jester** (link: http://eigentaste.berkeley.edu/dataset/), konkretne jeho verziu 2, teda zip repozitar **jester_dataset2.zip** (7.7MB). Zip sa sklada z dvoch suborov s datami:


**jester_ratings.dat** : subor obsahuje hodnotenia 36531 pouzivatelov ohladom 140 vtipov. Jeden pouzivatel mohol samozrejme hodnotit viacero vtipov ale nemusel vsetky. Dataset ma tvar (1048576,3). Jeden zaznam (riadok) je v tvare:
* ID pouzivatela,
* ID vtipu,
* Hodnotenie

**jester_items.dat**: subor obsahuje textove znenia vtipov, ma tvar (150,2). Riadok je v tvare:
* ID vtipu,
* Textove znenie vtipu

Celkovy pocet vtipov v datasetoch je teda 150, lenze 10 vtipov nebolo hodnotenych ziadnym pouzivatelom, preto sa v hodnoteniach vyskytuje iba 140.

## Stručný návrh riešenia


**Vstup**

Vytvoríme si vektor unikátnych používateľov a unikátnych položiek. Zo získaných vektorov si vytvoríme matice o N faktoroch (na začiatku bude naplnená náhodnými číslami), vzniknú nám teda matice o veľkosti (#používateľov x #faktorov) a (#položiek x #fatkorov). Vytvorené matice zlinearizujeme(z matice vytvoríme vektor, kde riadky dáme vedľa seba), spojíme do jednej a prenecháme ako vstup do neurónovej siete.

**Výstup**

Na výstupe budeme očakávať neurónovou sieťou predpovedanú maticu hodnotení položiek používateľmi v zlinearizovanej forme.

**Topológia siete**

Nemám šajnu.

**Trénovanie**

Z trénovacích dát si vytvoríme reálnu maticu hodnotení položiek používateľmi. V každej iterácií učenia neurónovej siete budeme porovnávať neurónovou sieťou predpovedané hodnotenia s reálnymi hodnoteniami používateľov. Spätným šírením upravíme matice na vstupe.

**Aktivačná funkcia**

:)

**Loss funkcie**

Podobnosť reálnej matice hodnotení s predpovedanom maticou kosínusovou podobnosťou?

### Zhrnutie

Navrhli sme riešenie, ktoré generalizuje faktorizáciu matíc, za účelom vygenerovať predpovedané odporúčania položiek používateľmi. Návrh sme vytvorili s našimi doterajšími znalosťami o neurónových sieťach a odporúčacích systémov. Môže sa teda stať, že pri implementácií riešenia prídeme na lepší spôsob riešenia problému a návrh ešte zmeníme  

## Referencie
[1] [Breese, John S., David Heckerman, and Carl Kadie. "Empirical analysis of predictive algorithms for collaborative filtering." Proceedings of the Fourteenth conference on Uncertainty in artificial intelligence. Morgan Kaufmann Publishers Inc., 1998.](https://dl.acm.org/citation.cfm?id=2074100)

[2] [Isinkaye, F. O., Y. O. Folajimi, and B. A. Ojokoh. "Recommendation systems: Principles, methods and evaluation." Egyptian Informatics Journal 16.3 (2015): 261-273.](https://www.sciencedirect.com/science/article/pii/S1110866515000341)

[3] [Zhang, Shuai et al. “Deep Learning Based Recommender System.” ACM Computing Surveys 52.1 (2019): 1–38. Crossref. Web.](https://arxiv.org/abs/1707.07435)

[4] [Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua. 2017. Neural Collaborative Filtering. In Proceedings of the 26th International Conference on World Wide Web (WWW '17). International World Wide Web Conferences Steering Committee, Republic and Canton of Geneva, Switzerland, 173-182. DOI: https://doi.org/10.1145/3038912.3052569](https://dl.acm.org/citation.cfm?id=3052569)]

[5] [He, Xiangnan, et al. "Outer product-based neural collaborative filtering." arXiv preprint arXiv:1808.03912 (2018).](https://arxiv.org/abs/1808.03912)