## Backend 

V temu delu bom 

### Podatki

Opis podatkovne zbirke MovieLens ostaja enak prvi nalogi.

In [1]:
import numpy as np
import random

from csv import DictReader
from sklearn.metrics import mean_absolute_error
from sklearn.linear_model import LinearRegression, Lasso, Ridge

In [2]:
movies = []
ratings = []

reader = DictReader(open('podatki/ml-latest-small/ratings.csv', 'rt', encoding='utf-8'))

for row in reader:
    ratings.append((int(row["userId"]), int(row["movieId"]), float(row["rating"]), int(row["timestamp"])))
ratings = np.array(ratings)

reader = DictReader(open('podatki/ml-latest-small/movies.csv', 'rt', encoding='utf-8'))

for row in reader:
    movies.append((int(row["movieId"]), row["title"], row["genres"]))
movies = np.array(movies)

### Predpriprava podatkov

Za potrebe te naloge bomo podatke pripravili na naslednji način:
1. Izberi $m$ filmov z vsaj 100 ogledi.
2. Izberi $n$ uporabnikov, ki si je ogledalo vsaj 100 filmov.
3. Pripravi matriko $X$ velikosti $m \times n$, kjer vrstice predstavljajo filme, stolpci pa uporabnike. Neznane vrednosti zamenjaj z $0$.

Za vsakega od izbranih $n$ uporabnikov bo zgrajen regresijski model, 
katerega cilj bo napoved ocen za filme. 

<table>
    <tr style="background-color: white;">
        <td style="border-right: 1px solid #000;"></td>
        <td></td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">$y^{(0)}$</td>
        <td colspan=3 style="text-align:center;">$X^{(0)}$</td>
    </tr>
    <tr style="border-bottom: 1px solid #000;">
        <td style="border-right: 1px solid #000;"></td>
        <td>Film/uporabnik</td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">$u_0$</td>
        <td>$u_1$</td>
        <td>$u_2$</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">${f_1}$</td>
        <td>Twelve Monkeys (a.k.a. 12 Monkeys) (1995)</td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">0</td>
        <td>0</td>
        <td>2.5</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">${f_2}$</td>
        <td>Dances with  Wolves (1990) </td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">4</td>
        <td>0</td>
        <td>0</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">${f_3}$</td>
        <td>Apollo 13 (1995)</td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">0</td>
        <td>2</td>
        <td>0</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">${f_4}$</td>
        <td>Sixth Sense, The (1999)</td><td style="border-right: 1px solid #000; border-left: 1px solid #000;">3</td>
        <td>0</td>
        <td>4</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">$\cdots$</td>
        <td>$\cdots$</td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">$\cdots$</td>
        <td>$\cdots$</td>
        <td>$\cdots$</td>
        <td>$\cdots$</td>
    </tr>
</table>

<table>
    <tr style="background-color: white;">
        <td style="border-right: 1px solid #000;"></td>
        <td></td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">$y^{(1)}$</td>
        <td colspan=3 style="text-align:center;">$X^{(1)}$</td>
    </tr>
    <tr style="border-bottom: 1px solid #000;">
        <td style="border-right: 1px solid #000;"></td>
        <td>Film/uporabnik</td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">$u_1$</td>
        <td>$u_0$</td>
        <td>$u_2$</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">${f_1}$</td>
        <td>Twelve Monkeys (a.k.a. 12 Monkeys) (1995)</td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">0</td>
        <td>0</td>
        <td>2.5</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">${f_2}$</td>
        <td>Dances with  Wolves (1990) </td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">0</td>
        <td>4</td>
        <td>0</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">${f_3}$</td>
        <td>Apollo 13 (1995)</td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">2</td>
        <td>0</td>
        <td>0</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">${f_4}$</td>
        <td>Sixth Sense, The (1999)</td><td style="border-right: 1px solid #000; border-left: 1px solid #000;">0</td>
        <td>3</td>
        <td>4</td>
        <td>$\cdots$</td>
    </tr>
    <tr>
        <td style="border-right: 1px solid #000;">$\cdots$</td>
        <td>$\cdots$</td>
        <td style="border-right: 1px solid #000; border-left: 1px solid #000;">$\cdots$</td>
        <td>$\cdots$</td>
        <td>$\cdots$</td>
        <td>$\cdots$</td>
    </tr>
</table>

Razdelitev podatkov za model uporabnika $u_0$ (zgorja matrika) in uporabnika $u_1$ (spodaj matrika).

In [3]:
# 𝑚 filmov z vsaj 100 ogledi.
moviesMoreThan100 = []

for i in movies:
    sm = (len(ratings[ratings[:,1] == int(i[0]), 1]))
    if(sm >= 100):
        moviesMoreThan100.append({'name': i[1], 'id': int(i[0]),'numOfRatings': sm})

In [4]:
# 𝑛 uporabnikov, ki si je ogledalo vsaj 100 filmov.
usersWithMoreThan100Movies = []
userDict = {}

for i in ratings:
    if(not int(i[0]) in userDict):
        userDict[int(i[0])] = []
    userDict[int(i[0])].append([int(i[1]), float(i[2])])
    
for i in userDict:
    if(len(userDict[i]) >= 100):
        usersWithMoreThan100Movies.append({'user': i, 'movies': userDict[i]})
        
n = len(usersWithMoreThan100Movies)

In [5]:
# matrika 𝑋 velikosti 𝑚×𝑛 kjer vrstice predstavljajo filme, stolpci pa uporabnike. Neznane vrednosti zamenjaj z  0
rowArray = []

for i in moviesMoreThan100:
    colArr = []
    for j in usersWithMoreThan100Movies:
        didInsert = False
        for k in j['movies']:
            if(i['id'] == k[0]):
                colArr.append(k[1])
                didInsert = True
        if(not didInsert):
            colArr.append(0)
    rowArray.append(colArr)
    
matrix = np.array(rowArray)
m = len(rowArray)
matrix.shape

(151, 263)

### Vprašanja

#### 1. Regresija (100%) 
Za vsakega uporabnika postavite regresijski model. Uporabite eno ali več metod za učenje regresijskih modelov (linearna regresija, Ridge, Lasso, itd.).

Za vsakega od $n$ uporabnikov izberite ustrezni stolpec v matriki podatkov. Za uporabnika $i$ imamo torej:

* Vektor odziva $y^{(i)}$,
* Matriko podatkov $X^{(i)}$, ki vsebuje vse stolpce *razen* $i$.
    
Za lažjo predstavo si oglej zgornji tabeli. Nekajkrat (npr., trikrat) ponovite postopek preverjanja s pomočjo učne in testne množice:


* Množico filmov, ki si jih je uporabnik ogledal, *naključno* razdelite v razmerju 75% (učna množica) in 25% (testna množica).
* Naučite regresijski model na učni množici (izberite ustrezne vrstice v $X$ in $y$).
* Ovrednotite model na testni množici (ponovno izberite ustrezne vrstice v $X$ in $y$).

Oceno vrednotenja nato delite s številom poizkusov, da dobite končno oceno.

Poročajte o uspešnosti vašega modela. Pri tem se osredotočite na naslednja vprašanja:
* Utemeljite ustrezno mero vrednotenja. Ali model dobro napoveduje ocene?
* Z izbrano mero ocenite modele za vseh $n$ uporabnikov.

Kodo za odgovore lahko razdelite v več celic.

In [6]:
for kaj in range(3):
    linear = []
    ridg = []
    lasso = []
    
    for user in range(n):
        y = matrix[:, user]
        X = matrix[:, [x for x in range(n) if x != user]]

        moviesWatched = [k for k in range(len(y)) if y[k] > 0]
        random.shuffle(moviesWatched)

        learn = moviesWatched[:int(len(moviesWatched) * 0.75)]

        learnX = X[learn,:]
        learny = y[learn]

        test = [x for x in moviesWatched if x not in learn]
        testX = X[test,:]
        testy = y[test]
        
        #Linear regresion
        model = LinearRegression()
        model.fit(learnX,learny)

        hx = model.predict(testX)
        linear.append(mean_absolute_error(hx, testy))

        #Ridge
        model = Ridge(alpha=0.1)
        model.fit(learnX,learny)

        hx = model.predict(testX)
        ridg.append(mean_absolute_error(hx, testy))

        #Lasso
        model = Lasso(alpha=0.1)
        model.fit(learnX,learny)

        hx = model.predict(testX)
        lasso.append(mean_absolute_error(hx, testy))
        
    print(kaj+1, ".")
    print("Linear Regression: ", np.mean(linear))
    print("Ridge:            ", np.mean(ridg))
    print("Lasso:            ", np.mean(lasso))


1 .
Linear Regression:  0.6648726773684673
Ridge:             0.6645956106960148
Lasso:             0.6916745129175352
2 .
Linear Regression:  0.659761381110596
Ridge:             0.6594320405050126
Lasso:             0.6767451284643861
3 .
Linear Regression:  0.6513241045088349
Ridge:             0.6512250712172799
Lasso:             0.6775864194603205


  model = cd_fast.enet_coordinate_descent(


#### Komentar:

Za mero vrednotenja sem izbral Mean Absolute Error (angl. MAE). To sem izbral, ker se mi je zdela najpomembnejšaza naše ocenjevanje (nočemo preveč kaznovati osamelce). Model nam vrača MAE pri okoli 0.6 - 0.7 kar se mi zdi relativno dobro.

Pri uporabi različnih metod lahko opazimo, da dobimo najmanjši MAE pri Ridge. Najvišjega pa dobimo pri Lasso. Najuspešnejši model bi biu Ridge, čeprav bi bili drugi tudi dobri.

#### Bonus vprašanje (15%)
Ustvarite novega uporabnika, ki predstavlja vaše ocene
filmov. Ocenite nekaj filmov po lastnem okusu in preverite, kako modeli ocenijo neizbrane filme.
Ali se vam zdijo napovedi primerne?

Kodo za odgovore lahko razdelite v več celic.