# Filtragem Baseada em Conteudo
## Linear

In [None]:
import pandas as pd
import numpy as np
import math

import time

In [None]:
# Importando .csv
train = pd.read_csv('dataset/train_data.csv', header=None,  skiprows=[0], usecols=[0,1,2])

# Obtendo generos dos filmes
m = pd.read_csv('dataset/movies_data.csv')
genres = pd.get_dummies(m.set_index(['movie_id']).genres.str.split('|', expand=True).stack(dropna=False)).sum(level=0)

In [None]:
# Função para cria modelo
def fbc_linear(train, test, features, lr = 0.05, reg = 0.002, miter = 10):
    nusers = np.append(train[:,0], test[:,0]).max()
    nitems = np.append(train[:,1], test[:,1]).max()
    nfeatures = len(features[1])-1
    # features = np.hstack((features,np.ones((len(features),1))))
    profiles = np.random.normal(loc = 0, scale = 0.1, size=(nusers, nfeatures+1))
    error = list()
    for l in range(0, miter):
        sq_error = 0
        for j in range(0, len(train)):
            u = train[j, 0]-1
            i = train[j, 1]-1
            r_ui = train[j, 2]-1
            e_ui = np.dot(profiles[u, ], features[i, ]) - r_ui
            sq_error += e_ui**2
            for k in range(nfeatures-1):
                profiles[u, k] = profiles[u, k] - lr * (e_ui * features[i, k] + reg * profiles[u, k])
            k = nfeatures
            profiles[u, k] = profiles[u, k] - lr * (e_ui * features[i, k])
        error.append(math.sqrt(sq_error/len(train)))
    return { "profiles": profiles, "error": error }



In [None]:
# Predizendo nota
def predict(model, user, item, features):
    return np.dot(model["profiles"][user-1, ], features[item-1, ])

In [None]:
# Avaliando predições
def rmse(model, test, features):
    sum_err = 0
    for t in test:
        u = t[0]
        i = t[1]
        r_ui = t[2]
        pred = predict(model, u, i, features)
        error = (r_ui - pred)**2
        sum_err += error
    return math.sqrt(sum_err/len(test))

In [None]:
def validation(model, data, features, train_split = 0.75, validation_split = 0.75, lr = 0.05, reg = 0.02, miter = 10):
    data = data.sample(frac=1)
    train_len = int(train_split * len(data))
    
    test = data[train_len:].values

    validation_split = int(train_split * train_len)
    train = data[:validation_split].values
    train_validation = data[validation_split:train_len].values

    start_time = time.time()
    model = model(train, train_validation, features, lr, reg, miter)
    print("Tempo de treinamento em segundos: ", time.time() - start_time)
    start_time = time.time()
    print("RMSE :", rmse(model, test, features))
    print("Tempo de predição em segundos: ", time.time() - start_time)

In [None]:
# model = fbc_linear(r.values[:482205], r.values[482205:], genres.values)

In [None]:
# rmse(model, r.values[482205:], genres.values)

In [None]:
features = genres.values
features = np.hstack((features,np.ones((len(features),1))))
validation(fbc_linear, train, features, 0.75, 0.9, lr = 0.02, reg = 0.3, miter = 10)

## Execução 1 treino 75% lr = 0.05, reg = 0.02, miter = 1
Tempo de treinamento em segundos:  8.421872615814209 <br />
RMSE : 1.535468933491189 <br />
Tempo de predição em segundos:  0.9305610656738281 <br />

## Execução 2 treino 75% lr = 0.05, reg = 0.02, miter = 10
Tempo de treinamento em segundos:  88.66791653633118 <br />
RMSE : 1.4554809871965142 <br />
Tempo de predição em segundos:  0.8296205997467041 <br />

## Execução 3 treino 75% lr = 0.10, reg = 0.05, miter = 10
Tempo de treinamento em segundos:  92.5954806804657 <br />
RMSE : 1.4727703422035867 <br />
Tempo de predição em segundos:  0.9102404117584229 <br />

## Execução 4 treino 75%  lr = 0.10, reg = 0.10, miter = 10
Tempo de treinamento em segundos:  102.38923835754395 <br />
RMSE : 1.4714520646681342 <br />
Tempo de predição em segundos:  0.9514524936676025 <br />

## Execução 5 treino 75%  lr = 0.05, reg = 0.10, miter = 10
Tempo de treinamento em segundos:  111.63090944290161 <br />
RMSE : 1.4490179462898205 <br />
Tempo de predição em segundos:  1.0725321769714355 <br />


## Execução 6 treino 75%  lr = 0.05, reg = 0.20, miter = 10
Tempo de treinamento em segundos:  107.4192054271698 <br />
RMSE : 1.4428471171221156 <br />
Tempo de predição em segundos:  1.054771900177002 <br />

## Execução 7 treino 75%  lr = 0.05, reg = 0.30, miter = 10
Tempo de treinamento em segundos:  109.77556109428406 <br />
RMSE : 1.4392830274399706 <br />
Tempo de predição em segundos:  1.0423803329467773 <br />

## Execução 8 treino 75%  lr = 0.05, reg = 0.50, miter = 10
Tempo de treinamento em segundos:  109.43092441558838 <br />
RMSE : 1.4406315245123 <br />
Tempo de predição em segundos:  1.1360182762145996 <br />

## Execução 9 treino 75%  lr = 0.05, reg = 0.40, miter = 10
Tempo de treinamento em segundos:  117.8072919845581 <br />
RMSE : 1.4393217433328591 <br />
Tempo de predição em segundos:  1.5194320678710938 <br />

## Execução 10 treino 75%  lr = 0.10, reg = 0.30, miter = 10
Tempo de treinamento em segundos:  107.00127005577087 <br />
RMSE : 1.4588454764907148 <br />
Tempo de predição em segundos:  1.0750911235809326 <br />

## Execução 11 treino 75%  lr = 0.02, reg = 0.30, miter = 10
Tempo de treinamento em segundos:  93.79304528236389 <br />
RMSE : 1.4474299738266379 <br />
Tempo de predição em segundos:  0.9344995021820068 <br />

## Execução 12 treino 75%  lr = 0.02, reg = 0.30, miter = 10
Tempo de treinamento em segundos:  130.48903703689575 <br />
RMSE : 1.4453035080007284 <br />
Tempo de predição em segundos:  1.2028000354766846 <br />

## Execução 13 treino 75%  validação com 10%, lr = 0.02, reg = 0.30, miter = 10
Tempo de treinamento em segundos:  152.91437292099 <br />
RMSE : 1.4501436145710687 <br />
Tempo de predição em segundos:  1.5947344303131104 <br />