## Collaborative Filtering

Integrantes
* Santiago
* Jose Reyes 142207
* Patricia
* Yedam Fortiz 119523

### Carga de paqueteria

In [107]:
import pandas as pd
import numpy as np
import numpy.ma as ma
import random as r
from sklearn.model_selection import train_test_split
from sklearn.metrics import ndcg_score

In [2]:
r.seed(1234)

### Carga de Informacion

In [3]:
links = pd.read_csv("links_small.csv")
ratings = pd.read_csv("ratings_small.csv")
ratings = ratings.drop("timestamp",axis=1)

### Por ahora consideraremos únicamente 1500 lineas de ratings, no los 100,000 registros ya que el algoritmo no está optimizado para una base de datos tan grande

In [4]:
X_train,X_test = train_test_split(ratings.head(1500),test_size=0.3,random_state=1234)

In [5]:
ratings_wide = X_train.pivot_table(index = 'userId',
                                   columns = 'movieId',
                                   values = 'rating')

### Creacion de matrices

In [6]:
links_values = np.array(links)
links_features = np.array(links.columns)
ratings_values = np.array(ratings_wide)
ratings_features = np.array(ratings_wide.columns)

### Funcion de costo

$$ \large J(X)  =  \frac{1}{2} \sum_{(a,i \in D)} (Y_{ai} - [UV^T]_{ai} )^2 + \frac{\lambda}{2} \sum_{a=1}^n\sum_{j=1}^k U_{aj}^2 + \frac{\lambda}{2} \sum_{i=1}^m\sum_{j=1}^k V_{ij}^2  $$

* Seleccionamos $V$ al azar y la dejamos fija y optimizamos con respecto a $U$
* Una vez actualizada la $U$, la dejamos fija y optimizamos con respecto a $V$
* Repetimos hasta que converja (variaciones entre las estimaciones de los vectores es pequeña) (optimo local)

#### Minimizacion Alternada

In [7]:
def gradiente_U (Y,U,V,k,lambda_):
    
    if k!=1:
        U_V = U.dot(V.T)
    else:
        U_V = np.outer(U,V)
    
    na = np.isnan(Y)
    
    #Tratamiento especial NA
    #gradiente = -dot_na(Y-U_V, V) + lambda_*U
    gradiente = -(Y-U_V)@V + lambda_*U
    
    return gradiente

In [8]:
def gradiente_V (Y,U,V,k,lambda_):
    
    if k!=1:
        U_V = U.dot(V.T)
    else:
        U_V = np.outer(U,V)
    
    na = np.isnan(Y)
    
    #Tratamiento especial NA
    #gradiente = -dot_na((Y-U_V).T, U) + lambda_*V
    gradiente = -(Y-U_V).T@U + lambda_*V
    
    return gradiente

In [9]:
def dot_na(X,Y):
    
    n,m = X.shape
    lista = []
    
    for i in range(n):
        pos_na = ~np.isnan(X[i,:])
        lista.append(X[i,pos_na]@Y[pos_na])
        lista_ = np.array(lista)
    
    return lista_ 

In [10]:
def descenso_gradiente_U(Y,U,V,k,lambda_,eta,epsilon):
    
    U_ = U
    
    while True:
        U_aux = U_
        gradiente_u = gradiente_U(Y,U_,V,k,lambda_)
        U_ = U_ - eta * gradiente_u
        
        if (np.linalg.norm(U_aux-U_))< epsilon:
            break

    return U_

In [11]:
def descenso_gradiente_V(Y,U,V,k,lambda_,eta,epsilon):
    
    V_ = V
    
    while True:
        V_aux = V_
        gradiente_v = gradiente_V(Y,U,V_,k,lambda_)
        V_ = V_ - eta * gradiente_v
        
        if (np.linalg.norm(V_aux-V_))< epsilon:
            break

    return V_

In [12]:
def minimizacion_alternada(Y,k,lambda_,eta,epsilon):
    """
    Objetivo:
    Realizar minimizacion alternada
    
    Insumo:
    Y - Matriz a evaluar
    k - Hiperparametro para obtimizar funcion de costo
    lambda - Hiperparametro de regularizacion
    eta - Tamaño de paso
    epsilon - Criterio de paro
    
    Resultado:
    U - Sentimiento general de cada usuario hacia las peliculas
    V - Como cada una de las peliculas es percibidas por los usuarios
    
    """
    
    n,m = Y.shape
    
    Y = np.nan_to_num(Y)
    
    U = np.random.uniform(low = 0,high = (1/np.sqrt(k)),size = [n,k])
    V = np.random.uniform(low = 0,high = (1/np.sqrt(k)),size = [m,k])
    
    #Optimizar U
    U_final = descenso_gradiente_U(Y,U,V,k,lambda_,eta,epsilon)
    
    #Optimizar V
    V_final = descenso_gradiente_V(Y,U_final,V,k,lambda_,eta,epsilon)
    
    return U_final,V_final

Podemos hacer la revisión con esta matriz

In [13]:
Y = np.array([[5, np.nan, 7], 
              [1, 1, np.nan]])

In [14]:
Y

array([[ 5., nan,  7.],
       [ 1.,  1., nan]])

In [15]:
U_Y,V_Y = minimizacion_alternada(Y,k=2,lambda_=0.1,eta=0.01,epsilon=1e-3)

In [16]:
print(Y)
print(U_Y@V_Y.T)
print(np.linalg.norm(np.nan_to_num(Y)-U_Y@V_Y.T))

[[ 5. nan  7.]
 [ 1.  1. nan]]
[[4.99555020e+00 1.23184693e-03 6.99075292e+00]
 [9.31499723e-01 9.46896020e-01 3.29064521e-02]]
0.09328441428865487


### En estos momentos no se consideró el procedimiento de tratamiento especial de los Nulos, ya que el programa tarda mucho tiempo en correr. Por ahora estamos considerando los registros nulos como 0.

Haremos la estimación para la información de las películas

In [17]:
U_final,V_final = minimizacion_alternada(ratings_wide,k=10,lambda_=0.1,eta=0.01,epsilon=1e-3)

In [18]:
print(np.linalg.norm(np.nan_to_num(ratings_wide)-U_final@V_final.T))

52.607151334803234


## Validacion cruzada

Justificar la elección de k .\
Como hacer la validacion cruzada, como implementar el test:\
    *Ya estimamos el modelo bajo train, que se hace con el test

### Verificaremos el valor del ndcg score para diferentes valores de k

In [19]:
U_a,V_a = minimizacion_alternada(ratings_wide,k=5,lambda_=0.1,eta=0.01,epsilon=1e-3)
U_b,V_b = minimizacion_alternada(ratings_wide,k=10,lambda_=0.1,eta=0.01,epsilon=1e-3)
U_c,V_c = minimizacion_alternada(ratings_wide,k=15,lambda_=0.1,eta=0.01,epsilon=1e-3)
U_d,V_d = minimizacion_alternada(ratings_wide,k=50,lambda_=0.1,eta=0.01,epsilon=1e-3)

In [20]:
ndcga = ndcg_score(np.nan_to_num(ratings_wide), U_a@V_a.T)
ndcgb = ndcg_score(np.nan_to_num(ratings_wide), U_b@V_b.T)
ndcgc = ndcg_score(np.nan_to_num(ratings_wide), U_c@V_c.T)
ndcgd = ndcg_score(np.nan_to_num(ratings_wide), U_d@V_d.T)

In [21]:
pd.DataFrame({"k":[5,10,15,50],
             "NDCG":[ndcga,ndcgb,ndcgc,ndcgd]})
#[ndcg_score(np.nan_to_num(ratings_wide), U_5@V_5.T)]

Unnamed: 0,k,NDCG
0,5,0.783511
1,10,0.889948
2,15,0.986706
3,50,1.0


### 5 Mejores recomendaciones

Como hacer las recomendaciones para las 5 peliculas por usuario

In [153]:
recomendation_matrix = U_final@V_final.T


def recomendacion(user,recomendation_matrix,ratings_features,ratings_values):
    rec_user = recomendation_matrix[user,]
    ratings_user = ratings_values[user,]
    
    not_watched = pd.isnull([x for x in ratings_values[user,]])
    rec_user[np.invert(not_watched)]=np.array([np.nan]*sum(np.invert(not_watched))) 
    
    idx_top5=rec_user.argsort()[-5:][::-1]
    print("Calificaciones: ",rec_user[idx_top5])
    print("Puedes ver las películas: ",ratings_features[idx_top5])
    return list(ratings_features[idx_top5])

In [171]:
user=6
rec_user = recomendation_matrix[user,]
ratings_user = ratings_values[user,]

not_watched = pd.isnull([x for x in ratings_values[user,]])
#rec_user[np.invert(not_watched)]=np.array([np.inf]*sum(np.invert(not_watched))) 

idx_top5=rec_user.argsort()[-5:][::-1]
rec_user.argsort()[-5:][::-1]
rec_user.sort()
rec_user

array([-1.43901655, -1.05332333, -1.05329247, -0.94796264, -0.94792357,
       -0.94790737, -0.8941798 , -0.84264954, -0.84258877, -0.84257306,
       -0.83269902, -0.71542291, -0.71529766, -0.70975145, -0.65865881,
       -0.63200059, -0.59245806, -0.56168303, -0.53651635, -0.53650216,
       -0.5348321 , -0.53091839, -0.53089469, -0.49278944, -0.45877199,
       -0.45876059, -0.45867333, -0.39975307, -0.37010071, -0.37007304,
       -0.37005048, -0.36705717, -0.36704267, -0.36695833, -0.3669413 ,
       -0.35770487, -0.32903443, -0.32892995, -0.29354198, -0.29297594,
       -0.2929108 , -0.28780838, -0.28775599, -0.27525604, -0.27522969,
       -0.27521648, -0.2751345 , -0.27019345, -0.25256748, -0.24668872,
       -0.23440356, -0.23439227, -0.2343814 , -0.23437804, -0.23432914,
       -0.234326  , -0.22938833, -0.18366447, -0.18362753, -0.18356816,
       -0.18354837, -0.17580194, -0.17579715, -0.17574809, -0.17322637,
       -0.17286712, -0.13774037, -0.13771212, -0.13769242, -0.13

In [154]:
user = int(input("Número de Usuario :"))
recomendacion(user,recomendation_matrix,ratings_features,ratings_values)

Número de Usuario :6
Calificaciones:  [nan nan nan nan nan]
Puedes ver las películas:  [ 380 1231 1198 1210 1220]


[380, 1231, 1198, 1210, 1220]

#### Pendientes

Agregar más teoría al documento