<img src="kschool.png" width="120" height="120" align="right"/>

# Collaborative-Filtering (CF)

<div class  = "alert alert-info">

**Collaborative Filtering (CF)** es una técnica usada por los sistemas de recomendación para realizar predicciones automáticas de los intereses de un usuario a partir de la información sobre los intereses de un conjunto de usuarios.

La idea principal es que si la persona A tiene intereses similares a la persona B, entonces lo más probable es que A tenga la misma opinión que B sobre un interés que conoce B pero aún no conoce A.

Destacamos:

- No es necesario conocer previamente las características de los items
</div>

<div class  = "alert alert-info">
    
**Ejemplo**: A partir de las películas que ha puntuado positivamente A, podemos encontrar usuarios que han puntuando de forma similar dicho conjunto de películas. Esto indica que este conjunto de usuarios son muy similares en gustos. Una vez identificado este grupo de personas con gustos similares, podemos recomendar a A películas que aún no haya visto, pero que sí estén bien puntuadas dentro de este grupo de personas.
</div>

## Algoritmo 1: Alternating Least Squares (ALS)

La idea principal de este algoritmo es la factorización de la tabla users-items. Es decir, convertir la tabla de usuarios y películas en una matriz (sparse) y factorizarla en dos tablas más pequeñas y manejables computacionalmente. 

Una vez que tenemos las tablas más manejables, podremos realizar cálculos sobre ellas para realizar predicciones.

### Matrix factorization

La factorización de una matriz $M$ de tamaño $(m$ x $n)$ consiste en encontrar dos matrices $X$ y $Y$ de tamaños 
$(m$ x $k)$ y $(k$ x $m)$, tales que su producto es la matriz factorizada: $M = X$ x $Y$

En concreto, lo que queremos es estimar la matriz user-item $(r_{ij})$ de cada puntuación que ha dado el usuario $i$ al item $j$ como producto de dos matrices relacionadas con usuarios (user matrix) y con items (item matrix).

Es decir parto de la Rating MAtrix y quiero reducirlo a la multiplocacoṕn de User Matrix x Item Matrix para poder operar con ellas, ya que la tabla rating matrizx es tan grande que no puedo operar con ella.

Pero cómo puedo averiguar qué numero corresponde a cada posición al reducirla? Usando redes neuronales para que su multiplicación me de un resultado lo más cercano posible

![imagen.png](attachment:imagen.png)

En concreto,

$$r_{ij} = \begin{pmatrix}x_{i,1} \cdots x_{i,k} \end{pmatrix} \cdot \begin{pmatrix}y_{k,j}\\\vdots \\y_{k,j} \end{pmatrix} = \sum_k x_{i,k} \cdot y_{k,j}$$

Dado un $k$ fijo, lo que trataremos es de estimar los valores de las matrices $X$ e $Y$ para que su producto se aproxime lo más posible a los valores de $r_{ij}$.

Esto implica que habrá siempre un error de aproximación; es decir, estimaremos en realidad un valor $\hat r_{ij}$ tal que su error será  $\hat r_{ij} - r_{ij}$. 

El problema entonces se reduce a minimizar el error $\hat r_{ij} - r_{ij}$, lo que nos deja la siguiente función de pérdida:

$$L = \sum_{i,j} (r_{ij} - \mathbf x_i^T \cdot \mathbf y_j)^2$$

Para evitar problemas de overfitting, recurrimos a la regularización $L2$, de esta forma se penaliza que haya vectores $\mathbf x_i$ y $\mathbf y_j$ con valores muy grandes que podrían desestabilizar:

$$L = \sum_{i,j} (r_{ij} - \mathbf x_i^T \cdot \mathbf y_j)^2 + \lambda_x \lVert \mathbf x_i \rVert ^2 + \lambda_y \lVert \mathbf y_j \rVert ^2$$

Como todo problema con función de pérdida, el objetivo es minimizar su valor, por lo que habrá que derivar en función de $\mathbf x$ y de $\mathbf y$:

$$\frac{\partial L}{\partial x_i} = -2\sum_{i} (r_{ij} - \mathbf x_i^T \cdot \mathbf y_j) \cdot \mathbf y_j + 2 \lambda_x \mathbf x_i$$

E igualar a cero para poder despejar el valor de $\mathbf x_i$:

$$\sum_{i} (r_{ij} - \mathbf x_i^T \cdot \mathbf y_j) \cdot \mathbf y_j = \lambda_x \mathbf x_i$$

$$(\mathbf r_{i} - \mathbf x_i \cdot Y^T) \cdot Y= \lambda_x \mathbf x_i$$

$$\mathbf r_{i} \cdot Y - \mathbf x_i \cdot Y^T  \cdot Y = \lambda_x \mathbf x_i$$

$$\mathbf x_i^T = \mathbf r_{i} \cdot  Y \cdot (Y^T Y + \lambda_x I)^{-1}$$

Análogamente, para $\mathbf y_j$:


$$\mathbf y_j^T = \mathbf r_{j} \cdot X \cdot (X^T X + \lambda_y I)^{-1}$$

**Notas**:
* $k$ se denominan factores latentes.
* cuanto mayor sea el valor de $k$, mayor será la precisión, pero mayor también será el cómputo.
* Finalmente, la predicción de que un usuario $i_0$ compre un item $j_0$ será el cómputo de $\mathbf x_{i_0}^T \cdot \mathbf y_{j_0}$

### Dataset

In [20]:
''' Descargar el fichero pequeño
    https://grouplens.org/datasets/movielens/latest/
    y lo guardamos en una carpeta local'''

folder = '/home/eduardofernandez/Escritorio/recommender_systems/ml-latest-small'

In [21]:
'''Leemos los ficheros donde están las peliculas y las votaciones de los usuarios'''

import pandas as pd

pd_ratings = pd.read_csv(folder+'/ratings.csv')
print('Number of records: ' + str(len(pd_ratings)))
print('Total of users: ' + str(pd_ratings.userId.nunique()))
pd_ratings.head()

Number of records: 100836
Total of users: 610


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [22]:
pd_movies = pd.read_csv(folder+'/movies.csv')
print('Number of records: ' + str(len(pd_movies)))
print('Total of movies: ' + str(pd_movies.movieId.nunique()))
pd_movies.head()

Number of records: 9742
Total of movies: 9742


Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


### Traducimos todo a numpy arrays

In [23]:
import warnings
warnings.filterwarnings("ignore")

In [24]:
'''Los usuarios/películas deberían tener un ID consecutivo, por eso hacemos una transformación'''

pd_ratings2 = pd_ratings.copy()

pd_ratings2 = pd_ratings2.sort_values('userId').reset_index(drop=True)
pd_ratings2['user_id_new'] = 0
cnt = 1
pd_ratings2.user_id_new[0] = cnt
for i in range(1,len(pd_ratings2)):
    if pd_ratings2.userId[i] != pd_ratings2.userId[i-1]:
        cnt += 1    
    pd_ratings2.user_id_new[i] = cnt
    

pd_ratings2 = pd_ratings2.sort_values('movieId').reset_index(drop=True)
pd_ratings2['movie_id_new'] = 0
cnt = 1
pd_ratings2.movie_id_new[0] = cnt
for i in range(1,len(pd_ratings2)):
    if pd_ratings2.movieId[i] != pd_ratings2.movieId[i-1]:
        cnt += 1    
    pd_ratings2.movie_id_new[i] = cnt
        

# pd_ratings2 = pd_ratings2[['rating','user_id_new','movie_id_new']]
pd_ratings2

Unnamed: 0,userId,movieId,rating,timestamp,user_id_new,movie_id_new
0,1,1,4.0,964982703,1,1
1,112,1,3.0,1442535639,112,1
2,448,1,5.0,1019126661,448,1
3,451,1,5.0,854089165,451,1
4,453,1,5.0,1005966797,453,1
...,...,...,...,...,...,...
100831,184,193581,4.0,1537109082,184,9720
100832,184,193583,3.5,1537109545,184,9721
100833,184,193585,3.5,1537109805,184,9722
100834,184,193587,3.5,1537110021,184,9723


In [25]:
matrix = pd_ratings2[['user_id_new','movie_id_new','rating']]
matrix.columns = ['rows','cols','rating']
matrix

Unnamed: 0,rows,cols,rating
0,1,1,4.0
1,112,1,3.0
2,448,1,5.0
3,451,1,5.0
4,453,1,5.0
...,...,...,...
100831,184,9720,4.0
100832,184,9721,3.5
100833,184,9722,3.5
100834,184,9723,3.5


In [27]:
'''Trabajaremos con numpy arrays'''

import numpy as np

n_users = matrix.rows.nunique()
n_items = matrix.cols.nunique()
ratings = np.zeros((n_users, n_items))
for row in matrix.itertuples():
    ratings[row[1]-1, row[2]-1] = row[3]
ratings

array([[4. , 0. , 4. , ..., 0. , 0. , 0. ],
       [0. , 0. , 0. , ..., 0. , 0. , 0. ],
       [0. , 0. , 0. , ..., 0. , 0. , 0. ],
       ...,
       [2.5, 2. , 2. , ..., 0. , 0. , 0. ],
       [3. , 0. , 0. , ..., 0. , 0. , 0. ],
       [5. , 0. , 0. , ..., 0. , 0. , 0. ]])

### Core del algoritmo

$$\mathbf x_i^T = \mathbf r_{i} \cdot  Y \cdot (Y^T Y + \lambda_x I)^{-1}$$
$$\mathbf y_j^T = \mathbf r_{j} \cdot X \cdot (X^T X + \lambda_y I)^{-1}$$

In [28]:
'''Esta es la iteración descrita previamente en la teoría'''

def als_iteration(user_vecs, item_vecs, lambda_x, lambda_y, ratings):
        
        # actualizamos el de los usuarios (X) -----------------------
        latent_vectors = user_vecs
        fixed_vectors  = item_vecs
        
        YTY = fixed_vectors.T.dot(fixed_vectors)
        lambdaI = np.eye(YTY.shape[0]) * lambda_x
        for i in range(latent_vectors.shape[0]):
            latent_vectors[i, :] = np.linalg.solve((YTY + lambdaI), ratings[i, :].dot(fixed_vectors)) # A·x=b
            
        user_vecs = latent_vectors
        
        # actualizamos el de los items (Y) --------------------------
        latent_vectors = item_vecs
        fixed_vectors  = user_vecs
        
        XTX = fixed_vectors.T.dot(fixed_vectors)
        lambdaI = np.eye(XTX.shape[0]) * lambda_y
        for j in range(latent_vectors.shape[0]):
            latent_vectors[j, :] = np.linalg.solve((XTX + lambdaI), ratings[:, j].T.dot(fixed_vectors))
            
        item_vecs = latent_vectors
        
        return user_vecs, item_vecs

### Cálculo de la predicción de que un usuario compre un artículo

$$\hat r_{i_0,j_0} = \mathbf x_{i_0}^T \cdot \mathbf y_{j_0}$$

In [29]:
'''Creamos una función para hacer predicciones'''

def prediction(i, j, user_vecs, item_vecs):
    return user_vecs[i, :].dot(item_vecs[j, :].T)

### Algoritmo

In [30]:
""" Decidimos la parametrización para el algoritmo """

n_factors = 10          # k-factores latentes
lambda_x = 0.2          # valor de la regularización
lambda_y = 0.2          # valor de la regularización
n_iterations = 100      # número de iteraciones para el ajuste de la función de pérdida

In [31]:
""" La matriz de entrada """

n_users = matrix.rows.nunique()
n_items = matrix.cols.nunique()
ratings = np.zeros((n_users, n_items))
for row in matrix.itertuples():
    ratings[row[1]-1, row[2]-1] = row[3]
ratings

array([[4. , 0. , 4. , ..., 0. , 0. , 0. ],
       [0. , 0. , 0. , ..., 0. , 0. , 0. ],
       [0. , 0. , 0. , ..., 0. , 0. , 0. ],
       ...,
       [2.5, 2. , 2. , ..., 0. , 0. , 0. ],
       [3. , 0. , 0. , ..., 0. , 0. , 0. ],
       [5. , 0. , 0. , ..., 0. , 0. , 0. ]])

In [32]:
""" Ejecución del algoritmo """

n_users, n_items = ratings.shape

for i in range(n_iterations):
    
    # Inicializamos los latent vectors con valores aleatorios
    if i==0:
        user_vecs = np.random.random((n_users, n_factors))
        item_vecs = np.random.random((n_items, n_factors))
        
    # Mejoramos los latent vectors con cada iteración
    user_vecs, item_vecs = als_iteration(user_vecs, item_vecs, lambda_x, lambda_y, ratings)


In [28]:
""" Realizamos una prueba de predicción """

def list_user_recommendations(user):
    user_list = list()
    for i in range(len(item_vecs)):
        user_list.append(prediction(user, i, user_vecs,item_vecs))

    pd_user = pd.DataFrame(user_list, columns=['score'])
    pd_user['movie_id_new'] = range(len(item_vecs))
    pd_user = pd.merge(pd_user, pd_ratings2, on='movie_id_new', how='left')
    pd_user = pd.merge(pd_user, pd_movies, on='movieId', how='left')
    pd_user = pd_user[['score', 'title']].sort_values('score', ascending=False)
    pd_user = pd_user.drop_duplicates()
    
    return pd_user

list_user_recommendations(22)

Unnamed: 0,score,title
16949,3.420602,Candyman: Farewell to the Flesh (1995)
14593,3.164477,Sliver (1993)
18518,3.024535,"Arrival, The (1996)"
23117,2.868212,Dirty Dancing (1987)
25695,2.790018,To Kill a Mockingbird (1962)
...,...,...
34980,-0.630028,"Sweet Hereafter, The (1997)"
35548,-0.647307,Blues Brothers 2000 (1998)
37968,-0.647991,Gremlins 2: The New Batch (1990)
3235,-0.719066,Unforgettable (1996)


In [29]:
list_user_recommendations(310)

Unnamed: 0,score,title
57276,0.323525,Duel in the Sun (1946)
26117,0.303723,Goodfellas (1990)
15526,0.297442,Aladdin (1992)
23997,0.286644,Private Benjamin (1980)
25729,0.285723,To Kill a Mockingbird (1962)
...,...,...
89335,-0.089566,Drag Me to Hell (2009)
87500,-0.097095,"Children of Huang Shi, The (2008)"
88211,-0.116994,"Road, The (2009)"
86867,-0.118059,"Class, The (Klass) (2007)"


# Ejercicio:

<div class  = "alert alert-success">
    
En este ejercicio, se pide replicar el algoritmo ALS para el conjunto de articulos visto en notebooks anteriores. 

¿Como se podrían encontrar dos artículos parecidos? ¿Y dos usuarios parecidos? Crear una función que permita evaluar el nivel de proximidad entre dos artículos.

</div>

### Cargamos el dataset de artículos

In [10]:
pd_shared_articles = pd.read_csv('shared_articles.csv')
pd_shared_articles = pd_shared_articles[['title','contentId']].drop_duplicates().reset_index(drop=True)
print(len(pd_shared_articles))
pd_shared_articles.head()

3060


Unnamed: 0,title,contentId
0,"Ethereum, a Virtual Currency, Enables Transact...",-6451309518266745024
1,"Ethereum, a Virtual Currency, Enables Transact...",-4110354420726924665
2,Bitcoin Future: When GBPcoin of Branson Wins O...,-7292285110016212249
3,Google Data Center 360° Tour,-6151852268067518688
4,"IBM Wants to ""Evolve the Internet"" With Blockc...",2448026894306402386


In [11]:
pd_users_interactions = pd.read_csv('users_interactions.csv')
pd_users_interactions = pd_users_interactions[['eventType','personId','contentId']]
print(len(pd_users_interactions))

pd_users_interactions['points'] = 0
pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 1 if x.eventType=='VIEW' else x.points, axis=1)
pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 2 if x.eventType=='BOOKMARK' else x.points, axis=1)
pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 3 if x.eventType=='LIKE' else x.points, axis=1)
pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 4 if x.eventType=='FOLLOW' else x.points, axis=1)
pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 5 if x.eventType=='COMMENT CREATED' else x.points, axis=1)
pd_users_interactions.head()

72312


Unnamed: 0,eventType,personId,contentId,points
0,VIEW,-8845298781299428018,-3499919498720038879,1
1,VIEW,-1032019229384696495,8890720798209849691,1
2,VIEW,-1130272294246983140,310515487419366995,1
3,FOLLOW,344280948527967603,310515487419366995,4
4,VIEW,-445337111692715325,-7820640624231356730,1


In [12]:
pd_users_interactions = pd_users_interactions.drop('eventType', axis=1)
pd_users_interactions = pd_users_interactions.groupby(['personId','contentId']).sum().reset_index()
print(len(pd_users_interactions))
pd_users_interactions.head()

40710


Unnamed: 0,personId,contentId,points
0,-9223121837663643404,-8949113594875411859,1
1,-9223121837663643404,-8377626164558006982,1
2,-9223121837663643404,-8208801367848627943,1
3,-9223121837663643404,-8187220755213888616,1
4,-9223121837663643404,-7423191370472335463,8


In [13]:
pd_data = pd.merge(pd_users_interactions, pd_shared_articles, on='contentId', how='left')
pd_data['personId'] = pd_data.personId.apply(lambda x: str(x))
pd_data['contentId'] = pd_data.contentId.apply(lambda x: str(x))
pd_data.head()

Unnamed: 0,personId,contentId,points,title
0,-9223121837663643404,-8949113594875411859,1,"No Brasil, '25% dos celulares ainda são 'Burro..."
1,-9223121837663643404,-8377626164558006982,1,Bad Writing Is Destroying Your Company's Produ...
2,-9223121837663643404,-8208801367848627943,1,Ray Kurzweil: The world isn't getting worse - ...
3,-9223121837663643404,-8187220755213888616,1,Organizing for digital acceleration: Making a ...
4,-9223121837663643404,-7423191370472335463,8,"Espresso Intents: não é magia, é tecnologia! -..."


In [17]:
'''Como vamos a utilizar esta función más adelante, creamos una función'''

def create_data(file_articles, file_users):
    pd_shared_articles = pd.read_csv(file_articles)
    pd_shared_articles = pd_shared_articles[['title','contentId']].drop_duplicates().reset_index(drop=True)
    
    pd_users_interactions = pd.read_csv(file_users)
    pd_users_interactions = pd_users_interactions[['eventType','personId','contentId']]

    pd_users_interactions['points'] = 0
    pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 1 if x.eventType=='VIEW' else x.points, axis=1)
    pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 2 if x.eventType=='BOOKMARK' else x.points, axis=1)
    pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 3 if x.eventType=='LIKE' else x.points, axis=1)
    pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 4 if x.eventType=='FOLLOW' else x.points, axis=1)
    pd_users_interactions['points'] = pd_users_interactions.apply(lambda x: 5 if x.eventType=='COMMENT CREATED' else x.points, axis=1)
    
    pd_users_interactions = pd_users_interactions.drop('eventType', axis=1)
    pd_users_interactions = pd_users_interactions.groupby(['personId','contentId']).sum().reset_index()
    
    pd_data = pd.merge(pd_users_interactions, pd_shared_articles, on='contentId', how='left')
    pd_data['personId'] = pd_data.personId.apply(lambda x: str(x))
    pd_data['contentId'] = pd_data.contentId.apply(lambda x: str(x))
    
    return pd_data

pd_data = create_data('shared_articles.csv', 'users_interactions.csv')
pd_data.head(5)

Unnamed: 0,personId,contentId,points,title
0,-9223121837663643404,-8949113594875411859,1,"No Brasil, '25% dos celulares ainda são 'Burro..."
1,-9223121837663643404,-8377626164558006982,1,Bad Writing Is Destroying Your Company's Produ...
2,-9223121837663643404,-8208801367848627943,1,Ray Kurzweil: The world isn't getting worse - ...
3,-9223121837663643404,-8187220755213888616,1,Organizing for digital acceleration: Making a ...
4,-9223121837663643404,-7423191370472335463,8,"Espresso Intents: não é magia, é tecnologia! -..."
