# Práctico librería implicit - ALS y BPR

Clase: IIC3633 Sistemas Recomendadores, PUC Chile

En este práctico vamos a utilizar la biblioteca de Python [implicit](https://implicit.readthedocs.io/en/latest/quickstart.html) para recomendación utilizando ALS y BPR. 


In [1]:
!curl -L -o "u2.base" "https://drive.google.com/uc?export=download&id=1bGweNw7NbOHoJz11v6ld7ymLR8MLvBsA"
!curl -L -o "u2.test" "https://drive.google.com/uc?export=download&id=1f_HwJWC_1HFzgAjKAWKwkuxgjkhkXrVg"
!curl -L -o "u.item" "https://drive.google.com/uc?export=download&id=10YLhxkO2-M_flQtyo9OYV4nT9IvSESuz"

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   388    0   388    0     0    521      0 --:--:-- --:--:-- --:--:--   520
100 1546k  100 1546k    0     0  1353k      0  0:00:01  0:00:01 --:--:-- 83.9M
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   388    0   388    0     0    671      0 --:--:-- --:--:-- --:--:--   671
100  385k  100  385k    0     0   447k      0 --:--:-- --:--:-- --:--:--  188M
  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   388    0   388    0     0    729      0 --:--:-- --:--:-- --:--:--   729
100  230k  100  230k    0     0   259k      0 --:--:-- --:--:-- --:--:-- 75.1M


In [2]:
!pip3 install implicit --upgrade

Collecting implicit
  Downloading implicit-0.4.8.tar.gz (1.1 MB)
[?25l[K     |▎                               | 10 kB 20.8 MB/s eta 0:00:01[K     |▋                               | 20 kB 26.8 MB/s eta 0:00:01[K     |▉                               | 30 kB 20.4 MB/s eta 0:00:01[K     |█▏                              | 40 kB 17.1 MB/s eta 0:00:01[K     |█▍                              | 51 kB 7.0 MB/s eta 0:00:01[K     |█▊                              | 61 kB 6.5 MB/s eta 0:00:01[K     |██                              | 71 kB 7.4 MB/s eta 0:00:01[K     |██▎                             | 81 kB 8.3 MB/s eta 0:00:01[K     |██▋                             | 92 kB 8.9 MB/s eta 0:00:01[K     |██▉                             | 102 kB 6.8 MB/s eta 0:00:01[K     |███▏                            | 112 kB 6.8 MB/s eta 0:00:01[K     |███▍                            | 122 kB 6.8 MB/s eta 0:00:01[K     |███▊                            | 133 kB 6.8 MB/s eta 0:00:01[K     |█

In [3]:
import pandas as pd
import numpy as np
import implicit
import scipy.sparse as sparse

In [4]:
columns = ['movieid', 'title', 'release_date', 'video_release_date', \
           'IMDb_URL', 'unknown', 'Action', 'Adventure', 'Animation', \
           'Children', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', \
           'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', \
           'Thriller', 'War', 'Western']

In [5]:
# Primero creamos el dataframe con los datos
df_train = pd.read_csv('u2.base',
                         sep='\t',
                         names=['userid', 'itemid', 'rating', 'timestamp'],
                         header=None)

# rating >= 3 , relevante (1) y rating menor a 3 es no relevante (0)
df_train.rating = [1 if x >=3 else 0 for x in df_train.rating ]

In [6]:
df_train.head()

Unnamed: 0,userid,itemid,rating,timestamp
0,1,3,1,878542960
1,1,4,1,876893119
2,1,5,1,889751712
3,1,6,1,887431973
4,1,7,1,875071561


In [7]:
# Cargamos el dataset con los items
df_items = pd.read_csv('u.item',
                        sep='|',
                        index_col=0,
                        names = columns,
                        header=None, 
                        encoding='latin-1')

In [8]:
df_items.head()

Unnamed: 0_level_0,title,release_date,video_release_date,IMDb_URL,unknown,Action,Adventure,Animation,Children,Comedy,Crime,Documentary,Drama,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
movieid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1
1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0
2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0
4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,1,0,0,1,0,0,0,0,0,0,0,0,0,0
5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,0,1,0,1,0,0,0,0,0,0,0,1,0,0


In [9]:
# Cargamos el dataset de testing
df_test = pd.read_csv('u2.test',
                      sep='\t',
                      names=['userid', 'itemid', 'rating', 'timestamp'],
                      header=None)


# rating >= 3 es relevante (1) y rating menor a 3 es no relevante (0) 
df_test.rating = [1 if x >=3 else 0 for x in df_test.rating ]


user_items_test = {}

for row in df_test.itertuples():
    if row[1] not in user_items_test:
        user_items_test[row[1]] = []
        
    user_items_test[row[1]].append(row[2])

In [10]:
df_test.head()

Unnamed: 0,userid,itemid,rating,timestamp
0,1,1,1,874965758
1,1,2,1,876893171
2,1,8,0,875072484
3,1,9,1,878543541
4,1,21,0,878542772


### Métricas

In [11]:
# Definicion de métricas (No editar)
# Obtenido de https://gist.github.com/bwhite/3726239

def precision_at_k(r, k):
    assert k >= 1
    r = np.asarray(r)[:k] != 0
    if r.size != k:
        raise ValueError('Relevance score length < k')
    return np.mean(r)

def average_precision(r):
    r = np.asarray(r) != 0
    out = [precision_at_k(r, k + 1) for k in range(r.size) if r[k]]
    if not out:
        return 0.
    return np.mean(out)

def mean_average_precision(rs):
    return np.mean([average_precision(r) for r in rs])
  
def dcg_at_k(r, k):
    r = np.asfarray(r)[:k]
    if r.size:
        return np.sum(np.subtract(np.power(2, r), 1) / np.log2(np.arange(2, r.size + 2)))
    return 0.


def ndcg_at_k(r, k):
    idcg = dcg_at_k(sorted(r, reverse=True), k)

    if not idcg:
        return 0.
    return dcg_at_k(r, k) / idcg

### Preprocesamiento de los datos a formato sparse

In [12]:
user_items = {}
itemset = set()

for row in df_train.itertuples():
    if row[1] not in user_items:
        user_items[row[1]] = []
        
    user_items[row[1]].append(row[2])
    itemset.add(row[2])

itemset = np.sort(list(itemset))

sparse_matrix = np.zeros((len(user_items), len(itemset)))

for i, items in enumerate(user_items.values()):
    sparse_matrix[i] = np.isin(itemset, items, assume_unique=True).astype(int)
    
matrix = sparse.csr_matrix(sparse_matrix.T)

user_ids = {key: i for i, key in enumerate(user_items.keys())}
user_item_matrix = matrix.T.tocsr()

In [13]:
def evaluate_model(model, n):
  mean_map = 0.
  mean_ndcg = 0.
  for u in user_items_test.keys():
    rec = [t[0] for t in model.recommend(u, user_item_matrix, n)]
    rel_vector = [np.isin(user_items_test[u], rec, assume_unique=True).astype(int)]
    mean_map += mean_average_precision(rel_vector)
    mean_ndcg += ndcg_at_k(rel_vector, n)

  mean_map /= len(user_items_test)
  mean_ndcg /= len(user_items_test)
  
  return mean_map, mean_ndcg

In [14]:
def show_recommendations(model, user, n):
  recommendations = [t[0] for t in model.recommend(user, user_item_matrix, n)]
  return df_items.loc[recommendations]['title']

In [15]:
def show_similar_movies(model, item, n=10):
  sim_items = [t[0] for t in model.similar_items(item, n)]
  return df_items.loc[sim_items]['title']

## ALS (Implicit Feedback)

**Pregunta 1:** Explique brevemente cómo funciona el algoritmo ALS.

**Respuesta:** A grandes rasgos este algoritmo considera valores binarios para el consumo de un item. Estos valores son obtenidos a partir de datos que el usuario entrega implicitamente, como por ejemplo, el tiempo que dedica a visualizar un articulo. Si ese tiempo excede alguna cota, se define que el consumo de ese item es igual 1, en otro caso, es igual a 0. Con esta variable se define un modelo que trata de minimizar el error entre las predicciones y los ratings ya obtenidos.

In [16]:
# Definimos y entrenamos el modelo con optimización ALS
model_als = implicit.als.AlternatingLeastSquares(factors=100, iterations=10, use_gpu=False)
model_als.fit(matrix)



  0%|          | 0/10 [00:00<?, ?it/s]

Ejemplo de recomendación y búsqueda de items similares con los factores latentes ya entrenados:

In [17]:
show_recommendations(model_als, user=77, n=10)

movieid
256    When the Cats Away (Chacun cherche son chat) (...
292                                      Rosewood (1997)
754                                    Red Corner (1997)
258                                       Contact (1997)
199                 Bridge on the River Kwai, The (1957)
136                  Mr. Smith Goes to Washington (1939)
240               Beavis and Butt-head Do America (1996)
125                                    Phenomenon (1996)
248                           Grosse Pointe Blank (1997)
409                                          Jack (1996)
Name: title, dtype: object

In [18]:
maprec, ndcg = evaluate_model(model_als, n=10)
print('map: {}\nndcg: {}'.format(maprec, ndcg))

map: 0.0679384160161393
ndcg: 0.3445635528330781


**Pregunta 2:** Pruebe distintos valores para los parámetros de ALS y muestre gráficos de cómo se ven afectadas las métricas recién mostradas.

In [23]:
# Definimos y entrenamos el modelo con optimización ALS
model_als = implicit.als.AlternatingLeastSquares(factors=150, iterations=20, use_gpu=False)
model_als.fit(matrix)

show_recommendations(model_als, user=77, n=10)

  0%|          | 0/20 [00:00<?, ?it/s]

movieid
754                                    Red Corner (1997)
676                                 Crucible, The (1996)
125                                    Phenomenon (1996)
292                                      Rosewood (1997)
136                  Mr. Smith Goes to Washington (1939)
256    When the Cats Away (Chacun cherche son chat) (...
332                                Kiss the Girls (1997)
257                                  Men in Black (1997)
248                           Grosse Pointe Blank (1997)
273                                          Heat (1995)
Name: title, dtype: object

In [24]:
maprec, ndcg = evaluate_model(model_als, n=10)
print('map: {}\nndcg: {}'.format(maprec, ndcg))

map: 0.04596777411161626
ndcg: 0.31393568147013784


Los cambios fueron:
- map: 0.04596777411161626 --------> map: 0.0679384160161393
- ndcg: 0.3445635528330781 --------> ndcg: 0.31393568147013784




## BPR

**Pregunta 3:** Explique con sus palabras la intuición del framework BPR.

**Respuesta:** La estructura de BPR corresponde a un modelo + una función de pérdida + aprendizaje. Esta estructura es versatil ya que soporta en cada uno de los términos técnicas diferentes. Por ejemplo, para el modelo pueden aplicados algunas de las técnicase que ya hemos visto como por ejemplo MF o KNN. La funcion de perdida puede ser utilizada el error cuadrático o AUC y así.

In [19]:
# Definimos y entrenamos el modelo de implicit feedback utilizando optimizacion BPR
model_bpr = implicit.bpr.BayesianPersonalizedRanking(factors=400, iterations=40, use_gpu=False)
model_bpr.fit(matrix)

  0%|          | 0/40 [00:00<?, ?it/s]

Ejemplo de recomendación y búsqueda de items similares con los factores latentes ya entrenados:

In [20]:
show_recommendations(model_bpr, user=77, n=10)

movieid
285                             Secrets & Lies (1996)
257                               Men in Black (1997)
746                                Real Genius (1985)
299                                    Hoodlum (1997)
267                                           unknown
332                             Kiss the Girls (1997)
244                     Smilla's Sense of Snow (1997)
327                                   Cop Land (1997)
312    Midnight in the Garden of Good and Evil (1997)
301                                   In & Out (1997)
Name: title, dtype: object

In [21]:
show_similar_movies(model_bpr, item=171, n=10)

movieid
171                 Delicatessen (1991)
209           This Is Spinal Tap (1984)
203                   Unforgiven (1992)
68                     Crow, The (1994)
173          Princess Bride, The (1987)
27                      Bad Boys (1995)
172     Empire Strikes Back, The (1980)
1458       Damsel in Distress, A (1937)
194                   Sting, The (1973)
201                 Evil Dead II (1987)
Name: title, dtype: object

In [22]:
maprec, ndcg = evaluate_model(model_bpr, n=10)
print('map: {}\nndcg: {}'.format(maprec, ndcg))

map: 0.04769703785927654
ndcg: 0.3430321592649311


**Pregunta 4:** Pruebe distintos valores para los parámetros de BPR y muestre gráficos de cómo se ven afectadas las métricas de ranking (nDCG@10 y MAP) recién mostradas.

In [27]:
# Definimos y entrenamos el modelo de implicit feedback utilizando optimizacion BPR
model_bpr = implicit.bpr.BayesianPersonalizedRanking(factors=600, iterations=10, use_gpu=False)
model_bpr.fit(matrix)
maprec2, ndcg2 = evaluate_model(model_bpr, n=10)
print('map: {}\nndcg: {}'.format(maprec, ndcg))

  0%|          | 0/10 [00:00<?, ?it/s]

map: 0.04210835428554116
ndcg: 0.32006125574272587
