# **Práctico Sistemas Recomendadores: pyreclab - Slope One**

En este práctico seguiremos utilizando [pyreclab](https://github.com/gasevi/pyreclab), con el cual estamos aprendiendo distintas técnicas de recomendación. Seguiremos usando la misma base de datos de los prácticos anteriores, para que puedan comparar los métodos y sus implementaciones. Este práctico está acompañado de un [video comentando la actividad](https://youtu.be/A2euuevpYis).

En esta oportunidad exploraremos el recomendador de Pendiente Uno o **Slope One** [1].

**Adaptado y preparado por:** Francisca Cattan 📩 fpcattan@uc.cl

Referencias 📖
------
[1] *Lemire, D., & Maclachlan, A. (2005, April). Slope One Predictors for Online Rating-Based Collaborative Filtering. In SDM (Vol. 5, pp. 1-5).*


**Nombre**:  completa tu nombre aquí :D

## Actividad 1 👓

Antes de empezar con el práctico, responde la siguiente pregunta con lo visto en clases.

**Pregunta:** Explique cómo funciona Slope One (como modelo teórico, no piense en la implementación). En particular explique:

- Repasemos: ¿Por qué este recomendador es un algoritmo de Filtrado Colaborativo?
- Este Filtrado Colaborativo, ¿está basado en el usuario o en los items? ¿Por qué?
- ¿Qué datos recibe Slope One y qué hace con ellos? (qué tipo de columnas y qué calculo)
- ¿Qué pasaría si se agrega un nuevo rating a la base de datos?
- Opcional: ¿Cómo crees que le iría al recomendador con un usuario que acaba de entrar al sistema y ha asignado muy pocos ratings?

💡 *Hint: La bibliografía todo lo puede.*

**Respuesta:** Es de tipo Filtrado Colaborativo porque consideramos los ratings de los demás usuarios para hacer las recomendaciones, no sólo las del usuario activo. Además, está basado en items porque lo que hace es analizar las diferencias entre pares de items y no las filas asociadas a los usuarios. 

Dado un usuario y un item (no rankeado por el usuario) recibe las columnas de items que han sido rankeadas por los demás usuarios, tanto del item que estamos estudiando como de los items que ya fueron rankeados por el usuario. Lo que hace con estas cantidades es hacer que la diferencia con los ratings del usuario activo sea mínima.

Si se agrega un nuevo item es fácilmente reescalable pues solo tendríamos que sumar las diferencias correspondientes al nuevo usuario para hacer la nueva predicción. 

Como un nuevo usuario ha hecho muy pocas predicciones tendrá muchos items aún sin evaluar, si imaginamos el caso límite (donde el usuario aún no vota nada) el valor de predicción que minimiza el error es el promedio de votaciones para un item en cuestión. 




# **Configuración Inicial**

## Paso 1:
Descargue directamente a Colab los archivos del dataset ejecutando las siguientes 3 celdas:


In [2]:
!curl -L -o "u1.base" "https://drive.google.com/uc?export=download&id=1bGweNw7NbOHoJz11v6ld7ymLR8MLvBsA"

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   388    0   388    0     0    552      0 --:--:-- --:--:-- --:--:--   551
100 1546k  100 1546k    0     0  1581k      0 --:--:-- --:--:-- --:--:-- 1581k


In [3]:
!curl -L -o "u1.test" "https://drive.google.com/uc?export=download&id=1f_HwJWC_1HFzgAjKAWKwkuxgjkhkXrVg"

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   388    0   388    0     0   1175      0 --:--:-- --:--:-- --:--:--  1172
100  385k  100  385k    0     0   739k      0 --:--:-- --:--:-- --:--:--  739k


In [4]:
!curl -L -o "u.item" "https://drive.google.com/uc?export=download&id=10YLhxkO2-M_flQtyo9OYV4nT9IvSESuz"

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   388    0   388    0     0   1315      0 --:--:-- --:--:-- --:--:--  1310
100  230k  100  230k    0     0   425k      0 --:--:-- --:--:-- --:--:--  425k


Los archivos **u1.base** y **u1.test** tienen tuplas {usuario, item, rating, timestamp}, que es la información de preferencias de usuarios sobre películas en una muestra del dataset [movielens](https://grouplens.org/datasets/movielens/).

## Paso 2:

Instalamos pyreclab utilizando pip.

In [5]:
!pip install pyreclab --upgrade

Collecting pyreclab
[?25l  Downloading https://files.pythonhosted.org/packages/23/4f/22999d293268e98efae9e80b7d2d4a372b025051de22558e649c7fc69539/pyreclab-0.1.14-cp36-cp36m-manylinux1_x86_64.whl (184kB)
[K     |█▊                              | 10kB 15.0MB/s eta 0:00:01[K     |███▌                            | 20kB 2.9MB/s eta 0:00:01[K     |█████▎                          | 30kB 3.6MB/s eta 0:00:01[K     |███████                         | 40kB 3.8MB/s eta 0:00:01[K     |████████▉                       | 51kB 3.4MB/s eta 0:00:01[K     |██████████▋                     | 61kB 3.8MB/s eta 0:00:01[K     |████████████▍                   | 71kB 4.0MB/s eta 0:00:01[K     |██████████████▏                 | 81kB 4.4MB/s eta 0:00:01[K     |████████████████                | 92kB 4.7MB/s eta 0:00:01[K     |█████████████████▊              | 102kB 4.5MB/s eta 0:00:01[K     |███████████████████▌            | 112kB 4.5MB/s eta 0:00:01[K     |█████████████████████▎          | 1

## Paso 3:

Hacemos los imports necesarios para este práctico.

In [6]:
import pyreclab
import numpy as np
import pandas as pd

# **El dataset**

💡 *En prácticos anteriores, vimos como analizar este dataset. Puedes revisarlos en caso de dudas.*

## Paso 4:

Ya que queremos crear una lista de recomendación de items para un usuario en especifico, necesitamos obtener información adicional de cada película tal como título, fecha de lanzamiento, género, etc. Cargaremos el archivo de items descargado "u.item" para poder mapear cada identificador de ítem al conjunto de datos que lo describe.

In [7]:
# Definimos el orden de las columnas
info_cols = [ 'movieid', 'title', 'release_date', 'video_release_date', 'IMDb_URL', \
              'unknown', 'Action', 'Adventure', 'Animation', 'Children', 'Comedy', \
              'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', \
              'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western' ]

# Asignamos a una variable la estructura de datos de los items
info_file = pd.read_csv('u.item', sep='|', index_col = 0, names = info_cols, header=None, encoding='latin-1')

# **Slope One**

## Paso 5:

Seguiremos un camino muy similar a los ejercicios de User KNN e Item KNN. Crearemos una instancia del algoritmo de recomendación y luego pasaremos a la fase de entrenamiento.

In [8]:
# Declaramos la instancia SlopeOne
mySlopeOne = pyreclab.SlopeOne(dataset='u1.base', dlmchar=b'\t', header=False, usercol=0, itemcol=1, ratingcol=2)

In [9]:
# Y enntrenamos
mySlopeOne.train()

## Actividad 2 👓

**Pregunta:** Explique qué hace el método `train()` en este caso, dado el modelo teórico. ¿Calcula información?, ¿no hace nada?, ¿ordena los datos? 

**Respuesta:** Lo que hace es hacer regresiones lineales con pendiente igual a 1, en el fondo buscamos rectas de la forma $f(x) = x + b$ que minimizan un error. Como las rectas son muy simples porque tienen pendiente fija, basta con derivar y encontramos $b$ conociendo los demás datos. No ordena los datos.


## Paso 6:

Llego la hora de predecir el rating.

In [10]:
# Esta es la predicción de rating que el usuario ID:457 otorgaría al ítem ID:37
# De esta forma podemos comparar el resultado con los prácticos anteriores
mySlopeOne.predict("457", "37")

3.2408759593963623

In [11]:
# También podemos guardar la predicción en una variable
prediction = mySlopeOne.predict("457", "37")

In [12]:
# Podemos comprobar las peliculas rankeadas por el usuario ID:457
# Que ciertamente ha participado activamente (¡156 items!)
train_file = pd.read_csv('u1.base', sep='\t', names = ['userid', 'itemid', 'rating', 'timestamp'], header=None)
train_file[train_file['userid'] == 457]

Unnamed: 0,userid,itemid,rating,timestamp
37269,457,1,4,882393244
37270,457,7,4,882393278
37271,457,9,5,882393485
37272,457,11,4,882397020
37273,457,13,3,882393883
...,...,...,...,...
37420,457,1047,2,882395964
37421,457,1119,4,882398308
37422,457,1168,5,882548761
37423,457,1210,4,882549905


In [13]:
# Y también cuáles usuarios han rankeado la pelicula ID:37
train_file[train_file['itemid'] == 37]

Unnamed: 0,userid,itemid,rating,timestamp
1302,13,37,1,882397011
14851,201,37,2,884114635
19670,268,37,3,876514002
29489,363,37,2,891498510
31084,385,37,4,880013483
32996,405,37,1,885548384
62777,773,37,3,888540352


## Actividad 3 👓

Haremos un pequeño experimento para entender mejor como funciona Slope One. Gracias al ejercicio anterior, sabemos que el usuario 457 ya ha asignado el mejor rating (5 ⭐) a las dos peliculas ID:9 e ID:1168. Comparemos.

**Pregunta:** ¿Cómo se explican estos resultados?  

**Respuesta:** Lo que ocurre es que Slope One ignorará si el usuario ha asignado el rating al item al que queremos predecir su rating. Por lo tanto, el algoritmo funcionará como si no existiese tal voto.

In [17]:
prediction_id9 = mySlopeOne.predict("457", "9")
prediction_id1168 = mySlopeOne.predict("457", "1168")

print('Prediction for ID:9 :', prediction_id9)
print('Prediction for ID:1168 :', prediction_id1168)

Prediction for ID:9 : 4.530702114105225
Prediction for ID:1168 : 4.166153907775879


## Paso 7:

Generaremos ahora una lista ordenada de las top-N recomendaciones, dado un usuario.



In [18]:
# Mediante el método recommend() genereremos una lista top-5 recomendaciones para el usuario ID:457
reclist_slopeone = mySlopeOne.recommend("457", 5)

# Y visualizaremos el resultado
print('Lista de items según ID:', reclist_slopeone)

Lista de items según ID: ['1592', '1589', '1656', '1431', '1653']


In [19]:
# Lo convertimos a numpy array
recmovies_slopeone = np.array(reclist_slopeone).astype(int)

# Utilizamos la estructura de datos de los items para encontrar los títulos recomendados
print('Lista de items por nombre:')
info_file.loc[recmovies_slopeone]['title']

Lista de items por nombre:


movieid
1592                               Magic Hour, The (1998)
1589                                   Schizopolis (1996)
1656                                   Little City (1998)
1431                                  Legal Deceit (1997)
1653    Entertaining Angels: The Dorothy Day Story (1996)
Name: title, dtype: object

## Actividad 4 👩🏻‍💻

Genera una nueva recomendacion, modificando los hiperparametros de usuario y topN a tu elección.

**Pregunta:** ¿Ves una diferencia en la recomendación entre el nuevo usuario y el usuario ID:457?

**Respuesta:**

In [23]:
# Veamos que ocurre con el usuario 4 y con top 10
reclist_slopeone = mySlopeOne.recommend("4", 10)
recmovies_slopeone = np.array(reclist_slopeone).astype(int)


print('Lista de items por nombre:')
info_file.loc[recmovies_slopeone]['title']

Lista de items por nombre:


movieid
1080                           Celestial Clockwork (1994)
1592                               Magic Hour, The (1998)
1662                                   Rough Magic (1995)
1656                                   Little City (1998)
1431                                  Legal Deceit (1997)
1653    Entertaining Angels: The Dorothy Day Story (1996)
1064                                     Crossfire (1947)
1651                         Spanish Prisoner, The (1997)
1650                              Butcher Boy, The (1998)
1645                              Butcher Boy, The (1998)
Name: title, dtype: object

Primero, claramente esta nueva lista es más grande. Segundo, aparecen muchas películas en común con la recomendación Top 5 al usuario 457, y además, en el mismo orden relativo: The Magic Hour > Little City > Legal Deceit > Entertaining Angels: The Dorothy Day Story. Posiblemente estas películas estén dentro de las más populares.

## Actividad 5 👩🏻‍💻

Dado el usuario ID:44, cree dos listas de películas recomendadas; la primera utilizando el algoritmo Most Popular y la segunda utilizando el algoritmo Slope One.

**Pregunta:** Realice un analisis apreciativo de las similitudes y diferencias entre ambas recomendaciones.

**Respuesta:**

In [36]:
# Primero con Most Popular 
most_popular = pyreclab.MostPopular(dataset='u1.base',
                   dlmchar=b'\t',
                   header=False,
                   usercol=0,
                   itemcol=1,
                   ratingcol=2)

most_popular.train()


most_popular_list = [int(r) for r in most_popular.recommend("44", 10, includeRated=False)]
print('Lista de items por nombre:')
info_file.loc[most_popular_list]['title']


Lista de items por nombre:


movieid
50                     Star Wars (1977)
100                        Fargo (1996)
181           Return of the Jedi (1983)
286         English Patient, The (1996)
1                      Toy Story (1995)
121       Independence Day (ID4) (1996)
300                Air Force One (1997)
127               Godfather, The (1972)
7                 Twelve Monkeys (1995)
98     Silence of the Lambs, The (1991)
Name: title, dtype: object

In [37]:
# Ahora con Slope One
reclist_slopeone = mySlopeOne.recommend("44", 10)
recmovies_slopeone = np.array(reclist_slopeone).astype(int)


print('Lista de items por nombre:')
info_file.loc[recmovies_slopeone]['title']

Lista de items por nombre:


movieid
1656                        Little City (1998)
1064                          Crossfire (1947)
1643                         Angel Baby (1995)
1642                  Some Mother's Son (1996)
1625                         Nightwatch (1997)
1599             Someone Else's America (1995)
1512    World of Apu, The (Apur Sansar) (1959)
1536                      Aiqing wansui (1994)
1500                 Santa with Muscles (1996)
1467      Saint of Fort Washington, The (1993)
Name: title, dtype: object

Al parecer, el usuario 44 tiene gustos nada populares, o bien, ya vió las películas más populares. Se observa que las recomendaciones son totalmente distintas. Con esta comparación uno puede darse cuenta de la importancia de hacer recomendaciones personalizadas pues los resultados pueden ser radicalmente distintos.