[View in Colaboratory](https://colab.research.google.com/github/paulanavarretec/RecSys/blob/master/Pr%C3%A1ctico_pyreclab.ipynb)

# Ayudantía 1 - Sistemas Recomendadores: Pyreclab

En este práctico vamos a utilizar la biblioteca de Python [pyreclab](https://github.com/gasevi/pyreclab), desarrollado por los Laboratorios IALab y SocVis de la Pontificia Universidad Católica de Chile, para aprender sobre algoritmos básicos y tradicionales de sistemas de recomendacion:


*   Most Popular
*   Item Average Rating
*   User KNN (Filtrado colaborativo basado en usuarios)


**Autores**: Denis Parra, Gabriel Sepúlveda

**Adaptado para Sistemas Recomendadores (IIC3633) por**: Manuel Cartagena, Antonio Ossa


## Setup

Vaya ejecutando cada celda presionando el botón de Play o presionando Ctrl+Enter (Linux y Windows) o Command+Enter (OSX)

**Paso 1:** Descargue los siguientes tres archivos, siguiendo los links, a su computador local (`u1.base`, `u1.test` y `u.item`, respectivamente)

https://drive.google.com/file/d/1Anro2DyEgN0sUHXFyxVe2qoSya6hzQSp/view?usp=sharing

https://drive.google.com/file/d/1Awy3QKCdkSpNeRXATqRBUMi56M47Ia0n/view?usp=sharing

https://drive.google.com/file/d/1B7QhEodQ13QlOHOTp9zaa52exlfgAOl3/view?usp=sharing


In [1]:
# Ejecute esta celda. Deberá subir los archivos u1.base, u1.test y u.item
from google.colab import files
uploaded = files.upload()

KeyboardInterrupt: ignored

Los archivos u1.base y u1.test tienen tuplas {usuario, item, rating, timestamp}, que es la información de preferencias de usuarios sobre películas en una muestra del dataset [MovieLens](https://grouplens.org/datasets/movielens/).

Revisemos cómo es uno de estos archivos:

In [2]:
import pandas as pd

train_file = pd.read_csv('u1.base',
                         sep='\t',
                         names = ['userid', 'itemid', 'rating', 'timestamp'],
                         header=None)
train_file.head()

Unnamed: 0,userid,itemid,rating,timestamp
0,1,1,5,874965758
1,1,2,3,876893171
2,1,3,4,878542960
3,1,4,3,876893119
4,1,5,3,889751712


Por otra parte, para obtener información adicional de cada película tal como *título*, *fecha de lanzamient*o, *género*, etc., cargaremos el archivo de items descargado ( *u.item* ) para poder mapear cada identificador de ítem al conjunto de datos que lo describe.
Revisemos el contenido de este archivo

In [3]:
info_cols = [ 'movieid', 'title', 'release_date', 'video_release_date', 'IMDb_URL', \
              'unknown', 'Action', 'Adventure', 'Animation', 'Children', 'Comedy', \
              'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir', 'Horror', \
              'Musical', 'Mystery', 'Romance', 'Sci-Fi', 'Thriller', 'War', 'Western' ]

info_file = pd.read_csv('u.item', sep='|', index_col = 0, names = info_cols, header=None, encoding='latin-1')

info_file.head()

Unnamed: 0_level_0,title,release_date,video_release_date,IMDb_URL,unknown,Action,Adventure,Animation,Children,Comedy,...,Fantasy,Film-Noir,Horror,Musical,Mystery,Romance,Sci-Fi,Thriller,War,Western
movieid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1,Toy Story (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Toy%20Story%2...,0,0,0,1,1,1,...,0,0,0,0,0,0,0,0,0,0
2,GoldenEye (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?GoldenEye%20(...,0,1,1,0,0,0,...,0,0,0,0,0,0,0,1,0,0
3,Four Rooms (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Four%20Rooms%...,0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
4,Get Shorty (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Get%20Shorty%...,0,1,0,0,0,1,...,0,0,0,0,0,0,0,0,0,0
5,Copycat (1995),01-Jan-1995,,http://us.imdb.com/M/title-exact?Copycat%20(1995),0,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [14]:
# Ejemplo de cómo visualizar titulos de peliculas en base a sus IDs (le agregué que aparte me muestre otras características)
pelis = [5,4,1,2,3]
info_file.loc[pelis][['title', 'release_date','Adventure']]

Unnamed: 0_level_0,title,release_date,Adventure
movieid,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,Copycat (1995),01-Jan-1995,0
4,Get Shorty (1995),01-Jan-1995,0
1,Toy Story (1995),01-Jan-1995,0
2,GoldenEye (1995),01-Jan-1995,1
3,Four Rooms (1995),01-Jan-1995,0


**Paso 2:** Instalar `pyreclab`



In [15]:
!pip install pyreclab

Collecting pyreclab
[?25l  Downloading https://files.pythonhosted.org/packages/7a/2d/9a92720ebf71d0a497a0c488c39dc1f9a3814000fc834b34655c57eaaab1/pyreclab-0.1.11-cp36-cp36m-manylinux1_x86_64.whl (143kB)
[K    100% |████████████████████████████████| 143kB 5.2MB/s 
[?25hInstalling collected packages: pyreclab
Successfully installed pyreclab-0.1.11


**Paso 3:** Importar `pyreclab` y `numpy`

In [0]:
import pyreclab
import numpy as np

## Uso de algoritmos

### *Most Popular*

In [0]:
# Declarar el objeto recomendador de la clase MostPopular
mymp = pyreclab.MostPopular(dataset='u1.base',
                            dlmchar= b'\t',
                            header=False,
                            usercol=0,
                            itemcol=1,
                            ratingcol=2)


In [0]:
# Entrenamos el modelo con los datos existentes
mymp.train()

El método ***Most Popular*** calcula el número de veces que fue consumido cada ítem, así puede recomendar los más populares. Con este método no podemos predecir *ratings*, pero sí podemos recomendar. La recomendación no es personalizada, es la misma para todos los usuarios.

In [45]:
reclist = mymp.recommend("457")
print(reclist)

pelis = np.array(reclist).astype(int)
print(info_file.loc[pelis]['title'])

reclist = mymp.recommend("1")
print(reclist)

pelis = np.array(reclist).astype(int)
print(info_file.loc[pelis]['title'])


['181', '258', '294', '127', '56', '237', '7', '172', '405', '313']
movieid
181          Return of the Jedi (1983)
258                     Contact (1997)
294                   Liar Liar (1997)
127              Godfather, The (1972)
56                 Pulp Fiction (1994)
237               Jerry Maguire (1996)
7                Twelve Monkeys (1995)
172    Empire Strikes Back, The (1980)
405         Mission: Impossible (1996)
313                     Titanic (1997)
Name: title, dtype: object
['124', '419', '203', '732', '367', '751', '566', '319', '147', '514']
movieid
124                   Lone Star (1996)
419                Mary Poppins (1964)
203                  Unforgiven (1992)
732                        Dave (1993)
367                    Clueless (1995)
751         Tomorrow Never Dies (1997)
566    Clear and Present Danger (1994)
319    Everyone Says I Love You (1996)
147    Long Kiss Goodnight, The (1996)
514                  Annie Hall (1977)
Name: title, dtype: object


In [20]:
# Con esto podemos ver las recomendaciones con titulo de película
pelis = np.array(reclist).astype(int)
info_file.loc[pelis]['title']

movieid
181          Return of the Jedi (1983)
258                     Contact (1997)
294                   Liar Liar (1997)
127              Godfather, The (1972)
56                 Pulp Fiction (1994)
237               Jerry Maguire (1996)
7                Twelve Monkeys (1995)
172    Empire Strikes Back, The (1980)
405         Mission: Impossible (1996)
313                     Titanic (1997)
Name: title, dtype: object

### *Item Average*

In [0]:
# Declarar el objeto recomendador ItemAvg
myitemavg = pyreclab.ItemAvg(dataset='u1.base',
                             dlmchar=b'\t',
                             header=False,
                             usercol=0,
                             itemcol=1,
                             ratingcol=2)


In [0]:
# Entrenamos el modelo con los datos existentes
myitemavg.train()

In [42]:
reclist = myitemavg.recommend("457")
print(reclist)
reclist = myitemavg.recommend("1")
print(reclist)

pelis = np.array(reclist).astype(int)
info_file.loc[pelis]['title']

['1500', '1653', '1599', '1189', '1467', '1293', '1201', '1122', '1449', '1367']
['1500', '1653', '1599', '1189', '1467', '1293', '1201', '1122', '1449', '1367']


movieid
1500                            Santa with Muscles (1996)
1653    Entertaining Angels: The Dorothy Day Story (1996)
1599                        Someone Else's America (1995)
1189                                   Prefontaine (1997)
1467                 Saint of Fort Washington, The (1993)
1293                                      Star Kid (1997)
1201           Marlene Dietrich: Shadow and Light (1996) 
1122                       They Made Me a Criminal (1939)
1449                               Pather Panchali (1955)
1367                                         Faust (1994)
Name: title, dtype: object

#### Preguntas

**¿Qué cree usted que hace la función `train()` del método de recomendación  `ItemAvg()`?**

**Respuesta:** COMPLETAR

In [30]:
# Predecir rating que el usuario ID 457 le dará al ítem ID 37
myitemavg.predict('457', '37')

2.3333332538604736

**Ejecute el mismo comando anterior para predecir esta vez el rating que el usuario 498 dará al item 37 ¿Qué rating da? ¿Cómo se explica este resultado?**

In [31]:
# COMPLETAR

myitemavg.predict('498', '37')

2.3333332538604736

**Respuesta:** COMPLETAR

In [32]:
# Generar lista de 5 recomendaciones para el usuario con ID 457

reclist_iavg = myitemavg.recommend('457', 5)
print(reclist_iavg)

['1500', '1653', '1599', '1189', '1467']


**Genere una lista de 10 recomendaciones para el usuario ID 478 ¿Cómo se explican las recomendaciones del método para este usuario comparadas con las del usuario 457?**

In [39]:
# COMPLETAR

reclist_iavg = myitemavg.recommend('478', 10)
print(reclist_iavg)

print(myitemavg.predict('498', reclist_iavg[0]))
print(myitemavg.predict('498', reclist_iavg[1]))

['1500', '1653', '1599', '1189', '1467', '1293', '1201', '1122', '1449', '1367']
5.0
5.0


**Respuesta:** COMPLETAR

**¿Cuáles son los títulos de las películas recomendadas por el método *ItemAvg* para el usuario 457 ? ¿Qué le parecen estas recomendaciones comparadas con el método *MostPopular*?**

In [0]:
# COMPLETAR

**Respuesta:** COMPLETAR

### Wilson score

Otra forma de recomendar cuando se tienen votos positivos y negativos es usando el lower bound del wilson-score como se muestra en https://www.evanmiller.org/how-not-to-sort-by-average-rating.html

Como el dataset de movielens contiene ratings, una forma de contabilizar estos como votos es asignando los ratings superiores a un valor definido como votos positivos y los demás como negativos.

In [0]:
from math import sqrt
import scipy.stats as st

def ci_lower_bound(pos, neg, confidence=.95):
    n = pos + neg

    if n == 0:
        return 0

    #z = 1.0 #1.44 = 85%, 1.96 = 95%
    z = st.norm.ppf(1-(1-confidence)/2)
    phat = float(pos) / n
    
    return (phat + z*z/(2*n) - z * sqrt((phat*(1-phat)+z*z/(4*n))/n))/(1+z*z/n)

In [0]:
item_count = {}
for tup in train_file.groupby(['itemid', 'rating']).agg(['count']).itertuples():
  if tup[0][0] not in item_count:
    item_count[tup[0][0]] = {}
    item_count[tup[0][0]]['pos'] = 0
    item_count[tup[0][0]]['neg'] = 0

  if tup[0][1] <= 3:
    item_count[tup[0][0]]['neg'] += tup[1]
  else:
    item_count[tup[0][0]]['pos'] += tup[1]

A partir de la funcion ci_lower_bound y el diccionario item_count genere una lista de recomendación usando el wilson score.

PREGUNTAS:
1. Cómo considera este ranking respecto a Most Popular y a Rating Promedio? explique.

2. Cuál sería el efecto en el ranking de cambiar el umbral de rating positivo de  $r \geq 4$ a $r \geq 3$

3. Cuál es el efecto de cambiar el valor (1-$\alpha$) de 0.95 a 0.99 en la lista rankeada ?

### *UserKNN*

In [0]:
# Declarar el objeto recomendador UserKnn
myUserKnn = pyreclab.UserKnn(dataset='u1.base',
                             dlmchar=b'\t',
                             header=False,
                             usercol=0,
                             itemcol=1,
                             ratingcol=2)


In [0]:
# Entrenamos el modelo con los datos existentes
# Recuerde que se puede probar el parámetro k de cantidad de vecinos
# así como la métrica de similaridad (pearson, cosine)
myUserKnn.train(7, 'pearson')

#### Preguntas

**Según el modelo de recomendación UserKnn, qué rating le dará el usuario 457 al item 37 ?**

In [0]:
# COMPLETAR

**Respuesta:** COMPLETAR

**Escriba los nombres de las películas recomendadas por el método knn**

In [0]:
# COMPLETAR

**Respuesta:** COMPLETAR

Analizar de tal forma de minimizar el número de vecinos viendo el error (RMSE)

Un ejemplo de como obtener las listas de recomendación junto con sus métricas para el dataset de test:

In [0]:
predlist, mae, rmse = myUserKnn.test(input_file='u1.test',
                                     dlmchar=b'\t',
                                     header=False,
                                     usercol=0,
                                     itemcol=1,
                                     ratingcol=2,
                                     output_file='predictions.csv')

A partir del ejemplo anterior probar para distintos valores de k y evaluar en base al error de prediccion (RMSE)

In [0]:
#COMPLETAR

Graficar los resultados anteriores (MAE y RMSE), los que deberían verse algo así:

![MAE](https://fotos.subefotos.com/819d05796c6e1da8ec11637788c677aco.png)

![RMSE](https://fotos.subefotos.com/6148bcf1c0fdd7ffc0046b04f3f455b5o.png)

1.   Elemento de lista
2.   Elemento de lista



### *Slope One* (Opcional)

**Replicar todo el análisis de UserKNN con el método SlopeOne
**

### *ItemKNN* (Opcional)

**Replicar todo el análisis de UserKNN con el método ItemKNN**