# Ayudantía 2 - Sistemas Recomendadores: Pyreclab

En este práctico, volveremos a utilizar la biblioteca de Python [pyreclab](https://github.com/gasevi/pyreclab), desarrollado por los Laboratorios IALab y SocVis de la Pontificia Universidad Católica de Chile, para aprender sobre algoritmos más avanzados de recomendación:

* Singular Value Decomposition (SVD)

**Autor**: Antonio Ossa, Manuel Cartagena

**Basado en el material original de**: Denis Parra, Gabriel Sepúlveda


## Setup

**Paso 1:** Descargue los siguientes tres archivos, siguiendo los links, a su computador local.

* `u2.base`: https://drive.google.com/open?id=1bGweNw7NbOHoJz11v6ld7ymLR8MLvBsA
* `u2.test`: https://drive.google.com/open?id=1f_HwJWC_1HFzgAjKAWKwkuxgjkhkXrVg
* `u.item`: https://drive.google.com/open?id=10YLhxkO2-M_flQtyo9OYV4nT9IvSESuz

In [0]:
# Ejecute esta celda. Deberá subir los archivos u2.base, u2.test y u.item
from google.colab import files
uploaded = files.upload()

**Paso 2**: Instalamos [`pyreclab`](https://github.com/gasevi/pyreclab) y [`seaborn`](https://seaborn.pydata.org/index.html) utilizando `pip`.

In [0]:
!pip install pandas --upgrade
!pip install pyreclab
!pip install seaborn --upgrade

In [0]:
import pandas as pd
import pyreclab
import seaborn as sns


sns.set(style="whitegrid")

## Antes de recomendar

**Paso 3**: Los archivos `u2.base` y `u2.test` tienen tuplas (usuario, item, rating, timestamp), que es la información de preferencias de usuarios sobre películas en una muestra del dataset [MovieLens](https://grouplens.org/datasets/movielens/), distinta a la que trabajamos en el práctico anterior. Revisemos cómo es uno de estos archivos y luego haremos gráficos que nos permitan sacar conclusiones a partir del mismo.

In [0]:
# Primero creamos el datadrame con los datos
df_train = pd.read_csv('u2.base',
                         sep='\t',
                         names = ['userid', 'itemid', 'rating', 'timestamp'],
                         header=None)
df_train.head()

In [0]:
# Ahora queremos realizar una observación rápida de los datos,
# verificando que no falten (describe())



Por otra parte, para obtener información adicional de cada película tal como **título**, **fecha de lanzamiento**, **género**, etc., cargaremos el archivo de items descargado (`u.item`) para poder mapear cada identificador de ítem al conjunto de datos que lo describe. Revisemos el contenido de este archivo

In [0]:
columns = ['movieid', 'title', 'release_date', 'video_release_date', \
           'IMDb_URL', 'unknown', 'Action', 'Adventure', 'Animation', \
           'Children', 'Comedy', 'Crime', 'Documentary', 'Drama', 'Fantasy', \
           'Film-Noir', 'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi', \
           'Thriller', 'War', 'Western']

In [0]:
# Cargamos el dataset con los items
df_items = pd.read_csv('u.item',
                        sep='|',
                        index_col = 0,
                        names = columns,
                        header=None, 
                        encoding='latin-1')
df_items.head()

In [0]:
# Realizamos una inspección sobre estos datos (info())



In [0]:
# Ejemplo de cómo visualizar titulos de peliculas en base a sus IDs
pelis = [5,4,1]
df_items.loc[pelis]['title']

**Paso 4:** Generemos algunos gráficos en relación a las películas.

Primero, se espera que secriba el código, utilizando `seaborn`, para generar el siguiente gráfico:

![Gráfico a realizar](https://fotos.subefotos.com/523536433e612d791904461cfc08a9e7o.png)



**Bonus:** Realizar un gráfico donde se pueda ver la cantidad de películas lanzadas cada mes de cada año. Este es de formato libre, pero debe reflejar la información presente en el dataset. En el gráfico podrá notar que algunos meses cuentan con más lanzamientos que otros, ¿a qué podría deberse esto?

Antes de trabajar con SVD, responda las siguientes preguntas.

**Pregunta:** Explique cómo funciona SVD (como modelo, no piense en la implementación), y cómo funciona el método `train()` en  `pyreclab`





**Respuesta:** COMPLETAR

## Generar recomendaciones

**Paso 5**: Tome un usuario, cualquiera, del dataset y reporte parte de sus gustos explícitamente (es decir, nombre de las películas, género, etc., no id). Para este mismo usuario, revise explícitamente las recomendaciones al llegar a la parametrización que reporta las mejores métricas.

**Paso 6:** Genere un gráfico explorando todos los parámetros que ofrece el modelo `SVD`, donde se grafiquen los valores probados para cada parámetro y el RMSE obtenido para cada uno. Debe probar una cantidad razonable de valores buscando la mejor parametrización y entregar el notebook con dicha parametrización.

