# Ejercicio: Sistema de recomendación de películas
**Autor**: Fermín Cruz.   **Revisor**: José A. Troyano.  **Última modificación**: 7 de septiembre de 2017

Partiendo de las puntuaciones otorgadas por un conjunto de usuarios
a distintas películas, en el rango 1-5 (1: no me ha gustado nada, 5: me ha encantado), se trata de recomendar
a un usuario determinado películas que puedan resultarle 
interesantes, a la vista de sus preferencias y de las del resto
de usuarios. 

Para ello, vamos a representar las preferencias de un usuario mediante un vector, y luego vamos a buscar usuarios con gustos parecidos comparando sus respectivos vectores. Esto es, en esencia, lo que hacen los **sistemas de recomendación**, que son usados por páginas de venta on-line como *Amazon* o servicios de *streaming* como *Netflix* o *Spotify*.

Los datos que vamos a utilizar han sido extraídos de https://grouplens.org/datasets/movielens/. Se trata de un conjunto de datos que se usa en trabajos de investigación en el campo de los sistemas de recomendación. A continuación, describimos el formato de los dos archivos que contienen los datos (se trata de archivos CSV, si no sabes qué es el formato CSV, mira aquí: https://es.wikipedia.org/wiki/Valores_separados_por_comas):

* movies.csv: contiene un identificador numérico para cada película del sistema, junto a su título y géneros. Un ejemplo de su contenido:
<pre>
        movieId,title,genres
        1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
        2,Jumanji (1995),Adventure|Children|Fantasy
        3,Grumpier Old Men (1995),Comedy|Romance
        4,Waiting to Exhale (1995),Comedy|Drama|Romance
</pre>

* ratings.csv: contiene las puntuaciones otorgadas a películas por los usuarios. Un ejemplo de su contenido:
<pre>
        userId,movieId,rating,timestamp
        1,31,2.5,1260759144
        1,1029,3.0,1260759179
        1,1061,3.0,1260759182
        1,1129,2.0,1260759185
        1,1172,4.0,1260759205
        1,1263,2.0,1260759151
        1,1287,2.0,1260759187
</pre>

De los datos aquí mostrados, sólo nos interesan los identificadores de los usuarios, los títulos de las películas y las puntuaciones otorgadas por los usuarios a las películas; no utilizaremos ni los géneros de las películas ni los *timestamps* (que son marcas de tiempo correspondientes al momento en que el usuario puntuó a una película). 

Complete a continuación las definiciones de funciones que se describen.

## 1. Funciones de carga de datos

Vamos a comenzar implementando las funciones que leerán los datos de los ficheros anteriores. Para leer archivos CSV, importaremos el siguiente módulo:

In [None]:
import csv

Para leer un CSV de una manera muy sencilla, es recomendable utilizar un objeto de tipo **DictReader**, tal como viene definido en el módulo **csv**. Aquí tienes un enlace a la documentación de este tipo: https://docs.python.org/3.1/library/csv.html#csv.DictReader. Si buscas en Google, puedes encontrar algunos ejemplos de uso: https://www.google.es/search?q=stackoverflow+dictreader+example+"python+3".

### 1.1. Función carga_peliculas
La función **carga_peliculas** recibe el nombre del fichero que almacena los títulos de las películas que se usarán en el sistema de recomendación, en formato CSV. La función debe devolver un diccionario en el que las claves serán los identificadores numéricos de las películas y los valores asociados serán los títulos de dichas películas:

|  Clave: id. de película  | Valor: título         |
|------|-----------------|
|   1  | "Toy Story (1995)"|
|   2  | "Jumanji (1995)"|
|   3  | "Grumpier Old Men (1995)"|
|   4  | "Waiting to Exhale (1995)"|
|  ... | ...|
Es importante que almacenemos los identificadores como números enteros, no como cadenas de texto. Ten en cuenta que DictReader devuelve cada dato como una cadena de texto, y que para convertir dichas cadenas a números enteros debemos usar la función predefinida **int**.

In [None]:
def carga_peliculas(filename):
    ''' 
    Recibe el nombre del fichero que almacena los títulos de las películas que 
    se usarán en el sistema de recomendación en formato CSV. El fichero en 
    cuestión debe usar UTF-8 como formato de codificación de caracteres.

    Ejemplo del formato del CSV:
    movieId,title,genres
    1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
    2,Jumanji (1995),Adventure|Children|Fantasy
    3,Grumpier Old Men (1995),Comedy|Romance
     ...

    Devuelve un diccionario en el que las claves son los identificadores y el 
    valor asociado es el título de la película.
    Ejemplo:
    {1:'Toy Story', 2:'Jumanji', 3:'Grumpier Old Men', ...}
    '''
    
    pass # Elimina esta instrucción

In [None]:
# Aquí una pequeña prueba para ver si funciona bien tu función.
# Debes tener el archivo "movies.csv" disponible en la ruta en la que estás ejecutando este notebook.

peliculas = carga_peliculas("movies.csv")
peliculas

---

### 1.2. Función carga_puntuaciones
La función **carga_puntuaciones** lee los datos del fichero que almacena las puntuaciones otorgadas por los usuarios a las películas. En parte, la función es similar a la anterior, pues los datos deben cargarse a partir de un archivo CSV. Sin embargo, en esta ocasión el diccionario a devolver es un poco más complejo en su estructura: las claves serán los identificadores de los usuarios, y los valores asociados serán **listas de tuplas** formadas por el identificador de una película y la puntuación dada por el usuario a esa película, entre 1.0 y 5.0.


|  Clave: id de usuario  | Valor: lista de puntuaciones  |
|------|-----------------|
|   1  | [(31, 2.5), (1029, 3.0), (1129, 2.0), ...]|
|   2  | [(10, 4.0), (17, 5.0), (39, 5.0), ...]|
|   3  | [(60, 3.0), (110, 4.0), (247, 3.5), ...]|
|   4  | [(10, 4.0), (34, 5.0), (112, 5.0), ...]|
|   ...  | ...|

Al igual que antes, es importante que almacenemos los números enteros y reales como tales, y no como cadenas de texto, pues esto nos facilitará más adelante hacer operaciones aritméticas con dichos valores. Utiliza para ello las funciones predefinidas **int** y **float**.

In [None]:
def carga_puntuaciones(filename):
    ''' 
    Recibe el nombre del fichero que almacena las puntuaciones dadas
    por los usuarios a las películas, en formato CSV.

    Ejemplo del formato del CSV:
    userId,movieId,rating,timestamp
    1,31,2.5,1260759144
    1,1029,3.0,1260759179
    1,1061,3.0,1260759182
    1,1129,2.0,1260759185
     ...

    Devuelve un diccionario en el que las claves son los identificadores de
    los usuarios, y los valores asociados son listas de tuplas formadas por 
    el identificador de una película y la puntuación dada por el usuario
    a esa película, entre 1.0 y 5.0.
    Ejemplo:
    {1:[(31,2.5),(1029,3.0),(1061,3.0),(1129,2.0),...], 2:[...], ...}
    '''
    
    pass # Elimina esta instrucción    

In [None]:
# Aquí tienes una prueba del método anterior.
# El archivo "ratings.csv" debe estar disponible en la ruta en la que estás ejecutando este notebook.
puntuaciones = carga_puntuaciones("ratings.csv")
puntuaciones

---

### 1.3. Número total de películas y puntuaciones 
Ahora que tenemos las películas y las puntuaciones cargadas en variables, podemos responder algunas preguntas. Intenta escribir el código necesario para hallar las respuestas:

In [None]:
# ¿Cuántas películas hay en nuestros archivos de datos?

# ¿Cuántos usuarios hay en nuestros archivos de datos?



---

<span style="color:blue;font-weight:bold"> ֍ EJERCICIO AVANZADO 1</span>

In [None]:
# ¿Cuál es el usuario que ha puntuado más películas?


# ¿Cuál es la película más vista por los usuarios del sistema?
from collections import Counter


# ¿Cuál es la media de las puntuaciones en el sistema?


---

## 2. Funciones de visualización de puntuaciones

### 2.1 Función muestra_puntuaciones
Para visualizar los gustos de un usuario determinado, nos va a resultar útil disponer de una función que nos muestre la información con el siguiente formato:

<pre>
Puntuaciones del usuario 1
	Película: Cinema Paradiso (Nuovo cinema Paradiso) (1989) - Puntuación: 4.0
	Película: French Connection, The (1971) - Puntuación: 4.0
	Película: Tron (1982) - Puntuación: 4.0
	Película: Dracula (Bram Stoker's Dracula) (1992) - Puntuación: 3.5
    ...
</pre>

Fíjate en que queremos que aparezcan en primer lugar las películas con mejores puntuaciones. Completa a continuación la definición de la función correspondiente.

In [None]:
def muestra_puntuaciones(usuario, puntuaciones, peliculas):
    '''
    Recibe el identificador de un usuario, el diccionario de 
    puntuaciones {usuario:[(pelicula,puntuacion)]}
    y el diccionario de películas {identificador:titulo}.

    Muestra en la consola las películas puntuadas por el usuario, junto
    con las puntuaciones otorgadas. Las puntuaciones se muestran ordenadas
    de mayor a menor, es decir, primero se muestran las películas que 
    más han gustado al usuario.

    Ejemplo de salida de la función:
    Puntuaciones del usuario 1
        Película: Cinema Paradiso (Nuovo cinema Paradiso) (1989) Puntuación: 4.0
        Película: French Connection, The (1971) Puntuación: 4.0
        Película: Tron (1982) Puntuación: 4.0
        Película: Dracula (Bram Stoker's Dracula) (1992) Puntuación: 3.5
        Película: Dumbo (1941) Puntuación: 3.0
        Película: Sleepers (1996) Puntuación: 3.0
        ...
    '''
    
    pass # Elimina esta instrucción

In [None]:
# Probemos la función anterior
muestra_puntuaciones(1,puntuaciones,peliculas)

---

### 2.2. Función muestra_puntuaciones_comunes
Otra función de visualización que nos será útil más adelante es la que hemos llamado **muestra_puntuaciones_comunes**. Dados dos usuarios, se trata de mostrar las puntuaciones de aquellas películas que han sido puntuadas por los dos usuarios. Usaremos el siguiente formato:

<pre>
    Puntuaciones para películas comunes de los usuarios 1 y 4
        Película: Star Trek: The Motion Picture (1979) Puntuaciones: 2.5 - 4.0
        Película: French Connection, The (1971) Puntuaciones: 4.0 - 5.0
        Película: Tron (1982) Puntuaciones: 4.0 - 4.0
    ...
</pre>

Completa a continuación la definición de la función correspondiente.

**Truco**: Utiliza los **conjuntos** (https://docs.python.org/3/tutorial/datastructures.html#sets), que permiten realizar operaciones como la **intersección** y la **diferencia** de conjuntos.

In [None]:
def muestra_puntuaciones_comunes(usuario1, usuario2, puntuaciones, peliculas):
    '''
    Muestra las puntuaciones de las películas comunes a los usuarios 
    indicados.
    
    Recibe los identificadores de los usuarios, el diccionario de 
    puntuaciones {usuario:[(pelicula,puntuacion)]}
    y el diccionario de películas {identificador:titulo} 
    
    Ejemplo de salida por consola:
    Puntuaciones para películas comunes de los usuarios 1 y 4
        Película: Star Trek: The Motion Picture (1979) Puntuaciones: 2.5 - 4.0
        Película: French Connection, The (1971) Puntuaciones: 4.0 - 5.0
        Película: Tron (1982) Puntuaciones: 4.0 - 4.0
        Película: Willow (1988) Puntuaciones: 2.0 - 3.0
        Película: Time Bandits (1981) Puntuaciones: 1.0 - 5.0
     ...
    '''
   
    pass # Elimina esta instrucción


In [None]:
# Probemos la función anterior
muestra_puntuaciones_comunes(1, 4, puntuaciones, peliculas)

## 3. Funciónes de similitud

La manera en que mediremos cuánto se parecen dos usuarios será comparando las puntuaciones que han dado a las películas del sistema. Podemos imaginarnos a cada usuario como un **vector** de tantas posiciones como películas hay en el sistema; en cada posición del vector tendremos un 0 si el usuario no ha puntuado a la película correspondiente, o un número real entre 1 y 5 con la puntuación dada por el usuario a la película. 

Las listas que hemos leído en la función *carga_puntuaciones* para cada usuario son una representación compacta de estos vectores, en la que hemos obviado los numerosos ceros. Veamos por ejemplo la lista correspondiente al usuario cuyo identificador es el 1 es la siguiente:

In [None]:
puntuaciones[1]

Lo cual significa que el vector de este usuario estaría formado por 30 ceros, a continuación vendría el valor 2.5 (puntuación otorgada por el usuario a la película 31), a continuación vendrían 997 ceros (hasta la posición 1028 del vector), a continuación vendría el valor 3.0 (puntuación otorgada por el usuario a la película 1029), etc.

### 3.1. Función similitud_coseno
Para comparar los vectores correspondientes a dos usuarios utilizaremos la **similitud del coseno**. Esta medida consiste en calcular el coseno del ángulo que forman los dos vectores, de manera que si ambos vectores "apuntan" en la misma dirección, el valor de similitud tendrá el valor máximo (1.0), y si apuntan en direcciones completamente opuestas tendrá el valor mínimo (-1.0). La fórmula para calcular la similitud del coseno es la siguiente (siendo **x** e **y** los vectores que queremos comparar):

$$ cos(\pmb x, \pmb y) = \frac {\pmb x \cdot \pmb y}{||\pmb x|| \cdot ||\pmb y||} $$

En esta fórmula, $\pmb x \cdot \pmb y$ representa el **producto escalar** de los vectores, y $||\pmb x||$ e $||\pmb y||$ son el **módulo** de $\pmb x$ e $\pmb y$, respectivamente. En caso de que alguno de los vectores esté formado únicamente por ceros, el módulo sería 0, en cuyo caso la fórmula anterior no podría calcularse; en dicho caso, diremos que la similitud del coseno es igual a 0.

Si no sabes cómo se calcula el producto escalar o el módulo, haz una búsqueda en internet.

Ya sabes todo lo necesario para definir la función **similitud_coseno**. Antes, tendrás que definir las funciones auxiliares **producto_escalar** y **modulo**.

In [None]:
import math

def modulo(usuario):
    '''
    Recibe una lista de puntuaciones a películas y devuelve
    el módulo del vector definido por dicha lista.

    Ejemplo de lista de puntuaciones:
    [(31,2.5),(1029,3.0),(1061,3.0),...]

    El vector que define la lista anterior sería el formado por las puntuaciones
    indicadas en la lista en las posiciones correspondientes a los identificadores
    de las películas puntuadas, y ceros en el resto de posiciones del vector.

    [0,0,0,0,0,...,0,2.5,0,....0,3.0,0,....0,3.0,0....]
    
    '''
    
    pass # Elimina esta instrucción

In [None]:
def producto_escalar(usuario1, usuario2):
    ''' 
    Recibe dos listas de puntuaciones a películas y devuelve
    el producto escalar de los vectores definidos por dichas listas.    
    '''

    pass # Elimina esta instrucción

In [None]:
def similitud_coseno(usuario1, usuario2):
    '''
    Recibe dos lista de puntuaciones a películas y devuelve
    la similitud del coseno entre los vectores definidos
    por ambas listas.
    '''

    pass # Elimina esta instrucción

In [None]:
# Probemos la función similitud_coseno
vector_usuario1 = puntuaciones[1]
vector_usuario2 = puntuaciones[2]
vector_usuario4 = puntuaciones[4]
print("Similitud usuario 1 consigo mismo:",similitud_coseno(vector_usuario1,vector_usuario1)) # debe ser 1.0
print("Similitud usuario 1 con usuario 2:",similitud_coseno(vector_usuario1,vector_usuario2)) # debe ser 0.0
print("Similitud usuario 1 con usuario 4:",similitud_coseno(vector_usuario1,vector_usuario4)) # debe ser 0.07448

---

### 3.2. Función busca_usuario_mas_parecido
Ya tenemos una función que nos permite medir cómo de parecidos son dos usuarios cualesquiera. Usando esta función, podemos decidir qué usuario se parece más a uno determinado. Esto es precisamente lo que debe hacer la función **busca_usuario_mas_parecido**. 

**Truco**: la función predefinida **max** devuelve el máximo de una lista. Si quieres que los elementos de la lista se comparen entre sí de una manera determinada, usar el parámetro **key**. Es posible que para usar este parámetro debas escribir una expresión **lambda**. Si no sabes lo que es, aquí tienes algo de información: https://docs.python.org/3/tutorial/controlflow.html#lambda-expressions

In [None]:
def busca_usuario_mas_parecido(usuario, puntuaciones):
    '''
    Recibe:    
    - El identificador de un usuario incluido en el diccionario anterior.
    - Un diccionario en el que las claves son los identificadores
    de los usuarios del sistema, y los valores asociados son las listas
    de puntuaciones a películas.


    Devuelve el usuario más parecido al indicado, según sus preferencias.
    El cálculo del usuario más parecido se hace utilizando la similitud
    del coseno entre los vectores definidos por las listas de puntuaciones
    de películas de los usuarios.
    '''
        
    pass # Elimina esta instrucción

In [None]:
# Probemos la función anterior
usuario_mas_parecido = busca_usuario_mas_parecido(2, puntuaciones)
muestra_puntuaciones_comunes(2,usuario_mas_parecido,puntuaciones,peliculas)

## 4. Funciones de recomendación 

Ya tenemos todo lo necesario para poder hacer recomendaciones de películas a un usuario *u*. Lo vamos a hacer de la siguiente manera:
* Buscaremos al usuario más parecido a *u*. Lo podemos llamar *u'*.
* Construiremos un conjunto con aquellas películas puntuadas por el usuario *u'* con una buena nota (por ejemplo, al menos un 3) y que no hayan sido vistas por *u* (o, al menos, que no las haya puntuado; que haya visto más películas de las que ha puntuado es algo que no podemos saber...).

Es decir, le recomendaremos a un usuario aquellas películas que otro usuario, cuyos gustos se parecen mucho a los suyos, ha visto y ha puntuado con buena nota. 

Completa la definición de la función **muestra_recomendaciones_simple**. 

In [None]:
def muestra_recomendaciones_simple(usuario, puntuaciones, peliculas, umbral_recomendacion=3.0):
    '''
    Muestra las películas recomendadas para el usuario. Para realizar el cálculo, 
    se basa en las películas puntuadas por el usuario más parecido. 
    
    Las películas recomendadas serán aquellas puntuadas con 3 o más puntuación
    por el usuario más parecido, que no hayan sido vistas por el usuario
    al que se le hace la recomendación. El valor umbral puede ser modificado
    mediante el parámetro umbral_recomendacion.
    
    Recibe el identificador de un usuario, el diccionario de 
    puntuaciones {usuario:[(pelicula,puntuacion)]}
    , el diccionario de películas {identificador:titulo} y 
    el radio de búsqueda, es decir, el número de usuarios parecidos
    que se utilizarán para elegir las películas a recomendar.
    
    Ejemplo de salida por consola:
    Películas recomendadas para el usuario 2
        Shawshank Redemption, The (1994)
        Don Juan DeMarco (1995)
        Jumanji (1995)
     ...
    '''
    
    pass # Elimina esta instrucción

In [None]:
# Probemos la función anterior
muestra_recomendaciones_simple(2,puntuaciones,peliculas)

<span style="color:blue;font-weight:bold"> ֍ EJERCICIO AVANZADO 2</span>

Una posible mejora del algoritmo de recomendación consiste en basarse no sólo en el usuario más parecido, sino en los *n* usuarios más parecidos. En dicho caso, la recomendación consistiría en las películas que hayan sido puntuadas con buena nota por esos *n* usuarios (por **todos** ellos), y que no hayan sido puntuadas por el usuario al que se le hace la recomendación.

¿Serías capaz de implementar este algoritmo?

In [None]:
def muestra_recomendaciones(usuario, puntuaciones, peliculas, radio=2, umbral_recomendacion=3.0):
    '''
    Muestra las películas recomendadas para el usuario. Para realizar el cálculo, 
    se basa en las películas puntuadas por los usuarios más parecidos. 
    
    Las películas recomendadas serán aquellas puntuadas con 3 o más puntuación
    por los usuarios más parecidos, que no hayan sido vistas por el usuario
    al que se le hace la recomendación. El valor umbral puede ser modificado
    mediante el parámetro "umbral_recomendacion". El número de usuarios en los 
    que se basa la recomendación también puede ser configurado mediante el
    parámetro "radio".
    
    Recibe el identificador de un usuario, el diccionario de 
    puntuaciones {usuario:[(pelicula,puntuacion)]}
    , el diccionario de películas {identificador:titulo} y 
    el radio de búsqueda, es decir, el número de usuarios parecidos
    que se utilizarán para elegir las películas a recomendar.
    
    Ejemplo de salida por consola:
    Películas recomendadas para el usuario 2
     Star Wars: Episode I - The Phantom Menace (1999)
     Indiana Jones and the Last Crusade (1989)
     Star Wars: Episode V - The Empire Strikes Back (1980)
     ...
    '''
    
    pass # Elimina esta instrucción

In [None]:
# Probemos la función anterior
muestra_recomendaciones(2,puntuaciones,peliculas,3)

---

## 5. ¿No sabes qué peli ver? 

Vamos a intentar generar unas recomendaciones personalizadas a tus gustos. Para ello, necesitamos introducirte en el sistema con algunas puntuaciones.

La ejecución del siguiente código te mostrará las 50 películas que más veces aparecen puntuadas (bien o mal) en los datos de los que partimos.

In [None]:
from collections import Counter
conteo = Counter([pelicula for lista in puntuaciones.values() for pelicula, puntuacion in lista])
print("Las 50 películas más vista por los usuarios del sistema:")

for id, puntuacion in sorted(conteo.most_common(50), key=lambda t:t[0]):
    print(id,peliculas[id],sep=': ')

Lo que tienes que hacer ahora es escoger algunas películas de la lista que hayas visto y otorgarles una puntuación de 1 a 5. Pongamos que te asignamos el identificador de usuario *999*. 

Completa con tus valoraciones la lista de abajo y ejecuta el código para obtener tus recomendaciones personalizadas. Recuerda que para cada valoración debes añadir una tupla formada por el identificador numérico de la película (un número entero) y la puntuación que quieres darle (un número real).

In [None]:
puntuaciones[999] = []
muestra_recomendaciones_simple(999,puntuaciones,peliculas)

<span style="color:blue;font-weight:bold"> ֍ EJERCICIO AVANZADO 3</span>

Como habrás observado, el procedimiento que hemos seguido para obtener tus recomendaciones personalizadas no es muy cómodo... Te proponemos que implementes un programa más cómodo para el usuario, que funcione de la siguiente manera:

* Escoger las 200 películas más vistas.
* Mostrar una aleatoriamente al usuario, y preguntarle por una puntuación (el usuario introducirá un cero si no la ha visto).
* Repetir el proceso hasta tener un número determinado de películas con valoraciones.
* Realizar las recomendaciones de películas al usuario basadas en estas valoraciones.

Para llevar a cabo este ejercicio vas a necesitar buscar información sobre cómo realizar algunas tareas:
* ¿Cómo seleccionar aleatoriamente elementos de una lista? (https://docs.python.org/3/library/random.html)
* ¿Cómo leer desde el teclado valores de tipo numérico y almacenarlos en variables? (https://docs.python.org/3/library/functions.html#input)
