# Simple Movie Recommender Using SVD



## Filtrado colaborativo
Dentro de los Sistemas de Recomendacion basados en Filtrado Colaborativo se tieneuna matriz de votos, que contiene las votaciones que realizan losusuariossobre lositems.

![title](img/collab1.png)
![title](img/collab2.png)
![title](img/collab3.png)

### Similitud coseno
La similitud coseno es una medida de la similitud existente entre dos vectores en un espacio que posee un producto interior con el que se evalúa el valor del coseno del ángulo comprendido entre ellos.

## SVD

### Objetivo

- Sugerir  nuevos items a los usuarios y la tecnica del SVD aplicada a los sistemas de recomendacion basados en filtrado colaborativo realiza muy buenas recomendaciones.
- Tiene el problema de que el tiempo que tarda en realizar las recomendaciones es muy elevado y los principales objetivos de los sistemas de recomendacion son recomendar bien y hacerlo rapido.

A = U·S·V   (El producto matricial de 'U', 'S', 'V' es la matriz A)


Dentro de los Sistemas de Recomendacion basados en Filtrado Colaborativo se tiene una matriz de votos, que contiene las votaciones que realizan los usuarios sobre los items (películas).

Lo que se pretende al realizar el SVD sobre la matriz de votos, es obtener una serie de factores que caractericen a cada uno de los usuarios y de los items del sistema, por tanto, y a nivel conceptual para el caso del filtrado colaborativo, podemos simplificar el proceso del SVD, obteniendo solamente las matrices de factores de los usuarios e items.

![title](img/SVD.png)

<img src="img/SVD.png">

¿Cuál es el significado de  los  factores  que  hemos  obtenido?
No  existe  ninguna  explicacion  sobre  el significado de estos factores que nos da el metodo SVD, solo podemos explicar que este metodo  caracteriza  de  alguna  forma  a  los usuarios e items y  esta  caracterizacion  nos permite predecir de forma muy buena los items que no han sido votados por losusuarios.

In [1]:
# https://alyssaq.github.io/2015/20150426-simple-movie-recommender-using-svd/
import numpy as np
import pandas as pd

In [2]:
# Read the data with pandas.
data = pd.io.parsers.read_csv('data/ratings.dat', 
    names=['user_id', 'movie_id', 'rating', 'time'],
    engine='python', delimiter='::')
print(data.head(5))

movie_data = pd.io.parsers.read_csv('data/movies.dat',
    names=['movie_id', 'title', 'genre'],
    engine='python', delimiter='::')
print(movie_data.head(5))

   user_id  movie_id  rating       time
0        1      1193       5  978300760
1        1       661       3  978302109
2        1       914       3  978301968
3        1      3408       4  978300275
4        1      2355       5  978824291
   movie_id                               title                         genre
0         1                    Toy Story (1995)   Animation|Children's|Comedy
1         2                      Jumanji (1995)  Adventure|Children's|Fantasy
2         3             Grumpier Old Men (1995)                Comedy|Romance
3         4            Waiting to Exhale (1995)                  Comedy|Drama
4         5  Father of the Bride Part II (1995)                        Comedy


In [3]:
# Create the ratings matrix of shape (m×n) with rows as movies and columns as users
ratings_mat = np.ndarray(
    shape=(np.max(data.movie_id.values), np.max(data.user_id.values)),
    dtype=np.uint8)

ratings_mat[data.movie_id.values-1, data.user_id.values-1] = data.rating.values

print(ratings_mat)

[[5 0 0 ... 0 0 3]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]


In [17]:
# Compute SVD
normalised_mat = ratings_mat - np.asarray([(np.mean(ratings_mat, 1))]).T
A = normalised_mat.T / np.sqrt(ratings_mat.shape[0] - 1)
U, S, V = np.linalg.svd(A)

print(V)

[[-5.72245537e-02 -2.69349804e-02 -1.44300959e-02 ... -3.50288960e-03
  -8.19971409e-04 -1.25419482e-02]
 [-2.09461200e-02 -2.97843268e-02 -1.66998921e-02 ...  1.87545849e-03
   2.26486119e-03  5.02192377e-03]
 [ 2.86333511e-02 -8.62001932e-03  1.36557569e-02 ...  1.91670702e-03
   3.47436586e-03  2.20808096e-02]
 ...
 [ 0.00000000e+00  1.41748444e-31 -1.46145455e-31 ...  5.94341981e-31
   3.22978452e-31  7.83853487e-32]
 [ 0.00000000e+00 -2.89130233e-32  2.93168384e-32 ...  3.84223024e-32
   1.01111322e-33  2.76912615e-32]
 [ 0.00000000e+00  7.54604712e-17  7.22688381e-17 ...  4.33680869e-18
  -1.00180281e-16 -3.36102673e-18]]


In [5]:
# Calculate cosine similarity, sort by most similar and return the top N.
def top_cosine_similarity(data, movie_id, top_n=10):
    index = movie_id - 1 # Movie id starts from 1
    movie_row = data[index, :]
    magnitude = np.sqrt(np.einsum('ij, ij -> i', data, data))
    similarity = np.dot(movie_row, data.T) / (magnitude[index] * magnitude)
    sort_indexes = np.argsort(-similarity)
    return sort_indexes[:top_n]

# Helper function to print top N similar movies
def print_similar_movies(movie_data, movie_id, top_indexes):
    print('Recommendations for {0}: \n'.format(
    movie_data[movie_data.movie_id == movie_id].title.values[0]))
    for id in top_indexes + 1:
        print(movie_data[movie_data.movie_id == id].title.values[0])

In [16]:
np.seterr(divide='ignore', invalid='ignore')

# Select k principal components to represent the movies, a movie_id to find recommendations and print the top_n results.
k = 50
movie_id = 1 # Grab an id from movies.dat
top_n = 10

sliced = V.T[:, :k] # representative data
indexes = top_cosine_similarity(sliced, movie_id, top_n)
print_similar_movies(movie_data, movie_id, indexes)

Recommendations for Toy Story (1995): 

Toy Story (1995)
Toy Story 2 (1999)
Babe (1995)
Bug's Life, A (1998)
Pleasantville (1998)
Babe: Pig in the City (1998)
Aladdin (1992)
Stuart Little (1999)
Secret Garden, The (1993)
Tarzan (1999)


In [19]:
# Bibliografía
# http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.3.1001&rep=rep1&type=pdf
# https://www.researchgate.net/profile/Konstantinos_G_Margaritis/publication/4215624_Applying_SVD_on_item-based_filtering/links/02e7e52088aae97991000000.pdf
# https://www.researchgate.net/profile/Konstantinos_G_Margaritis/publication/27382630_Applying_SVD_on_Item-based_Filtering/links/02e7e52600d2e7d2ac000000/Applying-SVD-on-Item-based-Filtering.pdf
# http://informatico.ricardomoya.es/docs/ProyectoFinDeMaster_V1.pdf
# https://alyssaq.github.io/2015/20150426-simple-movie-recommender-using-svd/