prediccion_con_matriz

#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Mon Jun 26 10:55:43 2017

@author: pablotempone
"""

import pandas as pd
import matplotlib as mp
import numpy as np

train = pd.read_csv("/Users/pablotempone/Google Drive/Maestria/Sistemas de Recomendacion/movilens800k/ratings_train.csv",sep = ',')
movie_genres = pd.read_csv("/Users/pablotempone/Google Drive/Maestria/Sistemas de Recomendacion/movilens800k/movie_genres.csv",sep = ',')
test = pd.read_csv("/Users/pablotempone/Google Drive/Maestria/Sistemas de Recomendacion/movilens800k/Copia de ratings_test.csv",sep = ',')


train_genres = pd.merge(train,movie_genres,how='left',left_on='movieID',right_on='movieID')

usuarios_generos = pd.get_dummies(train_genres[['userID','genre']])

usuarios_generos = usuarios_generos.groupby('userID',as_index=False).sum()

usuarios_generos["sum"] = usuarios_generos.sum(axis=1)

usuarios_generos_perfil = usuarios_generos.loc[:,'genre_Action':'genre_Western'].div(usuarios_generos["sum"], axis=0)

#usuarios_generos_perfil.index = usuarios_generos.userID

from sklearn.model_selection import train_test_split

train_df, test_df = train_test_split(train, test_size = 0.1)

train_genres = pd.merge(train_df,movie_genres,how='left',left_on='movieID',right_on='movieID')

usuarios_generos = pd.get_dummies(train_genres[['userID','genre']])

usuarios_generos = usuarios_generos.groupby('userID',as_index=False).sum()

usuarios_generos["sum"] = usuarios_generos.sum(axis=1)

usuarios_generos_perfil = usuarios_generos.loc[:,'genre_Action':'genre_Western'].div(usuarios_generos["sum"], axis=0)

#usuarios_generos_perfil.index = usuarios_generos.userID

from sklearn.metrics.pairwise import pairwise_distances

#matriz coseno de usuarios

user_matrix = usuarios_generos.as_matrix()


user_similarity = pairwise_distances(user_matrix, metric='cosine')

#matriz coseno de movies

movies_genres = pd.get_dummies(movie_genres)

movies_genres = movies_genres.groupby('movieID',as_index=False).sum()

movies_genres["sum"] = movies_genres.sum(axis=1)

movies_generos_perfil = movies_genres.loc[:,'genre_Action':'genre_Western'].div(movies_genres["sum"], axis=0)

movies_generos_perfil.index = movies_genres.movieID

movie_matrix = movies_generos_perfil.as_matrix()


movie_similarity = pairwise_distances(movie_matrix, metric='cosine')

#predecir en base a los puntajes

R_df = train_df.pivot(index = 'userID', columns ='movieID', values = 'rating').fillna(0)
R_df.head()

R_df_na = train_df.pivot(index = 'userID', columns ='movieID', values = 'rating')
R_na = R_df_na.as_matrix()

R = R_df.as_matrix()
user_ratings_mean = np.nanmean(R_na, axis = 1)

user_similarity = pairwise_distances(R, metric='cosine')


def predict(ratings,ratings_na, similarity, type='user'):

    if type == 'user':
        mean_user_rating = np.nanmean(ratings_na,axis=1)
        #You use np.newaxis so that mean_user_rating has same format as ratings
        ratings_diff = (ratings - mean_user_rating[:, np.newaxis])
        pred = mean_user_rating[:, np.newaxis] + similarity.dot(ratings_diff) / np.array([np.abs(similarity).sum(axis=1)]).T
    elif type == 'item':
        pred = ratings.dot(similarity) / np.array([np.abs(similarity).sum(axis=1)])
    return pred

mean_user_rating = R_na.nanmean(axis=1)

ratings_diff = (R - user_ratings_mean[:, np.newaxis])


promedios = user_ratings_mean[:, np.newaxis]

matriz = user_similarity.dot(ratings_diff)

divisor = np.array([np.abs(user_similarity).sum(axis=1)]).T

division = matriz/divisor


user_prediction = predict(R,R_na, user_similarity, type='user')


#evaluacion

from sklearn.metrics import mean_squared_error
from math import sqrt
def rmse(prediction, ground_truth):
    prediction = prediction[ground_truth.nonzero()].flatten()
    ground_truth = ground_truth[ground_truth.nonzero()].flatten()
    return sqrt(mean_squared_error(prediction, ground_truth))

    #prediction = prediction[ground_truth.nonzero()].flatten()


print( 'basado en similaridad CF RMSE: ' + str(rmse(user_prediction, R)))


#normalizado los valores y modificado columnas e indices

R = R_df.as_matrix()
user_ratings_mean = np.mean(R, axis = 1)
R_demeaned = R - user_ratings_mean.reshape(-1, 1)

from scipy.sparse.linalg import svds
U, sigma, Vt = svds(R, k = 50)

sigma = np.diag(sigma)

all_user_predicted_ratings = np.dot(np.dot(U, sigma), Vt) + user_ratings_mean.reshape(-1, 1)
preds_df = pd.DataFrame(all_user_predicted_ratings, columns = R_df.columns)
preds_df = pd.DataFrame(all_user_predicted_ratings,columns=train_df.movieID.unique(),index=train_df.userID.unique())

from scipy.sparse.linalg import svds
U, sigma, Vt = svds(R_demeaned, k = 50)


from sklearn import preprocessing

min_max_scaler = preprocessing.MinMaxScaler(feature_range=(0, 5))
x_scaled = min_max_scaler.fit_transform(preds_df)
df = pd.DataFrame(x_scaled,columns=train_df.movieID.unique(),index=train_df.userID.unique())

revision=preds_df[[1,2]]

revision_test=revision.loc[11728]

pred = pd.DataFrame(columns= ('userID', 'movieID','predicho'))
mean_total = train_df[['rating']].mean()

pred = pred.append({'userID':1, 'movieID':2,'predicho':mean_total[0]},ignore_index=True)

for index, row in test_df.iterrows():
     if row['movieID'] in preds_df.index.values:
         if row['userID'] in preds_df.columns.values:
             columna = preds_df[[row['movieID']]]
             fila = columna.loc[row['userID']]
             pred_1 = pd.DataFrame({'userID':row['userID'], 'movieID':row['movieID'],'predicho':fila})
             pred = pred.append(pred_1,ignore_index=True)
         else:
             mean_pelis = train_df[['rating','movieID']].groupby('movieID',as_index=False).mean()
             mean_pelis = mean_pelis.loc[mean_pelis['movieID'] == row['movieID']].rating
             pred_2 = pd.DataFrame({'userID':row['userID'], 'movieID':row['movieID'],'predicho':mean_pelis})
             pred = pred.append(pred_2,ignore_index=True)
     else:
         if row['userID'] in preds_df.columns.values:
             mean_user = train_df[['rating','userID']].groupby('userID',as_index=False).mean()
             mean_user = mean_user.loc[mean_user['userID'] == row['userID']].rating
             pred_3 = pd.DataFrame({'userID':row['userID'], 'movieID':row['movieID'],'predicho':mean_user})
             pred = pred.append(pred_3,ignore_index=True)
         else:
             mean_total = train_df[['rating']].mean()
             pred = pred.append({'userID':row['userID'], 'movieID':row['movieID'],'predicho':mean_total[0]},ignore_index=True)


y_sr = pred.predicho
y_sr[y_sr > 5] = 5


np.round(y_sr,1)
y_test = test_df.rating

y_sr.max()
y_sr.min()
# The mean squared error
print("Mean squared error: %.2f"
      % np.mean((np.round(y_sr,1) - y_test) ** 2))
# Explained variance score: 1 is perfect prediction

#rmse 0.98 en test, solo usando peliculas y puntajes de usuarios. Prueba con coseno por generos

###modelo usando variables de genero

from sklearn.model_selection import train_test_split

train_df, test_df = train_test_split(train, test_size = 0.1)

train_genres = pd.merge(train_df,movie_genres,how='left',left_on='movieID',right_on='movieID')

usuarios_generos = pd.get_dummies(train_genres[['userID','genre']])

usuarios_generos = usuarios_generos.groupby('userID',as_index=False).sum()

usuarios_generos["sum"] = usuarios_generos.sum(axis=1)

usuarios_generos_perfil = usuarios_generos.loc[:,'genre_Action':'genre_Western'].div(usuarios_generos["sum"], axis=0)

#usuarios_generos_perfil.index = usuarios_generos.userID

from sklearn.metrics.pairwise import pairwise_distances

#matriz coseno de usuarios

user_matrix = usuarios_generos.as_matrix()


user_similarity = pairwise_distances(user_matrix, metric='cosine')

user_similarity.max()

matriz_pred = np.multiply(user_similarity,4.5)