In [1]:
#noetbook utilizado para a aula sobre sistemas de recomendação

#1) Carregar os dados
#2) Pré-processamento dos dados
#3) Divisão dos dados entre treinamento e teste
#4) Criar o sistema de recomendação através do ALS
#5) Realizar previsões
#6) Testar o modelo

In [3]:
from pyspark.sql import SparkSession #importa a biblioteca que cria a seção do spark

In [4]:
#inicia a seção para a utilização do spark
spark = SparkSession.builder.appName("recomendacao").getOrCreate() #cria a seção caso não exista ou obtém a já criada

In [5]:
%fs ls /FileStore/tables

path,name,size
dbfs:/FileStore/tables/Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,Police_Department_Incident_Reports__Historical_2003_to_May_2018.csv,463094961
dbfs:/FileStore/tables/d1995_07_01-24d0c.json,d1995_07_01-24d0c.json,7451741
dbfs:/FileStore/tables/d1995_07_02-c3f44.json,d1995_07_02-c3f44.json,9572086
dbfs:/FileStore/tables/d1995_07_03-f99af.json,d1995_07_03-f99af.json,14125303
dbfs:/FileStore/tables/d1995_07_04-c5a7f.json,d1995_07_04-c5a7f.json,12030333
dbfs:/FileStore/tables/d1995_07_05-0f261.json,d1995_07_05-0f261.json,14662194
dbfs:/FileStore/tables/d1995_07_06-20619.json,d1995_07_06-20619.json,15557682
dbfs:/FileStore/tables/d1995_07_07-2dd8d.json,d1995_07_07-2dd8d.json,15279295
dbfs:/FileStore/tables/d1995_07_08-83302.json,d1995_07_08-83302.json,7033852
dbfs:/FileStore/tables/d1995_07_09-f75d3.json,d1995_07_09-f75d3.json,5589076


In [6]:
diretorioRecomendacao="/FileStore/tables/u.data"  #diretório que contém o arquivo a ser utilizado

#1) Carregando o arquivo.

In [8]:
#lendo arquivos armazenados através da função genérica
rdd_movies = spark.sparkContext.textFile(diretorioRecomendacao)

In [9]:
rdd_movies.take(10)  #user id | item id | rating | timestamp

In [10]:
#definindo as bibliotecas a serem utilizadas
from pyspark.mllib.recommendation import ALS, Rating  #MLlib utilizada para implementar os algoritmos ALS e Rating

#2) Pré-processamento dos dados
#3) Separando os dados para treinamento e teste

In [12]:
#dividindo os dados entre treinamento e teste
(trainRatings, testRatings) = rdd_movies.randomSplit([0.7, 0.3])

In [13]:
trainRatings.take(5)

In [14]:
testRatings.first()  #print da primeira linha do RDD

In [15]:
trainingData = trainRatings.map(lambda l: l.split('\t')).map(lambda l: Rating(int(l[0]), int(l[1]), float(l[2])))  #aplicando a função Rating

In [16]:
trainingData.first()  #print do RDD criado através da função Rating

In [17]:
#mesmo procedimento para os dados de teste
testData = testRatings.map(lambda l: l.split('\t')).map(lambda l: (int(l[0]), int(l[1])))

In [18]:
testData.first()  #id do usuário | id do filme

#4) Construindo o modelo ALS

In [20]:
#definindo as variáveis do modelo
rank = 10  # número de fatores latentes do modelo  R->P (usuários)*Q (itens) => R_mxn = P_mxrank * Q_rankxm  (em que m= numero de usuário e n= numero de itens)
numIterations = 50 #número de iterações realizadas pelo modelo
model = ALS.train(trainingData, rank, numIterations) # treina o modelo

#5) Previsão do modelo

In [22]:
model.predict(253, 465)  # entrada (usuário,produto)

In [23]:
previsao = model.predictAll(testData)  #previsão para todos os dados de teste
previsao.first()

In [24]:
previsao = previsao.map(lambda l: ((l[0], l[1]), l[2])) #mapea para a exibição
previsao.take(5)

In [25]:
testRating2 = testRatings.map(lambda l: l.split('\t')).map(lambda l: ((int(l[0]), int(l[1])), float(l[2]))) # mapea para exibição e utilização na análise

In [26]:
testRating2.first()

In [27]:
ratingsAndPredictions = testRating2.join(previsao)
ratingsAndPredictions.take(5)

#6) Avaliação do modelo

In [29]:
MSE = ratingsAndPredictions.map(lambda r: (r[1][0] - r[1][1])**2).mean()
print ("Erro médio quadrado = " + str(MSE))

In [30]:
#dado um usuário -> recomenda os top 5 produtos
model.recommendProducts(105, 5) 

In [31]:
#dado um produto -> recomenda top 5 usuários
model.recommendUsers(1, 5)  #filme Toy Story (1995)

In [32]:
#mostrando o vetor de características referentes usuários (coluna - P)
model.userFeatures().take(1)[0]

In [33]:
#mostra o vetor de características referente a um produto (linha - Q)
model.productFeatures().take(1)[0]