# Configurando bibliotecas e dependencias

In [None]:
!pip install pyspark

In [None]:
!pip install findspark

In [None]:
# instalar as dependências
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
!wget -q https://archive.apache.org/dist/spark/spark-2.4.4/spark-2.4.4-bin-hadoop2.7.tgz
!tar xf spark-2.4.4-bin-hadoop2.7.tgz

In [None]:
# configurar as variáveis de ambiente
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-2.4.4-bin-hadoop2.7"

# tornar o pyspark "importável"
import findspark
findspark.init('spark-2.4.4-bin-hadoop2.7')

In [None]:
from pyspark.sql import SparkSession
from pyspark.ml.evaluation import RegressionEvaluator #evaluation é a biblioteca para verificação da qualidade do modelo
from pyspark.ml.recommendation import ALS # ALS é o modelo de recomendação que será utilizadp
from pyspark.sql import Row #row é o formato que o ALS trabalha, row conterá o id do usuario, id filme, nota e timestamp

In [None]:
spark = SparkSession.builder.master('local[*]').getOrCreate()

In [None]:
lines = spark.read.text("sample_movielens_ratings.txt").rdd

In [None]:
parts = lines.map(lambda row: row.value.split("::"))

In [None]:
ratingsRDD = parts.map(lambda p: Row(userId=int(p[0]), \
                                     movieId=int(p[1]), \
                                     rating=float(p[2]), \
                                     timestamp=int(p[3])))

In [None]:
ratings = spark.createDataFrame(ratingsRDD)

In [None]:
lines.collect()

In [None]:
ratings.show()

In [None]:
(training, test) = ratings.randomSplit([0.8, 0.2]) #divide o df em porções para treinamento e teste

In [None]:
als = ALS(maxIter=5, \
          regParam=0.01, \
          userCol="userId", \
          itemCol="movieId", \
          ratingCol="rating", \
          coldStartStrategy="drop")

In [None]:
model = als.fit(training) #treina o modelo com o dataset de treinamento

In [None]:
predictions = model.transform(test) #aplica o modelo no conjunto de teste para fazer predições
evaluator = RegressionEvaluator(metricName="rmse", labelCol="rating",
                               predictionCol="prediction")
rmse = evaluator.evaluate(predictions)
print("Erro médio quadrático = " + str(rmse))

In [None]:
userRec = model.recommendForAllUsers(10)

In [None]:
userRec.show()

In [None]:
movieRecs = model.recommendForAllItems(10) #faz a transposta da matriz de ratings, a fim de recomendar usuários em potencial para itens específicos

In [None]:
movieRecs.show()

In [None]:
users = ratings.select(als.getUserCol()).distinct() #selecina os usuários que existem nesse universo

In [None]:
users.show()

In [None]:
UserRecsOnlyItemId = userRec.select(userRec['userId'], \
                                    userRec['recommendations']['movieid'])

In [None]:
UserRecsOnlyItemId.show(10, False) #mostra somente as recomendações por usuário