# Program który na podstawie ocen uzytkowników będzie polecał filmy
###

In [1]:

from pyspark.sql import SparkSession

spark = SparkSession\
        .builder\
        .appName('użycie collaborative filtering dla rekomendacji filmów')\
        .getOrCreate()

rawData = spark.read.format('csv').\
option('header','true').\
load('../datasets/movielens/ratings.csv')

## wczytane dane konwertujemy do DataFrame

In [2]:
rawData.toPandas().head()


Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144
1,1,1029,3.0,1260759179
2,1,1061,3.0,1260759182
3,1,1129,2.0,1260759185
4,1,1172,4.0,1260759205


### rzutujemy dane z kolumn na typ integer
### porzucamy także zmienna 'timestamp' jako nieużyteczną

In [3]:
from pyspark.sql.functions import col

dataset  = rawData.select(col('userId').cast('int'),
                          col('movieId').cast('int'),
                          col('rating').cast('int')
                         )

dataset.toPandas().head()

Unnamed: 0,userId,movieId,rating
0,1,31,2
1,1,1029,3
2,1,1061,3
3,1,1129,2
4,1,1172,4


In [4]:
dataset.select('rating').toPandas().describe()

Unnamed: 0,rating
count,100004.0
mean,3.416123
std,1.100971
min,0.0
25%,3.0
50%,4.0
75%,4.0
max,5.0


## dzielimy dane na zbiór testowy i treningowy, oraz inicjujemy model  a następnie uruchamiamy model na danych testowych

In [6]:
(trainingData, testData) = dataset.randomSplit([0.8,0.2])

In [7]:
from pyspark.ml.recommendation import ALS

als = ALS(maxIter = 5,
         regParam = 0.1,
         userCol = 'userId',
         itemCol =  'movieId',
         ratingCol = 'rating',
         coldStartStrategy = 'drop')

In [8]:
model  = als.fit(trainingData)

## wywołujemy wyniki

In [9]:
predictions = model.transform(testData)
predictions.toPandas().head()

Unnamed: 0,userId,movieId,rating,prediction
0,440,471,3,3.336483
1,491,471,3,4.060213
2,358,471,5,4.021461
3,537,471,5,4.159389
4,585,471,4,4.238


In [10]:
predictions.select('rating', 'prediction').toPandas().describe()

Unnamed: 0,rating,prediction
count,19358.0,19358.0
mean,3.423959,3.264973
std,1.09434,0.77738
min,0.0,-0.509932
25%,3.0,2.807394
50%,4.0,3.342104
75%,4.0,3.801737
max,5.0,6.034875


## ponieważ do systemu rekomendacji użyliśmy oceny czyli wartości która oceną jest sama w sobie (wart. 'implicit') do określenia 'jakości' modelu możemy użyć wartości RMSE

In [11]:
from pyspark.ml.evaluation import RegressionEvaluator

evaluator = RegressionEvaluator(metricName = 'rmse',
                                labelCol = 'rating',
                                predictionCol = 'prediction'
                                )

rmse = evaluator.evaluate(predictions)
print('RMSE = ', rmse)

RMSE =  0.9439745432244319


## jak na razie zbudowliśmy model który przewiduje oceny jakie dostaną filmy od użytkownikow, stwórzmy więc kolejną część systemu która zajmie się rekomendacjami

### weźmy 3 najbardziej rekomendowane filmy dla użytkowników

In [13]:
userRecsAll = model.recommendForAllUsers(3)
userRecsAll

DataFrame[userId: int, recommendations: array<struct<movieId:int,rating:float>>]

In [14]:
userRecsAll.toPandas().head()

Unnamed: 0,userId,recommendations
0,471,"[(9010, 4.821475028991699), (59684, 4.68819522..."
1,463,"[(83318, 5.061742782592773), (67504, 5.0617427..."
2,496,"[(3672, 6.345914840698242), (390, 5.6942596435..."
3,148,"[(83318, 5.516768455505371), (67504, 5.5167684..."
4,540,"[(26084, 6.015592575073242), (5114, 5.69759845..."


In [15]:
movieRecsAll = model.recommendForAllItems(3)
movieRecsAll.toPandas().head()

Unnamed: 0,movieId,recommendations
0,1580,"[(46, 5.144937038421631), (113, 5.123559951782..."
1,5300,"[(257, 4.814909934997559), (646, 4.79382228851..."
2,6620,"[(530, 5.074489593505859), (408, 4.75481843948..."
3,7340,"[(156, 4.2541069984436035), (621, 3.9701075553..."
4,54190,"[(156, 5.243194580078125), (408, 4.79804754257..."
