## SPARK ALS

In [1]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [2]:
# создаем сессию spark
from pyspark.sql import SparkSession

spark = (
    SparkSession
    .builder
    # если вертуальной машине нельзя добавить памяти, можно использовать меньше
    .config('spark_driver.memory', '8g')
    # можно явно количество ядер, которые будет использовать Spark
    # либо поставить звездочку для всех доступных виртуальной машине
    .master('local[*]')
    .getOrCreate()
    )

In [5]:
# файл с оценками - user * item МАТРИЦА

import os
import pyspark.sql.functions as sql_func

ratings = (
    spark
    .read
    .csv(os.path.join('data/ratings.csv'), header=True, inferSchema=True)
    .drop('timestamp')
    .cache()
    )
spark.sparkContext.setCheckpointDir('tmp/checkpoints')

In [4]:
# разбиваем на train и test 
train, test = ratings.randomSplit([0.8, 0.2], seed=42)
train.cache()
test.cache()

DataFrame[userId: int, movieId: int, rating: int]

#### Обучаем модель ALS с базовыми настройками

In [5]:
%%time

from pyspark.ml.recommendation import ALS

# обучаем модель с базовыми настройками
als = ALS(userCol='userId', itemCol='movieId', ratingCol='rating',
         # если в тестовой выборке будет встречаться неизвестный фильм
         # или неизвестный пользователь, они будут игнорироваться
         coldStartStrategy='drop',
         seed=42
         ).fit(train)


CPU times: user 61 ms, sys: 20.2 ms, total: 81.2 ms
Wall time: 17.7 s


#### Получение предсказания

In [6]:
%%time

from pyspark.ml.evaluation import RegressionEvaluator

# оценка RMSE
predictions = als.transform(test)
rmse = evaluator = RegressionEvaluator(
    metricName='rmse',
    labelCol='rating',
    predictionCol='prediction'
).evaluate(predictions)

print('RMSE НА ТЕСТОВОЙ ВЫБОРКЕ:', rmse)

RMSE НА ТЕСТОВОЙ ВЫБОРКЕ: 0.8699829723252236
CPU times: user 13.9 ms, sys: 6.64 ms, total: 20.5 ms
Wall time: 26.7 s


In [7]:
predictions.show(n=25)

+------+-------+------+----------+
|userId|movieId|rating|prediction|
+------+-------+------+----------+
|   673|    148|     5| 3.1561134|
|   752|    148|     4| 2.6176784|
|   424|    148|     4|   2.65184|
|  3841|    463|     3| 2.6328545|
|  4858|    463|     3| 2.5887954|
|  4040|    463|     1| 1.9802277|
|  4277|    463|     4| 3.3540447|
|  3753|    463|     2| 2.5673423|
|  5047|    463|     3|  2.351024|
|  3717|    463|     2| 2.7452142|
|  2777|    463|     3| 3.0560455|
|   721|    463|     4|  3.302825|
|  5996|    463|     4| 3.0582294|
|  5300|    471|     4| 4.2088575|
|  1884|    471|     2|  3.430507|
|   796|    471|     3|  2.848162|
|  4172|    471|     3| 3.9526515|
|  1156|    471|     3|  2.855598|
|  5337|    471|     4| 3.7946675|
|  4036|    471|     4| 3.4513297|
|  2723|    471|     2| 3.2266033|
|  2684|    471|     5| 3.5078275|
|  3353|    471|     3| 3.8804703|
|  3792|    471|     3|  3.313059|
|   409|    471|     3| 3.7029169|
+------+-------+----

### Задание слушателям
1. Взять датасет ml-1m из surprise
2. Обучить ALS на Spark, аналогично по настройкам surprise.SVD
3. Сравнить время работы и точность

In [20]:
%%time
als_model = ALS(userCol='userId', itemCol='movieId', ratingCol='rating',
         coldStartStrategy='drop',
         seed=42, rank=30, maxIter = 30
         ).fit(train)

CPU times: user 20 ms, sys: 9.51 ms, total: 29.5 ms
Wall time: 30.1 s


In [21]:
%%time
predictions = als_model.transform(test)
rmse = evaluator = RegressionEvaluator(
    metricName='rmse',
    labelCol='rating',
    predictionCol='prediction'
).evaluate(predictions)

print('RMSE НА ТЕСТОВОЙ ВЫБОРКЕ:', rmse)

RMSE НА ТЕСТОВОЙ ВЫБОРКЕ: 0.8578577584588468
CPU times: user 14.1 ms, sys: 5.95 ms, total: 20 ms
Wall time: 21.5 s
