In [None]:
import pandas as pd
import numpy as np
import os
import sys
import matplotlib.pyplot as plt
import seaborn as sns
import json

In [None]:
from pyspark.sql import SparkSession
from pyspark import SparkContext
import  pyspark.sql.functions as F
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.recommendation import ALS
from pyspark.sql.types import ArrayType, IntegerType, StructType, StructField, StringType
from pyspark.sql import Window

In [None]:
transactions_data_path = "../data/transactions.csv"
catalogue_path = "../data/catalogue.json"
test_path = "../data/test_users.json"
ratings_path = "../data/ratings.csv"
bookmarks_path = "../data/bookmarks.csv"

In [None]:
spark = SparkSession.builder \
            .appName("geneRating") \
            .getOrCreate()

### Bookmarks exploration

In [None]:
bm_df = spark.read.csv(bookmarks_path, header=True)

In [None]:
bm_df = bm_df.withColumn("bookmark", F.lit(1))

### Transactions exploration

Загружаем данные по транзакциям

In [None]:
tr_df = spark.read.csv(transactions_data_path, header=True)

In [None]:
tr_df.show()

### Загружаем каталог

In [None]:
with open(catalogue_path, "r") as f:
    cat_df = json.load(f)

cat_df = pd.DataFrame.from_dict(cat_df, orient='index')

cat_df = cat_df.reset_index()

cat_df.columns = ['element_uid'] + list(cat_df.columns[1:])

cat_df.element_uid = cat_df.element_uid.astype('int64')

In [None]:
catalogue = spark.createDataFrame(cat_df)

### Data preprocessing

Добавляем к транзакциям информацию о фильме и выбрасываем транзакции по фильмам, по которым нет информации.

In [None]:
tr_df.count()

In [None]:
tr_df.show()

Будем использовать только информацию о типе фильма и о его длительности

In [None]:
catalogue = catalogue.select(['element_uid', 'type', 'duration'])

In [None]:
df = tr_df.join(catalogue, on='element_uid', how='inner')

In [None]:
df.count()

Видим, что транзакций по неизвестным фильмам нет

In [None]:
df.show(5)

In [None]:
df = df.withColumn("watched_time", F.col("watched_time")/60)

Заметим, что 1% представленного каталога имеет длительность фильма = 0

In [None]:
catalogue.where(catalogue['duration'] == 0).count() / catalogue.count() * 100

Заменим эту длительность на 75%й квантиль времени просмотра этих фильмов

Так как неизвестно, сколько частей в многосерийном фильме и сериале, для каждого такого фильма и сериала посчитаем 75-квантиль и возьмем его за длительность фильма/сериала. Предварительно переведем длительность просмотра в минуты.

In [None]:
quantiles = df.filter((df['type'] == "multipart_movie") | (df['type'] == "series") | (df['duration'] == 0))\
    .groupBy('element_uid').agg(F.expr("percentile_approx(watched_time, 0.75)").alias('true_duration'))

In [None]:
df = df.join(quantiles, on="element_uid", how="left")

In [None]:
df = df.withColumn("true_duration", F.coalesce("true_duration", "duration"))

Добавим колонку с информацией о том, какую часть фильма посмотрел пользователь, предварительно удалив записи, по которым неизвестна длительность просмотра (около 100к)

In [None]:
df = df.where(df['watched_time'].isNotNull())\
    .withColumn("watch_part", F.col('watched_time') / F.col('true_duration'))

Посмотрим, какую часть всех фильмов составляют фильмы с watch_part > 1

In [None]:
multiwatch_films = df.where((df['type'] == 'movie') & (df['watch_part'] > 1))
films = df.where(df['type'] == 'movie')

print(f"Multiwatch films are {multiwatch_films.count()/films.count() * 100} perc")

Считаем, что если длительность просмотра > 1,то пользователь просмотрел фильм/сериал несколько раз. Пока не будем это учитывать и заменим зачение на 1

In [None]:
df = df.withColumn("true_watch_part", F.when(df['watch_part'] > 1, 1).otherwise(F.col("watch_part")))

#запись в файл

df.select(['element_uid', 'user_uid', 'consumption_mode', 'ts', 'device_type', 'device_manufacturer', 'type',
          'true_duration', 'true_watch_part'])\
    .repartition(100)\
    .write.parquet("../data/ratings_prq")

### Ratings

In [None]:
ratings_df = spark.read.csv(ratings_path, header=True)

In [None]:
ratings_df.show(5)

In [None]:
df = df.join(ratings_df.select(['user_uid', 'element_uid', 'rating']),
             on=['user_uid', 'element_uid'], how='left')\
        .join(bm_df.select(['user_uid', 'element_uid', 'bookmark']),
             on=['user_uid', 'element_uid'], how='left')

In [None]:
df = df.fillna(0, subset=["bookmark"])

In [None]:
df = df.select([
    'user_uid',
    'element_uid',
    'consumption_mode',
    'ts',
    'type',
    'true_duration',
    'true_watch_part',
    'rating',
    'bookmark'
])

In [None]:
df.show()