Novembre 2019
<div align='center'><h2>SD701 Project Movie Recommendation</h2></div>
<div align='center'>Camille COCHENER</div>

<p><div align='justify'>Aujourd'hui, de nombreux secteurs utilisent les systèmes de recommandation afin de comprendre au mieux le comportement des consommateurs et utilisateurs. Un des exemples les plus connus est celui de Netflix, qui proposent une sélection de films personnalisée en se basant sur ce que l'utilisateur a déjà regardé et/ou noté. Un autre exemple est celui d'Amazon, qui propose une sélection de produits en fonction de ce que le consommateur a déjà acheté et/ou des produits dont il a consulté la page.</div></p>

<p><div align='justify'>Le principe du système de recommandation est de prédire la propension de l'utilisateur à choisir un produit donné en se basant sur ses précédents comportements. L'objectif est de pouvoir ensuite lui proposer une sélection de produits/films/musiques personnalisée.</div></p>

<p><div align='justify'>Ce projet a pour objectif de construire un système de recommandation en utilisant le jeu de données MovieLens issu du site de GroupLens, laboratoire de recherche du département Computer Science et Engineering de l'Université du Minnesota.</div></p>

<p><div align='justify'>Le jeu de données complet disponible sur le site de GroupLens contient 27 millions de notes et 1,1 missions tags sur 58000 films. 280000 personnes ont évalué les films. La dernière mise à jour de ces données date de septembre 2018. Pour construire le système de recommandation, un échantillon de ce jeu de données sera utilisée afin de faciliter les étapes de nettoyage et exploration de données, et d'entrainement du modèle.</div></p>

<p>Cette étude se déroulera en deux temps : 
<ol>
    **<li>Exploration et préparation des données</li>**
        <ul>
            <li>Statistiques descriptives</li>
            <li>Valeurs manquantes</li>
            <li>Feature extraction</li>
        </ul>  
    **<li>Machine learning</li>**
        <ul>
            <li>Choix des modèles</li>
            <li>Entrainement et comparaison des modèles</li>
            <li>Performance du modèle final</li>
    </ul>
    </ol>
    </p>

<p><div align='justify'>Ce notebook tourne avec Python 3.6.5 et Spark 2.4.4.</div></p>

**Création de l'environnement Spark**
<div align='justify'>Une session Spark est créée pour pouvoir accéder à toutes les fonctionnalités de Spark sans avoir à créer différents contextes spécifiques.</div>

In [1]:
import findspark
findspark.init()
import pyspark
#from pyspark.sql import Row
from pyspark.sql import SparkSession

In [2]:
spark = SparkSession.builder.appName(
    'Project Movie Recommandation').getOrCreate()

<p><div align='justify'>Le nombre de partitions utilisées par Spark pour distribuer les données est le nombre de coeurs de l'ordinateur par défault :</div></p>

In [3]:
spark.sparkContext.defaultParallelism

4

**Chargement des données**
<p><div align='justify'>Les données des fichiers *movies.csv* et *ratings.csv* sont chargées dans des DataFrames afin de faciliter leur manipulation.</div></p>

In [4]:
path_data = "ml-latest-small/"
ratingsFile = spark.read.csv(
    path_data+"/ratings.csv", header=True, inferSchema=True).repartition(10).cache()
moviesFile = spark.read.csv(
    path_data+"/movies.csv", header=True, inferSchema=True).repartition(10).cache()

### 1. Exploration et préparation des données

**Affichage des premières lignes des jeux de données**
<p><div align='justify'>Il est toujours utile d'afficher les premières lignes d'un jeu de données afin de mieux comprendre sa structure et d'avoir un premier aperçu de son contenu.</div></p>

In [5]:
moviesFile.show(5)
ratingsFile.show(5)

+-------+-----------------+--------------------+
|movieId|            title|              genres|
+-------+-----------------+--------------------+
|     76| Screamers (1995)|Action|Sci-Fi|Thr...|
|   3835|Crush, The (1993)|            Thriller|
|   7190| Jane Eyre (1970)|               Drama|
|   2887| Simon Sez (1999)|       Action|Comedy|
|  50440|  Primeval (2007)|     Horror|Thriller|
+-------+-----------------+--------------------+
only showing top 5 rows

+------+-------+------+----------+
|userId|movieId|rating| timestamp|
+------+-------+------+----------+
|   249|   5803|   3.0|1354225800|
|   610|  84772|   3.5|1493846852|
|   599|   1982|   3.0|1498524557|
|   468|    317|   3.0| 831400519|
|   169|   5873|   4.5|1059429313|
+------+-------+------+----------+
only showing top 5 rows



<p><div align='justify'>Il est également pratique d'avoir des informations sur la taille des données, par exemple : combien de films contient l'échantillon ? Combien de personnes ont noté les films ?</div></p>

In [6]:
print("Nombre d'utilisateurs différents ayant noté les films : {}".format(ratingsFile.select("userId").distinct().count()))
print("Nombre de films différents : {}".format(ratingsFile.select("movieId").distinct().count()))

Nombre d'utilisateurs différents ayant noté les films : 610
Nombre de films différents : 9724


**Observation des statistiques descriptives (moyennes, écarts-type, min, max...)**

In [7]:
ratingsFile.show()

+------+-------+------+----------+
|userId|movieId|rating| timestamp|
+------+-------+------+----------+
|   249|   5803|   3.0|1354225800|
|   610|  84772|   3.5|1493846852|
|   599|   1982|   3.0|1498524557|
|   468|    317|   3.0| 831400519|
|   169|   5873|   4.5|1059429313|
|   113|   1564|   5.0| 980051894|
|    19|   2985|   3.0| 965703785|
|   401|   4886|   3.5|1514346115|
|   422|   3916|   4.0| 986173367|
|   255|   3396|   3.0|1005717433|
|   610|   2273|   3.0|1479542268|
|   318|  70286|   3.0|1261340410|
|   551|  91535|   3.5|1504926078|
|   249|   4865|   3.5|1378034388|
|   580|   1200|   4.5|1167789904|
|   275|   1777|   2.0|1049076697|
|    22|  55820|   4.0|1268726559|
|    57|    653|   3.0| 965798432|
|   325|   5540|   3.0|1039398002|
|   514|    480|   4.5|1533949907|
+------+-------+------+----------+
only showing top 20 rows



<p><div align='justify'>Il n'y a pas de valeurs manquantes dans le jeu de données *ratingsFile* car toutes les variables ont le même nombre de lignes non vides. Ici, les indicateurs pour *userId*, *movieId* et *timestamp* ne veulent pas dire grand chose puisque les id et le codage de la date ne sont pas de vraies mesures. Seuls les indicateurs pour la variable ratings sont interprétables. On peut par exemple voir qu'aucun utilisateur n'a donné la note de zéro à un film.</div></p>

In [8]:
moviesFile.describe().show()

+-------+------------------+--------------------+------------------+
|summary|           movieId|               title|            genres|
+-------+------------------+--------------------+------------------+
|  count|              9742|                9742|              9742|
|   mean|42200.353623485935|                null|              null|
| stddev|52160.494854438344|                null|              null|
|    min|                 1|"11'09""01 - Sept...|(no genres listed)|
|    max|            193609|À nous la liberté...|           Western|
+-------+------------------+--------------------+------------------+



<p><div align='justify'>Il n'y a également pas de valeurs manquantes dans le jeu de données *ratingsFile*. De la même manière que précédemment, la variable *movieId* est un id donc les indicateurs de position et de dispersion ne sont pas interprétables. Les variables *title* et *genres* sont des variables textuelles, l'une contient les titres des films et l'autre des tags de genre séparés par des "|".</div></p>

<p><div align='justify'>Globalement, les deux jeux de données sont propres.</div></p>

<p><div align='justify'>Dans un premier temps, on cherchera à construire un modèle sur le premier jeu de données *ratingsFile*. Dans un second temps, on cherchera à compléter notre modèle par l'ajout d'autres informations, comme les genres, les descriptions de films...</div></p>

### 2. Machine learning

**Choix du modèle ALS**

<p><div align='justify'>Un modèle classique utilisé pour construire des systèmes de recommandation est le filtrage collaboratif. Cette méthode permet de compléter les valeurs manquantes de la matrice utilisateur/films. La librairie Spark ML a un algorithme ALS (Alternative least squares) qui permet d'appliquer la méthode de filtrage collaboratif. Ce modèle possède trois hyperparamètres. Pour l'instant, nous laissons les valeurs par défaut.
</div></p>

In [9]:
from pyspark.ml.tuning import CrossValidator, ParamGridBuilder
from pyspark.ml.evaluation import RegressionEvaluator
from pyspark.ml.recommendation import ALS

**Partitionnement des données en jeu de test et jeu d'entrainement**

<p><div align='justify'>L'objectif étant de construire un modèle puis de l'évaluer, nous allons séparer le jeu de données *ratingsFile* en deux parties :
<ul>
    <li>Un jeu d'entrainement (80% des données)</li>
    <li>Un jeu de test (20% des données)</li>
    </ul>
En effet, si nous construisons le modèle sur le jeu de données entier, puis que nous prédisons les notes en utilisant le même jeu de données, les prédictions n'auront pas beaucoup de sens puisque le modèle aura appris à prédire ces valeurs en particulier.  
D'autre part, afin d'éviter le surajustement, nous utiliserons la validation croisée, c'est à dire que le jeu de données sera découpé aléatoirement un certain nombre de fois en deux parties et un nouveau RMSEP sera calculé. Les RMSEP seront ensuite moyennés et on calculera leur intervalle de confiance.</div></p>
    

In [10]:
(ratings_train, ratings_test) = ratingsFile.randomSplit([0.8, 0.2])

In [11]:
ratings_train.count()

80693

In [12]:
ratings_test.count()

20143

<p><div align='justify'>Création du modèle</div></p>

In [13]:
als = ALS(userCol="userId", itemCol="movieId", ratingCol="rating", coldStartStrategy="drop", nonnegative = True, implicitPrefs = False)

**Construction de la grid search pour les hyperparamètres**

In [14]:
param_grid = ParamGridBuilder() \
    .addGrid(als.rank, [5]) \
    .addGrid(als.maxIter, [5]) \
    .addGrid(als.regParam, [.05]) \
    .build()

**Choix de l'indicateur de performance**

In [15]:
evaluator = RegressionEvaluator(metricName="rmse", labelCol="rating", predictionCol="prediction")

<p><div align='justify'>**Préparation de la validation croisée**  
On choisira 5 partitions (choix usuel).</div></p>

In [16]:
cv = CrossValidator(estimator = als, \
    estimatorParamMaps = param_grid, \
    evaluator = evaluator, \
    numFolds = 5)

**Ajustement du modèle**

In [17]:
model = cv.fit(ratings_train)

In [18]:
best_model = model.bestModel

<p><div align='justify'>Et on teste notre modèle sur le jeu de test en prédisant les notes qu'auraient donné les utilisateurs aux films.</div></p>

In [19]:
# Prédiction sur le jeu de test
predictions = best_model.transform(ratings_test)
predictions.toPandas().head()

Unnamed: 0,userId,movieId,rating,timestamp,prediction
0,385,471,4.0,850766697,3.693265
1,436,471,3.0,833530187,3.890203
2,91,471,1.0,1112713817,2.387564
3,610,471,4.0,1479544381,3.524802
4,176,471,5.0,840109075,3.846503


<p><div align='justify'>On évalue la qualité prédictive du modèle en comparant les valeurs prédites aux valeurs observées. Pour cela, comme nos notes sont des valeurs continues, on peut utiliser le RMSEP (Root Mean Square Error of Prediction) qui calcule la racine de la moyenne des erreurs au carré. Plus cet indicateur est petit, meilleure est la prédiction.</div></p>

In [20]:
rmse = evaluator.evaluate(predictions)
print("RMSE: ", rmse)

RMSE:  0.9117259107971046


**Recommandations**

In [22]:
from pyspark.sql.functions import lit

def recommendMovies(model, user, nbRecommendations):
    # Create a Spark DataFrame with the specified user and all the movies listed in the ratings DataFrame
    dataSet = ratingsFile.select('movieId').distinct().withColumn('userId', lit(user))
    # Create a Spark DataFrame with the movies that have already been rated by this user
    moviesAlreadyRated = ratingsFile.filter(ratingsFile.userId == user).select('movieId', 'userId')
    # Apply the recommender system to the data set without the already rated movies to predict ratings
    predictions = model.transform(dataSet.subtract(moviesAlreadyRated)).dropna().orderBy('prediction', ascending=False).limit(nbRecommendations).select('movieId', 'prediction')
    # Join with the movies DataFrame to get the movies titles and genres
    recommendations = predictions.join(moviesFile, predictions.movieId == moviesFile.movieId).select(predictions.movieId, moviesFile.title, moviesFile.genres, predictions.prediction)
    return recommendations

In [23]:
print('Recommendations for user 133:')
recommendMovies(best_model, 133, 10).toPandas()

Recommendations for user 133:


Unnamed: 0,movieId,title,genres,prediction
0,3379,On the Beach (1959),Drama,4.678715
1,6201,Lady Jane (1986),Drama|Romance,4.407306
2,68945,Neon Genesis Evangelion: Death & Rebirth (Shin...,Action|Animation|Mystery|Sci-Fi,4.678715
3,104875,"History of Future Folk, The (2012)",Adventure|Comedy|Musical|Sci-Fi,4.52143
4,6818,Come and See (Idi i smotri) (1985),Drama|War,5.128464
5,96004,Dragon Ball Z: The History of Trunks (Doragon ...,Action|Adventure|Animation,4.501197
6,40491,"Match Factory Girl, The (Tulitikkutehtaan tytt...",Comedy|Drama,5.188115
7,148881,World of Tomorrow (2015),Animation|Comedy,4.681478
8,27563,"Happiness of the Katakuris, The (Katakuri-ke n...",Comedy|Horror|Musical,4.477883
9,58301,Funny Games U.S. (2007),Drama|Thriller,4.461045
