--------------------------------
# <center>SD 701 : Data Mining Project 1/2</center>
---------------------------------
       
***Philippe Bénézeth          
et           
Thomas Koch***

--------------------------
* La base de données utilisée est la base de données Movies utilisée lors du TP.
* Chaque film est associé à un ou plusieurs genres. Il existe 20 "genres" différents.

* L'idée de départ est de considérer les notes moyennes des utilisateurs selon les genres des films et d'établir ainsi un "profil" d'utilisateur. On va donc calculer un profil d'utilisateur qui sera un vecteur de 20 coordonnées représentant la moyenne des notes attribuées par cet utilisateur aux films selon leurs genres.

* Pour un film, le principe est alors de faire l'hypothèse que 2 utiliseurs ayant des sous-profils (variables limitées aux genres du film) proches (au sens de la distance euclidienne) notteront le film de façon similaire. On utilisera donc une approche knn (on a retenu k = 5).

* Afin d'avoir des résultats basés sur des datasets suffisament importants, on a limité les prédictions sur les 19 users qui ont vu plus de 250 films parmi ceux vus par plus de 50 users

* Ainsi, pour chaque film vu par le user considéré et pour lequel on a au moins 50 notes dans la base de notations, on considère les genres qui lui sont attachés. On lance ensuite le knn sur une projection de profil sur ces genres. On moyennise les notes des 5 voisins sur le film pour prédire la note du user considéré.

* Ayant remarqué un biais important entre la note moyenne mise par un utilisateur sur la totalité des films vus par lui et la note moyenne de l'ensemble des utilisateurs sur la totalité des films on débiaise la note moyenne obtenue sur les voisins du knn.

* Les notes allant de 0.5 étoile à 5 étoiles, on considère la prédiction réussie et la prédiction à une 1/2 étoile près.
* Pour la prédiction réussie, on affiche un résultat de 25.7% (à comparer aux 10% d'une prédiction aléatoire). 
* Pour la prédiction à une 1/2 étoile près, on ajoute 38.6% soit un total de 64.3% de réussite cumulée (à comparer aux 30% d'une prédiction aléatoire).


In [2]:
import pyspark
from pyspark import SparkContext
import numpy as np

sc = SparkContext(appName="Movies")


## Récupération et nettoyage du dataset

In [3]:
import re
future_pattern = re.compile("""([^,"]+|"[^"]+")(?=,|$)""")

def parseCSV(line):
    return future_pattern.findall(line)

path_data = "./Data"
ratingsFile = sc.textFile(path_data + "/ratings.csv")
moviesFile = sc.textFile(path_data + "/movies.csv")

ratings = ratingsFile.map(parseCSV)
movies = moviesFile.map(parseCSV)

def cast3(line):
    line[2] = float(line[2])
    return line

ratings = ratings.filter(lambda x: x[0]!="userId").map(lambda line : cast3(line))
movies = movies.filter(lambda x:x[0]!="movieId")

## On limite le test aux users qui ont vu plus de 250 films parmi ceux vus par plus de 50 users

In [3]:
# films vus par plus de 50 users
list_films_test = ratings.map(lambda x : (x[1],x[0])).groupByKey().mapValues(
    lambda list : len(list)).filter(lambda x : x[1] > 50).map(lambda x : x[0]).collect()

# users qui ont vu plus de 250 films vus par plus de 50 users
list_users_test = ratings.filter(lambda x : x[1] in list_films_test).map(lambda x : (x[0],x[1])) \
.groupByKey().mapValues(lambda list : len(list)).filter(lambda x : x[1] > 250).map(lambda x : x[0]).collect()

# score contiendra le % de réussite de la prédiction par user test
score ={}
# score1 contiendra le % de prédiction à 1 étoile près
score1 ={}

## Préparation des RDD

In [4]:
# m3 : paire (idmovie,genre)
m3 = movies.map(lambda x : (x[0], x[1], x[2].split("|"))).flatMap(lambda x : [(x[0],genre) for genre in x[2]])

# m4 : idmovie, liste de genres
m4 = movies.map(lambda x : (x[0], x[2].split("|")))

# r2 : paire (idmovie, (user, grade))
r2 = ratings.map(lambda x : (x[1],(x[0],x[2])))

# grades : paire ((user,genre), grade)
grades = r2.join(m3).map(lambda x : ((x[1][0][0],x[1][1]), x[1][0][1]))

#averagegrade : (user,genre, average)
averagegrade = grades.groupByKey().mapValues(lambda x : sum(x)/(len(x))).map(
                        lambda y : (y[0][0], y[0][1], y[1]))

## La liste des genres est la liste des variables descriptives de nos profils user

In [5]:
# list_genres contient tous les genres uniques de la base
list_genres = m3.groupBy(lambda x : x[1]).map(lambda x : x[0]).collect()

In [6]:
# dictionnaire qui donne l'index de colonne pour un genre 
dict_genre_index ={}
for index, genre in enumerate(list_genres):
    dict_genre_index[genre] = index

## On crée une bijection via 2 dictionnaires entre les index des lignes de notre matrice profil et les id user et on renseigne la matrice profil

In [7]:
# dictionnaire qui donne l'index de ligne pour un user et vice versa 
dict_users_index ={}
dict_index_users ={}

list_users = ratings.groupBy(lambda x : x[0]).map(lambda x : x[0]).collect()

for index, user in enumerate(list_users):
    dict_users_index[user] = index
    dict_index_users[index] = user


# profil : la matrice avec en ligne les users et en colonne les notes moyennes par genre
profil = np.zeros((len(list_users),20))

for user in list_users:
    ligne = averagegrade.filter(lambda x : x[0]==user).collect()
    for iduser, genre, grade in ligne:
        profil[dict_users_index[iduser], dict_genre_index[genre]] = grade

## Fonction spécifique qui retourne la liste des knn profils (k = 5)

In [8]:
from sklearn.base import BaseEstimator, ClassifierMixin
from sklearn.metrics import pairwise_distances
from collections import Counter


# adaptation du KNNClassifier du TP2 ML pour retourner la liste des knn (au lieu de la prediction)
class KNNClassifier(BaseEstimator, ClassifierMixin):
    # Homemade kNN classifier class 
    def __init__(self, n_neighbors=1):
        self.n_neighbors = n_neighbors
    
    def fit(self, X, y):
        self.X = X
        self.y = y
        return self
    
    def predict(self, X):
        n = X.shape[0] # nombre de points à évaluer
        # pairwise retourne les distance de points 2 à 2
        dist = pairwise_distances(X, self.X, 'euclidean') # self.X représente le jeu de données étiquetées
        # recoit pour chaque point à évaluer les indices triés des points de jeu de données étiquetées 
        ind = np.argsort(dist, axis=1) 
        return ind[:,0:self.n_neighbors]

## A partir d'ici on travaille en leave-one-out, user1 est le cobaye pour lequel on calcule la prédiction

In [17]:
for user1 in list_users_test:

    profiluser1 = profil[dict_users_index[user1],:].reshape(1,-1)


    # moviesuser1 : liste limitée aux films vus par user1 et appartenant à list_films_test
    # cad des films vus par suffisamment d'autres users 
    list_films_user1 = ratings.filter(lambda x : (x[1] in list_films_test) and (x[0] == user1)) \
        .map(lambda x : x[1]).collect()
    moviesuser1 = ratings.filter(lambda x : (x[1] in list_films_user1) and (x[0] == user1)) \
        .map(lambda x : (x[1], x[2])).join(m4).map(lambda x : (x[0], x[1][0], x[1][1])).collect()


    # resultat : 1ere colonne -> note de user1, 2ème colonne -> note prédite
    resultat = np.zeros((len(moviesuser1),2))
    i=0

    # pour chaque film, on extraie de profil une sous matrice avec en colonnes les genres du film,
    # et en ligne les users qui ont vu le film
    for idmovie, grade, l_genres in moviesuser1:
        resultat[i,0] = grade

        # recherche des index des colonnes (genres)
        masque_col = []
        for genre in l_genres:
            # masque_col contient les indices des genres du film
            masque_col.append(dict_genre_index[genre])

        # recherche des index des lignes (users)
        l_users = ratings.filter(lambda x : x[1] == idmovie and x[0] != user1).map(lambda x : x[0]).collect()
        masque_ligne = []
        for user in l_users:
            # masque_ligne contient les indices des users qui ont vu le film
            masque_ligne.append(dict_users_index[user])

        # knn sur un nombre limité de users et de genres
        clf_taylor_made = KNNClassifier(n_neighbors = 5)
        clf_taylor_made.fit(profil[masque_ligne,: ][:,masque_col], np.zeros((len(masque_ligne),)))
        list_knn = clf_taylor_made.predict(profiluser1[0,masque_col].reshape(1, len(masque_col)))

        # calcul du grade moyen donné à ce film par les knn users knn
        l_idusers = []
        for index in masque_ligne:
            l_idusers.append(dict_index_users[index])
        gradeknn = ratings.filter(lambda x : x[1] == idmovie and (x[0] in l_idusers)). \
                        map(lambda x : x[2]).collect()
        resultat[i,1] = grade = np.mean(gradeknn)
        i += 1

    # Afin de garantir une prédiction qui tienne compte des biais de notation des users (certains 
    # notent larges, d'autres notent plus sec... on ajoute le biais à la prédiction

    # moyenne des notes de user1 sur l'ensemble des films vus par user1
    moyenne_user1 = ratings.filter(lambda x : x[0] == user1).map(lambda x: (x[0],x[2])
                     ).groupByKey().mapValues(lambda list : sum(list)/len(list)).collect()

    # moyenne des notes de tous les users (sauf user1) sur l'ensemble des films
    moyenne_total = ratings.filter(lambda x : x[0] != user1).map(lambda x: (1,x[2])
                     ).groupByKey().mapValues(lambda list : sum(list)/len(list)).collect()

    # calcul du biais
    biais = moyenne_user1[0][1] - moyenne_total[0][1]

    # On ajoute le biais et on écrete à 0.5 ou 5
    resultat[:,1] += biais
    resultat[:,1] = (resultat[:,1] > 5)*5 + (resultat[:,1] <= 5)*resultat[:,1]
    resultat[:,1] = (resultat[:,1] < 0.5)*0.5 + (resultat[:,1] >= 0.5)*resultat[:,1]
   
    # on considère l'estimation réussie et celle à 1/2 étoile près
    delta = np.around(2*(resultat[:,0]-resultat[:,1])).astype(int)
    score[user1] = round((np.sum(delta == 0)) /len(moviesuser1)*100,1)
    score1[user1] = round((np.sum(abs(delta) == 1)) /len(moviesuser1)*100,1)
    print("User {}, sur {} films, estimation réussie à {}% + {}% à 1/2 étoile près, soit un cumul de {}%". \
          format(user1, len(moviesuser1), score[user1], score1[user1], round(score[user1]+score1[user1],1)))

User 68, sur 383 films, estimation réussie à 20.4% + 32.4% à 1/2 étoile près, soit un cumul de 52.8%
User 91, sur 276 films, estimation réussie à 27.5% + 34.8% à 1/2 étoile près, soit un cumul de 62.3%
User 249, sur 259 films, estimation réussie à 37.1% + 51.7% à 1/2 étoile près, soit un cumul de 88.8%
User 274, sur 340 films, estimation réussie à 25.3% + 50.6% à 1/2 étoile près, soit un cumul de 75.9%
User 307, sur 287 films, estimation réussie à 26.1% + 36.6% à 1/2 étoile près, soit un cumul de 62.7%
User 380, sur 294 films, estimation réussie à 21.1% + 32.0% à 1/2 étoile près, soit un cumul de 53.1%
User 414, sur 416 films, estimation réussie à 18.5% + 42.3% à 1/2 étoile près, soit un cumul de 60.8%
User 474, sur 330 films, estimation réussie à 28.5% + 37.3% à 1/2 étoile près, soit un cumul de 65.8%
User 483, sur 287 films, estimation réussie à 28.2% + 39.7% à 1/2 étoile près, soit un cumul de 67.9%
User 590, sur 305 films, estimation réussie à 31.5% + 47.5% à 1/2 étoile près, soit 

In [19]:
print("Sur les {} users test, le score moyen de réussite est de : {}%". \
      format(len(list_users_test), round(sum(score.values())/len(score),1)))
print("A 1/2 étoile près on ajoute {}%, soit un total de {}%". \
      format(round(sum(score1.values())/len(score1),1), round(sum(score.values())/len(score) + 
                                                            sum(score1.values())/len(score1),1)))

Sur les 19 users test, le score moyen de réussite est de : 25.7%
A 1/2 étoile près on ajoute 38.6%, soit un total de 64.3%
