# Construction d'un système de recommandation

Nous avons décidé d'orienter notre projet sur la recommendation de films.
En effet durant ce confinement, nous avons eu le temps de visionner beaucoup de films,
mais nous nous sommes rendus compte que nous passions quasiment autant de temps
à choisir le film qu'à le regarder. D'où la nécessité de créer un système de re-
commendations afin d'optimiser notre temps de visionnage.
Nous avons chercher une base de données assez exploitable afin de mener à bien
notre projet. Nous nous sommes basés sur la base de données de 'The Movies Dataset'.

# Différents systèmes de recommandation

- [x] memory-based (user- et item- based)
- [ ] hybride
- [ ] model-based (matrix factorisation, optimisation avec descente de gradient)
- [x] popularity based = moyenne simple
- [ ] user-centered linear approach = descente de gradient (même pb d'opti que model-based)
- [ ] clustering (??)

In [18]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import math
import re
from ast import literal_eval

## Fetching and cleaning data

Nous utilisons deux tables de données. L'une, *movies_metadata.csv*, contient une liste de films et des informations relativesau genre, date de sortie etc. 

### Informations sur les films

In [589]:
movies = pd.read_csv("movies_metadata.csv")
movies.head()

Unnamed: 0,adult,belongs_to_collection,budget,genres,homepage,id,imdb_id,original_language,original_title,overview,...,release_date,revenue,runtime,spoken_languages,status,tagline,title,video,vote_average,vote_count
0,False,"{'id': 10194, 'name': 'Toy Story Collection', ...",30000000,"[{'id': 16, 'name': 'Animation'}, {'id': 35, '...",http://toystory.disney.com/toy-story,862,tt0114709,en,Toy Story,"Led by Woody, Andy's toys live happily in his ...",...,1995-10-30,373554033.0,81.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,,Toy Story,False,7.7,5415.0
1,False,,65000000,"[{'id': 12, 'name': 'Adventure'}, {'id': 14, '...",,8844,tt0113497,en,Jumanji,When siblings Judy and Peter discover an encha...,...,1995-12-15,262797249.0,104.0,"[{'iso_639_1': 'en', 'name': 'English'}, {'iso...",Released,Roll the dice and unleash the excitement!,Jumanji,False,6.9,2413.0
2,False,"{'id': 119050, 'name': 'Grumpy Old Men Collect...",0,"[{'id': 10749, 'name': 'Romance'}, {'id': 35, ...",,15602,tt0113228,en,Grumpier Old Men,A family wedding reignites the ancient feud be...,...,1995-12-22,0.0,101.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Still Yelling. Still Fighting. Still Ready for...,Grumpier Old Men,False,6.5,92.0
3,False,,16000000,"[{'id': 35, 'name': 'Comedy'}, {'id': 18, 'nam...",,31357,tt0114885,en,Waiting to Exhale,"Cheated on, mistreated and stepped on, the wom...",...,1995-12-22,81452156.0,127.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Friends are the people who let you be yourself...,Waiting to Exhale,False,6.1,34.0
4,False,"{'id': 96871, 'name': 'Father of the Bride Col...",0,"[{'id': 35, 'name': 'Comedy'}]",,11862,tt0113041,en,Father of the Bride Part II,Just when George Banks has recovered from his ...,...,1995-02-10,76578911.0,106.0,"[{'iso_639_1': 'en', 'name': 'English'}]",Released,Just When His World Is Back To Normal... He's ...,Father of the Bride Part II,False,5.7,173.0


In [476]:
movies.describe()

Unnamed: 0,id
count,45433.0
mean,108375.226179
std,112479.760366
min,2.0
25%,26461.0
50%,59996.0
75%,157351.0
max,469172.0


In [502]:
def filter_correct_id(word):
    if re.fullmatch(r'[0-9]+', word):
        return word
    return "wrong_id"

In [590]:
# don't re-run
movies = movies[~movies.id.duplicated()]
movies.id = movies.id.apply(filter_correct_id)
movies = movies[movies.id != "wrong_id"]
movies.id = movies.id.astype('int64')

### Avis des utilisateurs

In [15]:
ratings = pd.read_csv("ratings_small.csv")
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,31,2.5,1260759144
1,1,1029,3.0,1260759179
2,1,1061,3.0,1260759182
3,1,1129,2.0,1260759185
4,1,1172,4.0,1260759205


In [16]:
# ne pas re-run !
ratings = ratings.drop(columns=['timestamp'])
ratings.head()

Unnamed: 0,userId,movieId,rating
0,1,31,2.5
1,1,1029,3.0
2,1,1061,3.0
3,1,1129,2.0
4,1,1172,4.0


In [17]:
ratings[(ratings['userId'] == 1) & (ratings['movieId'] == 31)]

Unnamed: 0,userId,movieId,rating
0,1,31,2.5


In [18]:
print(min(ratings.rating), max(ratings.rating))
ratings.describe()
ratings.dtypes

0.5 5.0


userId       int64
movieId      int64
rating     float64
dtype: object

In [19]:
nbPers = len(ratings.userId.unique())
nbMovi = len(ratings.movieId.unique())

## User Based Recommandation

Pour ce système, nous n'avons que besoin des notations des utilisateurs et des titres des films associés. Nous allons translater les notes afin que la moyenne des notes pour chaque utilisateur se trouve à 0. Par abus de langage nous appelons ces nouvelles notes les notes *normalisées*. 

In [439]:
print(len(ratings.movieId.unique()))
ratings_small = ratings.loc[ratings['userId'] <= 50]

9066


In [181]:
def mean_user(df, uid):
    '''
    Retourne la moyenne des notes données par l'utilisateur d'id uid
    '''
    n = df.loc[ratings['userId'] == uid].count().loc['userId']
    s = df.loc[ratings['userId'] == uid].sum().loc['rating']
    return s / n

In [182]:
def normalize_user(df):
    '''
    Ajoute une colonne dans la dataframe df contenant les notes normalisées des utilisateurs
    '''
    mean = df.loc[:, ['userId']].drop_duplicates()
    mean['mu'] = mean['userId'].map(lambda uid : mean_user(df, uid))
    mean = mean.set_index('userId')
    df['rating_norm'] = df[['userId', 'rating']].apply(lambda row : row['rating'] -  mean.loc[int(row['userId'])]['mu'], axis=1)

In [183]:
normalize_user(ratings_small)
print(ratings_small.head())

   userId  movieId  rating  rating_norm
0       1       31     2.5        -0.05
1       1     1029     3.0         0.45
2       1     1061     3.0         0.45
3       1     1129     2.0        -0.55
4       1     1172     4.0         1.45


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


### Regrouper les utilisateurs dans des peer-group

Pour déterminer si deux utilisateurs se ressemblent en termes de goûts, nous utilisons un taux de corrélation sur les avis données. Nous allons comparer quatres taux de corrélations différents. Le premier ```cor()``` calcule le taux de corrélation classique donné par la formule :
$$
cor(u, v) = \frac{\sum_{k \in I_{uv}} s_{uk} s_{vk}}{\sqrt{\sum_{k \in I_{uv}} s_{uk}^2}\sqrt{\sum_{k \in I_{uv}} s_{vk}^2}}
$$

Le taux de corrélation ajusté ```cor_adj()``` permet de ne pas donner trop d'importance aux films populaires que beaucoup de personnes ont vu.

Le taux de correlation calculé par ```cor_dis()``` permet de ne pas donner une correlation trop élevée si les deux utilisateurs n'ont pas donné assez d'avis sur des films en commun. 

Enfin la fonction ```cor_dis_adj()``` fait un mélange des deux dernières amélioration : il filtre les films trop populaire et n'apporte de l'importance seulement si deux personnes ont données leur avis sur un certain nombre de films.

In [24]:
def cor(u, v, df, Iuv):
    su = df.loc[(df['userId'] == u) & (df['movieId'].isin(Iuv['movieId']))].rating_norm
    sv = df.loc[(df['userId'] == v) & (df['movieId'].isin(Iuv['movieId']))].rating_norm
    su = np.array(su)
    sv = np.array(sv)
    
    return np.dot(su, sv) / math.sqrt(np.dot(su, su) * np.dot(sv, sv))

In [25]:
def cor_adj(u, v, df, Iuv):
    nb_rat = df.loc[:, ['movieId', 'rating']].groupby(['movieId']).count()
    
    sum_up = 0
    sum_down_u = 0
    sum_down_v = 0
    for movie in Iuv.movieId.unique() :
        suk = df.loc[(df['userId'] == u) & (df['movieId'] == movie), ['rating_norm']]
        svk = df.loc[(df['userId'] == v) & (df['movieId'] == movie), ['rating_norm']]
        suk, svk = float(suk), float(svk)
        
        sum_up += suk * svk / nb_rat.at[movie, 'rating']
        sum_down_u += suk**2 /  nb_rat.at[movie, 'rating']
        sum_down_v += svk**2 /  nb_rat.at[movie, 'rating']
    return sum_up / math.sqrt(sum_down_u * sum_down_v)

In [26]:
def cor_dis(u, v, df, Iuv):
    beta = 20
    correlation = cor(u, v, df, Iuv)
    return correlation * min(len(Iuv), beta)/beta

In [27]:
def cor_dis_adj(u, v, df, Iuv):
    beta = 20
    correlation = cor_adj(u, v, df, Iuv)
    return correlation * min(len(Iuv), beta)/beta

**Test des taux de corrélation sur les utilisateurs 2 et 3 qui ont 8 films en communs**

In [28]:
u, v = 2, 3
df = ratings_small
Iu = df.loc[df['userId'] == u, ['movieId']]
Iv = df.loc[df['userId'] == v, ['movieId']]
Iuv = Iu.join(Iv.set_index('movieId'), on='movieId', how='inner')
print(Iuv)

print(cor(u, v, df, Iuv))
# print(cor_adj(u, v, df))
print(cor_dis(u, v, df, Iuv))
# print(cor_dis_adj(u, v, df))

    movieId
27      110
49      296
57      356
64      377
79      527
88      588
91      592
92      593
-0.016060945830838957
-0.006424378332335582


Nous construisons maintenant la matrice de correlation. Puisqu'une telle matrice est symétrique, nous avons préféré utiliser une dataframe à deux entrées et ne stocker la corrélation pour un couple qu'une seule fois.

In [53]:
def uu_matrix(df, cor_fct=cor):
    '''
    Retourne la dataframe des taux de corrélations des utilisateurs de df
    '''
    correlation = []
    users = df.userId.unique()
    couples = []
    for i in range(len(users)):
        u = users[i]
        if not u % 20 : 
            print('user:', u, end='')
        for j in range(i + 1, len(users)):
            v = users[j]
            Iu = df.loc[df['userId'] == u, ['movieId']]
            Iv = df.loc[df['userId'] == v, ['movieId']]
            Iuv = Iu.join(Iv.set_index('movieId'), on='movieId', how='inner')
            if Iuv.size :
                couples.append((u, v))
                correlation.append(cor_fct(u, v, df, Iuv))
    index = pd.MultiIndex.from_tuples(couples, names=['u', 'v'])
    cor = pd.DataFrame(correlation, index=index, columns=['correlation'])
    return cor

In [54]:
def get_cor(u, v, cm):
    '''
    Retourne le taux de correlation entre u et v stocké dans cm
    '''
    if u > v :
        u, v = v, u
    index = list(cm.index.values)
    if (u, v) in index :
        return float(cm.loc[(u, v)])
    return float('nan')

In [55]:
cm_small = uu_matrix(ratings_small)

  import sys


user: 20user: 40

In [56]:
cm_small.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,correlation
u,v,Unnamed: 2_level_1
1,4,0.042137
1,5,-1.0
1,7,-0.752427
1,9,1.0
1,15,0.043773


In [57]:
print(get_cor(1, 4, cm_small))
print(get_cor(4, 1, cm_small))
print(get_cor(2, 1, cm_small))

0.042136808375910856
0.042136808375910856
nan


Nous allons maintenant prédire la note qu'un utilisateur **u** donnerait à un film *m . Pour cela, nous allons faire la somme des notes données à l'item *i* par les k utilisateurs plus proches de u qui ont donné une note à m. Cette somme sera pondérée par les coéfficients de corrélations.

$$
\hat{\sigma}_{um} = \mu_u + \frac{\sum_{v \in P_u(m)} s_{vm} \cdot cor(u, v)}{\sum_{v \in P_u(m)} |cor(u,v)|}
$$

Le peer-group de l'utilisateur u pour le film m est l'ensemble des k utilisateurs qui ont donné une note au film m les plus proche de l'utilisateur u en terme de taux de corrélation. 

In [104]:
def peers(user, movie, k, cm, df):
    '''
    Retourne les k utilisateurs du peer-group de (user, movie)
    '''
    top = [(float('-inf'), user)] * k
    df_movie = df.loc[df['movieId'] == movie, ['userId', 'rating_norm']]
    for v in df_movie.userId.unique():
        taux = get_cor(user, v, cm)
        if taux > top[-1][0] :
            top += [(taux, v)]
            top.sort(reverse=True)
            top = top[:-1]
    return [t[1] for t in top]

In [105]:
def predict(user, movie, k, cm, df):
    mu = mean_user(user)
    peer_group = peers(user, movie, k, cm, df)
    sum_up, sum_down = 0, 0
    for v in peer_group:
        cor = get_cor(user, v, cm)
        if not math.isnan(cor):
            svm = df.loc[(df['userId'] == v) & (df['movieId'] == movie), 'rating_norm']
            svm = 0 if len(svm) <= 0 else float(svm)
            sum_up += svm * cor
            sum_down += abs(cor)
    sum_down = 1 if sum_down == 0 else sum_down
    return mu + sum_up / sum_down

In [106]:
user = 85
movie = 10
k = 4

friends = peers(user, movie, k, cm_small, ratings_small)
p = predict(user, movie, k, cm_small, ratings_small)
print(friends)
print(p)
print(df.loc[(df['userId'].isin(friends)) & (df['movieId'] == 10)])

[19, 2, 7, 21]
2.9266428360943952
      userId  movieId  rating  norm_movie
3112      19       10     3.0    -0.45082
3626      21       10     3.0    -0.45082
20         2       10     4.0     0.54918
496        7       10     3.0    -0.45082


## Item Based Recommandation

Nous allons maintenant construire un système de recommandation basé sur les items. Dans le système user-based, pour prédire la note donnée par l'utilisateur *user* au film *movie*, on regardait les notes donnés à ce même film *movie* par des utilisateurs similaires à *user*. De manière analogue, dans le système item-based, pour prédire la note donnée par user à *movie*, on regarde les notes données par *user* à des films similaires à *movie*.

In [107]:
ratings_mm = ratings.loc[ratings['movieId'] <= 100]

**Normalisation des notes données aux films par leur moyenne**

In [185]:
def mean_movie(df, mid):
    '''
    Retourne la moyenne des notes données au film d'id mid
    '''
    n = df.loc[ratings['movieId'] == mid].count().loc['movieId']
    s = df.loc[ratings['movieId'] == mid].sum().loc['rating']
    return s / n

In [186]:
def normalize_movie(df):
    '''
    Ajoute une colonne dans la dataframe df contenant les notes normalisées des films
    '''
    mean = df.loc[:, ['movieId']].drop_duplicates()
    mean['mu'] = mean['movieId'].map(lambda mid : mean_movie(df, mid))
    mean = mean.set_index('movieId')
    df['norm_movie'] = df[['movieId', 'rating']].apply(lambda row : row['rating'] -  mean.loc[int(row['movieId'])]['mu'], axis=1)

In [187]:
normalize_movie(ratings_mm)

In [111]:
ratings_mm = ratings_mm.sort_values(by='movieId')
ratings_mm.head()

Unnamed: 0,userId,movieId,rating,norm_movie
44632,313,1,4.0,0.12753
30672,219,1,5.0,1.12753
92559,615,1,4.0,0.12753
92944,616,1,4.0,0.12753
59530,431,1,4.5,0.62753


In [112]:
def cor_movie(u, v, df, Iuv):
    su = df.loc[(df['movieId'] == u) & (df['userId'].isin(Iuv['userId']))].norm_movie
    sv = df.loc[(df['movieId'] == v) & (df['userId'].isin(Iuv['userId']))].norm_movie
    su = np.array(su)
    sv = np.array(sv)
    
    return np.dot(su, sv) / math.sqrt(np.dot(su, su) * np.dot(sv, sv))

In [119]:
def mm_matrix(df, cor_fct=cor_movie):
    '''
    Retourne la dataframe des taux de corrélations des utilisateurs de df
    '''
    correlation = []
    movies = df.movieId.unique()
    couples = []
    for i in range(len(movies)):
        u = movies[i]
        if not i % 20 : 
            print('movie number:', i, end=' ')
        for j in range(i + 1, len(movies)):
            v = movies[j]
            Iu = df.loc[df['movieId'] == u, ['userId']]
            Iv = df.loc[df['movieId'] == v, ['userId']]
            Iuv = Iu.join(Iv.set_index('userId'), on='userId', how='inner')
            if Iuv.size :
                couples.append((u, v))
                correlation.append(cor_fct(u, v, df, Iuv))
    index = pd.MultiIndex.from_tuples(couples, names=['u', 'v'])
    cor = pd.DataFrame(correlation, index=index, columns=['correlation'])
    return cor

In [114]:
cm_small = mm_matrix(ratings_mm)

movie number:  0 

  import sys


movie number:  1 movie number:  2 movie number:  3 movie number:  4 movie number:  5 movie number:  6 movie number:  7 movie number:  8 movie number:  9 movie number:  10 movie number:  11 movie number:  12 movie number:  13 movie number:  14 movie number:  15 movie number:  16 movie number:  17 movie number:  18 movie number:  19 movie number:  20 movie number:  21 movie number:  22 movie number:  23 movie number:  24 movie number:  25 movie number:  26 movie number:  27 movie number:  28 movie number:  29 movie number:  30 movie number:  31 movie number:  32 movie number:  33 movie number:  34 movie number:  35 movie number:  36 movie number:  37 movie number:  38 movie number:  39 movie number:  40 movie number:  41 movie number:  42 movie number:  43 movie number:  44 movie number:  45 movie number:  46 movie number:  47 movie number:  48 movie number:  49 movie number:  50 movie number:  51 movie number:  52 movie number:  53 movie number:  54 movie number:  55 movie number:  56 m

In [115]:
cm_small.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,correlation
u,v,Unnamed: 2_level_1
1,2,0.045297
1,3,0.153406
1,4,0.358796
1,5,-0.49073
1,6,-0.096954


In [116]:
def peers_movie(user, movie, k, cm, df):
    '''
    Retourne les k films du peer-group de (movie, user)
    '''
    top = [(float('-inf'), movie)] * k
    df_user = df.loc[df['userId'] == user, ['movieId', 'norm_movie']]
    for v in df_user.movieId.unique():
        taux = get_cor(movie, v, cm)
        if taux > top[-1][0] :
            top += [(taux, v)]
            top.sort(reverse=True)
            top = top[:-1]
    return [t[1] for t in top]

In [117]:
def predict(user, movie, k, cm, df):
    mu = mean_movie(movie)
    sum_up, sum_down = 0, 0
    peer_group = peers_movie(user, movie, k, cm, df)
    for v in peer_group:
        cor = get_cor(movie, v, cm)
        if not math.isnan(cor):
            svm = df.loc[(df['movieId'] == v) & (df['userId'] == user), 'norm_movie']
            svm = 0 if len(svm) <= 0 else float(svm)
            sum_up += svm * cor
            sum_down += abs(cor)
    sum_down = 1 if sum_down == 0 else sum_down
    return mu + sum_up / sum_down

In [118]:
cm = cm_small
df = ratings_mm
user = 85
movie = 10
k = 4

friends = peers_movie(user, movie, k, cm, df)
p = predict(user, movie, k, cm, df)
print(friends)
print(p)
print(df.loc[(df['movieId'].isin(friends)) & (df['userId'] == user)])

[21, 5, 2, 44]
3.742214146340207
       userId  movieId  rating  norm_movie
13184      85        2     5.0    1.598131
13186      85        5     3.0   -0.267857
13189      85       21     4.0    0.463158
13191      85       44     2.0   -0.697368


## Factorisation du user- et item- based

Dans un système user-based, le ptype (pour peer-type) est userId et le otype (pour other-type) est movieId. Dans un système item-based c'est l'inverse. 

In [422]:
ratings_small = ratings.loc[(ratings['userId'] <= 100) & (ratings['movieId'] <= 100)]
ratings_small.head()

Unnamed: 0,userId,movieId,rating
0,1,31,2.5
20,2,10,4.0
21,2,17,5.0
22,2,39,5.0
23,2,47,4.0


### Normalisation

In [615]:
def mean_base(df, pid, base):
    '''
    Retourne la moyenne des notes données par l'utilisateur d'id uid
    '''
    ptype, otype = ('userId', 'movieId') if base == 'user' else ('movieId', 'userId')
    n = df.loc[ratings[ptype] == pid].count().loc[ptype]
    s = df.loc[ratings[ptype] == pid].sum().loc['rating']
    return s / n

In [424]:
pid = 4
print(mean_base(ratings_small, pid, 'movie'))
print(mean_base(ratings_small, pid, 'user'))

3.0
4.5


In [425]:
def normalize(df, base='user'):
    '''
    Ajoute une colonne dans la dataframe df contenant les notes normalisées des utilisateurs
    '''
    ptype, otype = ('userId', 'movieId') if base == 'user' else ('movieId', 'userId')
    mean = df.loc[:, [ptype]].drop_duplicates()
    mean['mu'] = mean[ptype].map(lambda pid : mean_base(df, pid, base))
    mean = mean.set_index(ptype)
    df['rating_norm'] = df[[ptype, 'rating']].apply(lambda row : row['rating'] -  mean.loc[int(row[ptype])]['mu'], axis=1)
    df.sort_values(by=ptype, inplace=True)

In [426]:
normalize(ratings_small, 'movie')

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if __name__ == '__main__':
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  # Remove the CWD from sys.path while we load stuff.


In [427]:
ratings_small.head()

Unnamed: 0,userId,movieId,rating,rating_norm
12616,79,1,2.0,-1.828947
889,13,1,5.0,1.171053
962,15,1,2.0,-1.828947
9610,67,1,3.0,-0.828947
13291,86,1,3.0,-0.828947


### Matrice de correlation

# Big question : on donne quoi comme correlation si su et/ou sv est nul ? J'ai mis 0 par défaut mais bon ...

# Big question 2 : un gars ([ici](https://www.ethanrosenthal.com/2015/11/02/intro-to-collaborative-filtering/)) fait cette fonction pour calculer la matrice plus rapidement 

In [None]:
def fast_similarity(ratings, kind='user', epsilon=1e-9):
    # epsilon -> small number for handling dived-by-zero errors
    if kind == 'user':
        sim = ratings.dot(ratings.T) + epsilon
    elif kind == 'item':
        sim = ratings.T.dot(ratings) + epsilon
    norms = np.array([np.sqrt(np.diagonal(sim))])
    return (sim / norms / norms.T)

In [428]:
def cor(df, u, v, Iuv, base):
    ptype, otype = ('userId', 'movieId') if base == 'user' else ('movieId', 'userId')
    su = df.loc[(df[ptype] == u) & (df[otype].isin(Iuv[otype]))].rating_norm
    sv = df.loc[(df[ptype] == v) & (df[otype].isin(Iuv[otype]))].rating_norm
    su = np.array(su)
    sv = np.array(sv)
    up = np.dot(su, sv)
    down = math.sqrt(np.dot(su, su) * np.dot(sv, sv))
    if up == 0 or down == 0:
        return 0
    return up/ down

In [429]:
def cor_matrix(df, cor_fct=cor, base='user'):
    '''
    Retourne la dataframe des taux de corrélations des ptype de df
    '''
    ptype, otype = ('userId', 'movieId') if base == 'user' else ('movieId', 'userId')
    correlation = []
    peers = df.userId.unique() if base == 'user' else df.movieId.unique()
    couples = []
    for i in range(len(peers)):
        u = peers[i]
        if not u % 20 : 
            print('peer :', u, end='\n')
        for j in range(i + 1, len(peers)):
            v = peers[j]
            Iu = df.loc[df[ptype] == u, [otype]]
            Iv = df.loc[df[ptype] == v, [otype]]
            Iuv = Iu.join(Iv.set_index(otype), on=otype, how='inner')
            if Iuv.size :
                couples.append((u, v))
                correlation.append(cor_fct(df, u, v, Iuv, base))
    index = pd.MultiIndex.from_tuples(couples, names=['u', 'v'])
    cor = pd.DataFrame(correlation, index=index, columns=['correlation'])
    return cor

In [430]:
cm_small = cor_matrix(ratings_small, base='movie')

peer : 20
peer : 40
peer : 60
peer : 100


In [431]:
cm_small.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,correlation
u,v,Unnamed: 2_level_1
1,2,0.2121
1,3,0.535777
1,4,0.0
1,5,0.177455
1,6,0.19306


### Prédire une note pour un couple p/o donné

In [432]:
def peers(df, cm, k, p, o, base='user'):
    '''
    Retourne les k films du peer-group de (movie, user)
    '''
    ptype, otype = ('userId', 'movieId') if base == 'user' else ('movieId', 'userId')
    top = [(float('-inf'), p)] * k
    df_peers = df.loc[df[ptype] == p, [otype, 'rating_norm']]
    peers = df_peers.iloc[0].unique()
    for v in peers:
        taux = get_cor(p, v, cm)
        if taux > top[-1][0] :
            top += [(taux, v)]
            top.sort(reverse=True)
            top = top[:-1]
    return [t[1] for t in top]

In [433]:
def predict(df, cm, k, p, o, base='user'):
    ptype, otype = ('userId', 'movieId') if base == 'user' else ('movieId', 'userId')
    mu = mean_base(df, p, base)
    peer_group = peers(df, cm, k, p, o, base)
    sum_up, sum_down = 0, 0
    for v in peer_group:
        cor = get_cor(p, v, cm)
        if not math.isnan(cor):
            svm = df.loc[(df[ptype] == v) & (df[otype] == o), 'rating_norm']
            svm = 0 if len(svm) <= 0 else float(svm)
            sum_up += svm * cor
            sum_down += abs(cor)
    sum_down = 1 if sum_down == 0 else sum_down
    return mu + sum_up / sum_down

In [434]:
df = ratings_small
cm = cm_small
user = 85
movie = 10
k = 4

friends = peers(df, cm, k, user, movie, base='user')
p = predict(df, cm , k, user, movie, base='user')
print(friends)
print(p)
print(df.loc[(df['movieId'].isin(friends)) & (df['userId'] == user)])

[85, 85, 85, 85]
3.111111111111111
Empty DataFrame
Columns: [userId, movieId, rating, rating_norm]
Index: []


In [None]:
full_rat = ratings
normalize(full_rat)
full_rat.head()

In [None]:
full_cm = uu_matrix(full_rat)

### Recommand top 10 movies to user

## Top films par genres

### Selection des genres

In [670]:
movies = movies.rename(columns={'id' : 'movieId'})
movies = movies.loc[:, ['movieId', 'genres', 'title']]
movies.head()

Unnamed: 0,movieId,genres,title
0,862,"[Animation, Comedy, Family]",Toy Story
1,8844,"[Adventure, Fantasy, Family]",Jumanji
2,15602,"[Romance, Comedy]",Grumpier Old Men
3,31357,"[Comedy, Drama, Romance]",Waiting to Exhale
4,11862,[Comedy],Father of the Bride Part II


In [671]:
def simplify_genre(l):
    if len(l) <= 0 :
        return []
    if isinstance(l[0], dict):
        return [d['name'] for d in l]
    return l

movies['genres'] = movies['genres'].apply(lambda x: literal_eval(x) if isinstance(x, str) else x).apply(simplify_genre)
movies.head()

Unnamed: 0,movieId,genres,title
0,862,"[Animation, Comedy, Family]",Toy Story
1,8844,"[Adventure, Fantasy, Family]",Jumanji
2,15602,"[Romance, Comedy]",Grumpier Old Men
3,31357,"[Comedy, Drama, Romance]",Waiting to Exhale
4,11862,[Comedy],Father of the Bride Part II


### Normaliser les notes sur toutes les données

In [672]:
movies_small = movies.loc[movies['movieId'] <= 100]
movies_small['mean_rating'] = movies_small['movieId'].apply(lambda x: mean_base(ratings, x, 'movie'))

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


In [673]:
movies_small.head()

Unnamed: 0,movieId,genres,title,mean_rating
17,5,"[Crime, Comedy]",Four Rooms,3.267857
31,63,"[Science Fiction, Thriller, Mystery]",Twelve Monkeys,2.833333
212,76,"[Drama, Romance]",Before Sunrise,3.333333
256,11,"[Adventure, Action, Science Fiction]",Star Wars,3.689024
351,13,"[Comedy, Drama, Romance]",Forrest Gump,3.9375


In [674]:
movies_small = movies_small.sort_values(by='mean_rating', ascending=False)

In [675]:
movies_small.head()

Unnamed: 0,movieId,genres,title,mean_rating
7911,80,"[Drama, Romance]",Before Sunset,4.625
2216,73,[Drama],American History X,4.115385
9769,26,[Drama],Walk on Water,4.1
1165,28,"[Drama, War]",Apocalypse Now,4.083333
1156,85,"[Adventure, Action]",Raiders of the Lost Ark,4.0625


In [694]:
# 1 genre par ligne
serie = movies_small.apply(lambda x: pd.Series(x['genres']),axis=1).stack().reset_index(level=1, drop=True)
serie.name = 'genres'
df_simpl = movies_small.drop('genres', axis=1).join(serie)
df_simpl.head()

Unnamed: 0,movieId,title,mean_rating,genres
17,5,Four Rooms,3.267857,Crime
17,5,Four Rooms,3.267857,Comedy
31,63,Twelve Monkeys,2.833333,Science Fiction
31,63,Twelve Monkeys,2.833333,Thriller
31,63,Twelve Monkeys,2.833333,Mystery


In [697]:
def top(df_simpl, genres):
    # selection des films par genre
    df_genres = df_simpl.loc[df_simpl['genres'].isin(genres)]
    df_genres = df_genres.sort_values(by='mean_rating', ascending=False)
    return df_genres

In [700]:
top(df_simpl, ['Drama', 'Comedy']).head()

Unnamed: 0,movieId,title,mean_rating,genres
7911,80,Before Sunset,4.625,Drama
2216,73,American History X,4.115385,Drama
9769,26,Walk on Water,4.1,Drama
1165,28,Apocalypse Now,4.083333,Drama
10387,59,A History of Violence,4.0,Drama


## Recommandation hybride

## Model-based recommendation system

Aide :
https://towardsdatascience.com/introduction-to-recommender-systems-6c66cf15ada

La matrice des notes user-item $R$ est partiellement vide. Ainsi réduire les dimensions de la matrice pourrait améliorer la complexité de nos algorithmes. Une méthode que nous pourrions avoir envie d'utiliser est la décomposision en valeurs singulières : $R = U_{svd} \Sigma V_{svd}$. Cependant cette méthode ne s'applique pas ici étant donné que $R$ n'est pas complète et qu'on a besoin de réaliser des calculs algébriques avec $R$ pour trouver la décomposition.

On considère donc un modèle dans lequel il existe des attributs décrivants les films et les préférences des utilisateurs. La matrice $R$ peut alors être factorisée en produit de deux matrices $U$ et $V$ représentant respectivement les utilisateurs et les items :

$$
R \approx U \times V^T
$$

avec $R \in \mathbb{R}^{n \times m}$ la matrice des notes user-item, $U \in \mathbb{R}^{n \times \ell}$ la matrice des users, $V \in \mathbb{R}^{m \times \ell}$ la matrice des items et $\ell$ le nombre d'attributs. Pour faire un rapprochement avec la SVD, on peut considerer que $U = U_{svd} \Sigma^{1/2}$ et $V = \Sigma^{1/2} V_{svd}$. On note $U_i$ les lignes de $U$ et $V_j$ les lignes de $V$ :
$
U = \left[ \begin{array}{c} U_1 \\ \vdots \\ U_n \end{array} \right]
$ et 
$
V = \left[ \begin{array}{c} V_1 \\ \vdots \\ V_m \end{array} \right]
$
avec $U_i^T, V_j^T \in \mathbb{R^\ell}$.

Dans ce modèle, chaque note $R_{ij}$ associée à un couple user-item $(i, j)$ est le résultat du produit scalaire entre la ligne associée au user $i$ dans $U$ et la ligne associée au item $j$ dans $V$ : $R_{ij} = U_i \cdot V_j^T$. Une fois les matrices $U$ et $V$ apprises, pour prédire une note il suffira de faire le produit scalaire entre les lignes associées.

Trouver $U$ et $I$ revient à minimiser l'erreur entre la note prédite $U_i \cdot V_j^T$ et la véritable note $R_{ij}$. Il s'agit du problème de minimisation suivant, avec $E = \{(i, j) \mbox{ | } R_{ij} \mbox{ connue}\}$ :

$$
(U, V) = argmin_{(U, V)} \sum_{(i, j) \in E} [U_i \cdot V_j^T - R_{ij}]^2
$$

qui est équivalent à:

$$
(U, V) = argmin_{(U, V)} \frac{1}{2}\sum_{(i, j) \in E} [U_i \cdot V_j^T - R_{ij}]^2 + \lambda (\|U_i\|^2 + \|V_j\|^2)
$$

Le terme de droite est un terme régulateur, de paramètre $\lambda$ à ajuster, permettant de prévenir un overfitting.

Pour résoudre ce problème, nous allons utiliser une méthode de descente de gradient.


*Pour résoudre ce problème, on peut utiliser une méthode de descente de gradient. Nous allons ensuite optimiser cette méthode en utilisant d'abord des batch, puis en se réduisant à un problème de moindre carré en fixant alternativement les matrices $U$ et $V$.*

### Descente de gradient (à pas constant)

Dans notre [cours d'optimisation](https://www.ceremade.dauphine.fr/~gontier/enseignement.html) donné par David Gontier, nous avons étudié différentes méthodes de descente de gradient de complexité et d'optimalité différentes. Cependant il nous semble qu'utiliser une version simple à pas $\tau$ constant suffit. Il sera possible de régler cet hyper-paramètre par validation croisée. 

Notre fonction objective est 
$$
F(U, V) := \sum_{(i, j) \in E} F_{ij}(U, V)
$$

où 
$$
F_{ij}(U, V) := \sum_{(i, j) \in E} \frac{1}{2}[U_i \cdot V_j^T - R_{ij}]^2 + \frac{\lambda}{2} (\|U_i\|^2 + \|V_j\|^2)
$$

À chaque itération de la descente de gradient, $U$ et $V$ sont mis à jour selon les formules
$$
U = U - \tau \nabla_U F(U, V)\\ 
V = V - \tau \nabla_V F(U, V)
$$
où pour $M \in \{U, V\}$ on dénote $\nabla_M F$ la sous-matrice du gradient de $F$ contenant les dérivées partielles de $F$ selon les variables de $M$. Pour une note $R_{ij}$, on a 
$$
\frac{\partial F_{ij}}{\partial U_i} = V_j^T (U_i \cdot V_j^T - R_{ij}) + \lambda U_i \\
\frac{\partial F_{ij}}{\partial V_j} = Ui (U_i \cdot V_j^T - R_{ij}) + \lambda V_j
$$
donc on peut mettre à jour les lignes $U_i$ et $V_j$ selon les formules 
$$
U_i = Ui - \tau [V_j^T (U_i \cdot V_j^T - R_{ij}) + \lambda U_i]\\
V_j = V_j - \tau [Ui (U_i \cdot V_j^T - R_{ij}) + \lambda V_j]
$$

In [23]:
def gradientF(U, V, eps=1e-5):
    n, ell = U.size
    m, ell = V.size
    def nablaFU(X):
        assert X.size == U.size
        return np.array( [[np.dot(V[:, j], np.dot( np.dot(X[i], V[:, j]) - R[i, j]) ) + lamb * X[i] for i in range(n)] for j in range(ell)] )
    def nablaFV(Y):
        assert Y.size == V.size
        return np.array( [[np.dot(U[i], np.dot( np.dot(U[i], Y[:, j]) - R[i, j]) ) + lamb * Y[:, j] for i in range(m)] for j in range(ell)] )
    
    return nablaFU, nablaFV

In [25]:
def gradientPasConstant(dF, U, V, tau, tol=1e-6, Niter=1000):
    for n in range(Niter):
        gradU, gradV = dF(U, V)
        if np.linalg.norm(gradU(U, V)) + np.linalg.norm(gradV(U, V)) < tol :
            return U, V
        U = U - tau * gradU(U, V)
        V = V - tau * gradV(U, V)
    print("Erreur, l’algorithme n’a pas convergé après", Niter ," itérations")
    return U, V

**Input** : training matrix V, the number of features K, regularisation parameter lambda, learning rate epsilon

**Output** : row related model matrix W and column related model matrix H

Initialize W, H to UniformReal(0, 1/sqrt(K))

    repeat :
        for random V_ij \in V do :
            error = W_i* H*j - Vij
            Wi* = Wi* - epsilon(error * H*j^T + lamda Wi*)
            H*j = H*j - epsilon(error * Wi*^T + lamda J*j)
        end for
    until convergence

### Descente de gradient

Pour résoudre ce problème, on peut utiliser un algorithme de descente de gradient. Cet [article](https://towardsdatascience.com/introduction-to-recommender-systems-6c66cf15ada) précise aussi, qu'afin d'optimiser la recherche, on peut se contenter d'optimsier sur des batch et non sur tout $E$ et de simplifier le problème à un problème d'optimisation à une variable où les matrices $X$ et $Y$ sont alternativement fixées lors de chaque itération.

Posons $F : \mathbb{R}^{n \times \ell} \times \mathbb{R}^{m \times \ell} \to \mathbb{R}$ la fonction définie par :

$$
F(A) := \frac{1}{2}\sum_{(i, j) \in E} [X_i \cdot Y_j^T - M_{ij}]^2 + \frac{\lambda}{2} [ \sum_{(i, j)} X_{ij}^2 + \sum_{(i, j)} Y_{ij}^2 ]
$$

où $A = [U, I]$.

In [19]:
def F(A, M):
    error = 0
#     n, m = M.size
#     for i in range((
    
    return sum

In [21]:
Nx1 , Nx2 = 100, 100
xx1 , xx2 = np.linspace(0, 5, Nx1), np.linspace(0, 5, Nx2)
Z = [[F(np.array([x1, x2]), []) for x1 in xx1] for x2 in xx2]
# plt.contour(xx1 , xx2 , Z, 30)

# Big question k : est ce qu'on a une expression explicite du gradient ?

La fonction `gradientDFC(F,d,eps=1e-5)` prend une fonction $F : \mathbb{R}^l \times \mathbb{R}^l \to \mathbb{R}$, et renvoie une approximation de son gradient, **la fonction** $\nabla_\varepsilon F$, dont les composantes sont calculées par différences finies centrées, c'est à dire

$$
    \left( \nabla_\varepsilon F \right)_i : \mathbf{x} \mapsto \dfrac{F(\mathbf{x} + \varepsilon \mathbf{e}_i ) - F(\mathbf{x} - \varepsilon \mathbf{e}_i )}{2 \varepsilon}
$$

In [704]:
def gradientDFC(F, d, eps=1e-5):
    def naplaF(x):
        e = eps*identity(d)
        return array([(F(x + e[i]) - F(x - e[i]))/(2*eps) for i in range(d)])
    return naplaF

La fonction `gradientPasConstant(dF, x0, tau, tol=1e-6, Niter=1000)` prend une fonction $dF : \mathbb{R}^\ell \times \mathbb{R}^\ell \to \mathbb{R}$, un point initial $(x_0, y_0) \in \mathbb{R}^\ell \times \mathbb{R}^\ell$, et un pas $\tau > 0$, et renvoie le premier point $(x_n, y_n) \in \mathbb{R}^\ell$ tel que $\| \nabla F(x_n) \| < tol$, où $(x_n, y_n)$ est définie par
$$
    (x_{n+1}) = x_n - \tau \nabla F(x_n).
$$
ainsi que la liste des points $[x_0, \cdots, x_{n-1}]$.

In [703]:
def gradientPasConstant(dF, x0, tau, tol=1e-6, Niter=1000):
    xn = x0
    L = []
    for n in range(Niter):
        if norm(dF(xn)) < tol :
            return array(xn), array(L)
        L += xn
        xn = xn - tau*dF(xn)
    print("Erreur, l’algorithme n’a pas convergé après", Niter ," itérations")
    return array(xn), array(L)

Dans notre cas