In [1]:
# On utilise les librairies tabular (données structurées) et collab pour le filtrage collaboratif. 
from fastai2.collab import *
from fastai2.tabular.all import *

In [2]:
# FastAi propose un jeux de données du site Movie Lens. C'est un sous ensemble de 100.000 notes par des utilisateurs. 
path = untar_data(URLs.ML_100k)

In [3]:
# On charge les données du fichier csv fourni pour voir à quoi elles ressemblent. 
ratings = pd.read_csv(path/'u.data', delimiter='\t', header=None, names=['user','movie','rating','timestamp'])
# On affiche les 10 premières lignes
ratings.head(10)

Unnamed: 0,user,movie,rating,timestamp
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596
5,298,474,4,884182806
6,115,265,2,881171488
7,253,465,5,891628467
8,305,451,3,886324817
9,6,86,3,883603013


In [4]:
# On récupére le nom des films pour les id fournis dans le fichier précédent. 
movies = pd.read_csv(path/'u.item', delimiter='|', encoding='latin-1', 
                     usecols=(0,1), names=('movie', 'title'), header=None)
movies.head()

Unnamed: 0,movie,title
0,1,Toy Story (1995)
1,2,GoldenEye (1995)
2,3,Four Rooms (1995)
3,4,Get Shorty (1995)
4,5,Copycat (1995)


In [5]:
# La librairie panda permet de merge les données basé sur le nom de la colonne
ratings = ratings.merge(movies)
ratings.head()

Unnamed: 0,user,movie,rating,timestamp,title
0,196,242,3,881250949,Kolya (1996)
1,63,242,3,875747190,Kolya (1996)
2,226,242,5,883888671,Kolya (1996)
3,154,242,3,879138235,Kolya (1996)
4,306,242,5,876503793,Kolya (1996)


In [6]:
# FastAI propose des DataLoader spécifiques (Comportement par défaut pour filtrage collaboratif)
dls = CollabDataLoaders.from_df(ratings, item_name='title', bs=64)
dls.show_batch()

Unnamed: 0,user,title,rating
0,344,Passion Fish (1992),4
1,194,"Magnificent Seven, The (1954)",4
2,806,"Sound of Music, The (1965)",5
3,78,In & Out (1997),5
4,620,Richie Rich (1994),4
5,773,Jackie Chan's First Strike (1996),4
6,406,Alice in Wonderland (1951),4
7,393,Primal Fear (1996),5
8,230,Raiders of the Lost Ark (1981),5
9,226,"Hunchback of Notre Dame, The (1996)",3


In [7]:
# On récupére le nombre d'utilisateur et de films contenus dans notre jeux de données
n_users = len(dls.classes['user'])
n_movies = len(dls.classes['title'])
n_factors = 5

In [8]:
# Le principe que l'on va appliqué correspond aux "caractéristiques latentes". l'idées est d'attribuer x caractéristiques 
# aléatoires au éléments (film et user ici). Ces caractèristiques correspondraient à des types de films (SF, Romantique, 
# ...). On va ensuite grace aux machine learning essayé de déterminer ses caractèristiques pour chaque élément en fonction
# des notes attribuées. 
# Exemple: User1 [0.1, 0.9] (Aime pas trop la SF mais bien le Romantique)
#          Film1 [0.9, 0.2], Film2 [0.1, 0.8]
# Si je multiplie les caractérisque de mon utilisateur à celle des films 0.1*0.9 + 0.9*0.2 et 0.1*0.1 + 0.9*0.8 j'obtiens 
# un résultat nettement supérieur pour le second film (il est romantique et l'utilisateur aime les film romantique)
# Dans les fait les "caractéristiques latentes" ne sont pas définies, on ne sait pas à quoi elles correspondent. 

# On initialise donc 5 caractéristiques aléatoirement pour les utilisateurs et les films

user_factors = torch.randn(n_users, n_factors)
movie_factors = torch.randn(n_movies, n_factors)
user_factors[0]


tensor([ 0.6217,  0.0038, -0.6626,  0.0975, -0.0779])

In [49]:
class DotProduct(Module):
    def __init__(self, n_users, n_movies, n_factors):
        self.user_factors = Embedding(n_users, n_factors)
        self.movie_factors = Embedding(n_movies, n_factors)
        
    def forward(self, x):
        users = self.user_factors(x[:,0])
        movies = self.movie_factors(x[:,1])
        return (users * movies).sum(dim=1)

In [50]:
# Tests Compréhension

# Embedding crée un "dictionnaire" avec le nombre d'occurence demandé en 1er paramètre (nb user) et un "tableau" de taille
# x passé en second paramètre.
# x[:,0] renvoit l'ensemble des id des utilisateur du batch en cours (x). L'accès user_factors(x[:,0]) rend les "tableaux"
# de paramètre créés pour chaque utilisateur. On utilise leur ID comme clefs d'accès ici. 
# Le retour de la méthode forward est un tensor de y résultats (y=nombre de paramètre) correspondant à 
# paramètre1 user * paramètre1 movie.

# A priori on a écrit le model mais pas l'optimiser qui fait les ajustement de gradient. 
# Je ne comprends comment le learner qui doit avoir un Optimize par défaut peut-il savoir ou sont mes paramètres 
# (ici user_factors & movie_factors)

x,y = dls.one_batch()
uf = Embedding(n_users, n_factors)
mf = Embedding(n_movies, n_factors)

testModel = DotProduct(n_users, n_movies, n_factors)

In [67]:
# Tests Compréhension 
plop = uf(torch.LongTensor([3,4,122]))
plop2 = mf(torch.LongTensor([10,44,156]))

(plop * plop2).sum(dim=1)

tensor([-2.5923e-04, -3.7224e-05, -1.6663e-04], grad_fn=<SumBackward1>)

In [65]:
model = DotProduct(n_users, n_movies, 50)
learn = Learner(dls, model, loss_func=MSELossFlat())

In [66]:
learn.fit_one_cycle(5, 5e-3)

epoch,train_loss,valid_loss,time
0,1.295125,1.278362,00:08
1,1.098027,1.074678,00:08
2,0.949562,0.964243,00:08
3,0.833917,0.880554,00:08
4,0.791523,0.864685,00:08
