## <font color=blue>**Reading in our Movie Data with Pandas**</font>

In [42]:
import pandas as pd

# https://files.grouplens.org/datasets/movielens/ml-25m.zip
movies = pd.read_csv("C:\\Users\\INFOKOM\\Desktop\\fida\\Movie Rocommendation System\\movies.csv")

In [43]:
movies

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
62418,209157,We (2018),Drama
62419,209159,Window of the Soul (2001),Documentary
62420,209163,Bad Poems (2018),Comedy|Drama
62421,209169,A Girl Thing (2001),(no genres listed)


## <font color=blue>**Cleaning Movie Titles with Regex**</font>

#importing the re module, which is the module for regular expressions in Python. 
#Regular expressions are used to perform search and replacement operations on patterns in strings.

#using the 're.sub()' function from the 're' module to replace all characters that are not uppercase letters, lowercase letters, digits, or spaces with an empty string '""'

#'[^a-zA-Z0-9 ]' matches any character that is not an uppercase letter, lowercase letter, digit, or space.

In [44]:
import re
def clean_title(title):
    title = re.sub("[^a-zA-Z0-9 ]", "", title)
    return title

#adding a new column called "clean_title" to the DataFrame "movies" by applying the function clean_title to the existing column "title".


In [45]:
movies["clean_title"] = movies["title"].apply(clean_title)

In [46]:
movies

Unnamed: 0,movieId,title,genres,clean_title
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 1995
1,2,Jumanji (1995),Adventure|Children|Fantasy,Jumanji 1995
2,3,Grumpier Old Men (1995),Comedy|Romance,Grumpier Old Men 1995
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance,Waiting to Exhale 1995
4,5,Father of the Bride Part II (1995),Comedy,Father of the Bride Part II 1995
...,...,...,...,...
62418,209157,We (2018),Drama,We 2018
62419,209159,Window of the Soul (2001),Documentary,Window of the Soul 2001
62420,209163,Bad Poems (2018),Comedy|Drama,Bad Poems 2018
62421,209169,A Girl Thing (2001),(no genres listed),A Girl Thing 2001


## <font color=blue>**Creating a TFIDF Matrix**</font>

La matrice TF-IDF (Term Frequency-Inverse Document Frequency) est une représentation numérique des données textuelles, souvent utilisée dans le domaine de l'apprentissage automatique et du traitement du langage naturel. Cette matrice capture l'importance relative de chaque mot dans un ensemble de documents en attribuant à chaque mot un score qui prend en compte sa fréquence d'apparition dans chaque document ainsi que sa fréquence d'apparition dans l'ensemble des documents.

**1-Fréquence des termes (TF - Term Frequency) :**
Pour chaque mot dans un document, la fréquence des termes mesure le nombre de fois que ce mot apparaît dans le document. Une fréquence des termes plus élevée indique que le mot est plus important pour ce document.

**2-Fréquence inverse du document (IDF - Inverse Document Frequency) :**
La fréquence inverse du document mesure l'importance d'un mot dans l'ensemble des documents. Les mots qui apparaissent fréquemment dans tous les documents ont une faible valeur IDF, tandis que les mots qui sont spécifiques à certains documents ont une valeur IDF plus élevée. Cela permet de donner plus de poids aux mots qui sont plus discriminants.

**3-Combinaison de TF et IDF (TF-IDF) :**
La valeur TF-IDF d'un mot dans un document est calculée en multipliant la fréquence des termes (TF) du mot dans ce document par la fréquence inverse du document (IDF) pour ce mot. Ainsi, un mot aura une valeur TF-IDF plus élevée s'il apparaît fréquemment dans un document spécifique tout en étant rare dans l'ensemble des documents.

La matrice TF-IDF résultante est une représentation matricielle où chaque ligne représente un document (par exemple, un titre de film dans notre cas) et chaque colonne représente un mot (unigramme ou bigramme dans notre cas), avec les valeurs TF-IDF correspondantes indiquant l'importance relative des mots dans chaque document. Cette représentation est souvent utilisée comme entrée pour des modèles d'apprentissage automatique, tels que des classificateurs ou des systèmes de recommandation, pour analyser et traiter des données textuelles.

#importer la classe TfidfVectorizer du module sklearn.feature_extraction.text. 
#TfidfVectorizer est une méthode utilisée pour convertir des données textuelles en une matrice de caractéristiques TF-IDF.

#initialiser un objet TfidfVectorizer appelé vectorizer. 
#Le paramètre ngram_range=(1,2) spécifie que le vectoriseur devrait considérer à la fois les unigrammes (mots individuels) et les bigrammes (paires de mots adjacents) lors de la génération des caractéristiques. Cela signifie que à la fois les mots individuels et les paires de mots consécutifs seront considérés comme des caractéristiques.

#utiliser la méthode fit_transform de l'objet vectorizer pour convertir les titres de films nettoyés (movies["clean_title"]) en une matrice TF-IDF. fit_transform calcule les valeurs TF-IDF pour les données d'entrée données et renvoie une représentation matricielle épars. Chaque ligne de la matrice correspond à un titre de film, et chaque colonne correspond à un mot unique ou une combinaison de mots (unigramme ou bigramme) présente dans les titres. La valeur de chaque cellule dans la matrice représente le score TF-IDF du mot ou de la combinaison de mots correspondant dans le titre de film respectif.


In [47]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(ngram_range=(1,2))
tfidf = vectorizer.fit_transform(movies["clean_title"])

## <font color=blue>**Creating a Search Function**</font>

#importer la fonction cosine_similarity du module sklearn.metrics.pairwise. cosine_similarity est une fonction qui calcule la similarité cosinus entre des vecteurs. Dans le contexte des données textuelles, la similarité cosinus est souvent utilisée pour mesurer la similarité entre des documents représentés sous forme de vecteurs dans un espace de grande dimension.

#importe la bibliothèque NumPy, une bibliothèque populaire pour le calcul numérique en Python. NumPy est souvent utilisé pour manipuler des tableaux et effectuer des opérations mathématiques.

#transformer le titre nettoyé en un vecteur TF-IDF en utilisant la méthode transform de l'objet vectorizer. Le vecteur query_vec représente le vecteur TF-IDF pour le titre d'entrée.

#calculer la similarité cosinus entre le vecteur TF-IDF du titre d'entrée (query_vec) et la matrice TF-IDF de tous les titres de films (tfidf). La fonction cosine_similarity renvoie une matrice de scores de similarité, et .flatten() la convertit en un tableau unidimensionnel.

#trouver les indices des 5 films les plus similaires au titre d'entrée, en se basant sur les scores de similarité dans le tableau similarity. Elle utilise la fonction argpartition de NumPy pour trouver efficacement les indices des 5 premiers éléments dans le tableau similarity.

#récupèrer les 5 films les plus similaires à partir du DataFrame movies en se basant sur leurs indices dans le tableau indices. Ensuite, elle inverse l'ordre des résultats pour afficher le film le plus similaire en premier.

En résumé, cette fonction prend un titre de film en entrée, le nettoie, calcule son vecteur TF-IDF, calcule la similarité cosinus entre le titre d'entrée et tous les titres de films, récupère les 5 films les plus similaires et les renvoie comme résultats de recherche.

<font color=red>**La fonction cosine_similarity:**</font> est une fonction utilisée pour calculer la similarité cosinus entre des vecteurs. Dans le contexte de l'analyse de texte, elle est souvent utilisée pour mesurer la similitude entre des documents représentés sous forme de vecteurs dans un espace vectoriel. Voici une explication détaillée de la fonction cosine_similarity :

Supposons que nous ayons deux vecteurs A et B dans un espace vectoriel :

La similarité cosinus entre les vecteurs A et B est calculée comme le cosinus de l'angle entre eux. C'est une mesure de la similitude entre les deux vecteurs.
La formule mathématique de la similarité cosinus entre les vecteurs A et B est donnée par :
**cosine_similarity(A, B) = (A . B) / (||A|| * ||B||)**
où :

(A . B) représente le produit scalaire des vecteurs A et B.
||A|| et ||B|| représentent les normes Euclidiennes des vecteurs A et B, respectivement.

La similarité cosinus varie entre -1 et 1 :

-Une similarité de 1 signifie que les deux vecteurs sont parfaitement alignés dans la même direction.
-Une similarité de -1 signifie que les deux vecteurs sont parfaitement alignés dans des directions opposées.
-Une similarité de 0 signifie que les deux vecteurs sont orthogonaux, c'est-à-dire qu'ils sont perpendiculaires l'un à l'autre.

Dans le contexte de l'analyse de texte :

-Chaque document est représenté sous forme de vecteur, où chaque dimension correspond à un terme (mot) et la valeur de chaque dimension représente une mesure de l'importance du terme dans le document (par exemple, TF-IDF).
-La similarité cosinus entre deux documents mesure à quel point ils sont similaires en termes de distribution de mots importants.

La fonction cosine_similarity de scikit-learn calcule efficacement la similarité cosinus entre les vecteurs en utilisant des calculs matriciels, ce qui est particulièrement utile lors du traitement de grands ensembles de données textuelles. Elle prend en entrée deux matrices de vecteurs et renvoie une matrice de similarité cosinus où chaque élément (i, j) représente la similarité cosinus entre les vecteurs de ligne i et de colonne j des matrices d'entrée.

In [48]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

#def search(title):
title="Toy Story 1995"
title = clean_title(title)
query_vec = vectorizer.transform([title])
similarity = cosine_similarity(query_vec, tfidf).flatten()
indices = np.argpartition(similarity, -5)[-5:]
results = movies.iloc[indices].iloc[::-1]
    
    #return results

In [49]:
title

'Toy Story 1995'

In [50]:
query_vec

<1x170073 sparse matrix of type '<class 'numpy.float64'>'
	with 5 stored elements in Compressed Sparse Row format>

In [51]:
similarity

array([1.        , 0.09681098, 0.06531543, ..., 0.        , 0.        ,
       0.        ])

In [52]:
indices

array([20497, 14813, 59767,  3021,     0], dtype=int64)

In [53]:
results

Unnamed: 0,movieId,title,genres,clean_title
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 1995
3021,3114,Toy Story 2 (1999),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 2 1999
59767,201588,Toy Story 4 (2019),Adventure|Animation|Children|Comedy,Toy Story 4 2019
14813,78499,Toy Story 3 (2010),Adventure|Animation|Children|Comedy|Fantasy|IMAX,Toy Story 3 2010
20497,106022,Toy Story of Terror (2013),Animation|Children|Comedy,Toy Story of Terror 2013


In [54]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

def search(title):
    title = clean_title(title)
    query_vec = vectorizer.transform([title])
    similarity = cosine_similarity(query_vec, tfidf).flatten()
    indices = np.argpartition(similarity, -5)[-5:]
    results = movies.iloc[indices].iloc[::-1]
    
    return results

 ## <font color=blue>**Building an interactive Search Box with Jupyter**</font>

Ce code crée une interface utilisateur simple dans un notebook Jupyter à l'aide de la bibliothèque ipywidgets. 

<font color=red>**1.Importation des bibliothèques nécessaires :**</font>

**'import ipywidgets as widgets' :** Cette ligne importe le module widgets de la bibliothèque ipywidgets. Les widgets sont des éléments interactifs tels que des boutons, des champs de texte, etc., qui peuvent être utilisés pour créer des interfaces utilisateur interactives dans les notebooks Jupyter.
**'from IPython.display import display' :** Cette ligne importe la fonction display du module IPython.display. Cette fonction est utilisée pour afficher des widgets et d'autres éléments dans le notebook Jupyter.

<font color=red>**2.Création d'un champ de texte pour saisir le titre du film :**</font>

**'movie_input = widgets.Text(value='Toy Story', description='Movie Title:', disabled=False)' :** Cette ligne crée un widget de type Text (champ de texte) avec une valeur par défaut "Toy Story" et une description "Movie Title:". Le paramètre disabled=False indique que le champ de texte est activé et peut être modifié.

<font color=red>**3.Création d'un conteneur pour afficher les résultats de la recherche de films :**</font>

**'movie_list = widgets.Output()' :** Cette ligne crée un widget de type Output (sortie) qui servira de conteneur pour afficher les résultats de la recherche de films.

<font color=red>**4.Définition d'une fonction pour gérer les événements de saisie dans le champ de texte :**</font>

**'def on_type(data)' :** Cette ligne définit une fonction nommée on_type qui prend un argument data.

**'with movie_list' :** Cette ligne utilise un contexte with pour rediriger la sortie vers le widget movie_list.

**'movie_list.clear_output()' :** Cette ligne efface tout contenu précédent du widget movie_list.

**'title = data["new"]' :** Cette ligne extrait la nouvelle valeur saisie dans le champ de texte.

**'if len(title) > 5' :** Cette ligne vérifie si le titre saisi a une longueur supérieure à 5 caractères.

**'display(search(title))' :** Cette ligne appelle la fonction search avec le titre saisi comme argument et affiche les résultats de la recherche dans le widget movie_list.

<font color=red>**5.Observation des changements dans le champ de texte :**</font>

**'movie_input.observe(on_type, names='value')' :** Cette ligne observe les changements dans la valeur du champ de texte movie_input et appelle la fonction on_type en cas de changement.

<font color=red>**6.Affichage des widgets dans le notebook :**</font>

**'display(movie_input, movie_list)' :** Cette ligne affiche les widgets movie_input (champ de texte) et movie_list (conteneur de résultats) dans le notebook.
En résumé, ce code crée un champ de texte où vous pouvez saisir le titre d'un film, et à mesure que vous tapez, il affiche les résultats de la recherche de films correspondants en dessous.

In [55]:
import ipywidgets as widgets
from IPython.display import display

movie_input = widgets.Text(
    value='Toy Story 1995',
    description='Movie Title:',
    disabled=False
)
movie_list = widgets.Output()

def on_type(data):
    with movie_list:
        movie_list.clear_output()
        title = data["new"]
        if len(title) > 5:
            display(search(title))

movie_input.observe(on_type, names='value')


display(movie_input, movie_list)

Text(value='Toy Story 1995', description='Movie Title:')

Output()

## <font color=blue>**Reading in Movie Ratings Data**</font>

In [56]:
movie_id = 89745

#def find_similar_movies(movie_id):
movie = movies[movies["movieId"] == movie_id]

In [57]:
ratings = pd.read_csv("C:\\Users\\INFOKOM\\Desktop\\fida\\Movie Rocommendation System\\ratings.csv")
ratings

Unnamed: 0,userId,movieId,rating,timestamp
0,1,296,5.0,1147880044
1,1,306,3.5,1147868817
2,1,307,5.0,1147868828
3,1,665,5.0,1147878820
4,1,899,3.5,1147868510
...,...,...,...,...
25000090,162541,50872,4.5,1240953372
25000091,162541,55768,2.5,1240951998
25000092,162541,56176,2.0,1240950697
25000093,162541,58559,4.0,1240953434


In [58]:
ratings.dtypes

userId         int64
movieId        int64
rating       float64
timestamp      int64
dtype: object

Ces lignes de code effectuent plusieurs opérations sur le DataFrame "ratings" pour trouver des recommandations de films basées sur les préférences des utilisateurs similaires. 

**'similar_users = ratings[(ratings["movieId"] == movie_id) & (ratings["rating"] > 4)]["userId"].unique() :**'

-Cette ligne sélectionne les identifiants uniques des utilisateurs qui ont attribué une note élevée (supérieure à 4) au film spécifique identifié par "movie_id".
-Elle filtre les données du DataFrame "ratings" pour ne conserver que les évaluations pour le film spécifique et avec une note supérieure à 4.
-Ensuite, elle extrait les identifiants uniques de ces utilisateurs.

**'similar_user_recs = ratings[(ratings["userId"].isin(similar_users)) & (ratings["rating"] > 4)]["movieId"] :**'

-Cette ligne sélectionne les identifiants des films qui ont été évalués positivement (avec une note supérieure à 4) par les utilisateurs similaires.
-Elle filtre les données du DataFrame "ratings" pour ne conserver que les évaluations faites par les utilisateurs identifiés dans la variable "similar_users" et avec une note supérieure à 4.
-Ensuite, elle extrait les identifiants des films correspondants.

**'similar_user_recs = similar_user_recs.value_counts() / len(similar_users) :**'

-Cette ligne calcule le nombre d'évaluations de chaque film par les utilisateurs similaires, puis divise ce nombre par le nombre total d'utilisateurs similaires.
-Cela permet d'obtenir une estimation de la proportion d'utilisateurs similaires qui ont évalué chaque film positivement.

**'similar_user_recs = similar_user_recs[similar_user_recs > .10] :**'

-Cette ligne filtre les recommandations en ne conservant que les films pour lesquels la proportion d'utilisateurs similaires ayant donné une note positive est supérieure à 0.10 (10%).
-Cela permet de restreindre les recommandations aux films qui sont fortement appréciés par une proportion significative des utilisateurs similaires.

En résumé, ces lignes de code permettent de trouver des recommandations de films basées sur les préférences des utilisateurs similaires, en filtrant les évaluations pour un film spécifique et en sélectionnant les films qui ont été positivement évalués par un nombre important d'utilisateurs similaires.

In [59]:
movie_id=1

In [60]:
similar_users = ratings[(ratings["movieId"] == movie_id) & (ratings["rating"] >4)]

In [61]:
similar_users

Unnamed: 0,userId,movieId,rating,timestamp
5101,36,1,5.0,857131378
9939,75,1,5.0,1537207651
11842,86,1,5.0,945462775
12232,90,1,5.0,863538043
12504,93,1,5.0,1496543050
...,...,...,...,...
24996419,162519,1,5.0,1000946439
24997459,162524,1,4.5,1072919304
24997758,162527,1,4.5,1301688215
24998300,162530,1,5.0,989808332


In [62]:
similar_users = ratings[(ratings["movieId"] == movie_id) & (ratings["rating"] >4)]["userId"].unique()

In [63]:
similar_users

array([    36,     75,     86, ..., 162527, 162530, 162533], dtype=int64)

In [64]:
similar_user_recs = ratings[(ratings["userId"].isin(similar_users)) & (ratings["rating"] >4)]

In [65]:
similar_user_recs 

Unnamed: 0,userId,movieId,rating,timestamp
5101,36,1,5.0,857131378
5105,36,34,5.0,834413787
5111,36,110,5.0,834412999
5114,36,150,5.0,839928587
5127,36,260,5.0,857131062
...,...,...,...,...
24998854,162533,60069,4.5,1280919889
24998861,162533,67997,4.5,1280920712
24998876,162533,78499,4.5,1281405901
24998884,162533,81591,4.5,1297289876


In [66]:
similar_user_recs = ratings[(ratings["userId"].isin(similar_users)) & (ratings["rating"] >4)]["movieId"]

In [67]:
similar_user_recs

5101            1
5105           34
5111          110
5114          150
5127          260
            ...  
24998854    60069
24998861    67997
24998876    78499
24998884    81591
24998888    88129
Name: movieId, Length: 1358326, dtype: int64

In [68]:
similar_user_recs.value_counts()

movieId
1         18835
318        8393
260        7605
356        6973
296        6918
          ...  
128478        1
125125        1
119701        1
107563        1
7625          1
Name: count, Length: 19282, dtype: int64

In [69]:
similar_user_recs = similar_user_recs.value_counts() / len(similar_users)
similar_user_recs = similar_user_recs[similar_user_recs > .10]

In [70]:
similar_user_recs

movieId
1        1.000000
318      0.445607
260      0.403770
356      0.370215
296      0.367295
           ...   
953      0.103053
551      0.101195
1222     0.100876
745      0.100345
48780    0.100186
Name: count, Length: 113, dtype: float64

## <font color=blue>**Finding how much all Users like Movies**</font>

<font color=red>**Filtrage des évaluations :**</font>

**'all_users = ratings[(ratings["movieId"].isin(similar_user_recs.index)) & (ratings["rating"] > 4)] :'**
Cela sélectionne les évaluations dans le DataFrame "ratings" pour lesquelles l'identifiant du film est parmi ceux recommandés par des utilisateurs similaires (stockés dans similar_user_recs), et où la note attribuée est supérieure à 4. Ces évaluations sont stockées dans la variable "all_users".

<font color=red>**Calcul de la popularité des films recommandés :**</font>

**'all_user_recs = all_users["movieId"].value_counts() / len(all_users["userId"].unique()) :'**
Cela compte le nombre d'occurrences de chaque identifiant de film parmi les évaluations filtrées dans "all_users", puis divise ce nombre par le nombre d'utilisateurs uniques qui ont donné ces évaluations. Cela donne une mesure de la popularité relative des films recommandés par des utilisateurs similaires. Les résultats sont stockés dans la variable "all_user_recs".

In [71]:
all_users = ratings[(ratings["movieId"].isin(similar_user_recs.index)) & (ratings["rating"] > 4)]

In [72]:
all_users

Unnamed: 0,userId,movieId,rating,timestamp
0,1,296,5.0,1147880044
29,1,4973,4.5,1147869080
48,1,7361,5.0,1147880055
72,2,110,5.0,1141416589
76,2,260,5.0,1141417172
...,...,...,...,...
25000062,162541,5618,4.5,1240953299
25000065,162541,5952,5.0,1240952617
25000078,162541,7153,5.0,1240952613
25000081,162541,7361,4.5,1240953484


In [73]:
all_user_recs = all_users["movieId"].value_counts() / len(all_users["userId"].unique())

In [74]:
all_user_recs

movieId
318      0.342220
296      0.284674
2571     0.244033
356      0.235266
593      0.225909
           ...   
551      0.040918
50872    0.039111
745      0.037031
78499    0.035131
2355     0.025091
Name: count, Length: 113, dtype: float64

## <font color=blue>**Creating a Recommendation Score**</font>

**'rec_percentages = pd.concat([similar_user_recs, all_user_recs], axis=1) :'**

Elle crée un nouveau DataFrame appelé "rec_percentages" en fusionnant les DataFrames "similar_user_recs" et "all_user_recs" le long de l'axe des colonnes. Ainsi, "rec_percentages" contient les pourcentages de recommandation pour les films similaires et pour tous les films évalués.

**'rec_percentages.columns = ["similar", "all"] :'**

Elle renomme les colonnes de "rec_percentages" pour les identifier clairement comme les pourcentages de recommandation des films similaires et de tous les films évalués.

**'rec_percentages["score"] = rec_percentages["similar"] / rec_percentages["all"] :'**

Elle calcule un nouveau score en divisant les pourcentages de recommandation pour les films similaires par les pourcentages de recommandation pour tous les films évalués. Cela permet de déterminer un score relatif de chaque film en fonction de sa similarité avec les utilisateurs et de sa popularité générale.

**'rec_percentages = rec_percentages.sort_values("score", ascending=False) :'**

Elle trie les valeurs de "rec_percentages" en fonction du score calculé précédemment, du plus élevé au plus bas, pour mettre en avant les films les plus pertinents en tête de liste.

**'rec_percentages.head(10).merge(movies, left_index=True, right_on="movieId") :'**

Elle sélectionne les dix premières lignes de "rec_percentages" (c'est-à-dire les dix films les mieux classés) et les fusionne avec le DataFrame "movies" en utilisant l'identifiant du film comme clé de jointure. Cela permet d'obtenir les détails des films recommandés, tels que leur titre, leur genre, etc.

<font color=red>**'merge(movies, left_index=True, right_on="movieId") :'**</font>

La méthode **'merge()'** fusionne les données de deux DataFrames en utilisant une colonne commune comme clé de jointure.

**'movies'** est le DataFrame contenant les détails sur les films, comme leur titre, leur genre, etc.

**'left_index=True'** indique à Pandas d'utiliser l'index du DataFrame de gauche ("rec_percentages") comme clé de jointure.

**'right_on="movieId"'** spécifie que la colonne "movieId" du DataFrame "movies" doit être utilisée comme clé de jointure.

En résumé, ces lignes de code combinent les recommandations basées sur la similarité des utilisateurs avec la popularité générale des films, calculent un score relatif pour chaque film, puis classent les films en fonction de ce score pour présenter les dix meilleurs choix, en incluant leurs détails issus du DataFrame "movies".

In [75]:
rec_percentages = pd.concat([similar_user_recs, all_user_recs], axis=1)
rec_percentages.columns = ["similar", "all"]

In [76]:
rec_percentages

Unnamed: 0_level_0,similar,all
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1
1,1.000000,0.124728
318,0.445607,0.342220
260,0.403770,0.222207
356,0.370215,0.235266
296,0.367295,0.284674
...,...,...
953,0.103053,0.045792
551,0.101195,0.040918
1222,0.100876,0.066877
745,0.100345,0.037031


In [77]:
rec_percentages["score"] = rec_percentages["similar"] / rec_percentages["all"]

In [78]:
rec_percentages = rec_percentages.sort_values("score", ascending=False)

In [79]:
rec_percentages

Unnamed: 0_level_0,similar,all,score
movieId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,1.000000,0.124728,8.017414
3114,0.280648,0.053706,5.225654
2355,0.110539,0.025091,4.405452
78499,0.152960,0.035131,4.354038
4886,0.235147,0.070811,3.320783
...,...,...,...
2858,0.216724,0.167634,1.292845
296,0.367295,0.284674,1.290232
79132,0.166817,0.131384,1.269693
4973,0.142501,0.112405,1.267747


In [80]:
rec_percentages.head(10).merge(movies, left_index=True, right_on="movieId")

Unnamed: 0,similar,all,score,movieId,title,genres,clean_title
0,1.0,0.124728,8.017414,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 1995
3021,0.280648,0.053706,5.225654,3114,Toy Story 2 (1999),Adventure|Animation|Children|Comedy|Fantasy,Toy Story 2 1999
2264,0.110539,0.025091,4.405452,2355,"Bug's Life, A (1998)",Adventure|Animation|Children|Comedy,Bugs Life A 1998
14813,0.15296,0.035131,4.354038,78499,Toy Story 3 (2010),Adventure|Animation|Children|Comedy|Fantasy|IMAX,Toy Story 3 2010
4780,0.235147,0.070811,3.320783,4886,"Monsters, Inc. (2001)",Adventure|Animation|Children|Comedy|Fantasy,Monsters Inc 2001
580,0.216618,0.067513,3.208539,588,Aladdin (1992),Adventure|Animation|Children|Comedy|Musical,Aladdin 1992
6258,0.228139,0.072268,3.156862,6377,Finding Nemo (2003),Adventure|Animation|Children|Comedy,Finding Nemo 2003
587,0.1794,0.059977,2.99115,595,Beauty and the Beast (1991),Animation|Children|Fantasy|Musical|Romance|IMAX,Beauty and the Beast 1991
8246,0.203504,0.068453,2.972889,8961,"Incredibles, The (2004)",Action|Adventure|Animation|Children|Comedy,Incredibles The 2004
359,0.253411,0.085764,2.954762,364,"Lion King, The (1994)",Adventure|Animation|Children|Drama|Musical|IMAX,Lion King The 1994


## <font color=blue>**Building a Recommendation Function**</font>

In [81]:
def find_similar_movies(movie_id):
    similar_users = ratings[(ratings["movieId"] == movie_id) & (ratings["rating"] > 4)]["userId"].unique()
    similar_user_recs = ratings[(ratings["userId"].isin(similar_users)) & (ratings["rating"] > 4)]["movieId"]
    similar_user_recs = similar_user_recs.value_counts() / len(similar_users)

    similar_user_recs = similar_user_recs[similar_user_recs > .10]
    all_users = ratings[(ratings["movieId"].isin(similar_user_recs.index)) & (ratings["rating"] > 4)]
    all_user_recs = all_users["movieId"].value_counts() / len(all_users["userId"].unique())
    rec_percentages = pd.concat([similar_user_recs, all_user_recs], axis=1)
    rec_percentages.columns = ["similar", "all"]
    
    rec_percentages["score"] = rec_percentages["similar"] / rec_percentages["all"]
    rec_percentages = rec_percentages.sort_values("score", ascending=False)
    return rec_percentages.head(10).merge(movies, left_index=True, right_on="movieId")[["score", "title", "genres"]]

## <font color=blue>**Creating an Interactive Recommendation Widget**</font>

In [82]:
import ipywidgets as widgets
from IPython.display import display

movie_name_input = widgets.Text(
    value='Toy Story',
    description='Movie Title:',
    disabled=False
)
recommendation_list = widgets.Output()

def on_type(data):
    with recommendation_list:
        recommendation_list.clear_output()
        title = data["new"]
        if len(title) > 5:
            results = search(title)
            movie_id = results.iloc[0]["movieId"]
            display(find_similar_movies(movie_id))

movie_name_input.observe(on_type, names='value')

display(movie_name_input, recommendation_list)

Text(value='Toy Story', description='Movie Title:')

Output()