<b>C5. Concevoir le programme d’intelligence artificielle adapté aux données disponibles afin de répondre aux objectifs fonctionnels du projet, à l’aide des algorithmes, outils et méthodes standards, notamment de machine learning et de deep learning.</b><br>

En reprenant l'exemple de MovieLens, supposons que nous souhaitons concevoir un système de recommandation de films. Les systèmes de recommandation sont des algorithmes d'apprentissage automatique utilisés pour suggérer des produits aux utilisateurs en fonction de leur intérêt ou de leur utilisation passée. Ils sont largement utilisés dans différents domaines de l'internet, notamment pour recommander des films, de la musique, des articles de presse, des produits à acheter, etc.

Pour notre objectif, nous pourrions utiliser un algorithme de filtrage collaboratif, qui est une méthode couramment utilisée pour les systèmes de recommandation. Cette méthode fait des prédictions sur les intérêts d'un utilisateur en collectant des préférences de nombreux utilisateurs. L'idée sous-jacente est que si deux utilisateurs sont d'accord sur une question, ils sont susceptibles d'être d'accord sur d'autres questions.

Pour cela, nous allons utiliser la bibliothèque Surprise, une bibliothèque Python pour créer et analyser les systèmes de recommandation.

L'algorithme SVD (Singular Value Decomposition) est couramment utilisé dans la recommandation de films, principalement pour les systèmes de recommandation basés sur la factorisation de matrice. Il s'agit d'une technique de réduction de la dimensionnalité qui peut aider à minimiser l'erreur de prédiction lors de la prédiction de l'absence de notes dans les données utilisateur-item. L'idée principale de l'algorithme SVD est de décomposer la matrice d'origine en trois matrices distinctes et de travailler sur la matrice réduite, ce qui est plus facile à gérer.

L'algorithme SVD est particulièrement approprié lorsque vous avez des données manquantes ou incomplètes. Il est également utile lorsque vous avez une grande quantité de données, car il peut aider à réduire la dimensionnalité de l'ensemble de données.

Il existe d'autres algorithmes qui peuvent également être appropriés pour les systèmes de recommandation, en fonction de la nature spécifique de votre problème. Voici quelques exemples :

K-nearest neighbors (KNN) : C'est un algorithme simple qui recommande des items similaires à ceux que l'utilisateur a aimés dans le passé. Il utilise la similarité entre les utilisateurs ou les items pour faire ses recommandations.

Non-negative Matrix Factorization (NMF) : C'est une autre technique de factorisation de matrice qui peut être utilisée pour les systèmes de recommandation. Elle a l'avantage de ne jamais prédire une note négative, ce qui peut être utile dans certains contextes.

Matrix Factorization (MF) : C'est une technique générale de factorisation de matrice qui peut être utilisée pour les systèmes de recommandation. Elle est plus flexible que l'SVD et peut être adaptée à diverses situations.

Deep learning-based models : Avec l'évolution récente de l'IA, des modèles basés sur l'apprentissage profond, comme les auto-encodeurs, peuvent également être utilisés pour construire des systèmes de recommandation.

Le choix de l'algorithme dépend de divers facteurs, tels que la nature de vos données, le temps de calcul disponible, la complexité du modèle que vous êtes prêt à gérer, et les performances que vous attendez de votre système de recommandation. Dans la plupart des cas, il peut être utile de tester plusieurs algorithmes et de choisir celui qui offre les meilleures performances sur votre ensemble de données spécifique.

In [None]:
%pip install scikit-surprise

In [1]:
import pandas as pd
from surprise import Reader, Dataset, SVD
from surprise.model_selection import cross_validate
import sqlite3

# Établir une connexion avec la base de données SQLite
conn = sqlite3.connect('MovieLens.db')

# Utiliser une requête SQL pour extraire les données
df_ratings = pd.read_sql_query("SELECT * from ratings", conn)

# Fermer la connexion avec la base de données
conn.close()

# Ensuite, vous pouvez continuer avec le reste de votre code
reader = Reader()
data = Dataset.load_from_df(df_ratings[['userId', 'movieId', 'rating']], reader)

algo = SVD()
cross_validate(algo, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

# Former l'algorithme sur l'ensemble de l'ensemble de données
trainset = data.build_full_trainset()
algo.fit(trainset)

# Prédire la note qu'un utilisateur (par exemple, l'utilisateur 1) donnerait à un film (par exemple, le film 302)
uid = str(1)  # ID de l'utilisateur
iid = str(302)  # ID de l'élément (film)

# La fonction predict retourne une estimation de la note que l'utilisateur uid donnerait à l'élément iid.
print(f"\n========== PREDICTION DE LA NOTE DE L'USER {uid} SUR LE FILM {iid} ==========\n")
pred = algo.predict(uid, iid, verbose=True)


Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.8728  0.8724  0.8833  0.8668  0.8699  0.8730  0.0056  
MAE (testset)     0.6713  0.6670  0.6774  0.6672  0.6692  0.6704  0.0038  
Fit time          0.43    0.44    0.43    0.43    0.43    0.43    0.00    
Test time         0.04    0.04    0.07    0.07    0.07    0.06    0.01    


user: 1          item: 302        r_ui = None   est = 3.50   {'was_impossible': False}
