In [1]:
# Importation des bibliothèques  
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import pickle  
from sklearn.feature_extraction.text import TfidfVectorizer  
from sklearn.neighbors import NearestNeighbors  
import os  
import warnings  
warnings.filterwarnings("ignore")  

In [2]:
# Chargement des données préparées  
print("Chargement des données préparées...")  
try:  
    # Essayer de charger depuis le fichier pickle  
    with open('../data/processed/clean_dataset.pkl', 'rb') as f:  
        df = pickle.load(f)  
    print("Données chargées depuis le fichier pickle.")  
except:  
    # Sinon, charger depuis le CSV  
    df = pd.read_csv('../data/processed/clean_dataset.csv')  
    print("Données chargées depuis le fichier CSV.")  
  
print(f"Forme du dataset: {df.shape}")  
print("\nAperçu des données:")  
display(df.head())  

Chargement des données préparées...
Données chargées depuis le fichier pickle.
Forme du dataset: (5000, 14)

Aperçu des données:


Unnamed: 0,Uniq Id,Product Id,Product Name,Product Rating,Clicked,View_Time_Sec,Product Description,Product Tags,Product Category,Product Brand,Product Reviews Count,Full_Text,Norm_View_Time,Rating
0,1705736792d82aa2f2d3caf1c07c53f4,2e17bf4acecdece67fc00f07ad62c910,"OPI Infinite Shine, Nail Lacquer Nail Polish, ...",4.21875,0,0,,"OPI Infinite Shine, Nail Lacquer Nail Polish, ...",Premium Beauty > Premium Makeup > Premium Nail...,OPI,571.035565,"opi infinite shine, nail lacquer nail polish,...",0.0,2.109375
1,95a9fe6f4810fcfc7ff244fd06784f11,076e5854a62dd283c253d6bae415af1f,"Nice n Easy Permanent Color, 111 Natural Mediu...",3.966667,1,147,Pack of 3 Pack of 3 for the UPC: 381519000201 ...,"Nice 'n Easy Permanent Color, 111 Natural Medi...",Beauty > Hair Care > Hair Color > Auburn Hair ...,Nice'n Easy,571.035565,pack of 3 pack of 3 for the upc: 381519000201 ...,0.816667,4.3
2,8d4d0330178d3ed181b15a4102b287f2,8a4fe5d9c7a6ed26cc44d785a454b124,Clairol Nice N Easy Permanent Color 7/106A Nat...,4.5,0,0,This Clairol Nice N Easy Permanent Color gives...,Clairol Nice 'N Easy Permanent Color 7/106A Na...,Beauty > Hair Care > Hair Color > Permanent Ha...,Clairol,29221.0,this clairol nice n easy permanent color gives...,0.0,2.25
3,fddc4df45b35efd886794b261f730c51,03b5fb878a33eadff8b033419eab9669,"Kokie Professional Matte Lipstick, Hot Berry, ...",4.024138,0,0,Calling all matte lip lovers! Indulge in our r...,"Kokie Professional Matte Lipstick, Hot Berry, ...",Beauty > Makeup > Lip,Kokie Cosmetics,571.035565,calling all matte lip lovers! indulge in our r...,0.0,2.012069
4,0990cf89a59ca6a0460349a3e4f51d42,ce3d761e57d6ccad80619297b5b1bcbc,"Gillette TRAC II Plus Razor Blade Refills, Fit...",5.0,1,177,"In 1971, Gillette introduced the Trac II razor...","Gillette TRAC II Plus Razor Blade Refills, Fit...",Seasonal > Stock Up Essentials > Personal Care...,Gillette,131.0,"in 1971, gillette introduced the trac ii razor...",0.983333,4.983333


In [3]:
  
# Préparation des données pour le filtrage basé sur le contenu  
print("\n Préparation des données pour le filtrage basé sur le contenu (TF-IDF + KNN)...")  
  
# Création d'un DataFrame avec des produits uniques  
products_df = df.drop_duplicates('Product Id')  
print(f"Nombre de produits uniques: {products_df['Product Id'].nunique()}")  


 Préparation des données pour le filtrage basé sur le contenu (TF-IDF + KNN)...
Nombre de produits uniques: 4802


In [4]:
  
#  Vectorisation TF-IDF  
print("\n Vectorisation TF-IDF...")  
tfidf = TfidfVectorizer(  
    min_df=2,               
    max_df=0.95,           
    max_features=5000,     
    stop_words='english',    
    ngram_range=(1, 2)    
)  


 Vectorisation TF-IDF...


In [5]:
  
# Création de la matrice TF-IDF  
tfidf_matrix = tfidf.fit_transform(products_df['Full_Text'])  
print(f"Forme de la matrice TF-IDF: {tfidf_matrix.shape}")  
print(f"Nombre de caractéristiques: {len(tfidf.get_feature_names_out())}")  
  

Forme de la matrice TF-IDF: (4802, 5000)
Nombre de caractéristiques: 5000


In [7]:
  
# Modèle KNN pour TF-IDF  
print("\n Entraînement du modèle KNN sur les vecteurs TF-IDF...")  
knn_model = NearestNeighbors(  
    n_neighbors=10,         
    algorithm='auto',       
    metric='cosine'         
)  
knn_model.fit(tfidf_matrix)  
print("Modèle KNN entraîné avec succès.")  


 Entraînement du modèle KNN sur les vecteurs TF-IDF...
Modèle KNN entraîné avec succès.


In [8]:
  
# Exemple de recommandation  
print("\n Exemple de recommandation avec TF-IDF + KNN:")  
# Sélectionner un produit aléatoire  
sample_idx = np.random.randint(0, len(products_df))  
sample_product = products_df.iloc[sample_idx]  
print(f"Produit sélectionné: {sample_product['Product Name']}")  
print(f"Catégorie: {sample_product['Product Category']}")  
  
# Trouver les produits similaires  
sample_vector = tfidf_matrix[sample_idx].reshape(1, -1)  
distances, indices = knn_model.kneighbors(sample_vector)  
  
print("\nProduits similaires:")  
for i, idx in enumerate(indices[0][1:6]):  # Ignorer le premier qui est le produit lui-même  
    similar_product = products_df.iloc[idx]  
    print(f"{i+1}. {similar_product['Product Name']} (Similarité: {1-distances[0][i+1]:.4f})")  
    print(f"   Catégorie: {similar_product['Product Category']}")  


 Exemple de recommandation avec TF-IDF + KNN:
Produit sélectionné: Revlon ColorStay Longwear Lip Liner, 665 Plum, 0.01 oz
Catégorie: Beauty > Beauty by Topic > Mindful Beauty > Mindful Beauty Cosmetics

Produits similaires:
1. Rimmel London Exaggerate Full Color Lip Liner, Innocent (Similarité: 0.5358)
   Catégorie: Beauty > Beauty by Top Brands > Rimmel > Rimmel Lip Makeup
2. NARS LIP LINER 0.01 OZ WAIMEA NARS/VELVET LIP LINER PENCIL WAIMEA 0.01 OZ (0.5 ML) (Similarité: 0.4877)
   Catégorie: Premium Beauty > Premium Makeup > Premium Lips > Premium Lip Liner
3. Lipstick Queen Womens Visible Lip Liner FGS100444-DESERTTAUPE (Similarité: 0.3931)
   Catégorie: Premium Beauty > Premium Makeup > Premium Lips > Premium Lipstick
4. LANCOME LE LIP LINER IDEAL .04 OZ (1.1 ML) (Similarité: 0.3462)
   Catégorie: Premium Beauty > Premium Makeup > Premium Lips > Premium Lip Liner
5. LOreal Paris Colour Riche Lip Liner, Lasting Plum, 0.007 oz. (Similarité: 0.3442)
   Catégorie: Beauty > Beauty by To

In [9]:
#  Évaluation  
print("\n Évaluation du modèle TF-IDF + KNN:")  
# Calcul de la précision de la catégorie  
same_category_count = 0  
total_recommendations = 0  
  
# Échantillonner 100 produits aléatoires pour l'évaluation  
sample_size = min(100, len(products_df))  
sample_indices = np.random.choice(len(products_df), sample_size, replace=False)  
  
for idx in sample_indices:  
    product = products_df.iloc[idx]  
    product_vector = tfidf_matrix[idx].reshape(1, -1)  
    distances, indices = knn_model.kneighbors(product_vector)  
      
    # Vérifier si les 5 premiers produits recommandés sont de la même catégorie  
    for rec_idx in indices[0][1:6]:  
        recommended_product = products_df.iloc[rec_idx]  
        if recommended_product['Product Category'] == product['Product Category']:  
            same_category_count += 1  
        total_recommendations += 1  
  
category_precision = same_category_count / total_recommendations  
print(f"Précision de la catégorie: {category_precision:.4f}") 


 Évaluation du modèle TF-IDF + KNN:
Précision de la catégorie: 0.3760


In [10]:
  
# Sauvegarde des résultats pour l'évaluation comparative  
results = {  
    'tfidf_knn': {  
        'category_precision': category_precision  
    }  
}  
  
# Sauvegarde du modèle et des résultats  
print("\n Sauvegarde du modèle et des résultats...")  
  
# Créer les dossiers s'ils n'existent pas  
os.makedirs('../models/content_based', exist_ok=True)  
os.makedirs('../results', exist_ok=True)  
  
# Sauvegarde du vectoriseur TF-IDF  
with open('../models/content_based/tfidf_vectorizer.pkl', 'wb') as f:  
    pickle.dump(tfidf, f)  
print("Vectoriseur TF-IDF sauvegardé dans '../models/content_based/tfidf_vectorizer.pkl'")  
  
# Sauvegarde du modèle KNN  
with open('../models/content_based/tfidf_knn_model.pkl', 'wb') as f:  
    pickle.dump(knn_model, f)  
print("Modèle KNN pour TF-IDF sauvegardé dans '../models/content_based/tfidf_knn_model.pkl'")  
  
# Sauvegarde des résultats  
with open('../results/tfidf_results.pkl', 'wb') as f:  
    pickle.dump(results, f)  
print("Résultats sauvegardés dans '../results/tfidf_results.pkl'")  
  
print("\n Filtrage basé sur le contenu (TF-IDF + KNN) terminé!")


 Sauvegarde du modèle et des résultats...
Vectoriseur TF-IDF sauvegardé dans '../models/content_based/tfidf_vectorizer.pkl'
Modèle KNN pour TF-IDF sauvegardé dans '../models/content_based/tfidf_knn_model.pkl'
Résultats sauvegardés dans '../results/tfidf_results.pkl'

 Filtrage basé sur le contenu (TF-IDF + KNN) terminé!
