In [1]:
# üì¶ Importation des biblioth√®ques  
import pandas as pd  
import numpy as np  
import matplotlib.pyplot as plt  
import pickle  
from sklearn.feature_extraction.text import TfidfVectorizer  
from sklearn.neighbors import NearestNeighbors  
import os  
import warnings  
warnings.filterwarnings("ignore")  

In [3]:
# üìä Chargement des donn√©es pr√©par√©es  
print("Chargement des donn√©es pr√©par√©es...")  
try:  
    # Essayer de charger depuis le fichier pickle  
    with open('../data/processed/clean_dataset.pkl', 'rb') as f:  
        df = pickle.load(f)  
    print("Donn√©es charg√©es depuis le fichier pickle.")  
except:  
    # Sinon, charger depuis le CSV  
    df = pd.read_csv('../data/processed/clean_dataset.csv')  
    print("Donn√©es charg√©es depuis le fichier CSV.")  
  
print(f"Forme du dataset: {df.shape}")  
print("\nAper√ßu des donn√©es:")  
display(df.head())  

Chargement des donn√©es pr√©par√©es...
Donn√©es charg√©es depuis le fichier pickle.
Forme du dataset: (5000, 14)

Aper√ßu des donn√©es:


Unnamed: 0,Uniq Id,Product Id,Product Rating,Product Reviews Count,Clicked,View_Time_Sec,Product Name,Product Description,Product Tags,Product Category,Product Brand,Full_Text,Norm_View_Time,Rating
0,1705736792d82aa2f2d3caf1c07c53f4,2e17bf4acecdece67fc00f07ad62c910,4.21875,571.035565,0,0,"OPI Infinite Shine, Nail Lacquer Nail Polish, ...",,"OPI Infinite Shine, Nail Lacquer Nail Polish, ...",Premium Beauty > Premium Makeup > Premium Nail...,OPI,"opi infinite shine, nail lacquer nail polish,...",0.0,2.109375
1,95a9fe6f4810fcfc7ff244fd06784f11,076e5854a62dd283c253d6bae415af1f,3.966667,571.035565,1,147,"Nice n Easy Permanent Color, 111 Natural Mediu...",Pack of 3 Pack of 3 for the UPC: 381519000201 ...,"Nice 'n Easy Permanent Color, 111 Natural Medi...",Beauty > Hair Care > Hair Color > Auburn Hair ...,Nice'n Easy,pack of 3 pack of 3 for the upc: 381519000201 ...,0.816667,4.3
2,8d4d0330178d3ed181b15a4102b287f2,8a4fe5d9c7a6ed26cc44d785a454b124,4.5,29221.0,0,0,Clairol Nice N Easy Permanent Color 7/106A Nat...,This Clairol Nice N Easy Permanent Color gives...,Clairol Nice 'N Easy Permanent Color 7/106A Na...,Beauty > Hair Care > Hair Color > Permanent Ha...,Clairol,this clairol nice n easy permanent color gives...,0.0,2.25
3,fddc4df45b35efd886794b261f730c51,03b5fb878a33eadff8b033419eab9669,4.024138,571.035565,0,0,"Kokie Professional Matte Lipstick, Hot Berry, ...",Calling all matte lip lovers! Indulge in our r...,"Kokie Professional Matte Lipstick, Hot Berry, ...",Beauty > Makeup > Lip,Kokie Cosmetics,calling all matte lip lovers! indulge in our r...,0.0,2.012069
4,0990cf89a59ca6a0460349a3e4f51d42,ce3d761e57d6ccad80619297b5b1bcbc,5.0,131.0,1,177,"Gillette TRAC II Plus Razor Blade Refills, Fit...","In 1971, Gillette introduced the Trac II razor...","Gillette TRAC II Plus Razor Blade Refills, Fit...",Seasonal > Stock Up Essentials > Personal Care...,Gillette,"in 1971, gillette introduced the trac ii razor...",0.983333,4.983333


In [5]:
  
# üìä Pr√©paration des donn√©es pour le filtrage bas√© sur le contenu  
print("\nüìä Pr√©paration des donn√©es pour le filtrage bas√© sur le contenu (TF-IDF + KNN)...")  
  
# Cr√©ation d'un DataFrame avec des produits uniques  
products_df = df.drop_duplicates('Product Id')  
print(f"Nombre de produits uniques: {products_df['Product Id'].nunique()}")  


üìä Pr√©paration des donn√©es pour le filtrage bas√© sur le contenu (TF-IDF + KNN)...
Nombre de produits uniques: 4802


In [7]:
  
# üîß Vectorisation TF-IDF  
print("\nüîß Vectorisation TF-IDF...")  
tfidf = TfidfVectorizer(  
    min_df=2,              # Ignorer les termes qui apparaissent dans moins de 2 documents  
    max_df=0.95,           # Ignorer les termes qui apparaissent dans plus de 95% des documents  
    max_features=5000,     # Limiter √† 5000 termes  
    stop_words='english',  # Supprimer les mots vides en anglais  
    ngram_range=(1, 2)     # Inclure les unigrammes et bigrammes  
)  


üîß Vectorisation TF-IDF...


In [9]:
  
# Cr√©ation de la matrice TF-IDF  
tfidf_matrix = tfidf.fit_transform(products_df['Full_Text'])  
print(f"Forme de la matrice TF-IDF: {tfidf_matrix.shape}")  
print(f"Nombre de caract√©ristiques: {len(tfidf.get_feature_names_out())}")  
  

Forme de la matrice TF-IDF: (4802, 5000)
Nombre de caract√©ristiques: 5000


In [11]:
  
# üîç Mod√®le KNN pour TF-IDF  
print("\nüîç Entra√Ænement du mod√®le KNN sur les vecteurs TF-IDF...")  
knn_model = NearestNeighbors(  
    n_neighbors=10,       # Nombre de voisins √† trouver  
    algorithm='auto',     # Choix automatique de l'algorithme  
    metric='cosine'       # Mesure de similarit√© cosinus  
)  
knn_model.fit(tfidf_matrix)  
print("Mod√®le KNN entra√Æn√© avec succ√®s.")  


üîç Entra√Ænement du mod√®le KNN sur les vecteurs TF-IDF...
Mod√®le KNN entra√Æn√© avec succ√®s.


In [13]:
  
# üîÆ Exemple de recommandation  
print("\nüîÆ Exemple de recommandation avec TF-IDF + KNN:")  
# S√©lectionner un produit al√©atoire  
sample_idx = np.random.randint(0, len(products_df))  
sample_product = products_df.iloc[sample_idx]  
print(f"Produit s√©lectionn√©: {sample_product['Product Name']}")  
print(f"Cat√©gorie: {sample_product['Product Category']}")  
  
# Trouver les produits similaires  
sample_vector = tfidf_matrix[sample_idx].reshape(1, -1)  
distances, indices = knn_model.kneighbors(sample_vector)  
  
print("\nProduits similaires:")  
for i, idx in enumerate(indices[0][1:6]):  # Ignorer le premier qui est le produit lui-m√™me  
    similar_product = products_df.iloc[idx]  
    print(f"{i+1}. {similar_product['Product Name']} (Similarit√©: {1-distances[0][i+1]:.4f})")  
    print(f"   Cat√©gorie: {similar_product['Product Category']}")  


üîÆ Exemple de recommandation avec TF-IDF + KNN:
Produit s√©lectionn√©: JM Products Isoplus Spritz, 10 oz
Cat√©gorie: Beauty > Here for Every Beauty > Hair Care & Hair Tools > Styling Products

Produits similaires:
1. Nairobi Sheer Spritz Curl, Hold & Shine Spray, 8 oz (Similarit√©: 0.3906)
   Cat√©gorie: Beauty > Here for Every Beauty > Hair Care & Hair Tools > Styling Products
2. Philosophy Pure Grace Body Spritz, 8 Ounce (Similarit√©: 0.3623)
   Cat√©gorie: Premium Beauty > Premium Bath & Body > Premium Deodorants & Antiperspirants
3. DIAMOND PRODUCTS White Rain Hair Spray, 7 oz (Similarit√©: 0.3287)
   Cat√©gorie: Beauty > Hair Care > Hair Styling Products > Hair Spray
4. John Frieda Frizz-Ease Moisture Barrier Firm-Hold Hair Spray 12 oz (Pack of 2) (Similarit√©: 0.3201)
   Cat√©gorie: Beauty > Hair Care > Hair Styling Products > Hair Spray
5. Natural Remedy Tea Tree Foaming Wrap/Set Lotion, 8.5 oz - (Pack of 4) (Similarit√©: 0.3154)
   Cat√©gorie: Personal Care > Bath & Body > B

In [15]:
# üìä √âvaluation  
print("\nüìä √âvaluation du mod√®le TF-IDF + KNN:")  
# Calcul de la pr√©cision de la cat√©gorie  
same_category_count = 0  
total_recommendations = 0  
  
# √âchantillonner 100 produits al√©atoires pour l'√©valuation  
sample_size = min(100, len(products_df))  
sample_indices = np.random.choice(len(products_df), sample_size, replace=False)  
  
for idx in sample_indices:  
    product = products_df.iloc[idx]  
    product_vector = tfidf_matrix[idx].reshape(1, -1)  
    distances, indices = knn_model.kneighbors(product_vector)  
      
    # V√©rifier si les 5 premiers produits recommand√©s sont de la m√™me cat√©gorie  
    for rec_idx in indices[0][1:6]:  
        recommended_product = products_df.iloc[rec_idx]  
        if recommended_product['Product Category'] == product['Product Category']:  
            same_category_count += 1  
        total_recommendations += 1  
  
category_precision = same_category_count / total_recommendations  
print(f"Pr√©cision de la cat√©gorie: {category_precision:.4f}") 


üìä √âvaluation du mod√®le TF-IDF + KNN:
Pr√©cision de la cat√©gorie: 0.3660


In [17]:
  
# Sauvegarde des r√©sultats pour l'√©valuation comparative  
results = {  
    'tfidf_knn': {  
        'category_precision': category_precision  
    }  
}  
  
# üíæ Sauvegarde du mod√®le et des r√©sultats  
print("\nüíæ Sauvegarde du mod√®le et des r√©sultats...")  
  
# Cr√©er les dossiers s'ils n'existent pas  
os.makedirs('../models/content_based', exist_ok=True)  
os.makedirs('../results', exist_ok=True)  
  
# Sauvegarde du vectoriseur TF-IDF  
with open('../models/content_based/tfidf_vectorizer.pkl', 'wb') as f:  
    pickle.dump(tfidf, f)  
print("Vectoriseur TF-IDF sauvegard√© dans '../models/content_based/tfidf_vectorizer.pkl'")  
  
# Sauvegarde du mod√®le KNN  
with open('../models/content_based/tfidf_knn_model.pkl', 'wb') as f:  
    pickle.dump(knn_model, f)  
print("Mod√®le KNN pour TF-IDF sauvegard√© dans '../models/content_based/tfidf_knn_model.pkl'")  
  
# Sauvegarde des r√©sultats  
with open('../results/tfidf_results.pkl', 'wb') as f:  
    pickle.dump(results, f)  
print("R√©sultats sauvegard√©s dans '../results/tfidf_results.pkl'")  
  
print("\n‚úÖ Filtrage bas√© sur le contenu (TF-IDF + KNN) termin√©!")


üíæ Sauvegarde du mod√®le et des r√©sultats...
Vectoriseur TF-IDF sauvegard√© dans '../models/content_based/tfidf_vectorizer.pkl'
Mod√®le KNN pour TF-IDF sauvegard√© dans '../models/content_based/tfidf_knn_model.pkl'
R√©sultats sauvegard√©s dans '../results/tfidf_results.pkl'

‚úÖ Filtrage bas√© sur le contenu (TF-IDF + KNN) termin√©!
