Partie 3 : Modélisation
========================

Objectifs
---------
- Implémenter un modèle de filtrage collaboratif (User-Based)
- Implémenter un modèle basé sur le contenu (Content-Based)
- Implémenter un modèle hybride (ML supervisé)
- Comparer les trois approches


In [None]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)


Chargement des Données
----------------------


In [None]:
DATA_PATH = "../data/"

users_df = pd.read_csv(DATA_PATH + 'users.csv')
products_df = pd.read_csv(DATA_PATH + 'products.csv')
interactions_df = pd.read_csv(DATA_PATH + 'interactions.csv')

# Conversion des dates
users_df['registration_date'] = pd.to_datetime(users_df['registration_date'])
products_df['added_date'] = pd.to_datetime(products_df['added_date'])
interactions_df['interaction_date'] = pd.to_datetime(interactions_df['interaction_date'])

print(f"Données chargées : {len(users_df)} users, {len(products_df)} products, {len(interactions_df)} interactions")


3.1 - Filtrage Collaboratif (User-Based)
------------------------------------------

Recommander les produits appréciés par des utilisateurs similaires.

Étapes :
1. Créer une matrice utilisateur-produit
2. Calculer la similarité entre utilisateurs
3. Prédire les scores pour les produits non vus
4. Recommander le top-K produits


In [None]:
# TODO : Créer la matrice utilisateur-produit

# Créer la matrice (utilisateurs en lignes, produits en colonnes)
user_item_matrix = # VOTRE CODE ICI (pivot_table)

print(f"Matrice user-item : {user_item_matrix.shape}")
print(f"Sparsité : {(user_item_matrix == 0).sum().sum() / user_item_matrix.size * 100:.2f}%")


In [None]:
# TODO : Calculer la similarité entre utilisateurs

# Utiliser cosine_similarity
user_similarity = # VOTRE CODE ICI

print(f"Matrice de similarité : {user_similarity.shape}")
print("Similarité calculée")


In [None]:
# TODO : Fonction de recommandation

def recommend_user_based(user_id, user_item_matrix, user_similarity, k_neighbors=10, n_recommendations=5):
    """
    Recommande des produits basés sur le filtrage collaboratif
    
    Args:
        user_id: ID de l'utilisateur
        user_item_matrix: Matrice utilisateur-produit
        user_similarity: Matrice de similarité
        k_neighbors: Nombre de voisins à considérer
        n_recommendations: Nombre de recommandations
    
    Returns:
        Liste des product_ids recommandés
    """
    # VOTRE CODE ICI
    pass

# Test
test_user = users_df['user_id'].iloc[0]
recommendations_cf = recommend_user_based(test_user, user_item_matrix, user_similarity)
print(f"Recommandations pour l'utilisateur {test_user} :")
print(recommendations_cf)


3.2 - Filtrage par Contenu (Content-Based)
--------------------------------------------

Recommander des produits similaires à ceux déjà appréciés.

Étapes :
1. Créer des embeddings de produits (TF-IDF)
2. Calculer la similarité entre produits
3. Recommander des produits similaires


In [None]:
# TODO : Créer un corpus textuel pour chaque produit

# Combiner nom, description, catégorie
products_df['content'] = # VOTRE CODE ICI

# Créer les embeddings TF-IDF
tfidf = TfidfVectorizer(max_features=200, stop_words='english')
product_vectors = # VOTRE CODE ICI

print(f"Vecteurs TF-IDF : {product_vectors.shape}")


In [None]:
# TODO : Calculer la similarité entre produits

product_similarity = # VOTRE CODE ICI

print(f"Matrice de similarité produits : {product_similarity.shape}")
print("Similarité calculée")


In [None]:
# TODO : Fonction de recommandation content-based

def recommend_content_based(user_id, interactions_df, products_df, product_similarity, n_recommendations=5):
    """
    Recommande des produits basés sur le contenu
    
    Args:
        user_id: ID de l'utilisateur
        interactions_df: DataFrame des interactions
        products_df: DataFrame des produits
        product_similarity: Matrice de similarité
        n_recommendations: Nombre de recommandations
    
    Returns:
        Liste des product_ids recommandés
    """
    # VOTRE CODE ICI
    pass

# Test
recommendations_content = recommend_content_based(test_user, interactions_df, products_df, product_similarity)
print(f"Recommandations content-based pour l'utilisateur {test_user} :")
print(recommendations_content)


3.3 - Modèle Hybride (ML Supervisé)
-------------------------------------

Combiner features utilisateurs et produits dans un modèle supervisé.

Étapes :
1. Créer un dataset d'entraînement (user + product + target)
2. Entraîner un modèle (RandomForest)
3. Prédire les probabilités d'interaction


In [None]:
# TODO : Créer le dataset d'entraînement

# Charger les features si elles ont été sauvegardées
# Sinon, les recréer ici

# Créer la cible : 1 si interaction positive, 0 sinon
# VOTRE CODE ICI

# Split temporel (80% train, 20% test)
# VOTRE CODE ICI

print("Dataset créé")
print(f"Train : {X_train.shape}")
print(f"Test : {X_test.shape}")


In [None]:
# TODO : Entraîner le modèle

model_rf = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
# VOTRE CODE ICI pour fit

# Évaluation
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

y_pred = # VOTRE CODE ICI

print("Performance du modèle :")
print(f"Accuracy : {accuracy_score(y_test, y_pred):.3f}")
print(f"Precision : {precision_score(y_test, y_pred):.3f}")
print(f"Recall : {recall_score(y_test, y_pred):.3f}")
print(f"F1-Score : {f1_score(y_test, y_pred):.3f}")


In [None]:
# TODO : Feature Importance

feature_importance = pd.DataFrame({
    'feature': feature_cols,
    'importance': model_rf.feature_importances_
}).sort_values('importance', ascending=False)

print("Top 10 Features :")
print(feature_importance.head(10))

# Visualisation
plt.figure(figsize=(10, 6))
feature_importance.head(15).plot(x='feature', y='importance', kind='barh')
plt.xlabel('Importance')
plt.title('Feature Importance')
plt.tight_layout()
plt.show()


Prochaines Étapes
-----------------

Passez au notebook 04_Evaluation_starter.ipynb pour évaluer et comparer les trois modèles avec des métriques adaptées.
