In [3]:
"""
=====================================================================
NOTEBOOK 2 : PREPROCESSING AVANCÉ ET FEATURE ENGINEERING
Projet : Système de Recommandation MovieLens sur Amazon SageMaker
Auteur : Gninninmaguignon Silué
Date : Octobre 2025
=====================================================================
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split
import json
import os
from datetime import datetime

print("=" * 70)
print("PREPROCESSING AVANCÉ ET FEATURE ENGINEERING")
print("=" * 70)

# ============================================
# PARTIE 1 : CHARGEMENT DES DONNÉES
# ============================================

print("\nCHARGEMENT DES DONNÉES FUSIONNÉES")
print("-" * 70)

# Charger le dataset complet créé précédemment
data = pd.read_csv("../data/processed/movielens_complete.csv")
movies = pd.read_csv("../data/processed/movies_metadata.csv")
users = pd.read_csv("../data/processed/users_metadata.csv")

print(f"Dataset chargé : {data.shape}")
print(f"   - {data.shape[0]:,} interactions")
print(f"   - {data.shape[1]} colonnes")

# ============================================
# PARTIE 2 : FEATURE ENGINEERING - UTILISATEURS
# ============================================

print("\n" + "=" * 70)
print("FEATURE ENGINEERING - PROFIL UTILISATEUR")
print("=" * 70)

# 2.1 : Encodage du genre
print("\n🔹 Encodage du genre (One-Hot)")
data['gender_M'] = (data['gender'] == 'M').astype(int)
data['gender_F'] = (data['gender'] == 'F').astype(int)
print("Colonnes créées : gender_M, gender_F")

# 2.2 : Normalisation de l'âge
print("\n Normalisation de l'âge")
scaler_age = MinMaxScaler()
data['age_normalized'] = scaler_age.fit_transform(data[['age']])
print(f"Âge normalisé entre 0 et 1")
print(f"   Age min: {data['age'].min()} → {data['age_normalized'].min():.2f}")
print(f"   Age max: {data['age'].max()} → {data['age_normalized'].max():.2f}")

# 2.3 : Catégories d'âge
print("\n🔹 Création de catégories d'âge")
data['age_group'] = pd.cut(data['age'], 
                            bins=[0, 18, 25, 35, 50, 100],
                            labels=['<18', '18-25', '26-35', '36-50', '50+'])
print(" Catégories créées : <18, 18-25, 26-35, 36-50, 50+")
print(data['age_group'].value_counts().sort_index())

# 2.4 : Encodage de la profession
print("\n🔹 Encodage de la profession (Label Encoding)")
le_occupation = LabelEncoder()
data['occupation_encoded'] = le_occupation.fit_transform(data['occupation'])
print(f" {len(le_occupation.classes_)} professions encodées")

# 2.5 : Statistiques utilisateur (activité)
print("\n🔹 Calcul de l'activité utilisateur")
user_stats = data.groupby('user_id').agg({
    'rating': ['count', 'mean', 'std'],
    'item_id': 'nunique'
}).reset_index()
user_stats.columns = ['user_id', 'user_rating_count', 'user_avg_rating', 
                      'user_rating_std', 'user_unique_items']

# Gérer les NaN dans std (utilisateurs avec 1 seul rating)
user_stats['user_rating_std'].fillna(0, inplace=True)

data = data.merge(user_stats, on='user_id', how='left')
print(" Features créées :")
print("   - user_rating_count : nombre total de ratings")
print("   - user_avg_rating : rating moyen de l'utilisateur")
print("   - user_rating_std : écart-type des ratings")
print("   - user_unique_items : nombre de films différents notés")

# ============================================
# PARTIE 3 : FEATURE ENGINEERING - FILMS
# ============================================

print("\n" + "=" * 70)
print(" FEATURE ENGINEERING - PROFIL FILM")
print("=" * 70)

# 3.1 : Nombre de genres par film
print("\n🔹 Calcul du nombre de genres par film")
genre_cols = ['Action', 'Adventure', 'Animation', 'Children', 'Comedy',
              'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir',
              'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi',
              'Thriller', 'War', 'Western']
data['num_genres'] = data[genre_cols].sum(axis=1)
print(f" Moyenne de genres par film : {data['num_genres'].mean():.2f}")

# 3.2 : Statistiques film (popularité et qualité)
print("\n🔹 Calcul de la popularité et qualité des films")
item_stats = data.groupby('item_id').agg({
    'rating': ['count', 'mean', 'std'],
    'user_id': 'nunique'
}).reset_index()
item_stats.columns = ['item_id', 'item_rating_count', 'item_avg_rating',
                      'item_rating_std', 'item_unique_users']

# Gérer les NaN
item_stats['item_rating_std'].fillna(0, inplace=True)

data = data.merge(item_stats, on='item_id', how='left')
print(" Features créées :")
print("   - item_rating_count : nombre total de ratings reçus")
print("   - item_avg_rating : rating moyen du film")
print("   - item_rating_std : écart-type (controverse)")
print("   - item_unique_users : nombre d'utilisateurs ayant noté")

# 3.3 : Popularité relative (log-transform pour réduire skewness)
print("\n🔹 Transformation log de la popularité")
data['item_popularity_log'] = np.log1p(data['item_rating_count'])
print(" item_popularity_log créée (échelle logarithmique)")

# ============================================
# PARTIE 4 : FEATURES TEMPORELLES
# ============================================

print("\n" + "=" * 70)
print(" FEATURE ENGINEERING - TEMPOREL")
print("=" * 70)

# 4.1 : Conversion du timestamp
print("\n🔹 Conversion des timestamps")
data['datetime'] = pd.to_datetime(data['timestamp'], unit='s')
data['year'] = data['datetime'].dt.year
data['month'] = data['datetime'].dt.month
data['day_of_week'] = data['datetime'].dt.dayofweek
data['hour'] = data['datetime'].dt.hour

print(" Features temporelles créées :")
print(f"   - Période des données : {data['datetime'].min()} à {data['datetime'].max()}")
print(f"   - Années : {data['year'].min()} - {data['year'].max()}")

# 4.2 : Période de la journée
print("\n Catégorisation de la période de la journée")
def get_time_of_day(hour):
    if 6 <= hour < 12:
        return 'morning'
    elif 12 <= hour < 18:
        return 'afternoon'
    elif 18 <= hour < 22:
        return 'evening'
    else:
        return 'night'

data['time_of_day'] = data['hour'].apply(get_time_of_day)
print(" Périodes : morning, afternoon, evening, night")
print(data['time_of_day'].value_counts())

# ============================================
# PARTIE 5 : FEATURES D'INTERACTION
# ============================================

print("\n" + "=" * 70)
print(" FEATURES D'INTERACTION")
print("=" * 70)

# 5.1 : Différence par rapport à la moyenne utilisateur
print("\n Écart par rapport à la moyenne utilisateur")
data['rating_diff_user_avg'] = data['rating'] - data['user_avg_rating']
print(" rating_diff_user_avg créée")

# 5.2 : Différence par rapport à la moyenne du film
print("\n Écart par rapport à la moyenne du film")
data['rating_diff_item_avg'] = data['rating'] - data['item_avg_rating']
print(" rating_diff_item_avg créée")

# 5.3 : Genre matching (similarité utilisateur-film)
# Calculer les préférences de genre par utilisateur
print("\n Calcul des préférences de genre par utilisateur")
user_genre_prefs = data.groupby('user_id')[genre_cols].mean()
user_genre_prefs.columns = [f'user_pref_{col}' for col in genre_cols]
data = data.merge(user_genre_prefs, left_on='user_id', right_index=True, how='left')

# Score de match genre
print("\n Calcul du score de match genre")
genre_match_scores = []
for idx, row in data.iterrows():
    score = sum([row[genre] * row[f'user_pref_{genre}'] for genre in genre_cols])
    genre_match_scores.append(score)
data['genre_match_score'] = genre_match_scores
print(" genre_match_score créée (similarité utilisateur-film)")

# ============================================
# PARTIE 6 : ENCODAGE DES IDs
# ============================================

print("\n" + "=" * 70)
print(" ENCODAGE DES IDENTIFIANTS")
print("=" * 70)

print("\n Encodage des user_id et item_id")
user_encoder = LabelEncoder()
item_encoder = LabelEncoder()

data['user'] = user_encoder.fit_transform(data['user_id'])
data['item'] = item_encoder.fit_transform(data['item_id'])

print(f" Utilisateurs encodés : 0 à {data['user'].max()}")
print(f" Films encodés : 0 à {data['item'].max()}")

# Sauvegarder les encoders
import pickle
os.makedirs('../models/encoders', exist_ok=True)
with open('../models/encoders/user_encoder.pkl', 'wb') as f:
    pickle.dump(user_encoder, f)
with open('models/encoders/item_encoder.pkl', 'wb') as f:
    pickle.dump(item_encoder, f)
print("Encoders sauvegardés dans models/encoders/")

# ============================================
# PARTIE 7 : SÉLECTION DES FEATURES FINALES
# ============================================

print("\n" + "=" * 70)
print(" SÉLECTION DES FEATURES POUR LE MODÈLE")
print("=" * 70)

# Features pour le modèle
feature_columns = [
    # IDs encodés
    'user', 'item',

    # Features utilisateur
    'age_normalized', 'gender_M', 'gender_F', 'occupation_encoded',
    'user_rating_count', 'user_avg_rating', 'user_rating_std',

    # Features film
    'num_genres', 'item_rating_count', 'item_avg_rating', 
    'item_rating_std', 'item_popularity_log',

    # Features temporelles
    'year', 'month', 'day_of_week', 'hour',
    
    # Features d'interaction
    'genre_match_score', 'rating_diff_user_avg', 'rating_diff_item_avg'
]

# Features de genre (optionnel, à activer si besoin)
# feature_columns += genre_cols

print(f" {len(feature_columns)} features sélectionnées :")
for i, feat in enumerate(feature_columns, 1):
    print(f"   {i:2d}. {feat}")

# ============================================
# PARTIE 8 : TRAIN/TEST SPLIT
# ============================================

print("\n" + "=" * 70)
print(" SÉPARATION TRAIN / TEST")
print("=" * 70)

# Stratégie : split temporel (plus réaliste pour les systèmes de recommandation)
print("\n🔹 Stratégie : Split temporel (80/20)")
data_sorted = data.sort_values('timestamp')
split_idx = int(len(data_sorted) * 0.8)

train_data = data_sorted.iloc[:split_idx].copy()
test_data = data_sorted.iloc[split_idx:].copy()

print(f" Train : {len(train_data):,} samples ({len(train_data)/len(data)*100:.1f}%)")
print(f" Test  : {len(test_data):,} samples ({len(test_data)/len(data)*100:.1f}%)")

# Vérification de la distribution
print(f"\n Distribution des ratings :")
print(f"   Train - Moyenne : {train_data['rating'].mean():.3f}, Std : {train_data['rating'].std():.3f}")
print(f"   Test  - Moyenne : {test_data['rating'].mean():.3f}, Std : {test_data['rating'].std():.3f}")

# ============================================
# PARTIE 9 : NORMALISATION DES FEATURES
# ============================================

print("\n" + "=" * 70)
print(" NORMALISATION DES FEATURES NUMÉRIQUES")
print("=" * 70)

# Features à normaliser (exclure les IDs et features déjà normalisées)
features_to_scale = [
    'user_rating_count', 'user_rating_std',
    'item_rating_count', 'item_rating_std', 'item_popularity_log',
    'genre_match_score', 'rating_diff_user_avg', 'rating_diff_item_avg'
]

print(f"\n🔹 Normalisation de {len(features_to_scale)} features numériques")
scaler = StandardScaler()

# Fit sur le train uniquement
train_data[features_to_scale] = scaler.fit_transform(train_data[features_to_scale])
test_data[features_to_scale] = scaler.transform(test_data[features_to_scale])

print("Normalisation appliquée (moyenne=0, std=1)")

# Sauvegarder le scaler
with open('models/encoders/feature_scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)
print("Scaler sauvegardé")

# ============================================
# PARTIE 10 : SAUVEGARDE DES DONNÉES
# ============================================

print("\n" + "=" * 70)
print("SAUVEGARDE DES DONNÉES PRÉPARÉES")
print("=" * 70)

# Sauvegarder train/test
train_data.to_csv("../data/processed/train_features.csv", index=False)
test_data.to_csv("../data/processed/test_features.csv", index=False)
print("Fichiers sauvegardés :")
print("   - data/processed/train_features.csv")
print("   - data/processed/test_features.csv")

# Sauvegarder uniquement les colonnes nécessaires (léger)
train_compact = train_data[feature_columns + ['rating']]
test_compact = test_data[feature_columns + ['rating']]

train_compact.to_csv("../data/processed/train_compact.csv", index=False)
test_compact.to_csv("../data/processed/test_compact.csv", index=False)
print("Versions compactes sauvegardées")

# ============================================
# PARTIE 11 : VISUALISATION DES FEATURES
# ============================================

print("\n" + "=" * 70)
print("VISUALISATION DES FEATURES")
print("=" * 70)

fig, axes = plt.subplots(2, 3, figsize=(15, 10))
fig.suptitle('Distribution des Features Principales', fontsize=16, fontweight='bold')

# 1. User rating count
axes[0, 0].hist(train_data['user_rating_count'], bins=50, color='steelblue', edgecolor='black')
axes[0, 0].set_title('Activité Utilisateur')
axes[0, 0].set_xlabel('Nombre de ratings')
axes[0, 0].set_ylabel('Fréquence')

# 2. Item popularity
axes[0, 1].hist(train_data['item_popularity_log'], bins=50, color='coral', edgecolor='black')
axes[0, 1].set_title('Popularité des Films (log)')
axes[0, 1].set_xlabel('Log(nombre de ratings)')
axes[0, 1].set_ylabel('Fréquence')

# 3. Age distribution
axes[0, 2].hist(train_data['age'], bins=30, color='mediumseagreen', edgecolor='black')
axes[0, 2].set_title('Distribution de l\'Âge')
axes[0, 2].set_xlabel('Âge')
axes[0, 2].set_ylabel('Fréquence')

# 4. Genre match score
axes[1, 0].hist(train_data['genre_match_score'], bins=50, color='mediumpurple', edgecolor='black')
axes[1, 0].set_title('Score de Match Genre')
axes[1, 0].set_xlabel('Score')
axes[1, 0].set_ylabel('Fréquence')

# 5. Time of day
time_counts = train_data['time_of_day'].value_counts()
axes[1, 1].bar(time_counts.index, time_counts.values, color=['#f39c12', '#e74c3c', '#9b59b6', '#34495e'])
axes[1, 1].set_title('Ratings par Période')
axes[1, 1].set_xlabel('Période de la journée')
axes[1, 1].set_ylabel('Nombre de ratings')

# 6. Correlation heatmap (top features)
top_features = ['rating', 'user_avg_rating', 'item_avg_rating', 
                'genre_match_score', 'item_popularity_log']
corr_matrix = train_data[top_features].corr()
sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            ax=axes[1, 2], cbar_kws={'shrink': 0.8})
axes[1, 2].set_title('Corrélations Features-Target')

plt.tight_layout()
plt.savefig('../outputs/plots/03_feature_engineering.png', dpi=150, bbox_inches='tight')
print("Graphique sauvegardé : outputs/plots/03_feature_engineering.png")
plt.close()

# ============================================
# PARTIE 12 : RAPPORT DE PREPROCESSING
# ============================================

print("\n" + "=" * 70)
print("GÉNÉRATION DU RAPPORT")
print("=" * 70)

report = {
    'date': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'dataset': {
        'total_samples': len(data),
        'train_samples': len(train_data),
        'test_samples': len(test_data),
        'n_users': int(data['user_id'].nunique()),
        'n_items': int(data['item_id'].nunique())
    },
    'features': {
        'total_features': len(feature_columns),
        'feature_list': feature_columns,
        'user_features': 7,
        'item_features': 5,
        'temporal_features': 4,
        'interaction_features': 3
    },
    'preprocessing': {
        'encoding': ['user_id', 'item_id', 'occupation'],
        'normalization': features_to_scale,
        'split_strategy': 'temporal',
        'train_ratio': 0.8
    },
    'statistics': {
        'train_rating_mean': float(train_data['rating'].mean()),
        'test_rating_mean': float(test_data['rating'].mean()),
        'sparsity': 93.70
    }
}

with open('../outputs/metrics/preprocessing_report.json', 'w') as f:
    json.dump(report, f, indent=2)
print("Rapport JSON sauvegardé : outputs/metrics/preprocessing_report.json")

# ============================================
# RÉSUMÉ FINAL
# ============================================

print("\n" + "=" * 70)
print("PREPROCESSING TERMINÉ AVEC SUCCÈS")
print("=" * 70)

print("\nRÉSUMÉ :")
print(f" {len(feature_columns)} features créées")
print(f" Train : {len(train_data):,} samples")
print(f" Test  : {len(test_data):,} samples")
print(f" Données normalisées et prêtes pour l'entraînement")

print("\nFEATURES CRÉÉES :")
print(" Utilisateur : profil démographique + activité")
print(" Film : popularité + qualité + genres")
print("  Temporel : year, month, day, hour, period")
print(" Interaction : genre matching + écarts moyennes")

print("\nPROCHAINE ÉTAPE : Entraînement du Modèle avec Métriques Avancées")
print("=" * 70)

⚙️ PREPROCESSING AVANCÉ ET FEATURE ENGINEERING

CHARGEMENT DES DONNÉES FUSIONNÉES
----------------------------------------------------------------------
Dataset chargé : (100000, 27)
   - 100,000 interactions
   - 27 colonnes

FEATURE ENGINEERING - PROFIL UTILISATEUR

🔹 Encodage du genre (One-Hot)
Colonnes créées : gender_M, gender_F

 Normalisation de l'âge
Âge normalisé entre 0 et 1
   Age min: 7 → 0.00
   Age max: 73 → 1.00

🔹 Création de catégories d'âge
 Catégories créées : <18, 18-25, 26-35, 36-50, 50+
age_group
<18       4710
18-25    25854
26-35    34794
36-50    25184
50+       9458
Name: count, dtype: int64

🔹 Encodage de la profession (Label Encoding)
 21 professions encodées

🔹 Calcul de l'activité utilisateur
 Features créées :
   - user_rating_count : nombre total de ratings
   - user_avg_rating : rating moyen de l'utilisateur
   - user_rating_std : écart-type des ratings
   - user_unique_items : nombre de films différents notés

 FEATURE ENGINEERING - PROFIL FILM

🔹 Calc