In [3]:
"""
=====================================================================
NOTEBOOK 2 : PREPROCESSING AVANC√â ET FEATURE ENGINEERING
Projet : Syst√®me de Recommandation MovieLens sur Amazon SageMaker
Auteur : Gninninmaguignon Silu√©
Date : Octobre 2025
=====================================================================
"""

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder, StandardScaler, MinMaxScaler
from sklearn.model_selection import train_test_split
import json
import os
from datetime import datetime

print("=" * 70)
print("PREPROCESSING AVANC√â ET FEATURE ENGINEERING")
print("=" * 70)

# ============================================
# PARTIE 1 : CHARGEMENT DES DONN√âES
# ============================================

print("\nCHARGEMENT DES DONN√âES FUSIONN√âES")
print("-" * 70)

# Charger le dataset complet cr√©√© pr√©c√©demment
data = pd.read_csv("../data/processed/movielens_complete.csv")
movies = pd.read_csv("../data/processed/movies_metadata.csv")
users = pd.read_csv("../data/processed/users_metadata.csv")

print(f"Dataset charg√© : {data.shape}")
print(f"   - {data.shape[0]:,} interactions")
print(f"   - {data.shape[1]} colonnes")

# ============================================
# PARTIE 2 : FEATURE ENGINEERING - UTILISATEURS
# ============================================

print("\n" + "=" * 70)
print("FEATURE ENGINEERING - PROFIL UTILISATEUR")
print("=" * 70)

# 2.1 : Encodage du genre
print("\nüîπ Encodage du genre (One-Hot)")
data['gender_M'] = (data['gender'] == 'M').astype(int)
data['gender_F'] = (data['gender'] == 'F').astype(int)
print("Colonnes cr√©√©es : gender_M, gender_F")

# 2.2 : Normalisation de l'√¢ge
print("\n Normalisation de l'√¢ge")
scaler_age = MinMaxScaler()
data['age_normalized'] = scaler_age.fit_transform(data[['age']])
print(f"√Çge normalis√© entre 0 et 1")
print(f"   Age min: {data['age'].min()} ‚Üí {data['age_normalized'].min():.2f}")
print(f"   Age max: {data['age'].max()} ‚Üí {data['age_normalized'].max():.2f}")

# 2.3 : Cat√©gories d'√¢ge
print("\nüîπ Cr√©ation de cat√©gories d'√¢ge")
data['age_group'] = pd.cut(data['age'], 
                            bins=[0, 18, 25, 35, 50, 100],
                            labels=['<18', '18-25', '26-35', '36-50', '50+'])
print(" Cat√©gories cr√©√©es : <18, 18-25, 26-35, 36-50, 50+")
print(data['age_group'].value_counts().sort_index())

# 2.4 : Encodage de la profession
print("\nüîπ Encodage de la profession (Label Encoding)")
le_occupation = LabelEncoder()
data['occupation_encoded'] = le_occupation.fit_transform(data['occupation'])
print(f" {len(le_occupation.classes_)} professions encod√©es")

# 2.5 : Statistiques utilisateur (activit√©)
print("\nüîπ Calcul de l'activit√© utilisateur")
user_stats = data.groupby('user_id').agg({
    'rating': ['count', 'mean', 'std'],
    'item_id': 'nunique'
}).reset_index()
user_stats.columns = ['user_id', 'user_rating_count', 'user_avg_rating', 
                      'user_rating_std', 'user_unique_items']

# G√©rer les NaN dans std (utilisateurs avec 1 seul rating)
user_stats['user_rating_std'].fillna(0, inplace=True)

data = data.merge(user_stats, on='user_id', how='left')
print(" Features cr√©√©es :")
print("   - user_rating_count : nombre total de ratings")
print("   - user_avg_rating : rating moyen de l'utilisateur")
print("   - user_rating_std : √©cart-type des ratings")
print("   - user_unique_items : nombre de films diff√©rents not√©s")

# ============================================
# PARTIE 3 : FEATURE ENGINEERING - FILMS
# ============================================

print("\n" + "=" * 70)
print(" FEATURE ENGINEERING - PROFIL FILM")
print("=" * 70)

# 3.1 : Nombre de genres par film
print("\nüîπ Calcul du nombre de genres par film")
genre_cols = ['Action', 'Adventure', 'Animation', 'Children', 'Comedy',
              'Crime', 'Documentary', 'Drama', 'Fantasy', 'Film-Noir',
              'Horror', 'Musical', 'Mystery', 'Romance', 'Sci-Fi',
              'Thriller', 'War', 'Western']
data['num_genres'] = data[genre_cols].sum(axis=1)
print(f" Moyenne de genres par film : {data['num_genres'].mean():.2f}")

# 3.2 : Statistiques film (popularit√© et qualit√©)
print("\nüîπ Calcul de la popularit√© et qualit√© des films")
item_stats = data.groupby('item_id').agg({
    'rating': ['count', 'mean', 'std'],
    'user_id': 'nunique'
}).reset_index()
item_stats.columns = ['item_id', 'item_rating_count', 'item_avg_rating',
                      'item_rating_std', 'item_unique_users']

# G√©rer les NaN
item_stats['item_rating_std'].fillna(0, inplace=True)

data = data.merge(item_stats, on='item_id', how='left')
print(" Features cr√©√©es :")
print("   - item_rating_count : nombre total de ratings re√ßus")
print("   - item_avg_rating : rating moyen du film")
print("   - item_rating_std : √©cart-type (controverse)")
print("   - item_unique_users : nombre d'utilisateurs ayant not√©")

# 3.3 : Popularit√© relative (log-transform pour r√©duire skewness)
print("\nüîπ Transformation log de la popularit√©")
data['item_popularity_log'] = np.log1p(data['item_rating_count'])
print(" item_popularity_log cr√©√©e (√©chelle logarithmique)")

# ============================================
# PARTIE 4 : FEATURES TEMPORELLES
# ============================================

print("\n" + "=" * 70)
print(" FEATURE ENGINEERING - TEMPOREL")
print("=" * 70)

# 4.1 : Conversion du timestamp
print("\nüîπ Conversion des timestamps")
data['datetime'] = pd.to_datetime(data['timestamp'], unit='s')
data['year'] = data['datetime'].dt.year
data['month'] = data['datetime'].dt.month
data['day_of_week'] = data['datetime'].dt.dayofweek
data['hour'] = data['datetime'].dt.hour

print(" Features temporelles cr√©√©es :")
print(f"   - P√©riode des donn√©es : {data['datetime'].min()} √† {data['datetime'].max()}")
print(f"   - Ann√©es : {data['year'].min()} - {data['year'].max()}")

# 4.2 : P√©riode de la journ√©e
print("\n Cat√©gorisation de la p√©riode de la journ√©e")
def get_time_of_day(hour):
    if 6 <= hour < 12:
        return 'morning'
    elif 12 <= hour < 18:
        return 'afternoon'
    elif 18 <= hour < 22:
        return 'evening'
    else:
        return 'night'

data['time_of_day'] = data['hour'].apply(get_time_of_day)
print(" P√©riodes : morning, afternoon, evening, night")
print(data['time_of_day'].value_counts())

# ============================================
# PARTIE 5 : FEATURES D'INTERACTION
# ============================================

print("\n" + "=" * 70)
print(" FEATURES D'INTERACTION")
print("=" * 70)

# 5.1 : Diff√©rence par rapport √† la moyenne utilisateur
print("\n √âcart par rapport √† la moyenne utilisateur")
data['rating_diff_user_avg'] = data['rating'] - data['user_avg_rating']
print(" rating_diff_user_avg cr√©√©e")

# 5.2 : Diff√©rence par rapport √† la moyenne du film
print("\n √âcart par rapport √† la moyenne du film")
data['rating_diff_item_avg'] = data['rating'] - data['item_avg_rating']
print(" rating_diff_item_avg cr√©√©e")

# 5.3 : Genre matching (similarit√© utilisateur-film)
# Calculer les pr√©f√©rences de genre par utilisateur
print("\n Calcul des pr√©f√©rences de genre par utilisateur")
user_genre_prefs = data.groupby('user_id')[genre_cols].mean()
user_genre_prefs.columns = [f'user_pref_{col}' for col in genre_cols]
data = data.merge(user_genre_prefs, left_on='user_id', right_index=True, how='left')

# Score de match genre
print("\n Calcul du score de match genre")
genre_match_scores = []
for idx, row in data.iterrows():
    score = sum([row[genre] * row[f'user_pref_{genre}'] for genre in genre_cols])
    genre_match_scores.append(score)
data['genre_match_score'] = genre_match_scores
print(" genre_match_score cr√©√©e (similarit√© utilisateur-film)")

# ============================================
# PARTIE 6 : ENCODAGE DES IDs
# ============================================

print("\n" + "=" * 70)
print(" ENCODAGE DES IDENTIFIANTS")
print("=" * 70)

print("\n Encodage des user_id et item_id")
user_encoder = LabelEncoder()
item_encoder = LabelEncoder()

data['user'] = user_encoder.fit_transform(data['user_id'])
data['item'] = item_encoder.fit_transform(data['item_id'])

print(f" Utilisateurs encod√©s : 0 √† {data['user'].max()}")
print(f" Films encod√©s : 0 √† {data['item'].max()}")

# Sauvegarder les encoders
import pickle
os.makedirs('../models/encoders', exist_ok=True)
with open('../models/encoders/user_encoder.pkl', 'wb') as f:
    pickle.dump(user_encoder, f)
with open('models/encoders/item_encoder.pkl', 'wb') as f:
    pickle.dump(item_encoder, f)
print("Encoders sauvegard√©s dans models/encoders/")

# ============================================
# PARTIE 7 : S√âLECTION DES FEATURES FINALES
# ============================================

print("\n" + "=" * 70)
print(" S√âLECTION DES FEATURES POUR LE MOD√àLE")
print("=" * 70)

# Features pour le mod√®le
feature_columns = [
    # IDs encod√©s
    'user', 'item',

    # Features utilisateur
    'age_normalized', 'gender_M', 'gender_F', 'occupation_encoded',
    'user_rating_count', 'user_avg_rating', 'user_rating_std',

    # Features film
    'num_genres', 'item_rating_count', 'item_avg_rating', 
    'item_rating_std', 'item_popularity_log',

    # Features temporelles
    'year', 'month', 'day_of_week', 'hour',
    
    # Features d'interaction
    'genre_match_score', 'rating_diff_user_avg', 'rating_diff_item_avg'
]

# Features de genre (optionnel, √† activer si besoin)
# feature_columns += genre_cols

print(f" {len(feature_columns)} features s√©lectionn√©es :")
for i, feat in enumerate(feature_columns, 1):
    print(f"   {i:2d}. {feat}")

# ============================================
# PARTIE 8 : TRAIN/TEST SPLIT
# ============================================

print("\n" + "=" * 70)
print(" S√âPARATION TRAIN / TEST")
print("=" * 70)

# Strat√©gie : split temporel (plus r√©aliste pour les syst√®mes de recommandation)
print("\nüîπ Strat√©gie : Split temporel (80/20)")
data_sorted = data.sort_values('timestamp')
split_idx = int(len(data_sorted) * 0.8)

train_data = data_sorted.iloc[:split_idx].copy()
test_data = data_sorted.iloc[split_idx:].copy()

print(f" Train : {len(train_data):,} samples ({len(train_data)/len(data)*100:.1f}%)")
print(f" Test  : {len(test_data):,} samples ({len(test_data)/len(data)*100:.1f}%)")

# V√©rification de la distribution
print(f"\n Distribution des ratings :")
print(f"   Train - Moyenne : {train_data['rating'].mean():.3f}, Std : {train_data['rating'].std():.3f}")
print(f"   Test  - Moyenne : {test_data['rating'].mean():.3f}, Std : {test_data['rating'].std():.3f}")

# ============================================
# PARTIE 9 : NORMALISATION DES FEATURES
# ============================================

print("\n" + "=" * 70)
print(" NORMALISATION DES FEATURES NUM√âRIQUES")
print("=" * 70)

# Features √† normaliser (exclure les IDs et features d√©j√† normalis√©es)
features_to_scale = [
    'user_rating_count', 'user_rating_std',
    'item_rating_count', 'item_rating_std', 'item_popularity_log',
    'genre_match_score', 'rating_diff_user_avg', 'rating_diff_item_avg'
]

print(f"\nüîπ Normalisation de {len(features_to_scale)} features num√©riques")
scaler = StandardScaler()

# Fit sur le train uniquement
train_data[features_to_scale] = scaler.fit_transform(train_data[features_to_scale])
test_data[features_to_scale] = scaler.transform(test_data[features_to_scale])

print("Normalisation appliqu√©e (moyenne=0, std=1)")

# Sauvegarder le scaler
with open('models/encoders/feature_scaler.pkl', 'wb') as f:
    pickle.dump(scaler, f)
print("Scaler sauvegard√©")

# ============================================
# PARTIE 10 : SAUVEGARDE DES DONN√âES
# ============================================

print("\n" + "=" * 70)
print("SAUVEGARDE DES DONN√âES PR√âPAR√âES")
print("=" * 70)

# Sauvegarder train/test
train_data.to_csv("../data/processed/train_features.csv", index=False)
test_data.to_csv("../data/processed/test_features.csv", index=False)
print("Fichiers sauvegard√©s :")
print("   - data/processed/train_features.csv")
print("   - data/processed/test_features.csv")

# Sauvegarder uniquement les colonnes n√©cessaires (l√©ger)
train_compact = train_data[feature_columns + ['rating']]
test_compact = test_data[feature_columns + ['rating']]

train_compact.to_csv("../data/processed/train_compact.csv", index=False)
test_compact.to_csv("../data/processed/test_compact.csv", index=False)
print("Versions compactes sauvegard√©es")

# ============================================
# PARTIE 11 : VISUALISATION DES FEATURES
# ============================================

print("\n" + "=" * 70)
print("VISUALISATION DES FEATURES")
print("=" * 70)

fig, axes = plt.subplots(2, 3, figsize=(15, 10))
fig.suptitle('Distribution des Features Principales', fontsize=16, fontweight='bold')

# 1. User rating count
axes[0, 0].hist(train_data['user_rating_count'], bins=50, color='steelblue', edgecolor='black')
axes[0, 0].set_title('Activit√© Utilisateur')
axes[0, 0].set_xlabel('Nombre de ratings')
axes[0, 0].set_ylabel('Fr√©quence')

# 2. Item popularity
axes[0, 1].hist(train_data['item_popularity_log'], bins=50, color='coral', edgecolor='black')
axes[0, 1].set_title('Popularit√© des Films (log)')
axes[0, 1].set_xlabel('Log(nombre de ratings)')
axes[0, 1].set_ylabel('Fr√©quence')

# 3. Age distribution
axes[0, 2].hist(train_data['age'], bins=30, color='mediumseagreen', edgecolor='black')
axes[0, 2].set_title('Distribution de l\'√Çge')
axes[0, 2].set_xlabel('√Çge')
axes[0, 2].set_ylabel('Fr√©quence')

# 4. Genre match score
axes[1, 0].hist(train_data['genre_match_score'], bins=50, color='mediumpurple', edgecolor='black')
axes[1, 0].set_title('Score de Match Genre')
axes[1, 0].set_xlabel('Score')
axes[1, 0].set_ylabel('Fr√©quence')

# 5. Time of day
time_counts = train_data['time_of_day'].value_counts()
axes[1, 1].bar(time_counts.index, time_counts.values, color=['#f39c12', '#e74c3c', '#9b59b6', '#34495e'])
axes[1, 1].set_title('Ratings par P√©riode')
axes[1, 1].set_xlabel('P√©riode de la journ√©e')
axes[1, 1].set_ylabel('Nombre de ratings')

# 6. Correlation heatmap (top features)
top_features = ['rating', 'user_avg_rating', 'item_avg_rating', 
                'genre_match_score', 'item_popularity_log']
corr_matrix = train_data[top_features].corr()
sns.heatmap(corr_matrix, annot=True, fmt='.2f', cmap='coolwarm', 
            ax=axes[1, 2], cbar_kws={'shrink': 0.8})
axes[1, 2].set_title('Corr√©lations Features-Target')

plt.tight_layout()
plt.savefig('../outputs/plots/03_feature_engineering.png', dpi=150, bbox_inches='tight')
print("Graphique sauvegard√© : outputs/plots/03_feature_engineering.png")
plt.close()

# ============================================
# PARTIE 12 : RAPPORT DE PREPROCESSING
# ============================================

print("\n" + "=" * 70)
print("G√âN√âRATION DU RAPPORT")
print("=" * 70)

report = {
    'date': datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'dataset': {
        'total_samples': len(data),
        'train_samples': len(train_data),
        'test_samples': len(test_data),
        'n_users': int(data['user_id'].nunique()),
        'n_items': int(data['item_id'].nunique())
    },
    'features': {
        'total_features': len(feature_columns),
        'feature_list': feature_columns,
        'user_features': 7,
        'item_features': 5,
        'temporal_features': 4,
        'interaction_features': 3
    },
    'preprocessing': {
        'encoding': ['user_id', 'item_id', 'occupation'],
        'normalization': features_to_scale,
        'split_strategy': 'temporal',
        'train_ratio': 0.8
    },
    'statistics': {
        'train_rating_mean': float(train_data['rating'].mean()),
        'test_rating_mean': float(test_data['rating'].mean()),
        'sparsity': 93.70
    }
}

with open('../outputs/metrics/preprocessing_report.json', 'w') as f:
    json.dump(report, f, indent=2)
print("Rapport JSON sauvegard√© : outputs/metrics/preprocessing_report.json")

# ============================================
# R√âSUM√â FINAL
# ============================================

print("\n" + "=" * 70)
print("PREPROCESSING TERMIN√â AVEC SUCC√àS")
print("=" * 70)

print("\nR√âSUM√â :")
print(f" {len(feature_columns)} features cr√©√©es")
print(f" Train : {len(train_data):,} samples")
print(f" Test  : {len(test_data):,} samples")
print(f" Donn√©es normalis√©es et pr√™tes pour l'entra√Ænement")

print("\nFEATURES CR√â√âES :")
print(" Utilisateur : profil d√©mographique + activit√©")
print(" Film : popularit√© + qualit√© + genres")
print("  Temporel : year, month, day, hour, period")
print(" Interaction : genre matching + √©carts moyennes")

print("\nPROCHAINE √âTAPE : Entra√Ænement du Mod√®le avec M√©triques Avanc√©es")
print("=" * 70)

‚öôÔ∏è PREPROCESSING AVANC√â ET FEATURE ENGINEERING

CHARGEMENT DES DONN√âES FUSIONN√âES
----------------------------------------------------------------------
Dataset charg√© : (100000, 27)
   - 100,000 interactions
   - 27 colonnes

FEATURE ENGINEERING - PROFIL UTILISATEUR

üîπ Encodage du genre (One-Hot)
Colonnes cr√©√©es : gender_M, gender_F

 Normalisation de l'√¢ge
√Çge normalis√© entre 0 et 1
   Age min: 7 ‚Üí 0.00
   Age max: 73 ‚Üí 1.00

üîπ Cr√©ation de cat√©gories d'√¢ge
 Cat√©gories cr√©√©es : <18, 18-25, 26-35, 36-50, 50+
age_group
<18       4710
18-25    25854
26-35    34794
36-50    25184
50+       9458
Name: count, dtype: int64

üîπ Encodage de la profession (Label Encoding)
 21 professions encod√©es

üîπ Calcul de l'activit√© utilisateur
 Features cr√©√©es :
   - user_rating_count : nombre total de ratings
   - user_avg_rating : rating moyen de l'utilisateur
   - user_rating_std : √©cart-type des ratings
   - user_unique_items : nombre de films diff√©rents not√©s

