# üîß Pr√©traitement des Donn√©es (Preprocessing)
## Music Recommendation System - MCRec-30M Dataset

---

### üìå R√¥le de ce Notebook

Ce notebook constitue la **deuxi√®me √©tape essentielle** du projet. Son objectif est de **nettoyer, transformer et pr√©parer** les donn√©es pour la mod√©lisation en s'appuyant sur les insights de l'EDA. Il permet de :

- üßπ **Nettoyer** les donn√©es (valeurs manquantes, doublons, anomalies)
- üîÑ **Transformer** les features (normalisation, encodage, feature engineering)
- ‚úÇÔ∏è **Filtrer** les utilisateurs et chansons avec peu d'interactions (cold start)
- üìä **Cr√©er** de nouvelles features pertinentes pour la recommandation
- üéØ **Diviser** les donn√©es en ensembles train/test de mani√®re temporelle
- üíæ **Sauvegarder** les donn√©es pr√©trait√©es pour la mod√©lisation

Cette √©tape garantit que les mod√®les de recommandation seront entra√Æn√©s sur des donn√©es de **haute qualit√©**.

---

**üì• Entr√©e** : `data/raw/personalized_music_recommendation_dataset.csv`  
**üì§ Sortie** : Donn√©es pr√©trait√©es dans `data/processed/`

---

2 : Importation des biblioth√®ques

In [2]:
# Importation des biblioth√®ques
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import yaml
import joblib
import json
import os
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
import warnings
warnings.filterwarnings('ignore')

# Configuration
pd.set_option('display.max_columns', None)
print("‚úÖ Biblioth√®ques import√©es avec succ√®s")

‚úÖ Biblioth√®ques import√©es avec succ√®s


 3 : Chargement de la configuration et des donn√©es

In [3]:
# Chargement de la configuration
with open('../config.yaml', 'r', encoding='utf-8') as f:
    config = yaml.safe_load(f)

# Chargement du dataset
data_path = r"C:\Users\ekoub\OneDrive\Bureau\run python\music_recommendation_system\data\raw\personalized_music_recommendation_dataset.csv"
print("Chargement des donn√©es...")
df = pd.read_csv(data_path)

print(f"‚úÖ Dataset charg√©: {df.shape[0]:,} lignes et {df.shape[1]} colonnes")
print(f"üìä Taille initiale: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

Chargement des donn√©es...
‚úÖ Dataset charg√©: 70,129 lignes et 49 colonnes
üìä Taille initiale: 96.22 MB


4 : Nettoyage des donn√©es - Doublons et valeurs manquantes

In [4]:
print("\n" + "="*80)
print("√âTAPE 1 : NETTOYAGE DES DONN√âES")
print("="*80)

# V√©rification des doublons
duplicates = df.duplicated().sum()
print(f"\nüîç Doublons d√©tect√©s: {duplicates:,}")
if duplicates > 0:
    df = df.drop_duplicates()
    print(f"‚úÖ Doublons supprim√©s. Nouvelles dimensions: {df.shape}")

# V√©rification des valeurs manquantes
missing = df.isnull().sum()
missing_cols = missing[missing > 0]

if len(missing_cols) > 0:
    print(f"\n‚ö†Ô∏è Valeurs manquantes d√©tect√©es dans {len(missing_cols)} colonnes:")
    for col, count in missing_cols.items():
        pct = (count / len(df)) * 100
        print(f"  ‚Ä¢ {col}: {count:,} ({pct:.2f}%)")
    
    # Strat√©gie de traitement (√† adapter selon vos donn√©es)
    # Pour les colonnes num√©riques: imputation par la m√©diane
    numeric_cols_missing = df.select_dtypes(include=[np.number]).columns
    for col in numeric_cols_missing:
        if df[col].isnull().sum() > 0:
            df[col].fillna(df[col].median(), inplace=True)
    
    # Pour les colonnes cat√©gorielles: imputation par le mode
    categorical_cols_missing = df.select_dtypes(include=['object']).columns
    for col in categorical_cols_missing:
        if df[col].isnull().sum() > 0:
            df[col].fillna(df[col].mode()[0], inplace=True)
    
    print(f"‚úÖ Valeurs manquantes trait√©es")
else:
    print("\n‚úÖ Aucune valeur manquante d√©tect√©e")

print(f"\nüìä Dataset apr√®s nettoyage: {df.shape[0]:,} lignes")


√âTAPE 1 : NETTOYAGE DES DONN√âES

üîç Doublons d√©tect√©s: 0

‚úÖ Aucune valeur manquante d√©tect√©e

üìä Dataset apr√®s nettoyage: 70,129 lignes


5 : Conversion et cr√©ation des features temporelles

In [5]:
print("\n" + "="*80)
print("√âTAPE 2 : FEATURES TEMPORELLES")
print("="*80)

# Conversion du timestamp
df['timestamp'] = pd.to_datetime(df['timestamp'])
df['hour'] = df['timestamp'].dt.hour
df['day_of_week_num'] = df['timestamp'].dt.dayofweek
df['month'] = df['timestamp'].dt.month
df['year'] = df['timestamp'].dt.year

print("‚úÖ Features temporelles cr√©√©es: hour, day_of_week_num, month, year")


√âTAPE 2 : FEATURES TEMPORELLES
‚úÖ Features temporelles cr√©√©es: hour, day_of_week_num, month, year


 6 : Filtrage des utilisateurs et chansons (Cold Start)

In [6]:
print("\n" + "="*80)
print("√âTAPE 3 : FILTRAGE (COLD START)")
print("="*80)

# R√©cup√©ration des param√®tres
min_user_interactions = config['preprocessing']['min_interactions_per_user']
min_song_interactions = config['preprocessing']['min_interactions_per_song']

print(f"\nüîß Filtrage des utilisateurs avec < {min_user_interactions} interactions")
print(f"üîß Filtrage des chansons avec < {min_song_interactions} interactions")

# Comptage avant filtrage
print(f"\nAvant filtrage:")
print(f"  ‚Ä¢ Utilisateurs: {df['user_id'].nunique():,}")
print(f"  ‚Ä¢ Chansons: {df['song_id'].nunique():,}")
print(f"  ‚Ä¢ Interactions: {len(df):,}")

# Filtrage it√©ratif (utilisateurs puis chansons)
while True:
    initial_size = len(df)
    
    # Filtrer les utilisateurs
    user_counts = df['user_id'].value_counts()
    valid_users = user_counts[user_counts >= min_user_interactions].index
    df = df[df['user_id'].isin(valid_users)]
    
    # Filtrer les chansons
    song_counts = df['song_id'].value_counts()
    valid_songs = song_counts[song_counts >= min_song_interactions].index
    df = df[df['song_id'].isin(valid_songs)]
    
    # Si plus de changement, on arr√™te
    if len(df) == initial_size:
        break

print(f"\nApr√®s filtrage:")
print(f"  ‚Ä¢ Utilisateurs: {df['user_id'].nunique():,}")
print(f"  ‚Ä¢ Chansons: {df['song_id'].nunique():,}")
print(f"  ‚Ä¢ Interactions: {len(df):,}")
print(f"  ‚Ä¢ R√©duction: {(1 - len(df)/initial_size)*100:.2f}%")


√âTAPE 3 : FILTRAGE (COLD START)

üîß Filtrage des utilisateurs avec < 3 interactions
üîß Filtrage des chansons avec < 3 interactions

Avant filtrage:
  ‚Ä¢ Utilisateurs: 50
  ‚Ä¢ Chansons: 200
  ‚Ä¢ Interactions: 70,129

Apr√®s filtrage:
  ‚Ä¢ Utilisateurs: 50
  ‚Ä¢ Chansons: 200
  ‚Ä¢ Interactions: 70,129
  ‚Ä¢ R√©duction: 0.00%


7 : Feature Engineering - Agr√©gations par utilisateur

In [7]:
print("\n" + "="*80)
print("√âTAPE 4 : FEATURE ENGINEERING - UTILISATEURS")
print("="*80)

# Features agr√©g√©es par utilisateur
user_features = df.groupby('user_id').agg({
    'liked': 'mean',                    # Taux de like
    'skip_count': 'mean',               # Taux de skip moyen
    'finished_song': 'mean',            # Taux de completion
    'added_to_playlist': 'mean',        # Taux d'ajout playlist
    'repeat_count': 'mean',             # Nombre moyen de r√©p√©titions
    'listening_time_mins': 'mean',      # Temps d'√©coute moyen
    'song_id': 'count'                  # Nombre total d'interactions
}).rename(columns={'song_id': 'user_total_interactions'})

user_features.columns = ['user_' + col for col in user_features.columns]

# Merge avec le dataset principal
df = df.merge(user_features, left_on='user_id', right_index=True, how='left')

print(f"‚úÖ {len(user_features.columns)} features utilisateur cr√©√©es")
print(f"Features: {list(user_features.columns)}")


√âTAPE 4 : FEATURE ENGINEERING - UTILISATEURS
‚úÖ 7 features utilisateur cr√©√©es
Features: ['user_liked', 'user_skip_count', 'user_finished_song', 'user_added_to_playlist', 'user_repeat_count', 'user_listening_time_mins', 'user_user_total_interactions']


8 : Feature Engineering - Agr√©gations par chanson

In [8]:
print("\n" + "="*80)
print("√âTAPE 5 : FEATURE ENGINEERING - CHANSONS")
print("="*80)

# Features agr√©g√©es par chanson
song_features = df.groupby('song_id').agg({
    'liked': 'mean',                    # Popularit√© (taux de like)
    'skip_count': 'mean',               # Taux de skip moyen
    'finished_song': 'mean',            # Taux de completion
    'added_to_playlist': 'sum',         # Nombre total d'ajouts playlist
    'play_count': 'sum',                # Nombre total d'√©coutes
    'user_id': 'nunique'                # Nombre d'utilisateurs uniques
}).rename(columns={'user_id': 'song_unique_listeners'})

song_features.columns = ['song_' + col for col in song_features.columns]

# Merge avec le dataset principal
df = df.merge(song_features, left_on='song_id', right_index=True, how='left')

print(f"‚úÖ {len(song_features.columns)} features chanson cr√©√©es")
print(f"Features: {list(song_features.columns)}")


√âTAPE 5 : FEATURE ENGINEERING - CHANSONS
‚úÖ 6 features chanson cr√©√©es
Features: ['song_liked', 'song_skip_count', 'song_finished_song', 'song_added_to_playlist', 'song_play_count', 'song_song_unique_listeners']


9 : Encodage des variables cat√©gorielles

In [9]:
print("\n" + "="*80)
print("√âTAPE 6 : ENCODAGE DES VARIABLES CAT√âGORIELLES")
print("="*80)

# Variables √† encoder
categorical_columns = ['gender', 'location', 'device_type', 'subscription_type', 
                       'time_of_day', 'day_of_week', 'preferred_genre', 'genre', 
                       'artist', 'emotion_tag', 'context_type', 'language', 'explicit']

# Dictionnaire pour sauvegarder les encoders
label_encoders = {}

for col in categorical_columns:
    if col in df.columns:
        le = LabelEncoder()
        df[col + '_encoded'] = le.fit_transform(df[col].astype(str))
        label_encoders[col] = le
        print(f"‚úÖ {col}: {len(le.classes_)} cat√©gories encod√©es")

print(f"\n‚úÖ {len(label_encoders)} variables cat√©gorielles encod√©es")


√âTAPE 6 : ENCODAGE DES VARIABLES CAT√âGORIELLES
‚úÖ gender: 3 cat√©gories encod√©es
‚úÖ location: 5 cat√©gories encod√©es
‚úÖ device_type: 3 cat√©gories encod√©es
‚úÖ subscription_type: 2 cat√©gories encod√©es
‚úÖ time_of_day: 4 cat√©gories encod√©es
‚úÖ day_of_week: 2 cat√©gories encod√©es
‚úÖ preferred_genre: 5 cat√©gories encod√©es
‚úÖ genre: 5 cat√©gories encod√©es
‚úÖ artist: 3 cat√©gories encod√©es
‚úÖ emotion_tag: 4 cat√©gories encod√©es
‚úÖ context_type: 5 cat√©gories encod√©es
‚úÖ language: 4 cat√©gories encod√©es
‚úÖ explicit: 2 cat√©gories encod√©es

‚úÖ 13 variables cat√©gorielles encod√©es


10 : Normalisation des features audio

In [10]:
print("\n" + "="*80)
print("√âTAPE 7 : NORMALISATION DES FEATURES AUDIO")
print("="*80)

# R√©cup√©ration des features audio depuis config
audio_features = config['audio_features']

print(f"Features audio √† normaliser: {audio_features}")

# Normalisation avec StandardScaler
scaler = StandardScaler()
df[audio_features] = scaler.fit_transform(df[audio_features])

print(f"‚úÖ {len(audio_features)} features audio normalis√©es")
print(f"M√©thode: StandardScaler (moyenne=0, √©cart-type=1)")


√âTAPE 7 : NORMALISATION DES FEATURES AUDIO
Features audio √† normaliser: ['tempo', 'energy', 'danceability', 'acousticness', 'instrumentalness', 'liveness', 'valence', 'loudness', 'speechiness']
‚úÖ 9 features audio normalis√©es
M√©thode: StandardScaler (moyenne=0, √©cart-type=1)


11 : Cr√©ation de la matrice utilisateur-chanson

In [11]:
print("\n" + "="*80)
print("√âTAPE 8 : CR√âATION DE LA MATRICE UTILISATEUR-CHANSON")
print("="*80)

# Cr√©ation d'un score d'interaction implicite
# Score bas√© sur plusieurs signaux comportementaux
df['interaction_score'] = (
    df['liked'] * 5 +                      # Like = signal fort
    df['finished_song'] * 3 +              # Completion = signal fort
    df['added_to_playlist'] * 4 +          # Playlist = signal tr√®s fort
    df['repeat_count'] * 2 +               # R√©p√©tition = signal fort
    (1 - df['skip_count'] / df['skip_count'].max()) * 2  # Moins de skip = mieux
)

# Normalisation du score entre 0 et 5
df['interaction_score'] = (df['interaction_score'] - df['interaction_score'].min()) / \
                          (df['interaction_score'].max() - df['interaction_score'].min()) * 5

print(f"‚úÖ Score d'interaction cr√©√© (range: 0-5)")
print(f"Statistiques du score:")
print(df['interaction_score'].describe())


√âTAPE 8 : CR√âATION DE LA MATRICE UTILISATEUR-CHANSON
‚úÖ Score d'interaction cr√©√© (range: 0-5)
Statistiques du score:
count    70129.000000
mean         1.398723
std          0.680821
min          0.000000
25%          0.825688
50%          1.330275
75%          1.880734
max          5.000000
Name: interaction_score, dtype: float64


12 : Split Train/Test temporel

In [18]:
print("\n" + "="*80)
print("√âTAPE 9 : SPLIT TRAIN/TEST (par utilisateur, sans fuite temporelle)")
print("="*80)

# Params
test_size   = float(config['preprocessing']['test_size'])
split_type  = config['preprocessing'].get('split_type', 'temporal')
min_user_ev = int(config['preprocessing'].get('min_interactions_per_user', 2))

print(f"\nüîß Type de split demand√©: {split_type}")
print(f"üîß Test size: {test_size}")
print(f"üîß min_interactions_per_user: {min_user_ev}")

# 0) S√©curit√©: garder uniquement les users avec suffisamment d'interactions
#    (on applique ici une tol√©rance minimale de 2 pour pouvoir mettre 1 en train et 1 en test)
eligible = (
    df.groupby('user_id')['song_id']
      .transform('size')
      .ge(max(2, min_user_ev))
)
df_ = df.loc[eligible].copy()

# 1) tri chronologique √† l'int√©rieur de chaque user
df_.sort_values(['user_id','timestamp'], inplace=True, kind="mergesort")

# 2) split par utilisateur (temporal = on prend les plus r√©centes pour test,
#    stratified = proportionnel au volume mais tjs en respectant la chronologie)
train_parts, test_parts = [], []

for uid, g in df_.groupby('user_id', sort=False):
    n = len(g)
    # nombre en test (au moins 1, au plus n-1)
    n_test = max(1, int(round(n * test_size)))
    if n_test >= n:
        n_test = 1
    n_train = n - n_test
    # d√©coupe chronologique
    g_train = g.iloc[:n_train]
    g_test  = g.iloc[n_train:]

    # garde-fou: s'il n'y a rien en train (rare), on remet 1 du test dans train
    if g_train.empty and not g_test.empty:
        g_train = g_test.iloc[:1]
        g_test  = g_test.iloc[1:]
    # garde-fou: s'il n'y a rien en test, on met le dernier en test
    if g_test.empty and not g_train.empty:
        g_test  = g_train.iloc[-1:]
        g_train = g_train.iloc[:-1]

    train_parts.append(g_train)
    test_parts.append(g_test)

train_df = pd.concat(train_parts, ignore_index=True)
test_df  = pd.concat(test_parts,  ignore_index=True)

# 3) Statistiques de split
total = len(train_df) + len(test_df)
pct  = lambda x: (len(x) / total * 100.0 if total else 0.0)

print(f"\n‚úÖ Split par utilisateur effectu√©:")
print(f"  ‚Ä¢ Train: {len(train_df):,} interactions ({pct(train_df):.1f}%)")
print(f"  ‚Ä¢ Test : {len(test_df):,} interactions ({pct(test_df):.1f}%)")

# 4) Couverture users/items & intersections
train_users = set(train_df['user_id'].unique())
test_users  = set(test_df['user_id'].unique())
common_users = train_users & test_users

train_songs = set(train_df['song_id'].unique())
test_songs  = set(test_df['song_id'].unique())
common_songs = train_songs & test_songs

print(f"\nüë• UTILISATEURS:")
print(f"  ‚Ä¢ Train uniquement: {len(train_users - test_users):,}")
print(f"  ‚Ä¢ Test uniquement : {len(test_users - train_users):,}")
print(f"  ‚Ä¢ Communs         : {len(common_users):,} ‚≠ê (important pour l'√©valuation collab)")
print(f"  ‚Ä¢ Total           : {len(train_users | test_users):,}")

print(f"\nüéµ CHANSONS:")
print(f"  ‚Ä¢ Train uniquement: {len(train_songs - test_songs):,}")
print(f"  ‚Ä¢ Test uniquement : {len(test_songs - train_songs):,}")
print(f"  ‚Ä¢ Communes        : {len(common_songs):,}")
print(f"  ‚Ä¢ Total           : {len(train_songs | test_songs):,}")

# 5) V√©rifications critiques
if len(common_users) == 0:
    print("\n‚ùå ERREUR: Aucun utilisateur commun entre train et test ‚Üí l‚Äô√©valuation collab (Surprise SVD) est impossible.")
elif len(common_users) < 10:
    print(f"\n‚ö†Ô∏è Attention: seulement {len(common_users)} utilisateurs communs. L‚Äô√©valuation sera limit√©e.")
else:
    print(f"\n‚úÖ OK: {len(common_users)} utilisateurs communs pour l‚Äô√©valuation.")

# 6) P√©riodes temporelles (informatif)
if 'timestamp' in train_df.columns:
    try:
        print(f"\n‚è∞ P√âRIODES:")
        print(f"  ‚Ä¢ Train: {train_df['timestamp'].min()} ‚Üí {train_df['timestamp'].max()}")
        print(f"  ‚Ä¢ Test : {test_df['timestamp'].min()} ‚Üí {test_df['timestamp'].max()}")
    except Exception:
        pass

print("\n‚úÖ Split termin√© sans fuite temporelle. Rappel: normaliser les features apr√®s ce split (fit sur train).")



√âTAPE 9 : SPLIT TRAIN/TEST (par utilisateur, sans fuite temporelle)

üîß Type de split demand√©: stratified
üîß Test size: 0.2
üîß min_interactions_per_user: 3

‚úÖ Split par utilisateur effectu√©:
  ‚Ä¢ Train: 56,101 interactions (80.0%)
  ‚Ä¢ Test : 14,028 interactions (20.0%)

üë• UTILISATEURS:
  ‚Ä¢ Train uniquement: 0
  ‚Ä¢ Test uniquement : 0
  ‚Ä¢ Communs         : 50 ‚≠ê (important pour l'√©valuation collab)
  ‚Ä¢ Total           : 50

üéµ CHANSONS:
  ‚Ä¢ Train uniquement: 0
  ‚Ä¢ Test uniquement : 0
  ‚Ä¢ Communes        : 200
  ‚Ä¢ Total           : 200

‚úÖ OK: 50 utilisateurs communs pour l‚Äô√©valuation.

‚è∞ P√âRIODES:
  ‚Ä¢ Train: 2021-01-01 00:00:00 ‚Üí 2024-04-16 06:30:00
  ‚Ä¢ Test : 2024-02-13 03:30:00 ‚Üí 2025-01-01 00:00:00

‚úÖ Split termin√© sans fuite temporelle. Rappel: normaliser les features apr√®s ce split (fit sur train).


13 : Pr√©paration des donn√©es pour les mod√®les

In [19]:
print("\n" + "="*80)
print("√âTAPE 10 : PR√âPARATION DES DONN√âES POUR LES MOD√àLES")
print("="*80)

from sklearn.feature_extraction.text import TfidfVectorizer
from scipy.sparse import csr_matrix, hstack
from sklearn.preprocessing import normalize
import joblib

# 1) Content-Based: audio (d√©j√† normalis√©es) + TF-IDF (genre/artist/emotion_tag/language)
text_cols = config['text_features']           # ['genre','artist','emotion_tag','language']
audio_features = config['audio_features']     # d√©j√† normalis√©es en Cellule 18

# Construire un corpus texte par chanson
text_per_song = (
    df.groupby('song_id')[text_cols]
      .agg(lambda s: ' '.join(s.astype(str)))
      .reset_index()
)
text_per_song['text'] = text_per_song[text_cols].agg(' '.join, axis=1)

# TF-IDF
vec = TfidfVectorizer(min_df=2, max_features=100_000, ngram_range=(1,2))
X_text = vec.fit_transform(text_per_song['text'])

# Agr√©gation audio par song_id (moyenne)
audio_agg = df.groupby('song_id')[audio_features].mean().reset_index()
# Aligner les id: merge pour garantir le m√™me ordre
content_df = text_per_song[['song_id']].merge(audio_agg, on='song_id', how='left')

# Concat√©ner audio (dense->sparse) + texte (sparse)
X_audio = csr_matrix(content_df[audio_features].fillna(0.0).values)
X_content = hstack([X_audio, X_text], format='csr')
X_content = normalize(X_content)  # normalisation L2 pour cosinus

# Conserver un DataFrame l√©ger pour export (m√©tadonn√©es display)
songs_content = df[['song_id','title','artist']].drop_duplicates('song_id').merge(
    content_df[['song_id']], on='song_id', how='right'
).reset_index(drop=True)

# Sauvegarde des artefacts
joblib.dump(vec, '../data/processed/tfidf_vectorizer.pkl')
# On sauve la matrice de features comme npz + l'ordre des song_id
from scipy import sparse as sp
sp.save_npz('../data/processed/songs_content_features_matrix.npz', X_content)
songs_content.to_csv('../data/processed/songs_content_features.csv', index=False)

print(f"\n‚úÖ Dataset Content-Based:")
print(f"  ‚Ä¢ Nombre de chansons: {X_content.shape[0]:,}")
print(f"  ‚Ä¢ Dim features: {X_content.shape[1]:,} (audio+TF-IDF)")



√âTAPE 10 : PR√âPARATION DES DONN√âES POUR LES MOD√àLES

‚úÖ Dataset Content-Based:
  ‚Ä¢ Nombre de chansons: 200
  ‚Ä¢ Dim features: 131 (audio+TF-IDF)


14 : Sauvegarde des donn√©es pr√©trait√©es

In [20]:
print("\n" + "="*80)
print("√âTAPE 11 : SAUVEGARDE DES DONN√âES PR√âTRAIT√âES")
print("="*80)

# Cr√©er le dossier processed si n√©cessaire
os.makedirs('../data/processed', exist_ok=True)

# 1. Sauvegarder les datasets complets
train_df.to_csv('../data/processed/train_data.csv', index=False)
test_df.to_csv('../data/processed/test_data.csv', index=False)
print("‚úÖ train_data.csv et test_data.csv sauvegard√©s")

# 2. Sauvegarder les donn√©es pour Content-Based
songs_content.to_csv('../data/processed/songs_content_features.csv', index=False)
print("‚úÖ songs_content_features.csv sauvegard√©")

# 3. Sauvegarder les donn√©es pour Collaborative
collaborative_data.to_csv('../data/processed/collaborative_data.csv', index=False)
print("‚úÖ collaborative_data.csv sauvegard√©")

# 4. Sauvegarder les m√©tadonn√©es
songs_metadata.to_csv('../data/processed/songs_metadata.csv', index=False)
print("‚úÖ songs_metadata.csv sauvegard√©")

# 5. Sauvegarder le scaler et les encoders
joblib.dump(scaler, '../data/processed/scaler.pkl')
joblib.dump(label_encoders, '../data/processed/label_encoders.pkl')
print("‚úÖ scaler.pkl et label_encoders.pkl sauvegard√©s")

# 6. Sauvegarder un rapport de preprocessing
preprocessing_report = {
    'original_size': int(initial_size),
    'filtered_size': len(df),
    'reduction_pct': float((1 - len(df)/initial_size)*100),
    'train_size': len(train_df),
    'test_size': len(test_df),
    'n_users': int(df['user_id'].nunique()),
    'n_songs': int(df['song_id'].nunique()),
    'n_genres': int(df['genre'].nunique()),
    'n_artists': int(df['artist'].nunique()),
    'audio_features': audio_features,
    'categorical_features': list(label_encoders.keys()),
    'min_interactions_per_user': min_user_interactions,
    'min_interactions_per_song': min_song_interactions,
    'interaction_score_stats': df['interaction_score'].describe().to_dict()
}

with open('../data/processed/preprocessing_report.json', 'w') as f:
    json.dump(preprocessing_report, f, indent=4, default=str)
print("‚úÖ preprocessing_report.json sauvegard√©")


√âTAPE 11 : SAUVEGARDE DES DONN√âES PR√âTRAIT√âES
‚úÖ train_data.csv et test_data.csv sauvegard√©s
‚úÖ songs_content_features.csv sauvegard√©
‚úÖ collaborative_data.csv sauvegard√©
‚úÖ songs_metadata.csv sauvegard√©
‚úÖ scaler.pkl et label_encoders.pkl sauvegard√©s
‚úÖ preprocessing_report.json sauvegard√©


 15 : R√©sum√© et visualisation finale

In [14]:
print("\n" + "="*80)
print("R√âSUM√â DU PREPROCESSING")
print("="*80)

print(f"""
‚úÖ PREPROCESSING TERMIN√â AVEC SUCC√àS!

üìä STATISTIQUES FINALES:
  ‚Ä¢ Dataset original: {initial_size:,} interactions
  ‚Ä¢ Dataset filtr√©: {len(df):,} interactions (-{(1-len(df)/initial_size)*100:.1f}%)
  ‚Ä¢ Train: {len(train_df):,} interactions
  ‚Ä¢ Test: {len(test_df):,} interactions
  
üë• UTILISATEURS ET CHANSONS:
  ‚Ä¢ Utilisateurs: {df['user_id'].nunique():,}
  ‚Ä¢ Chansons: {df['song_id'].nunique():,}
  ‚Ä¢ Artistes: {df['artist'].nunique():,}
  ‚Ä¢ Genres: {df['genre'].nunique():,}

üéØ FEATURES CR√â√âES:
  ‚Ä¢ Features audio normalis√©es: {len(audio_features)}
  ‚Ä¢ Variables cat√©gorielles encod√©es: {len(label_encoders)}
  ‚Ä¢ Features utilisateur: {len([c for c in df.columns if c.startswith('user_')])}
  ‚Ä¢ Features chanson: {len([c for c in df.columns if c.startswith('song_')])}
  ‚Ä¢ Score d'interaction: ‚úÖ

üíæ FICHIERS SAUVEGARD√âS:
  ‚Ä¢ data/processed/train_data.csv
  ‚Ä¢ data/processed/test_data.csv
  ‚Ä¢ data/processed/songs_content_features.csv
  ‚Ä¢ data/processed/collaborative_data.csv
  ‚Ä¢ data/processed/songs_metadata.csv
  ‚Ä¢ data/processed/scaler.pkl
  ‚Ä¢ data/processed/label_encoders.pkl
  ‚Ä¢ data/processed/preprocessing_report.json

‚û°Ô∏è Prochaine √©tape: Notebook 03_modeling.ipynb (D√©veloppement des mod√®les)
""")


R√âSUM√â DU PREPROCESSING

‚úÖ PREPROCESSING TERMIN√â AVEC SUCC√àS!

üìä STATISTIQUES FINALES:
  ‚Ä¢ Dataset original: 70,129 interactions
  ‚Ä¢ Dataset filtr√©: 70,129 interactions (-0.0%)
  ‚Ä¢ Train: 56,103 interactions
  ‚Ä¢ Test: 14,026 interactions

üë• UTILISATEURS ET CHANSONS:
  ‚Ä¢ Utilisateurs: 50
  ‚Ä¢ Chansons: 200
  ‚Ä¢ Artistes: 3
  ‚Ä¢ Genres: 5

üéØ FEATURES CR√â√âES:
  ‚Ä¢ Features audio normalis√©es: 9
  ‚Ä¢ Variables cat√©gorielles encod√©es: 13
  ‚Ä¢ Features utilisateur: 8
  ‚Ä¢ Features chanson: 8
  ‚Ä¢ Score d'interaction: ‚úÖ

üíæ FICHIERS SAUVEGARD√âS:
  ‚Ä¢ data/processed/train_data.csv
  ‚Ä¢ data/processed/test_data.csv
  ‚Ä¢ data/processed/songs_content_features.csv
  ‚Ä¢ data/processed/collaborative_data.csv
  ‚Ä¢ data/processed/songs_metadata.csv
  ‚Ä¢ data/processed/scaler.pkl
  ‚Ä¢ data/processed/label_encoders.pkl
  ‚Ä¢ data/processed/preprocessing_report.json

‚û°Ô∏è Prochaine √©tape: Notebook 03_modeling.ipynb (D√©veloppement des mod√®les)



 16 : Visualisation de la distribution du score d'interaction

In [15]:
# Visualisation du score d'interaction
import plotly.graph_objects as go

fig = go.Figure()

fig.add_trace(go.Histogram(
    x=df['interaction_score'],
    nbinsx=50,
    name='Distribution',
    marker_color='#1DB954'
))

fig.update_layout(
    title='Distribution du Score d\'Interaction',
    xaxis_title='Score d\'Interaction',
    yaxis_title='Fr√©quence',
    height=400,
    showlegend=False
)

fig.show()

print("\n‚úÖ Preprocessing termin√©! Les donn√©es sont pr√™tes pour la mod√©lisation.")


‚úÖ Preprocessing termin√©! Les donn√©es sont pr√™tes pour la mod√©lisation.


In [2]:
print("\n" + "="*80)
print("CR√âATION DE songs_content_features.csv COMPLET AVEC FEATURES AUDIO")
print("="*80)

import pandas as pd
import numpy as np

# ========================================
# CHARGER TRAIN + TEST
# ========================================

print("\nüîÑ Chargement des donn√©es...")

train_df = pd.read_csv('../data/processed/train_data.csv')
test_df = pd.read_csv('../data/processed/test_data.csv')

print(f"   ‚úÖ train_data.csv : {len(train_df):,} interactions")
print(f"   ‚úÖ test_data.csv  : {len(test_df):,} interactions")

# Fusionner train + test pour avoir TOUTES les chansons
full_df = pd.concat([train_df, test_df], ignore_index=True)

print(f"\n‚úÖ Total : {len(full_df):,} interactions")
print(f"   Colonnes disponibles : {full_df.shape[1]}")

# V√©rifier le nombre de chansons uniques
n_unique_songs_train = train_df['song_id'].nunique()
n_unique_songs_test = test_df['song_id'].nunique()
n_unique_songs_total = full_df['song_id'].nunique()

print(f"\nüìä Chansons uniques :")
print(f"   Dans train uniquement : {n_unique_songs_train}")
print(f"   Dans test uniquement  : {n_unique_songs_test}")
print(f"   TOTAL (train + test)  : {n_unique_songs_total}")

# Chansons uniquement dans test
songs_only_in_test = set(test_df['song_id'].unique()) - set(train_df['song_id'].unique())
if songs_only_in_test:
    print(f"   ‚ö†Ô∏è {len(songs_only_in_test)} chansons UNIQUEMENT dans test !")
    print(f"      ‚Üí Il est important de fusionner train + test")
else:
    print(f"   ‚úÖ Toutes les chansons de test sont aussi dans train")

# ========================================
# D√âFINIR LES COLONNES √Ä EXTRAIRE
# ========================================

# Colonnes de m√©tadonn√©es des chansons (prendre la premi√®re valeur)
song_metadata_cols = [
    'song_id', 'title', 'artist', 'album', 'genre', 'release_year', 
    'language', 'duration_sec', 'popularity', 'explicit'
]

# Colonnes de features audio NUM√âRIQUES (on peut calculer la moyenne)
audio_features_numeric = [
    'tempo', 'key', 'time_signature', 'energy', 'danceability', 
    'acousticness', 'instrumentalness', 'liveness', 'valence', 'loudness', 'speechiness'
]

# Colonnes CAT√âGORIELLES (prendre la premi√®re valeur, pas la moyenne)
audio_features_categorical = ['mode']  # "Major" ou "Minor"

# Toutes les colonnes n√©cessaires
all_song_cols = song_metadata_cols + audio_features_numeric + audio_features_categorical

# V√©rifier quelles colonnes existent dans full_df
available_cols = [col for col in all_song_cols if col in full_df.columns]
missing_cols = [col for col in all_song_cols if col not in full_df.columns]

print(f"\nüìä Colonnes disponibles : {len(available_cols)}/{len(all_song_cols)}")

if missing_cols:
    print(f"‚ö†Ô∏è Colonnes manquantes : {missing_cols}")

# ========================================
# EXTRAIRE LES DONN√âES UNIQUES PAR CHANSON
# ========================================

print(f"\nüîÑ Extraction des donn√©es uniques par chanson...")

# Pr√©parer le dictionnaire d'agr√©gation
agg_dict = {}

# Pour les m√©tadonn√©es : prendre la premi√®re valeur
metadata_cols_present = [col for col in song_metadata_cols if col in available_cols and col != 'song_id']
for col in metadata_cols_present:
    agg_dict[col] = 'first'

# Pour les features audio NUM√âRIQUES : prendre la moyenne
audio_numeric_present = [col for col in audio_features_numeric if col in available_cols]
for col in audio_numeric_present:
    agg_dict[col] = 'mean'

# Pour les features CAT√âGORIELLES : prendre la premi√®re valeur
audio_categorical_present = [col for col in audio_features_categorical if col in available_cols]
for col in audio_categorical_present:
    agg_dict[col] = 'first'

print(f"   Agr√©gations d√©finies pour {len(agg_dict)} colonnes")

# Grouper par song_id sur TOUTES les donn√©es (train + test)
songs_complete = full_df[available_cols].groupby('song_id').agg(agg_dict).reset_index()

print(f"‚úÖ {len(songs_complete)} chansons uniques extraites")
print(f"   Colonnes finales : {songs_complete.shape[1]}")

# ========================================
# V√âRIFICATION DES DONN√âES
# ========================================

print(f"\nüìã Aper√ßu des donn√©es (5 premi√®res chansons) :")
print(songs_complete.head(5))

print(f"\nüìä Statistiques des features audio NUM√âRIQUES :")
if audio_numeric_present:
    stats = songs_complete[audio_numeric_present].describe().T[['count', 'mean', 'min', 'max', 'std']]
    print(stats)

# V√©rifier les valeurs manquantes
print(f"\n‚ö†Ô∏è V√©rification des valeurs manquantes :")
missing = songs_complete.isnull().sum()
missing = missing[missing > 0]

if len(missing) > 0:
    print(f"   {len(missing)} colonnes avec des valeurs manquantes :")
    for col, count in missing.items():
        print(f"      {col}: {count} ({count/len(songs_complete)*100:.1f}%)")
    
    # Remplir les valeurs manquantes
    for col in audio_numeric_present:
        if songs_complete[col].isnull().any():
            songs_complete[col] = songs_complete[col].fillna(0)
            print(f"      ‚Üí {col} : rempli par 0")
    
    for col in audio_categorical_present:
        if songs_complete[col].isnull().any():
            songs_complete[col] = songs_complete[col].fillna('Unknown')
            print(f"      ‚Üí {col} : rempli par 'Unknown'")
else:
    print("   ‚úÖ Aucune valeur manquante")

# ========================================
# SAUVEGARDER LE FICHIER
# ========================================

output_path = '../data/processed/songs_content_features.csv'
songs_complete.to_csv(output_path, index=False)

print(f"\nüíæ Fichier sauvegard√© : {output_path}")
print(f"   Nombre de chansons : {len(songs_complete)}")
print(f"   Nombre de colonnes : {songs_complete.shape[1]}")
print(f"   Taille du fichier : {songs_complete.memory_usage(deep=True).sum() / 1024:.2f} KB")

# ========================================
# V√âRIFICATION FINALE
# ========================================

print("\n" + "="*80)
print("V√âRIFICATION FINALE")
print("="*80)

# Recharger le fichier pour v√©rifier
df_check = pd.read_csv(output_path)

print(f"\n‚úÖ Fichier recharg√© avec succ√®s")
print(f"   Lignes : {len(df_check)}")
print(f"   Colonnes : {df_check.shape[1]}")

print(f"\nüìã Liste des colonnes ({df_check.shape[1]}) :")
for i, col in enumerate(df_check.columns, 1):
    print(f"   {i:2d}. {col}")

# Afficher un exemple complet
print(f"\nüìÑ Exemple de chanson compl√®te (ID {df_check.iloc[0]['song_id']}) :")
example_song = df_check.iloc[0]

# Grouper par cat√©gories pour un meilleur affichage
print("\n   üìå M√âTADONN√âES :")
for col in ['song_id', 'title', 'artist', 'album', 'genre', 'release_year', 'language', 'duration_sec', 'popularity', 'explicit']:
    if col in df_check.columns:
        print(f"      {col:<20} : {example_song[col]}")

print("\n   üéµ FEATURES AUDIO :")
for col in audio_numeric_present + audio_categorical_present:
    if col in df_check.columns:
        value = example_song[col]
        if isinstance(value, float):
            print(f"      {col:<20} : {value:.3f}")
        else:
            print(f"      {col:<20} : {value}")

# Statistiques finales
print(f"\nüìä R√âSUM√â DES FEATURES AUDIO :")
if 'tempo' in df_check.columns:
    print(f"   Tempo moyen       : {df_check['tempo'].mean():.3f}")
    print(f"   Tempo min/max     : {df_check['tempo'].min():.3f} / {df_check['tempo'].max():.3f}")
if 'energy' in df_check.columns:
    print(f"   Energy moyenne    : {df_check['energy'].mean():.3f}")
if 'danceability' in df_check.columns:
    print(f"   Danceability moy. : {df_check['danceability'].mean():.3f}")
if 'valence' in df_check.columns:
    print(f"   Valence moyenne   : {df_check['valence'].mean():.3f}")

if 'mode' in df_check.columns:
    mode_counts = df_check['mode'].value_counts()
    print(f"\n   Modes musicaux :")
    for mode, count in mode_counts.items():
        print(f"      {mode} : {count} chansons ({count/len(df_check)*100:.1f}%)")

# V√©rifier la distribution par genre
if 'genre' in df_check.columns:
    genre_counts = df_check['genre'].value_counts()
    print(f"\n   Distribution des genres (top 5) :")
    for genre, count in genre_counts.head(5).items():
        print(f"      {genre} : {count} chansons ({count/len(df_check)*100:.1f}%)")

print("\n" + "="*80)
print("‚úÖ FICHIER songs_content_features.csv CR√â√â AVEC SUCC√àS !")
print("="*80)

print("\nüìä R√âCAPITULATIF :")
print(f"   ‚úÖ {len(songs_complete)} chansons uniques (train + test)")
print(f"   ‚úÖ {len(audio_numeric_present)} features audio num√©riques")
print(f"   ‚úÖ {len(audio_categorical_present)} feature cat√©gorielle (mode)")
print(f"   ‚úÖ {len(metadata_cols_present)} m√©tadonn√©es")

print("\nCe fichier contient maintenant :")
print("   ‚úÖ Toutes les m√©tadonn√©es (titre, artiste, genre, etc.)")
print("   ‚úÖ Toutes les features audio NUM√âRIQUES (tempo, energy, danceability, etc.)")
print("   ‚úÖ Les features CAT√âGORIELLES (mode: Major/Minor)")
print("   ‚úÖ TOUTES les chansons du dataset (train + test)")

print("\n‚û°Ô∏è L'application Streamlit peut maintenant afficher les d√©tails audio correctement !")
print("‚û°Ô∏è Aucune chanson n'est manquante !")


CR√âATION DE songs_content_features.csv COMPLET AVEC FEATURES AUDIO

üîÑ Chargement des donn√©es...
   ‚úÖ train_data.csv : 56,101 interactions
   ‚úÖ test_data.csv  : 14,028 interactions

‚úÖ Total : 70,129 interactions
   Colonnes disponibles : 80

üìä Chansons uniques :
   Dans train uniquement : 200
   Dans test uniquement  : 200
   TOTAL (train + test)  : 200
   ‚úÖ Toutes les chansons de test sont aussi dans train

üìä Colonnes disponibles : 22/22

üîÑ Extraction des donn√©es uniques par chanson...
   Agr√©gations d√©finies pour 21 colonnes
‚úÖ 200 chansons uniques extraites
   Colonnes finales : 22

üìã Aper√ßu des donn√©es (5 premi√®res chansons) :
   song_id  title   artist   album genre  release_year language  duration_sec  \
0    10000  SongC  ArtistA  AlbumY   Pop          2017  English           234   
1    10001  SongD  ArtistC  AlbumZ   Pop          2013  English           252   
2    10002  SongB  ArtistA  AlbumZ   Pop          2016    Hindi           178   
3    