In [None]:
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler

In [None]:
# Preparation des données
df = pd.read_csv('data.csv')

In [None]:
df.info()

In [None]:
df.head()

In [None]:
df.describe()

In [None]:
# Étape nettoyage des données

In [None]:
# 1. Vérifier les valeurs manquantes
df.isnull().sum() # Pas de valeurs manquantes

In [None]:
# 2. Supprimer ou gérer les doublons
df.duplicated().sum() # Pas de données dupliquées 

In [None]:
# 3. Vérifier les types des colonnes
df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')
print(df['release_date'].isnull().sum())  # voir combien de NaT après conversion


In [None]:
df = df.drop(columns=['release_date']) # Colonne inutile (Suppression)


In [None]:
df['explicit'] = df['explicit'].astype(bool)
df['mode'] = df['mode'].astype(bool)


In [None]:
df.info()

In [None]:
# 4. Rechercher les valeurs aberrantes
sns.boxplot(data=df, x='duration_ms')
plt.title("Boxplot de la durée des chansons")
plt.show()

In [None]:
# Capping des valeurs extrêmes (1er et 99e percentile)
q_low = df['duration_ms'].quantile(0.01)
q_high = df['duration_ms'].quantile(0.99)

df['duration_ms_capped'] = df['duration_ms'].clip(lower=q_low, upper=q_high)


In [None]:
sns.boxplot(data=df, x='duration_ms_capped')
plt.title("Boxplot de la durée des chansons (capped)")
plt.show()


In [None]:
sns.boxplot(data=df, x='loudness')
plt.title("Boxplot de la durée des chansons")
plt.show()


In [None]:
df['loudness_capped'] = df['loudness'].clip(lower=-35, upper=-1)
sns.boxplot(data=df, x='loudness_capped')
plt.title("Boxplot loudness des chansons (capped)")
plt.show()


In [None]:
sns.boxplot(data=df, x='tempo')
plt.title("Boxplot de la durée des chansons")
plt.show()

In [None]:
# Capping pour tempo : raisonnable entre 40 et 200 bpm
df['tempo_capped'] = df['tempo'].clip(lower=40, upper=200)

sns.boxplot(data=df, x='tempo_capped')
plt.title("Boxplot loudness des chansons (capped)")
plt.show()

In [None]:
# 5. Uniformiser les données catégoriques
df['artists'].unique()

In [None]:
# Mettre en minuscules
df['artists'] = df['artists'].str.lower()

# Enlever les espaces avant/après
df['artists'] = df['artists'].str.strip()

In [None]:
df['artists'].unique()

In [None]:
# 6. Nettoyer les colonnes inutiles ou redondantes
cols_to_drop = ['id', 'name', 'key']
df = df.drop(columns=cols_to_drop)

In [None]:
df.duplicated().sum()

In [None]:
df = df.drop_duplicates()


In [None]:
df.duplicated().sum()

In [None]:
df.describe()

In [None]:
# Normalisation avec StandardScaler
numeric_colomns = [ 'valence', 'acousticness', 'danceability', 'duration_ms_capped', 
                   'energy', 'instrumentalness', 'liveness', 'loudness_capped', 'speechiness',
                   'tempo_capped']
scaler = StandardScaler()
X_scaled = scaler.fit_transform(df[numeric_colomns])

df_scaled = pd.DataFrame(X_scaled, columns=numeric_colomns)


df_scaled['popularity'] = df['popularity'].values
df_scaled['popularity_target'] = df_scaled['popularity'].apply(lambda x: 1 if x >= df['popularity'].median() else 0)
df_scaled.head()

In [None]:
# Analyse exploratoire des données(EDA)

In [None]:
# Visualiser chaque distribution avec un histogramme
for col in df_scaled.columns:
    plt.figure(figsize=(6, 4))
    sns.histplot(df_scaled[col], kde=True, bins=30, color='skyblue')
    plt.title(f'Distribution de {col} (normalisée)')
    plt.xlabel(col)
    plt.ylabel('Fréquence')
    plt.grid(True)
    plt.tight_layout()
    plt.show()