Ce projet analyse les flux de streaming Spotify pour identifier les tendances, les artistes les plus populaires et le profil audio des hits. L’objectif est de démontrer la capacité à exploiter des données brutes, à réaliser de la data cleaning, une analyse exploratoire, et à produire des tableaux de bord exploitables.

In [0]:
# -------------------------------------------
# Projet : Analyse Spotify Popularity Songs - Databricks
# Objectif : analyser la popularité Spotify (streams, saisonnalité, audio)
# -------------------------------------------

from pyspark.sql.functions import col, regexp_replace, format_number, when  # Imports Spark utiles
from pyspark.sql.types import DoubleType
import re

# Nettoyage des noms de colonne (enlève caractères spéciaux)
def clean_col_name(name):                                        # Définit une fonction de nettoyage des colonnes
    return re.sub(r"[ \(\)\{\}\[\],;\'\"\n\t\-=\+]", "_", name)  # Remplace tous les caractères non alphanumériques par '_'

# Chargement de la table source Databricks
table_name = "workspace.default.popular_spotify_songs"           # Spécifie le nom de ta table
df = spark.table(table_name)                                     # Charge la table en DataFrame

clean_cols = [clean_col_name(c) for c in df.columns]             # Applique la fonction à chaque colonne pour avoir des noms propres
df_clean = df.toDF(*clean_cols)                                  # Renomme les colonnes nettoyées dans la DataFrame
print("Colonnes nettoyées :", df_clean.columns)                  # Affiche les nouveaux noms de colonnes

# Nettoyage et conversion de la colonne 'streams'
df_clean = df_clean.withColumn(
    "streams",
    regexp_replace("streams", "[^0-9.]", "")                     # Retire des caractères parasites
).withColumn(
    "streams", col("streams").cast(DoubleType())                 # Cast la colonne streams en float
).na.drop(subset=["streams"])                                    # Retire les titres où le stream est vide

# Ajoute colonne 'streams_millions' (plus lisible pour les visus)
df_clean = df_clean.withColumn("streams_millions", format_number(col("streams")/1e6, 1)) 

# Suppression spécifique d'artistes outliers qui biaisent les analyses
artist_col = next((c for c in df_clean.columns if "artist" in c), None)  # Cherche la colonne artiste automatiquement
if artist_col:
    for bad in ["Edison Lighthouse", "Carin Leon, Grupo Frontera"]:      # Liste des artistes à enlever
        df_clean = df_clean.filter(col(artist_col) != bad)

track_col = next((c for c in df_clean.columns if "track" in c), None)    # Cherche la colonne track automatiquement

# Création du label de mois avec numéro pour garantir le bon ordre X dans les visuels
df_clean = df_clean.withColumn(
    "released_month_full_label",
    when(col("released_month") == 1, "01-Janvier")
    .when(col("released_month") == 2, "02-Février")
    .when(col("released_month") == 3, "03-Mars")
    .when(col("released_month") == 4, "04-Avril")
    .when(col("released_month") == 5, "05-Mai")
    .when(col("released_month") == 6, "06-Juin")
    .when(col("released_month") == 7, "07-Juillet")
    .when(col("released_month") == 8, "08-Août")
    .when(col("released_month") == 9, "09-Septembre")
    .when(col("released_month") == 10, "10-Octobre")
    .when(col("released_month") == 11, "11-Novembre")
    .otherwise("12-Décembre")
)

# Statistiques sur les streams pour analyse basique et détection outlier
print("Statistiques descriptives sur les streams :")
df_clean.describe("streams").show()

# Bar chart : top 10 artistes par streams cumulés
if artist_col:
    top_artists = df_clean.groupBy(artist_col)\
        .sum("streams")\
        .orderBy(col("sum(streams)").desc())\
        .limit(10)\
        .withColumn("streams_millions", format_number(col("sum(streams)")/1e6, 1))
    print("Top 10 artistes par streams cumulés")
    display(top_artists.select(artist_col, "streams_millions")) # Affiche un graphique du top 10 artistes

# Distribution : nombre de streams par titre (pour visualiser la dispersion des succès)
print("Nombre de streams par titre")
display(df_clean.select(artist_col, track_col, "streams_millions"))

# Evolution des streams cumulés par année (visualisation tendance globale Spotify)
if "released_year" in df_clean.columns:
    yearly_streams = df_clean.groupBy("released_year").sum("streams").orderBy("released_year")
    print("Evolution des streams cumulés par année")
    display(yearly_streams)

# Histogramme : nombre de morceaux sortis par année
df_year = df_clean.groupBy("released_year").count().orderBy("released_year")
print("Nombre de morceaux sortis par année")
display(df_year)

# Bar chart : nombre de morceaux sortis par mois en ordre calendrier (clé pour l'axe X !)
df_month_full_label = df_clean.groupBy("released_month_full_label").count().orderBy("released_month_full_label")
print("Nombre de morceaux sortis par mois")
display(df_month_full_label)

# Historique : combien de morceaux par jour du mois (voir effet calendrier)
df_day = df_clean.groupBy("released_day").count().orderBy("released_day")
print("Nombre de morceaux sortis par jour du mois")
display(df_day)

# Profils audio des top 5 artistes les plus streamés (comparatif des grandes dimensions musicales Spotify)
audio_features_keywords = ['danceability', 'energy', 'acousticness',
                          'instrumentalness', 'liveness', 'valence']
audio_cols = [c for c in df_clean.columns if any(c.startswith(k) for k in audio_features_keywords)]
if artist_col and audio_cols and "top_artists" in locals():
    top5_rows = top_artists.select(artist_col).limit(5).collect()
    top5_artists = [row[artist_col] for row in top5_rows]
    df_top5_audio = df_clean.filter(col(artist_col).isin(top5_artists)).groupBy(artist_col).avg(*audio_cols)
    print(f"Profils audio des top 5 artistes les plus streamés : {', '.join(top5_artists)}")
    display(df_top5_audio)

# Segmentation : proportion des titres à très fort succès (> 70M streams)
threshold = 70000000
df_final = df_clean.withColumn("streams_high", (col("streams") >= threshold).cast("integer"))
if artist_col:
    pop_dist = df_final.groupBy("streams_high").count()
    print(f"Proportion des titres à très fort succès (> {threshold:,} streams) :")
    print(f"{pop_dist.filter(col('streams_high') == 1).collect()[0]['count']:,}/{pop_dist.filter(col('streams_high') == 0).collect()[0]['count']:,}")
    display(pop_dist)

# Sauvegarde sous forme de Delta Table propres, pour BI/présentation/re-use
df_final.write.option("mergeSchema", "true").mode("overwrite").saveAsTable("spotify_streams_analysis_final")

print("✅ Analyse terminée et documentée. Colonnes X garanties en ordre calendaire.")


Colonnes nettoyées : ['track_name', 'artist_s__name', 'artist_count', 'released_year', 'released_month', 'released_day', 'in_spotify_playlists', 'in_spotify_charts', 'streams', 'in_apple_playlists', 'in_apple_charts', 'in_deezer_playlists', 'in_deezer_charts', 'in_shazam_charts', 'bpm', 'key', 'mode', 'danceability_%', 'valence_%', 'energy_%', 'acousticness_%', 'instrumentalness_%', 'liveness_%', 'speechiness_%']
Statistiques descriptives sur les streams :
+-------+-------------------+
|summary|            streams|
+-------+-------------------+
|  count|                951|
|   mean|5.146780502418507E8|
| stddev|5.669096048195426E8|
|    min|          1365184.0|
|    max|      3.703895074E9|
+-------+-------------------+

Top 10 artistes par streams cumulés


artist_s__name,streams_millions
The Weeknd,14185.6
Taylor Swift,14053.7
Ed Sheeran,13908.9
Harry Styles,11608.6
Bad Bunny,9997.8
Olivia Rodrigo,7442.1
Eminem,6183.8
Bruno Mars,5846.9
Arctic Monkeys,5569.8
Imagine Dragons,5272.5


Nombre de streams par titre


artist_s__name,track_name,streams_millions
"Latto, Jung Kook",Seven (feat. Latto) (Explicit Ver.),141.4
Myke Towers,LALA,133.7
Olivia Rodrigo,vampire,140.0
Taylor Swift,Cruel Summer,800.8
Bad Bunny,WHERE SHE GOES,303.2
"Dave, Central Cee",Sprinter,183.7
"Eslabon Armado, Peso Pluma",Ella Baila Sola,726.0
Quevedo,Columbia,58.1
Gunna,fukumean,95.2
"Peso Pluma, Yng Lvcas",La Bebe - Remix,553.6


Databricks visualization. Run in Databricks to view.

Evolution des streams cumulés par année


released_year,sum(streams)
1930,90598517.0
1942,395591396.0
1946,389771964.0
1950,473248298.0
1952,395591396.0
1957,919962022.0
1958,1310562937.0
1959,573417844.0
1963,1311263381.0
1968,1145727611.0


Databricks visualization. Run in Databricks to view.

Nombre de morceaux sortis par année


released_year,count
1930,1
1942,1
1946,1
1950,1
1952,1
1957,2
1958,3
1959,2
1963,3
1968,1


Databricks visualization. Run in Databricks to view.

Nombre de morceaux sortis par mois


released_month_full_label,count
01-Janvier,133
02-Février,61
03-Mars,86
04-Avril,66
05-Mai,128
06-Juin,86
07-Juillet,62
08-Août,46
09-Septembre,56
10-Octobre,73


Databricks visualization. Run in Databricks to view.

Nombre de morceaux sortis par jour du mois


released_day,count
1,94
2,39
3,32
4,39
5,25
6,39
7,39
8,25
9,35
10,37


Databricks visualization. Run in Databricks to view.

Profils audio des top 5 artistes les plus streamés : The Weeknd, Taylor Swift, Ed Sheeran, Harry Styles, Bad Bunny


artist_s__name,avg(danceability_%),avg(valence_%),avg(energy_%),avg(acousticness_%),avg(instrumentalness_%),avg(liveness_%)
Taylor Swift,59.76470588235294,35.55882352941177,56.794117647058826,27.88235294117647,0.6764705882352942,15.411764705882351
Bad Bunny,75.15789473684211,53.21052631578947,66.73684210526316,22.84210526315789,3.3157894736842106,18.157894736842103
Harry Styles,61.35294117647059,54.0,58.88235294117647,42.8235294117647,1.588235294117647,14.294117647058824
The Weeknd,57.68181818181818,42.27272727272727,63.90909090909091,20.59090909090909,1.4090909090909092,19.681818181818183
Ed Sheeran,69.66666666666667,51.333333333333336,64.77777777777777,28.88888888888889,0.0,16.333333333333332


Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Databricks visualization. Run in Databricks to view.

Proportion des titres à très fort succès (> 70,000,000 streams) :
862/89


streams_high,count
1,862
0,89


✅ Analyse terminée et documentée. Colonnes X garanties en ordre calendaire.
