## Partie 1 : Traitement de données
Notre objectif est de manipuler et de traiter le jeu de données (contenu dans le fichier `songs.csv`) des chansons les plus écoutées sur Spotify en 2024. Nos traitement serviront ensuite à entraîner un modèle simple de régression linéaire pour la prédiction du nombre total d'écoutes d'une chanson sur Spotify.

### Somaire
1. [Chargement du jeu de données](#1-chargement-du-jeu-de-données)
2. [Exploration des données](#2-exploration-des-données)
3. [Nettoyage des données](#3-nettoyage-des-données)
4. [Extraction de données](#4-extraction-de-données)
5. [Conversion de données](#5-conversion-des-données)
6. [Visualisation de données](#6-visualisation-de-données)
7. [Matrice de corrélation](#7-matrice-de-corrélation)
8. [Entraînement d'un modèle de régression](#8-entraînement-dun-modèle-de-régression-linéaire)

#### Installation et importation des librairies
Avant de commencer, nous devons lancer la cellule ci-bas afin de s'assurer que nous avons accès aux  librairies nécessaires.

In [None]:
%pip install pandas matplotlib plotly seaborn scikit-learn

import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns
from sklearn import linear_model

#### 1. Chargement du jeu de données
Chargez le jeu de données dans un [`DataFrame Pandas`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame), depuis le fichier CSV `songs.csv`.
Utilisez la méthode `read_csv()`.

In [528]:
# TODO: Charger le jeu de données dans un objet DataFrame.# TODO: Charger le jeu de données dans un objet DataFrame.
def chargee_donnees(file_path):
    datas = pd.read_csv(file_path)
    return pd.DataFrame(datas)

datas = chargee_donnees('songs.csv')

In [529]:
# TODO: Afficher les premières lignes du DataFrame pour comprendre la structure des données.
display(datas.head())

#### 2. Exploration des données
Affichez le nombre d'éléments (lignes) du jeu de données. Et, affichez les types de données de chaque colonne pour vérifier si nous avons besoin d'effectuer d'éventuelles nettoyage ou conversion.

In [530]:
# TODO: Afficher le nombre d'éléments.
print(len(datas))

# TODO: Afficher les types de données de chaque colonne.
print(datas.dtypes)

#### 3. Nettoyage des données
Pour procéder au nettoyage de nos données, nous allons :
- Supprimer les colonnes inutiles ;
- Analyser les valeurs manquantes ;
- Gérer les valeurs manquantes.

Les méthodes utiles pour cette section sont : `drop()`, `isna()`, `dropna()`.

In [531]:
# TODO: Utiliser drop() pour supprimer les colonnes "ISRC" et "TIDAL Popularity".

datas = datas.drop(columns=["ISRC", "TIDAL Popularity"])
display(datas.head())

In [532]:
# TODO: Pour chaque colonne, afficher la somme des valeurs manquantes (utiliser isna()).

print(datas.isna().sum())

In [533]:
# TODO: Supprimer les lignes contenant des valeurs manquantes (utiliser dropna()).

datas = datas.dropna(axis=0)

# TODO: Afficher la nouvelle dimension du DataFrame.

print("La nouvelle dimension du DataFrame est :", datas.shape)

#### 4. Extraction de données
Nous souhaitons extraire l'année de sortie à partir de la date de sortie, et créer une nouvelle colonne "Release Year" basée sur cette donnée. Utilisez `to_datetime()` pour extraire l'année depuis la date et `apply()` pour appliquer l'extraction sur un ensemble de données.

In [534]:
# TODO: Créer une colonne "Release Year" contenant l'année de sortie pour chacune des chansons.

datas["Release Date"] = pd.to_datetime(datas["Release Date"])
datas["Release Year"] = datas["Release Date"].apply(lambda x: x.year)

# Afficher les premières lignes pour vérifier le résultat

display(datas.head())

#### 5. Conversion de données
Lors de l'étape d'[exploration de données](#2-exploration-des-données), nous avons remarqué que certaines colonnes sont de type `object` alors qu'elles représentent des données numériques. Nous allons donc convertir ces colonnes en `float` (utilisez `apply()` pour appliquer la conversion sur un ensemble de données).

Omettre de la conversion les colonnes : "Track", "Album Name", "Artist", "Release Date".

In [535]:
# TODO: Afficher les colonnes à convertir en 'float'.
ne_pas_convertir = ["Track", "Albume Name", "Artist", "Release Date"]
colonnes = []

# TODO: Convertir les données des colonnes en 'float'.
for colonne in datas.select_dtypes(include="object").columns:
    if colonne not in ne_pas_convertir:
        colonnes.append(colonne)

for colonne in colonnes:
    datas[colonne] = datas[colonne].astype(str)
    datas[colonne] = datas[colonne].str.replace(",", "",regex=True)
    datas[colonne] = datas[colonne].str.replace(" ", "",regex=True)
    datas[colonne] = datas[colonne].apply(lambda x: float(x) if x.replace('.', '', 1).isdigit() else None)

In [536]:
# TODO: Afficher les types de données de chaque colonne.
print(datas.dtypes)

#### 6. Visualisation de données
Nous aimerions visualiser nos données via :
- un graphique en secteur avec la proportion du nombre d'écoutes Spotify en 2024 par année de sortie ;
- un histogramme avec la proportion de chanson à contenu explicite par année de sortie ;
- un diagramme à barres avec le top 10 des chansons les plus écoutées sur Spotify en 2024.

Pour cela, utilisez les méthodes `pie()`, `histogram()` et `bar()` de Plotly Express (accessible via l'objet `px`).

In [537]:
# TODO: Afficher un DataFrame contenant seulement les colonnes "Release Year", "Spotify Streams".
new_datas = datas[[ "Release Year","Spotify Streams"]]
print(display(new_datas))

In [538]:
# TODO: Afficher un graphique en secteur représentant le nombre d'écoutes Spotify en 2024 par année de sortie.
graphique_tarte = px.pie(datas, 
                   names = "Release Year", 
                   values="Spotify Streams", 
                   title="Le nombre d'écoutes Spotify en 2024 par année de sortie:")
graphique_tarte.show()

In [539]:
# TODO: Afficher un histogramme représentant la proportion de chanson à contenu explicite par année de sortie.
explicite_datas = datas[["Release Year","Spotify Streams", "Explicit Track"]]
histogramme = px.histogram(explicite_datas, 
                           x = "Release Year", 
                           color = "Explicit Track",
                           title = "La proportion de chanson à contenu explicite par année de sortie:")
histogramme.show()

In [540]:
# TODO : Afficher un diagramme à barres avec le top 10 des chansons les plus écoutées en 2024.
top_10_datas = datas[["Release Year","Spotify Streams", "Track"]]
top_10_datas = datas.sort_values(by ="Spotify Streams", ascending = False).head(10)
diagramme = px.bar(top_10_datas,
                   x = "Track" , 
                   y = "Spotify Streams" ,
                   title = "Le top 10 des chansons les plus écoutées en 2024:")
diagramme.show()

#### 7. Matrice de corrélation
Afin de comprendre la relation entre les différentes colonnes numériques, nous voulons construire une matrice de corrélation. Cette matrice nous permet de mesurer le lien de dépendance entre chaque colonne 1 à 1.

Utilisez la méthode `corr()` sur les colonnes numériques du DataFrame pour construire une matrice, et affichez la matrice avec `heatmap()` de Seaborn (accessible via l'objet `sns`).

In [541]:
# TODO: Afficher la matrice de corrélation entre les colonnes numériques du jeu de données.

colonnes_numeriques = datas.select_dtypes(include=["number"]).columns
matrice = datas[colonnes_numeriques].corr()
sns.heatmap(matrice, linewidths=0.5)
plt.title("Matrice de corrélation des colonnes numériques:")
plt.show()

#### 8. Entraînement d'un modèle de régression linéaire
Nous allons procéder à l'entraînement d'un modèle de regression linéaire pour prédire le nombre d'écoutes d'une chanson sur Spotify.

Cela consiste à apprendre d'une relation entre des données d'entrée et des résultats souhaités (ici on parle d'une relation entre toutes les colonnes décrivant une chanson et la colonne "Spotify Streams"). 

On veut diviser nos données en 2 ensembles distincts afin d'utiliser une partie pour que notre modèle apprenne des relations entre les entrées et le résulat, et l'autre partie pour tester la performance de notre modèle.

In [542]:
# TODO: Compléter data_test et data_train. Séparer le jeu de données de base en 2, 
#       on utilise la 1ère moitié pour initialiser data_test et l'autre pour data_train.
#       Les champs X correspondent aux données d'entrée (toutes les colonnes numériques sauf "Spotify Streams").
#       Les champs Y correspondent au résultat souhaité (soit la colonne "Spotify Streams").
separation = len(datas) // 2
data_test = {"X": datas.drop(columns = ["Spotify Streams", "Album Name", "Artist","Release Date", "Track"]).iloc[separation:],
             "Y": datas["Spotify Streams"].iloc[separation:]}

data_train = {"X": datas.drop(columns = [ "Spotify Streams","Album Name", "Artist","Release Date","Track"]).iloc[:separation] , 
              "Y": datas["Spotify Streams"].iloc[:separation]}

In [543]:
regression = linear_model.LinearRegression() # Instanciation du modèle de régression linéaire.
# TODO: Entraîner le modèle en appelant la méthode fit() sur la regression,
#       et en passant les données entraînements (entrées et résultat attendu) à cette méthode.

regression.fit(data_train["X"], data_train["Y"])

# TODO: Faire des prédictions de résultat à partir des données d'entrée de test,
#       en appelant la méthode predict() sur la regression.
#       Mettre les prédictions dans data_test["Y_pred"].
data_test["Y_pred"] = regression.predict(data_test["X"])

In [544]:
# TODO: Comparer la distribution des données prédites avec celles d'entraînement via un histogramme.
plt.figure(figsize=(12,6))
sns.histplot(data_train["Y"], color = "steelblue")
sns.histplot(data_test["Y_pred"], color = "orange")
plt.title("Comparaison de la distribution entre les données prédites et les données d'entraînement")
plt.ylabel("Fréquence")
plt.xlabel("Nombre d'écoutes Spotify")
plt.legend(labels = ["Entainement","Prédictions"])
plt.show()