# 🎶 Atelier de calibration de modèle - Tempo & Musique

Bienvenue ! 👋  
Aujourd’hui, tu vas découvrir comment on peut utiliser des **modèles mathématiques** pour analyser des données... musicales !  
Et surtout, tu vas apprendre à **ajuster** un modèle pour qu’il colle le mieux possible à la réalité 🎯

---

## 🔍 Contexte

Dans cet atelier, tu vas manipuler des données simulées représentant le **tempo moyen des chansons** de 1980 à 2020.  
Ton objectif : ajuster un modèle linéaire `y = a * x + b` pour qu’il prévoie bien ces tempos au fil du temps.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## 📦 Étape 1 : Chargement des outils

On commence par importer les bibliothèques Python dont on aura besoin :
- `numpy` pour les calculs numériques
- `matplotlib` pour les graphiques
- `pandas` pour manipuler les données facilement


In [None]:
np.random.seed(42)

annees = np.arange(1980, 2021)
true_a = 0.3
true_b = 90
tempos = true_a * annees + true_b + np.random.normal(0, 3, size=len(annees))
df = pd.DataFrame({'Année': annees, 'Tempo (BPM)': tempos})
df.head()

## 🎼 Étape 2 : Génération des données

Ici, on simule un ensemble de données représentant l'évolution du **tempo moyen (en BPM)** des chansons entre 1980 et 2020.

Le vrai modèle (caché 👀) est de la forme `y = 0.3 * x + 90`, mais on y ajoute un peu de **bruit aléatoire** pour rendre les données plus réalistes.


In [None]:
plt.figure(figsize=(10, 5))
plt.scatter(df['Année'], df['Tempo (BPM)'], color='purple')
plt.title("Évolution du tempo moyen des chansons depuis 1980")
plt.xlabel("Année")
plt.ylabel("Tempo (BPM)")
plt.grid(True)
plt.show()

In [None]:
def modele_lineaire(x, a, b):
    return a * x + b

a_test, b_test = 1.5, 50
df['Tempo préd (modèle test)'] = modele_lineaire(df['Année'], a_test, b_test)

plt.figure(figsize=(10, 5))
plt.scatter(df['Année'], df['Tempo (BPM)'], label="Données réelles", color='purple')
plt.plot(df['Année'], df['Tempo préd (modèle test)'], label="Modèle (a=1.5, b=50)", color='orange')
plt.title("Modèle initial (non calibré)")
plt.xlabel("Année")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

## 🤖 Étape 3 : Essai d’un premier modèle

On essaie un modèle avec des paramètres `a` et `b` choisis un peu au hasard.

Est-ce que la courbe colle bien aux points ? Pas vraiment 😅  
➡️ Il va falloir **calibrer** notre modèle pour l’améliorer !


In [None]:
a_user = 0.25
b_user = 95

df['Tempo préd (vous)'] = modele_lineaire(df['Année'], a_user, b_user)

plt.figure(figsize=(10, 5))
plt.scatter(df['Année'], df['Tempo (BPM)'], label="Données réelles", color='purple')
plt.plot(df['Année'], df['Tempo préd (vous)'], label=f"Votre modèle (a={a_user}, b={b_user})", color='green')
plt.title("Calibration manuelle du modèle")
plt.xlabel("Année")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

In [None]:
def erreur_moyenne_reelle_vs_modele(y_reel, y_modele):
    return np.mean(np.abs(y_reel - y_modele))

erreur = erreur_moyenne_reelle_vs_modele(df['Tempo (BPM)'], df['Tempo préd (vous)'])
print(f"Erreur moyenne de votre modèle : {erreur:.2f} BPM")

## 🛠️ Étape 4 : Calibration manuelle

À toi de jouer !  
Modifie les valeurs de `a_user` et `b_user` pour que la courbe colle au mieux aux données réelles.

Essaie plusieurs combinaisons pour minimiser l’écart entre les points et ta courbe.


In [None]:
df_bruite = df.copy()
df_bruite['Tempo bruité'] = df_bruite['Tempo (BPM)'] + np.random.normal(0, 8, size=len(df))

plt.figure(figsize=(10, 5))
plt.scatter(df_bruite['Année'], df_bruite['Tempo bruité'], label="Données bruitées", color='darkorange')
plt.title("Challenge : données bruitées 🎯")
plt.xlabel("Année")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

## 📏 Étape 5 : Mesure de l’erreur

On mesure ici l’**écart moyen** entre les valeurs prédites par ton modèle et les vraies données.

Plus l’erreur est **petite**, meilleur est ton modèle !


### 🎤 Pourquoi il y a du bruit dans les données ?

Dans la vraie vie, les données ne sont jamais parfaites.

Voici quelques raisons :
- Les mesures peuvent contenir des **erreurs** (instruments imprécis, humains, etc.)
- Il existe des **facteurs non pris en compte** par le modèle (ex: genre musical, producteur, humeur du moment…)
- Le monde est **complexe et variable** : deux chansons d’une même année ne sont jamais identiques !

➡️ On appelle cela du **bruit** : c’est une variation aléatoire qui complique le travail du modèle... mais le rend aussi plus réaliste !

In [None]:
a_bruite = 0.3
b_bruite = 90

df_bruite['Tempo préd'] = modele_lineaire(df_bruite['Année'], a_bruite, b_bruite)

plt.figure(figsize=(10, 5))
plt.scatter(df_bruite['Année'], df_bruite['Tempo bruité'], label="Données bruitées", color='darkorange')
plt.plot(df_bruite['Année'], df_bruite['Tempo préd'], label=f"Votre modèle (a={a_bruite}, b={b_bruite})", color='blue')
plt.title("Votre tentative de calibration sur données bruitées")
plt.xlabel("Année")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

erreur_bruite = erreur_moyenne_reelle_vs_modele(df_bruite['Tempo bruité'], df_bruite['Tempo préd'])
print(f"Erreur moyenne sur données bruitées : {erreur_bruite:.2f} BPM")

In [None]:
x = df['Année'].values
y = df['Tempo (BPM)'].values

a, b = 0.0, 0.0
learning_rate = 1e-4
epochs = 500

for _ in range(epochs):
    y_pred = a * x + b
    error = y - y_pred
    a += learning_rate * (-2 * np.mean(error * x))
    b += learning_rate * (-2 * np.mean(error))

print(f"Paramètres optimisés automatiquement : a = {a:.4f}, b = {b:.4f}")

plt.figure(figsize=(10, 5))
plt.scatter(x, y, label="Données réelles", color='purple')
plt.plot(x, a * x + b, label="Modèle optimisé", color='red')
plt.title("Modèle calibré automatiquement")
plt.xlabel("Année")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

from IPython.display import Markdown

Markdown("""
### 🔬 Ce que vous venez de faire, je le fais aussi dans ma recherche...

Vous avez testé et ajusté un **modèle simple** pour qu’il colle aux **données réelles**.

Moi aussi je fais ça ! Mais avec :
- des modèles plus complexes (non linéaires),
- des incertitudes à gérer,
- et des algorithmes puissants pour optimiser les paramètres.

👉 Vous venez de découvrir ce qu’est **la calibration** d’un modèle : c’est une étape clé en science des données, en climatologie, en santé, en ingénierie… et en musique aussi ! 🎶
""")

## ⚙️ Étape 6 : Calibration automatique (optionnelle)

Pour aller plus loin : on utilise un **algorithme très simple** (descente de gradient) pour que l’ordinateur trouve automatiquement les meilleurs paramètres `a` et `b`.

Tu vas voir que les résultats sont souvent bien meilleurs !
