# üé∂ Atelier de calibration de mod√®le - Tempo & Musique

Bienvenue ! üëã  
Aujourd‚Äôhui, tu vas d√©couvrir comment on peut utiliser des **mod√®les math√©matiques** pour analyser des donn√©es... musicales !  
Et surtout, tu vas apprendre √† **ajuster** un mod√®le pour qu‚Äôil colle le mieux possible √† la r√©alit√© üéØ

---

## üîç Contexte

Dans cet atelier, tu vas manipuler des donn√©es simul√©es repr√©sentant le **tempo moyen des chansons** de 1980 √† 2020.  
Ton objectif : ajuster un mod√®le lin√©aire `y = a * x + b` pour qu‚Äôil pr√©voie bien ces tempos au fil du temps.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

## üì¶ √âtape 1 : Chargement des outils

On commence par importer les biblioth√®ques Python dont on aura besoin :
- `numpy` pour les calculs num√©riques
- `matplotlib` pour les graphiques
- `pandas` pour manipuler les donn√©es facilement


In [None]:
np.random.seed(42)

annees = np.arange(1980, 2021)
true_a = 0.3
true_b = 90
tempos = true_a * annees + true_b + np.random.normal(0, 3, size=len(annees))
df = pd.DataFrame({'Ann√©e': annees, 'Tempo (BPM)': tempos})
df.head()

## üéº √âtape 2 : G√©n√©ration des donn√©es

Ici, on simule un ensemble de donn√©es repr√©sentant l'√©volution du **tempo moyen (en BPM)** des chansons entre 1980 et 2020.

Le vrai mod√®le (cach√© üëÄ) est de la forme `y = 0.3 * x + 90`, mais on y ajoute un peu de **bruit al√©atoire** pour rendre les donn√©es plus r√©alistes.


In [None]:
plt.figure(figsize=(10, 5))
plt.scatter(df['Ann√©e'], df['Tempo (BPM)'], color='purple')
plt.title("√âvolution du tempo moyen des chansons depuis 1980")
plt.xlabel("Ann√©e")
plt.ylabel("Tempo (BPM)")
plt.grid(True)
plt.show()

In [None]:
def modele_lineaire(x, a, b):
    return a * x + b

a_test, b_test = 1.5, 50
df['Tempo pr√©d (mod√®le test)'] = modele_lineaire(df['Ann√©e'], a_test, b_test)

plt.figure(figsize=(10, 5))
plt.scatter(df['Ann√©e'], df['Tempo (BPM)'], label="Donn√©es r√©elles", color='purple')
plt.plot(df['Ann√©e'], df['Tempo pr√©d (mod√®le test)'], label="Mod√®le (a=1.5, b=50)", color='orange')
plt.title("Mod√®le initial (non calibr√©)")
plt.xlabel("Ann√©e")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

## ü§ñ √âtape 3 : Essai d‚Äôun premier mod√®le

On essaie un mod√®le avec des param√®tres `a` et `b` choisis un peu au hasard.

Est-ce que la courbe colle bien aux points ? Pas vraiment üòÖ  
‚û°Ô∏è Il va falloir **calibrer** notre mod√®le pour l‚Äôam√©liorer !


In [None]:
a_user = 0.25
b_user = 95

df['Tempo pr√©d (vous)'] = modele_lineaire(df['Ann√©e'], a_user, b_user)

plt.figure(figsize=(10, 5))
plt.scatter(df['Ann√©e'], df['Tempo (BPM)'], label="Donn√©es r√©elles", color='purple')
plt.plot(df['Ann√©e'], df['Tempo pr√©d (vous)'], label=f"Votre mod√®le (a={a_user}, b={b_user})", color='green')
plt.title("Calibration manuelle du mod√®le")
plt.xlabel("Ann√©e")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

In [None]:
def erreur_moyenne_reelle_vs_modele(y_reel, y_modele):
    return np.mean(np.abs(y_reel - y_modele))

erreur = erreur_moyenne_reelle_vs_modele(df['Tempo (BPM)'], df['Tempo pr√©d (vous)'])
print(f"Erreur moyenne de votre mod√®le : {erreur:.2f} BPM")

## üõ†Ô∏è √âtape 4 : Calibration manuelle

√Ä toi de jouer !  
Modifie les valeurs de `a_user` et `b_user` pour que la courbe colle au mieux aux donn√©es r√©elles.

Essaie plusieurs combinaisons pour minimiser l‚Äô√©cart entre les points et ta courbe.


In [None]:
df_bruite = df.copy()
df_bruite['Tempo bruit√©'] = df_bruite['Tempo (BPM)'] + np.random.normal(0, 8, size=len(df))

plt.figure(figsize=(10, 5))
plt.scatter(df_bruite['Ann√©e'], df_bruite['Tempo bruit√©'], label="Donn√©es bruit√©es", color='darkorange')
plt.title("Challenge : donn√©es bruit√©es üéØ")
plt.xlabel("Ann√©e")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

## üìè √âtape 5 : Mesure de l‚Äôerreur

On mesure ici l‚Äô**√©cart moyen** entre les valeurs pr√©dites par ton mod√®le et les vraies donn√©es.

Plus l‚Äôerreur est **petite**, meilleur est ton mod√®le !


### üé§ Pourquoi il y a du bruit dans les donn√©es ?

Dans la vraie vie, les donn√©es ne sont jamais parfaites.

Voici quelques raisons :
- Les mesures peuvent contenir des **erreurs** (instruments impr√©cis, humains, etc.)
- Il existe des **facteurs non pris en compte** par le mod√®le (ex: genre musical, producteur, humeur du moment‚Ä¶)
- Le monde est **complexe et variable** : deux chansons d‚Äôune m√™me ann√©e ne sont jamais identiques !

‚û°Ô∏è On appelle cela du **bruit** : c‚Äôest une variation al√©atoire qui complique le travail du mod√®le... mais le rend aussi plus r√©aliste !

In [None]:
a_bruite = 0.3
b_bruite = 90

df_bruite['Tempo pr√©d'] = modele_lineaire(df_bruite['Ann√©e'], a_bruite, b_bruite)

plt.figure(figsize=(10, 5))
plt.scatter(df_bruite['Ann√©e'], df_bruite['Tempo bruit√©'], label="Donn√©es bruit√©es", color='darkorange')
plt.plot(df_bruite['Ann√©e'], df_bruite['Tempo pr√©d'], label=f"Votre mod√®le (a={a_bruite}, b={b_bruite})", color='blue')
plt.title("Votre tentative de calibration sur donn√©es bruit√©es")
plt.xlabel("Ann√©e")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

erreur_bruite = erreur_moyenne_reelle_vs_modele(df_bruite['Tempo bruit√©'], df_bruite['Tempo pr√©d'])
print(f"Erreur moyenne sur donn√©es bruit√©es : {erreur_bruite:.2f} BPM")

In [None]:
x = df['Ann√©e'].values
y = df['Tempo (BPM)'].values

a, b = 0.0, 0.0
learning_rate = 1e-4
epochs = 500

for _ in range(epochs):
    y_pred = a * x + b
    error = y - y_pred
    a += learning_rate * (-2 * np.mean(error * x))
    b += learning_rate * (-2 * np.mean(error))

print(f"Param√®tres optimis√©s automatiquement : a = {a:.4f}, b = {b:.4f}")

plt.figure(figsize=(10, 5))
plt.scatter(x, y, label="Donn√©es r√©elles", color='purple')
plt.plot(x, a * x + b, label="Mod√®le optimis√©", color='red')
plt.title("Mod√®le calibr√© automatiquement")
plt.xlabel("Ann√©e")
plt.ylabel("Tempo (BPM)")
plt.legend()
plt.grid(True)
plt.show()

from IPython.display import Markdown

Markdown("""
### üî¨ Ce que vous venez de faire, je le fais aussi dans ma recherche...

Vous avez test√© et ajust√© un **mod√®le simple** pour qu‚Äôil colle aux **donn√©es r√©elles**.

Moi aussi je fais √ßa ! Mais avec :
- des mod√®les plus complexes (non lin√©aires),
- des incertitudes √† g√©rer,
- et des algorithmes puissants pour optimiser les param√®tres.

üëâ Vous venez de d√©couvrir ce qu‚Äôest **la calibration** d‚Äôun mod√®le : c‚Äôest une √©tape cl√© en science des donn√©es, en climatologie, en sant√©, en ing√©nierie‚Ä¶ et en musique aussi ! üé∂
""")

## ‚öôÔ∏è √âtape 6 : Calibration automatique (optionnelle)

Pour aller plus loin : on utilise un **algorithme tr√®s simple** (descente de gradient) pour que l‚Äôordinateur trouve automatiquement les meilleurs param√®tres `a` et `b`.

Tu vas voir que les r√©sultats sont souvent bien meilleurs !
