### 1. Configuration initiale

On commence par importer les bibliothèques nécessaire et fixer une graine aléatoire pour assurer la reproductibilité des résultats

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

np.random.seed(42)

### 2. Définition des intensités
Dictionnaire qui définit les différents niveaux d'intensité avec leurs valeurs MET (Metabolic Equivalent of Task) correspondates. Plus la valeur MET est élevée, plus l'activité est intense.

In [None]:
intensites = {
    'cool': 4.0,
    'endurance': 6.8,
    'rythme': 8.0,
    'rapide': 10.0,
    'competition': 12.0
}

### 3. Génération des données
On génère 500 enregistrments avec :
- Des poids suivant une distribution normale (moyenne 75kg, écart-type 10)
- Des durées d'exercice uniformément réparties entre 30 et 180 minutes.
- Des intensités choisis aléatoirement parmi les niveaux définis.

In [None]:
n = 500
poids = np.random.normal(75, 10, n).clip(50, 100)
duree_min = np.random.uniform(30, 180, n)
intensite = np.random.choice(list(intensites.keys()), n)
met = np.array([intensites[i] for i in intensite])

### 4. calculs dérivés
On calcule :
- La durée en heures
- Les calories brûlées (formule : MET x poids x durée en heures)
- Une vitresse moyenne suivant une distribution normale
- La distance parcourue

In [None]:
duree_h = duree_min / 60
calories = met * poids * duree_h
vitesse_moy = np.random.normal(25, 5, n).clip(15, 40)
distance_km = vitesse_moy * (duree_min / 60)

### 5. Création et sauvegarde du DataFrame
Les données sont organisées dans un DataFrame pandas et sauvegardées dans un fichier CSV.

In [None]:
df = pd.DataFrame({
    'poids_kg': poids,
    'duree_min': duree_min,
    'vitesse_moyenne': vitesse_moy,
    'distance_km': distance_km,
    'intensite': intensite,
    'met': met,
    'calories_brulees': calories
})

df.to_csv("../data/dataset_synthetique_calories.csv", index=False)

### 6. Visualisations
On termine par deux visualisations :
- Un pairplot montrant les relations entre les variables numériques
- Une heatmap des corrélations entre les variables

In [None]:
print(df.head())

# Visualisation
sns.pairplot(df[['poids_kg', 'duree_min', 'vitesse_moyenne', 'distance_km', 'calories_brulees']])
plt.suptitle("Pairplot des variables", y=1.02)
plt.show()

sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')
plt.title("Corrélation entre variables")
plt.show()