# 📊 Analyse Exploratoire des Données (EDA) - Vue Générale

Ce notebook présente une analyse exploratoire générale des données d'entraînement de musculation.

## Objectifs
- Comprendre la structure et qualité des données
- Identifier les distributions et outliers
- Analyser les patterns généraux d'entraînement
- Préparer les données pour les analyses futures

## 🔧 Import des librairies

In [None]:
# Librairies de base
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Base de données
import sqlalchemy as sa
import psycopg2
from sqlalchemy import create_engine

# Utilitaires
import os
import sys
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

# Ajout du chemin src pour imports
sys.path.append('../src')

## 📁 Chargement des données

In [6]:
# Chargement depuis CSV d'exemple
df_csv = pd.read_csv('../examples/sample_data.csv')
print("📋 Données CSV chargées:")
print(f"Shape: {df_csv.shape}")
print(f"Colonnes: {list(df_csv.columns)}")
df_csv.head()

📋 Données CSV chargées:
Shape: (12, 12)
Colonnes: ['Date', 'Entraînement', 'Heure', 'Exercice', 'Région', 'Groupes musculaires (Primaires)', 'Groupes musculaires (Secondaires)', "Série / Série d'échauffement / Série de récupération", 'Répétitions / Temps', 'Poids / Distance', 'Notes', 'Sautée']


Unnamed: 0,Date,Entraînement,Heure,Exercice,Région,Groupes musculaires (Primaires),Groupes musculaires (Secondaires),Série / Série d'échauffement / Série de récupération,Répétitions / Temps,Poids / Distance,Notes,Sautée
0,29/08/2025,Pecs Dos 2,16:05,Traction à la Barre Fixe,Dos,"Trapèzes, Muscles dorsaux",Biceps,Série,13 répétitions,"0,00 kg",,Non
1,29/08/2025,Pecs Dos 2,16:07,Traction à la Barre Fixe,Dos,"Trapèzes, Muscles dorsaux",Biceps,Série,10 répétitions,"0,00 kg",,Non
2,29/08/2025,Pecs Dos 2,16:10,Développé couché,Pectoraux,Pectoraux,Triceps,Échauffement,8 répétitions,"50,0 kg",Échauffement,Non
3,29/08/2025,Pecs Dos 2,16:12,Développé couché,Pectoraux,Pectoraux,Triceps,Série,8 répétitions,"70,0 kg",,Non
4,29/08/2025,Pecs Dos 2,16:14,Développé couché,Pectoraux,Pectoraux,Triceps,Série,6 répétitions,"75,0 kg",Forme parfaite,Non


In [4]:
# Configuration base de données (optionnel - si Docker est lancé)
try:
    # Connexion à PostgreSQL avec les bons identifiants
    engine = create_engine('postgresql://dev:devpass@localhost:5432/muscle_analytics')
    
    # Chargement des tables
    df_sessions = pd.read_sql('SELECT * FROM sessions', engine)
    df_sets = pd.read_sql('SELECT * FROM sets', engine) 
    df_exercises = pd.read_sql('SELECT * FROM exercises', engine)
    
    print("✅ Connexion PostgreSQL réussie")
    print(f"Sessions: {len(df_sessions)} lignes")
    print(f"Sets: {len(df_sets)} lignes") 
    print(f"Exercices catalogués: {len(df_exercises)} lignes")
    
    use_db = True
    
except Exception as e:
    print(f"⚠️ Impossible de se connecter à la DB: {e}")
    print("📝 Utilisation des données CSV uniquement")
    use_db = False

✅ Connexion PostgreSQL réussie
Sessions: 15 lignes
Sets: 15 lignes
Exercices catalogués: 0 lignes


In [8]:
# Choix des données à utiliser
if use_db and len(df_sets) > 0:
    print("🐘 Utilisation des données PostgreSQL")
    
    # Reconstitution du format CSV depuis les tables PostgreSQL
    df_from_db = df_sets.merge(df_sessions, left_on='session_id', right_on='id', how='left')
    
    # Conversion de la date au bon format
    df_from_db['date'] = pd.to_datetime(df_from_db['date'])
    
    # Mapping des types de série PostgreSQL vers format CSV
    series_type_mapping = {
        'working_set': 'Série',
        'warmup': 'Échauffement',
        'dropset': 'Série de récupération'
    }
    
    # Mapping des exercices pour avoir des noms en français
    exercise_mapping = {
        'pull-up': 'Traction à la Barre Fixe',
        'bench-press': 'Développé couché',
        'squat': 'Squat'
    }
    
    # Reconstruction des colonnes du format CSV
    df_db_formatted = pd.DataFrame({
        'Date': df_from_db['date'].dt.strftime('%d/%m/%Y'),
        'Entraînement': df_from_db['training_name'].fillna('Entraînement'),
        'Heure': df_from_db['start_time'].astype(str),
        'Exercice': df_from_db['exercise'].map(exercise_mapping).fillna(df_from_db['exercise']),
        'Région': 'Générale',  # À enrichir avec la table exercises
        'Groupes musculaires (Primaires)': 'Non spécifié',
        'Groupes musculaires (Secondaires)': 'Non spécifié',
        'Série / Série d\'échauffement / Série de récupération': df_from_db['series_type'].map(series_type_mapping).fillna(df_from_db['series_type']),
        'Répétitions / Temps': df_from_db['reps'].astype(str) + ' répétitions',
        'Poids / Distance': df_from_db['weight_kg'].astype(str) + ',0 kg',
        'Notes': df_from_db['notes_x'].fillna(''),  # notes_x = notes des sets
        'Sautée': df_from_db['skipped'].map({True: 'Oui', False: 'Non'})
    })
    
    # Utiliser les données de la DB
    df_csv = df_db_formatted
    print(f"📊 Données PostgreSQL converties: {len(df_csv)} sets")
    
else:
    print("📄 Utilisation des données CSV d'exemple")
    # Le df_csv est déjà chargé depuis le CSV

print(f"📋 Dataset final: {len(df_csv)} lignes")
print(f"📅 Période: du {df_csv['Date'].min()} au {df_csv['Date'].max()}")
df_csv.head()

🐘 Utilisation des données PostgreSQL
📊 Données PostgreSQL converties: 15 sets
📋 Dataset final: 15 lignes
📅 Période: du 01/09/2025 au 31/08/2025


Unnamed: 0,Date,Entraînement,Heure,Exercice,Région,Groupes musculaires (Primaires),Groupes musculaires (Secondaires),Série / Série d'échauffement / Série de récupération,Répétitions / Temps,Poids / Distance,Notes,Sautée
0,29/08/2025,Pecs Dos 2,16:05:00,Traction à la Barre Fixe,Générale,Non spécifié,Non spécifié,Série,13 répétitions,"0.0,0 kg",,Non
1,29/08/2025,Pecs Dos 2,16:07:00,Traction à la Barre Fixe,Générale,Non spécifié,Non spécifié,Série,10 répétitions,"0.0,0 kg",,Non
2,29/08/2025,Pecs Dos 2,16:10:00,Développé couché,Générale,Non spécifié,Non spécifié,Échauffement,8 répétitions,"50.0,0 kg",Échauffement,Non
3,29/08/2025,Pecs Dos 2,16:12:00,Développé couché,Générale,Non spécifié,Non spécifié,Série,8 répétitions,"70.0,0 kg",,Non
4,29/08/2025,Pecs Dos 2,16:14:00,Développé couché,Générale,Non spécifié,Non spécifié,Série,6 répétitions,"75.0,0 kg",Forme parfaite,Non


## 🔍 Analyse des données CSV

In [9]:
# Aperçu général des données
print("📊 INFORMATIONS GÉNÉRALES")
print("=" * 50)
print(f"Nombre total de sets: {len(df_csv)}")
print(f"Période: du {df_csv['Date'].min()} au {df_csv['Date'].max()}")
print(f"Nombre d'exercices uniques: {df_csv['Exercice'].nunique()}")
print(f"Nombre d'entraînements uniques: {df_csv['Entraînement'].nunique()}")
print(f"Nombre de jours d'entraînement: {df_csv['Date'].nunique()}")

print("\n📋 COLONNES ET TYPES")
print("=" * 50)
df_csv.info()

📊 INFORMATIONS GÉNÉRALES
Nombre total de sets: 15
Période: du 01/09/2025 au 31/08/2025
Nombre d'exercices uniques: 4
Nombre d'entraînements uniques: 4
Nombre de jours d'entraînement: 4

📋 COLONNES ET TYPES
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 12 columns):
 #   Column                                                Non-Null Count  Dtype 
---  ------                                                --------------  ----- 
 0   Date                                                  15 non-null     object
 1   Entraînement                                          15 non-null     object
 2   Heure                                                 15 non-null     object
 3   Exercice                                              15 non-null     object
 4   Région                                                15 non-null     object
 5   Groupes musculaires (Primaires)                       15 non-null     object
 6   Groupes musculaires (Secondair

In [None]:
# Nettoyage et préparation des données
df = df_csv.copy()

# Conversion des dates
df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y')

# Nettoyage de la colonne poids (suppression "kg" et conversion virgule en point)
df['Poids_kg'] = df['Poids / Distance'].str.replace(' kg', '').str.replace(',', '.').astype(float)

# Extraction du nombre de répétitions
df['Reps'] = df['Répétitions / Temps'].str.extract(r'(\d+)').astype(float)

# Calcul du volume (poids × répétitions)
df['Volume'] = df['Poids_kg'] * df['Reps']

# Nettoyage type de série
df['Type_serie'] = df['Série / Série d\'échauffement / Série de récupération']

# Conversion booléenne pour "Sautée"
df['Sautee'] = df['Sautée'].map({'Oui': True, 'Non': False})

print("✅ Données nettoyées et enrichies")
print(f"Volume total calculé: {df['Volume'].sum():.0f} kg")
df[['Date', 'Exercice', 'Poids_kg', 'Reps', 'Volume', 'Type_serie']].head(10)

## 📈 Statistiques descriptives

In [None]:
# Statistiques sur les variables numériques
print("📊 STATISTIQUES DESCRIPTIVES")
print("=" * 50)

stats_cols = ['Poids_kg', 'Reps', 'Volume']
stats = df[stats_cols].describe()
print(stats)

# Informations complémentaires
print("\n🔍 INFORMATIONS COMPLÉMENTAIRES")
print("=" * 50)
print(f"Valeurs manquantes:")
print(df[stats_cols].isnull().sum())
print(f"\nZéros dans les données:")
print((df[stats_cols] == 0).sum())

In [None]:
# Analyse par type de série
print("📋 ANALYSE PAR TYPE DE SÉRIE")
print("=" * 50)

type_analysis = df.groupby('Type_serie').agg({
    'Poids_kg': ['count', 'mean', 'std'],
    'Reps': ['mean', 'std'],
    'Volume': ['sum', 'mean']
}).round(2)

print(type_analysis)

## 📊 Visualisations - Distributions

In [None]:
# Distribution des variables principales
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('📊 Distributions des Variables Principales', fontsize=16, fontweight='bold')

# Distribution du poids
axes[0,0].hist(df['Poids_kg'].dropna(), bins=20, alpha=0.7, color='skyblue', edgecolor='black')
axes[0,0].set_title('Distribution des Poids (kg)')
axes[0,0].set_xlabel('Poids (kg)')
axes[0,0].set_ylabel('Fréquence')
axes[0,0].axvline(df['Poids_kg'].mean(), color='red', linestyle='--', label=f'Moyenne: {df["Poids_kg"].mean():.1f} kg')
axes[0,0].legend()

# Distribution des répétitions
axes[0,1].hist(df['Reps'].dropna(), bins=15, alpha=0.7, color='lightgreen', edgecolor='black')
axes[0,1].set_title('Distribution des Répétitions')
axes[0,1].set_xlabel('Répétitions')
axes[0,1].set_ylabel('Fréquence')
axes[0,1].axvline(df['Reps'].mean(), color='red', linestyle='--', label=f'Moyenne: {df["Reps"].mean():.1f}')
axes[0,1].legend()

# Distribution du volume
axes[1,0].hist(df['Volume'].dropna(), bins=20, alpha=0.7, color='orange', edgecolor='black')
axes[1,0].set_title('Distribution du Volume (kg×reps)')
axes[1,0].set_xlabel('Volume')
axes[1,0].set_ylabel('Fréquence')
axes[1,0].axvline(df['Volume'].mean(), color='red', linestyle='--', label=f'Moyenne: {df["Volume"].mean():.0f}')
axes[1,0].legend()

# Boxplot pour détecter les outliers
data_for_box = [df['Poids_kg'].dropna(), df['Reps'].dropna(), df['Volume'].dropna()]
bp = axes[1,1].boxplot(data_for_box, labels=['Poids (kg)', 'Reps', 'Volume'], patch_artist=True)
colors = ['skyblue', 'lightgreen', 'orange']
for patch, color in zip(bp['boxes'], colors):
    patch.set_facecolor(color)
axes[1,1].set_title('Boxplots - Détection d\'Outliers')
axes[1,1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

In [None]:
# Analyse des outliers
print("🚨 DÉTECTION D'OUTLIERS")
print("=" * 50)

def detect_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return outliers, lower_bound, upper_bound

# Analyse des outliers pour chaque variable
for col in ['Poids_kg', 'Reps', 'Volume']:
    outliers, lb, ub = detect_outliers_iqr(df, col)
    print(f"\n{col}:")
    print(f"  Bornes normales: [{lb:.2f}, {ub:.2f}]")
    print(f"  Nombre d'outliers: {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)")
    
    if len(outliers) > 0:
        print(f"  Valeurs extrêmes: {outliers[col].min():.2f} - {outliers[col].max():.2f}")
        if len(outliers) <= 5:  # Afficher les détails si peu d'outliers
            print(f"  Détails: {outliers[['Date', 'Exercice', col, 'Notes']].to_string(index=False)}")

## 📊 Analyse par exercice

In [None]:
# Fréquence des exercices
print("🏋️ ANALYSE PAR EXERCICE")
print("=" * 50)

exercise_stats = df.groupby('Exercice').agg({
    'Date': 'count',  # Nombre de sets
    'Poids_kg': ['mean', 'max'],
    'Reps': 'mean',
    'Volume': ['sum', 'mean']
}).round(2)

exercise_stats.columns = ['Nb_Sets', 'Poids_Moyen', 'Poids_Max', 'Reps_Moyen', 'Volume_Total', 'Volume_Moyen']
exercise_stats = exercise_stats.sort_values('Volume_Total', ascending=False)

print(exercise_stats)

# Graphique des exercices les plus populaires
plt.figure(figsize=(12, 6))
exercise_counts = df['Exercice'].value_counts()
exercise_counts.plot(kind='bar', color='steelblue', alpha=0.8)
plt.title('📊 Fréquence des Exercices (Nombre de Sets)', fontsize=14, fontweight='bold')
plt.xlabel('Exercice')
plt.ylabel('Nombre de Sets')
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Volume par exercice
plt.figure(figsize=(12, 6))
volume_by_exercise = df.groupby('Exercice')['Volume'].sum().sort_values(ascending=False)
volume_by_exercise.plot(kind='bar', color='darkgreen', alpha=0.8)
plt.title('📈 Volume Total par Exercice (kg × reps)', fontsize=14, fontweight='bold')
plt.xlabel('Exercice')
plt.ylabel('Volume Total')
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\n💪 Volume total d'entraînement: {df['Volume'].sum():.0f} kg")
print(f"🏆 Exercice avec le plus de volume: {volume_by_exercise.index[0]} ({volume_by_exercise.iloc[0]:.0f} kg)")

## 📅 Analyse temporelle

In [None]:
# Volume par jour
daily_volume = df.groupby('Date').agg({
    'Volume': 'sum',
    'Exercice': 'count',  # Nombre de sets
    'Entraînement': 'first'
}).reset_index()

daily_volume.columns = ['Date', 'Volume_Total', 'Nb_Sets', 'Type_Entrainement']

print("📅 ANALYSE TEMPORELLE")
print("=" * 50)
print(daily_volume)

# Graphique de l'évolution du volume
plt.figure(figsize=(12, 6))
plt.plot(daily_volume['Date'], daily_volume['Volume_Total'], 
         marker='o', linewidth=2, markersize=8, color='navy')
plt.title('📈 Évolution du Volume d\'Entraînement dans le Temps', fontsize=14, fontweight='bold')
plt.xlabel('Date')
plt.ylabel('Volume Total (kg)')
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45)

# Annotations pour chaque point
for i, row in daily_volume.iterrows():
    plt.annotate(f"{row['Type_Entrainement']}\n{row['Volume_Total']:.0f}kg", 
                xy=(row['Date'], row['Volume_Total']),
                xytext=(5, 15), textcoords='offset points',
                fontsize=8, ha='left')

plt.tight_layout()
plt.show()

## 🎯 Résumé et insights clés

In [None]:
print("🎯 RÉSUMÉ DE L'ANALYSE EXPLORATOIRE")
print("=" * 60)

# Métriques globales
total_days = df['Date'].nunique()
total_sets = len(df)
total_volume = df['Volume'].sum()
avg_daily_volume = total_volume / total_days

print(f"📊 MÉTRIQUES GLOBALES:")
print(f"   • Période analysée: {total_days} jours d'entraînement")
print(f"   • Total des sets: {total_sets}")
print(f"   • Volume total: {total_volume:.0f} kg")
print(f"   • Volume moyen par jour: {avg_daily_volume:.0f} kg")
print(f"   • Exercices différents: {df['Exercice'].nunique()}")

print(f"\n🏋️ PATTERNS D'ENTRAÎNEMENT:")
most_frequent_exercise = df['Exercice'].value_counts().index[0]
most_volume_exercise = df.groupby('Exercice')['Volume'].sum().idxmax()
avg_weight = df['Poids_kg'].mean()
avg_reps = df['Reps'].mean()

print(f"   • Exercice le plus fréquent: {most_frequent_exercise}")
print(f"   • Exercice avec le plus de volume: {most_volume_exercise}")
print(f"   • Poids moyen utilisé: {avg_weight:.1f} kg")
print(f"   • Répétitions moyennes: {avg_reps:.1f}")

print(f"\n⚠️ POINTS D'ATTENTION:")
skipped_sets = df['Sautee'].sum()
zero_weight_sets = (df['Poids_kg'] == 0).sum()
missing_reps = df['Reps'].isnull().sum()

print(f"   • Sets sautés: {skipped_sets}")
print(f"   • Sets sans poids (0kg): {zero_weight_sets}")
print(f"   • Sets sans répétitions: {missing_reps}")

print(f"\n✅ QUALITÉ DES DONNÉES:")
completeness = (1 - df.isnull().sum().sum() / (len(df) * len(df.columns))) * 100
print(f"   • Complétude globale: {completeness:.1f}%")
print(f"   • Données exploitables pour l'analyse ML: {'✅ Oui' if completeness > 90 else '⚠️ À améliorer'}")

print("\n🚀 PROCHAINES ÉTAPES RECOMMANDÉES:")
print("   1. Analyser les patterns par région musculaire (notebook suivant)")
print("   2. Étudier l'évolution temporelle et la progression")
print("   3. Calculer les features ML (1RM, volume cumulé, etc.)")
print("   4. Identifier les opportunités d'optimisation d'entraînement")

---
## 📝 Notes de fin

Ce notebook a fourni une vue d'ensemble des données d'entraînement. Les analyses montrent :

### Points positifs ✅
- Données structurées et cohérentes
- Volume d'entraînement mesurable
- Diversité d'exercices appropriée

### Points d'amélioration ⚠️
- Gestion des sets sautés à optimiser
- Standardisation des poids (cas 0kg pour tractions)
- Enrichissement possible avec plus de métadonnées

### Prochains notebooks 📚
1. **02_EDA_muscles_exercices.ipynb** - Analyse par région musculaire
2. **03_EDA_temporel.ipynb** - Analyse temporelle avancée
3. **04_features_engineering.ipynb** - Création des features ML