In [None]:
# 🔗 Test de connexion PostgreSQL
try:
    import sqlalchemy as sa
    engine = sa.create_engine('postgresql://dev:devpass@localhost:5432/muscle_analytics')
    result = engine.execute(sa.text('SELECT COUNT(*) FROM sets')).fetchone()
    print(f"✅ PostgreSQL accessible - {result[0]} sets trouvés")
    print("💡 Ce notebook peut utiliser les données PostgreSQL")
    use_postgresql = True
except Exception as e:
    print(f"⚠️ PostgreSQL non accessible: {e}")
    print("📄 Ce notebook utilisera les données CSV")
    use_postgresql = False

# 🏋️ Analyse EDA - Muscles et Exercices

Ce notebook se concentre sur l'analyse des exercices, des groupes musculaires et de leur répartition.

## Objectifs
- Analyser la répartition par région musculaire
- Créer un mapping exercices ↔ muscles complet
- Identifier les déséquilibres potentiels
- Analyser la fréquence d'entraînement par groupe musculaire

## 🔧 Imports et configuration

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette("Set2")
plt.rcParams['figure.figsize'] = (12, 8)

print("🔧 Librairies chargées avec succès")

## 📁 Chargement et préparation des données

In [None]:
# Chargement des données
df_raw = pd.read_csv('../examples/sample_data.csv')

# Nettoyage et préparation (copie du notebook précédent)
df = df_raw.copy()
df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y')
df['Poids_kg'] = df['Poids / Distance'].str.replace(' kg', '').str.replace(',', '.').astype(float)
df['Reps'] = df['Répétitions / Temps'].str.extract(r'(\d+)').astype(float)
df['Volume'] = df['Poids_kg'] * df['Reps']
df['Type_serie'] = df['Série / Série d\'échauffement / Série de récupération']
df['Sautee'] = df['Sautée'].map({'Oui': True, 'Non': False})

print(f"📊 Données chargées: {len(df)} sets sur {df['Date'].nunique()} jours")
print(f"🏋️ Exercices uniques: {df['Exercice'].nunique()}")
print(f"💪 Régions musculaires: {df['Région'].nunique()}")

## 🎯 Analyse par région musculaire

In [None]:
# Analyse globale par région
print("💪 ANALYSE PAR RÉGION MUSCULAIRE")
print("=" * 50)

region_stats = df.groupby('Région').agg({
    'Date': 'count',  # Nombre de sets
    'Volume': ['sum', 'mean'],
    'Poids_kg': ['mean', 'max'],
    'Reps': 'mean',
    'Exercice': 'nunique'  # Nombre d'exercices différents
}).round(2)

region_stats.columns = ['Nb_Sets', 'Volume_Total', 'Volume_Moyen', 'Poids_Moyen', 'Poids_Max', 'Reps_Moyen', 'Nb_Exercices']
region_stats = region_stats.sort_values('Volume_Total', ascending=False)

print(region_stats)

# Calcul des pourcentages
region_stats['Pct_Volume'] = (region_stats['Volume_Total'] / region_stats['Volume_Total'].sum() * 100).round(1)
region_stats['Pct_Sets'] = (region_stats['Nb_Sets'] / region_stats['Nb_Sets'].sum() * 100).round(1)

print("\n📊 RÉPARTITION EN POURCENTAGES:")
print(region_stats[['Pct_Volume', 'Pct_Sets']])

In [None]:
# Visualisation de la répartition par région
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('💪 Analyse par Région Musculaire', fontsize=16, fontweight='bold')

# 1. Volume par région (pie chart)
axes[0,0].pie(region_stats['Volume_Total'], labels=region_stats.index, autopct='%1.1f%%', 
              startangle=90, colors=sns.color_palette("Set2", len(region_stats)))
axes[0,0].set_title('Répartition du Volume Total')

# 2. Nombre de sets par région (bar chart)
region_stats['Nb_Sets'].plot(kind='bar', ax=axes[0,1], color='steelblue', alpha=0.8)
axes[0,1].set_title('Nombre de Sets par Région')
axes[0,1].set_ylabel('Nombre de Sets')
axes[0,1].tick_params(axis='x', rotation=45)

# 3. Poids moyen par région
region_stats['Poids_Moyen'].plot(kind='bar', ax=axes[1,0], color='darkgreen', alpha=0.8)
axes[1,0].set_title('Poids Moyen par Région')
axes[1,0].set_ylabel('Poids (kg)')
axes[1,0].tick_params(axis='x', rotation=45)

# 4. Diversité d'exercices par région
region_stats['Nb_Exercices'].plot(kind='bar', ax=axes[1,1], color='purple', alpha=0.8)
axes[1,1].set_title('Nombre d\'Exercices par Région')
axes[1,1].set_ylabel('Nombre d\'Exercices Uniques')
axes[1,1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

## 🗺️ Mapping exercices ↔ muscles

In [None]:
# Création du mapping exercices → muscles
print("🗺️ MAPPING EXERCICES ↔ MUSCLES")
print("=" * 50)

# Extraction unique des combinaisons exercice/muscles
exercise_mapping = df[['Exercice', 'Région', 'Groupes musculaires (Primaires)', 'Groupes musculaires (Secondaires)']].drop_duplicates()

print("📋 CATALOGUE D'EXERCICES:")
for _, row in exercise_mapping.iterrows():
    print(f"\n🏋️ {row['Exercice']}")
    print(f"   📍 Région: {row['Région']}")
    print(f"   🎯 Muscles primaires: {row['Groupes musculaires (Primaires)']}")
    print(f"   🎯 Muscles secondaires: {row['Groupes musculaires (Secondaires)']}")

# Création d'un dictionnaire pour faciliter l'usage
exercise_dict = {}
for _, row in exercise_mapping.iterrows():
    exercise_dict[row['Exercice']] = {
        'region': row['Région'],
        'primary': row['Groupes musculaires (Primaires)'],
        'secondary': row['Groupes musculaires (Secondaires)']
    }

print(f"\n✅ Mapping créé pour {len(exercise_dict)} exercices")

In [None]:
# Analyse détaillée des muscles primaires
print("🎯 ANALYSE DES MUSCLES PRIMAIRES")
print("=" * 50)

# Extraction et comptage des muscles primaires
all_primary_muscles = []
for _, row in df.iterrows():
    muscles = [m.strip() for m in row['Groupes musculaires (Primaires)'].split(',')]
    all_primary_muscles.extend(muscles)

primary_muscle_counts = Counter(all_primary_muscles)
primary_df = pd.DataFrame(primary_muscle_counts.items(), columns=['Muscle', 'Frequence'])
primary_df = primary_df.sort_values('Frequence', ascending=False)

print("📊 Fréquence des muscles primaires sollicités:")
print(primary_df)

# Visualisation
plt.figure(figsize=(12, 6))
plt.bar(primary_df['Muscle'], primary_df['Frequence'], color='darkblue', alpha=0.7)
plt.title('🎯 Fréquence de Sollicitation des Muscles Primaires', fontsize=14, fontweight='bold')
plt.xlabel('Muscle')
plt.ylabel('Nombre de Sets')
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Analyse des muscles secondaires
print("🎯 ANALYSE DES MUSCLES SECONDAIRES")
print("=" * 50)

# Extraction et comptage des muscles secondaires
all_secondary_muscles = []
for _, row in df.iterrows():
    if pd.notna(row['Groupes musculaires (Secondaires)']):
        muscles = [m.strip() for m in row['Groupes musculaires (Secondaires)'].split(',')]
        all_secondary_muscles.extend(muscles)

secondary_muscle_counts = Counter(all_secondary_muscles)
secondary_df = pd.DataFrame(secondary_muscle_counts.items(), columns=['Muscle', 'Frequence'])
secondary_df = secondary_df.sort_values('Frequence', ascending=False)

print("📊 Fréquence des muscles secondaires sollicités:")
print(secondary_df)

# Visualisation
plt.figure(figsize=(10, 6))
plt.bar(secondary_df['Muscle'], secondary_df['Frequence'], color='orange', alpha=0.7)
plt.title('🎯 Fréquence de Sollicitation des Muscles Secondaires', fontsize=14, fontweight='bold')
plt.xlabel('Muscle')
plt.ylabel('Nombre de Sets')
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

## ⚖️ Analyse des équilibres musculaires

In [None]:
# Analyse de l'équilibre musculaire
print("⚖️ ANALYSE DES ÉQUILIBRES MUSCULAIRES")
print("=" * 60)

# Calcul du volume par muscle primaire
muscle_volume = {}
for _, row in df.iterrows():
    muscles = [m.strip() for m in row['Groupes musculaires (Primaires)'].split(',')]
    volume_per_muscle = row['Volume'] / len(muscles)  # Répartition équitable
    
    for muscle in muscles:
        if muscle not in muscle_volume:
            muscle_volume[muscle] = 0
        muscle_volume[muscle] += volume_per_muscle

muscle_volume_df = pd.DataFrame(muscle_volume.items(), columns=['Muscle', 'Volume_Total'])
muscle_volume_df = muscle_volume_df.sort_values('Volume_Total', ascending=False)
muscle_volume_df['Pourcentage'] = (muscle_volume_df['Volume_Total'] / muscle_volume_df['Volume_Total'].sum() * 100).round(1)

print("📊 Volume par muscle primaire:")
print(muscle_volume_df)

# Détection des déséquilibres
print("\n⚠️ DÉTECTION DES DÉSÉQUILIBRES:")
mean_volume = muscle_volume_df['Volume_Total'].mean()
std_volume = muscle_volume_df['Volume_Total'].std()

under_developed = muscle_volume_df[muscle_volume_df['Volume_Total'] < mean_volume - std_volume]
over_developed = muscle_volume_df[muscle_volume_df['Volume_Total'] > mean_volume + std_volume]

if len(under_developed) > 0:
    print(f"🔻 Muscles sous-développés (< {mean_volume - std_volume:.0f}kg):")
    for _, muscle in under_developed.iterrows():
        print(f"   • {muscle['Muscle']}: {muscle['Volume_Total']:.0f}kg ({muscle['Pourcentage']:.1f}%)")

if len(over_developed) > 0:
    print(f"\n🔺 Muscles sur-développés (> {mean_volume + std_volume:.0f}kg):")
    for _, muscle in over_developed.iterrows():
        print(f"   • {muscle['Muscle']}: {muscle['Volume_Total']:.0f}kg ({muscle['Pourcentage']:.1f}%)")

if len(under_developed) == 0 and len(over_developed) == 0:
    print("✅ Développement relativement équilibré détecté")

In [None]:
# Visualisation de l'équilibre musculaire
fig, axes = plt.subplots(1, 2, figsize=(16, 6))

# 1. Volume par muscle (bar chart)
muscle_volume_df.plot(x='Muscle', y='Volume_Total', kind='bar', ax=axes[0], color='teal', alpha=0.8)
axes[0].set_title('📊 Volume Total par Muscle Primaire', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Volume Total (kg)')
axes[0].tick_params(axis='x', rotation=45)
axes[0].axhline(mean_volume, color='red', linestyle='--', alpha=0.7, label=f'Moyenne: {mean_volume:.0f}kg')
axes[0].legend()

# 2. Répartition en pourcentage (pie chart)
axes[1].pie(muscle_volume_df['Volume_Total'], labels=muscle_volume_df['Muscle'], 
           autopct='%1.1f%%', startangle=90)
axes[1].set_title('🥧 Répartition du Volume par Muscle', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

## 📅 Fréquence d'entraînement par groupe musculaire

In [None]:
# Analyse de la fréquence d'entraînement
print("📅 FRÉQUENCE D'ENTRAÎNEMENT PAR GROUPE MUSCULAIRE")
print("=" * 60)

# Calcul de la fréquence par région par jour
daily_region_training = df.groupby(['Date', 'Région']).size().reset_index(name='Sets')
region_frequency = daily_region_training.groupby('Région').agg({
    'Date': 'nunique',  # Nombre de jours d'entraînement
    'Sets': 'sum'       # Total des sets
}).reset_index()

region_frequency.columns = ['Région', 'Jours_Entrainement', 'Total_Sets']
total_training_days = df['Date'].nunique()
region_frequency['Frequence_Pct'] = (region_frequency['Jours_Entrainement'] / total_training_days * 100).round(1)
region_frequency['Sets_par_Jour'] = (region_frequency['Total_Sets'] / region_frequency['Jours_Entrainement']).round(1)

region_frequency = region_frequency.sort_values('Frequence_Pct', ascending=False)

print(f"Sur {total_training_days} jours d'entraînement total:")
print(region_frequency)

# Visualisation de la fréquence
fig, axes = plt.subplots(1, 2, figsize=(15, 6))

# 1. Fréquence en pourcentage
axes[0].bar(region_frequency['Région'], region_frequency['Frequence_Pct'], 
           color='skyblue', alpha=0.8)
axes[0].set_title('📅 Fréquence d\'Entraînement par Région (%)', fontsize=12, fontweight='bold')
axes[0].set_ylabel('Pourcentage de jours')
axes[0].tick_params(axis='x', rotation=45)
axes[0].grid(axis='y', alpha=0.3)

# 2. Sets par jour d'entraînement
axes[1].bar(region_frequency['Région'], region_frequency['Sets_par_Jour'], 
           color='lightgreen', alpha=0.8)
axes[1].set_title('🏋️ Sets Moyens par Jour d\'Entraînement', fontsize=12, fontweight='bold')
axes[1].set_ylabel('Sets par jour')
axes[1].tick_params(axis='x', rotation=45)
axes[1].grid(axis='y', alpha=0.3)

plt.tight_layout()
plt.show()

## 🎯 Recommandations et insights

In [None]:
print("🎯 RECOMMANDATIONS ET INSIGHTS")
print("=" * 60)

# Analyse des points forts et faibles
most_trained_region = region_stats.index[0]
least_trained_region = region_stats.index[-1]
most_frequent_muscle = primary_df.iloc[0]['Muscle']
least_frequent_muscle = primary_df.iloc[-1]['Muscle']

print(f"📊 BILAN ACTUEL:")
print(f"   🥇 Région la plus travaillée: {most_trained_region} ({region_stats.loc[most_trained_region, 'Pct_Volume']:.1f}% du volume)")
print(f"   🥉 Région la moins travaillée: {least_trained_region} ({region_stats.loc[least_trained_region, 'Pct_Volume']:.1f}% du volume)")
print(f"   💪 Muscle le plus sollicité: {most_frequent_muscle} ({primary_df.iloc[0]['Frequence']} sets)")
print(f"   💤 Muscle le moins sollicité: {least_frequent_muscle} ({primary_df.iloc[-1]['Frequence']} sets)")

print(f"\n🎯 RECOMMANDATIONS:")

# Recommandations basées sur l'équilibre
volume_gap = region_stats['Volume_Total'].max() - region_stats['Volume_Total'].min()
if volume_gap > region_stats['Volume_Total'].mean():
    print(f"   ⚠️ Déséquilibre détecté entre {most_trained_region} et {least_trained_region}")
    print(f"   💡 Augmenter le volume pour {least_trained_region} (+{volume_gap/2:.0f}kg recommandé)")

# Recommandations sur la fréquence
low_frequency_regions = region_frequency[region_frequency['Frequence_Pct'] < 50]
if len(low_frequency_regions) > 0:
    print(f"   📅 Régions entraînées moins de 50% du temps:")
    for _, region in low_frequency_regions.iterrows():
        print(f"      • {region['Région']}: {region['Frequence_Pct']:.1f}% (recommandé: augmenter la fréquence)")

# Recommandations sur la diversité
region_diversity = region_stats['Nb_Exercices']
low_diversity = region_diversity[region_diversity <= 1]
if len(low_diversity) > 0:
    print(f"   🔄 Régions avec peu de diversité d'exercices:")
    for region in low_diversity.index:
        print(f"      • {region}: seulement {low_diversity[region]} exercice(s) - ajouter de la variété")

print(f"\n✅ POINTS POSITIFS:")
if len(exercise_dict) >= 3:
    print(f"   🏋️ Bonne diversité d'exercices ({len(exercise_dict)} exercices différents)")

if region_stats['Volume_Total'].std() / region_stats['Volume_Total'].mean() < 0.5:
    print(f"   ⚖️ Répartition du volume relativement équilibrée entre régions")

if len(df) >= 10:
    print(f"   📊 Volume de données suffisant pour l'analyse ({len(df)} sets)")

print(f"\n🚀 PROCHAINES ÉTAPES:")
print(f"   1. Analyser l'évolution temporelle des performances par muscle")
print(f"   2. Calculer les ratios antagonistes/agonistes")
print(f"   3. Développer un système de recommandations automatisé")
print(f"   4. Intégrer ces insights dans le dashboard principal")

---
## 📝 Résumé du mapping exercices ↔ muscles

Ce notebook a créé un mapping complet entre exercices et groupes musculaires, permettant :

### ✅ Réalisations
- Catalogue détaillé exercices → muscles (primaires/secondaires)
- Analyse de l'équilibre musculaire par volume
- Détection des déséquilibres potentiels
- Recommandations personnalisées

### 🎯 Insights clés
- Identification des groupes musculaires prioritaires
- Analyse de la fréquence d'entraînement
- Diversité des exercices par région

### 📊 Données générées
- `exercise_dict`: Mapping exercices → muscles
- `muscle_volume_df`: Volume par muscle
- `region_frequency`: Fréquence d'entraînement par région

**Prochaine étape:** Analyse temporelle avancée (03_EDA_temporel.ipynb)