# üìä Analyse Exploratoire des Donn√©es (EDA) - Vue G√©n√©rale

Ce notebook pr√©sente une analyse exploratoire g√©n√©rale des donn√©es d'entra√Ænement de musculation.

## Objectifs
- Comprendre la structure et qualit√© des donn√©es
- Identifier les distributions et outliers
- Analyser les patterns g√©n√©raux d'entra√Ænement
- Pr√©parer les donn√©es pour les analyses futures

## üîß Import des librairies

In [None]:
# Librairies de base
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Base de donn√©es
import sqlalchemy as sa
import psycopg2
from sqlalchemy import create_engine

# Utilitaires
import os
import sys
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

# Configuration des graphiques
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

# Ajout du chemin src pour imports
sys.path.append('../src')

## üìÅ Chargement des donn√©es

In [6]:
# Chargement depuis CSV d'exemple
df_csv = pd.read_csv('../examples/sample_data.csv')
print("üìã Donn√©es CSV charg√©es:")
print(f"Shape: {df_csv.shape}")
print(f"Colonnes: {list(df_csv.columns)}")
df_csv.head()

üìã Donn√©es CSV charg√©es:
Shape: (12, 12)
Colonnes: ['Date', 'Entra√Ænement', 'Heure', 'Exercice', 'R√©gion', 'Groupes musculaires (Primaires)', 'Groupes musculaires (Secondaires)', "S√©rie / S√©rie d'√©chauffement / S√©rie de r√©cup√©ration", 'R√©p√©titions / Temps', 'Poids / Distance', 'Notes', 'Saut√©e']


Unnamed: 0,Date,Entra√Ænement,Heure,Exercice,R√©gion,Groupes musculaires (Primaires),Groupes musculaires (Secondaires),S√©rie / S√©rie d'√©chauffement / S√©rie de r√©cup√©ration,R√©p√©titions / Temps,Poids / Distance,Notes,Saut√©e
0,29/08/2025,Pecs Dos 2,16:05,Traction √† la Barre Fixe,Dos,"Trap√®zes, Muscles dorsaux",Biceps,S√©rie,13 r√©p√©titions,"0,00 kg",,Non
1,29/08/2025,Pecs Dos 2,16:07,Traction √† la Barre Fixe,Dos,"Trap√®zes, Muscles dorsaux",Biceps,S√©rie,10 r√©p√©titions,"0,00 kg",,Non
2,29/08/2025,Pecs Dos 2,16:10,D√©velopp√© couch√©,Pectoraux,Pectoraux,Triceps,√âchauffement,8 r√©p√©titions,"50,0 kg",√âchauffement,Non
3,29/08/2025,Pecs Dos 2,16:12,D√©velopp√© couch√©,Pectoraux,Pectoraux,Triceps,S√©rie,8 r√©p√©titions,"70,0 kg",,Non
4,29/08/2025,Pecs Dos 2,16:14,D√©velopp√© couch√©,Pectoraux,Pectoraux,Triceps,S√©rie,6 r√©p√©titions,"75,0 kg",Forme parfaite,Non


In [4]:
# Configuration base de donn√©es (optionnel - si Docker est lanc√©)
try:
    # Connexion √† PostgreSQL avec les bons identifiants
    engine = create_engine('postgresql://dev:devpass@localhost:5432/muscle_analytics')
    
    # Chargement des tables
    df_sessions = pd.read_sql('SELECT * FROM sessions', engine)
    df_sets = pd.read_sql('SELECT * FROM sets', engine) 
    df_exercises = pd.read_sql('SELECT * FROM exercises', engine)
    
    print("‚úÖ Connexion PostgreSQL r√©ussie")
    print(f"Sessions: {len(df_sessions)} lignes")
    print(f"Sets: {len(df_sets)} lignes") 
    print(f"Exercices catalogu√©s: {len(df_exercises)} lignes")
    
    use_db = True
    
except Exception as e:
    print(f"‚ö†Ô∏è Impossible de se connecter √† la DB: {e}")
    print("üìù Utilisation des donn√©es CSV uniquement")
    use_db = False

‚úÖ Connexion PostgreSQL r√©ussie
Sessions: 15 lignes
Sets: 15 lignes
Exercices catalogu√©s: 0 lignes


In [8]:
# Choix des donn√©es √† utiliser
if use_db and len(df_sets) > 0:
    print("üêò Utilisation des donn√©es PostgreSQL")
    
    # Reconstitution du format CSV depuis les tables PostgreSQL
    df_from_db = df_sets.merge(df_sessions, left_on='session_id', right_on='id', how='left')
    
    # Conversion de la date au bon format
    df_from_db['date'] = pd.to_datetime(df_from_db['date'])
    
    # Mapping des types de s√©rie PostgreSQL vers format CSV
    series_type_mapping = {
        'working_set': 'S√©rie',
        'warmup': '√âchauffement',
        'dropset': 'S√©rie de r√©cup√©ration'
    }
    
    # Mapping des exercices pour avoir des noms en fran√ßais
    exercise_mapping = {
        'pull-up': 'Traction √† la Barre Fixe',
        'bench-press': 'D√©velopp√© couch√©',
        'squat': 'Squat'
    }
    
    # Reconstruction des colonnes du format CSV
    df_db_formatted = pd.DataFrame({
        'Date': df_from_db['date'].dt.strftime('%d/%m/%Y'),
        'Entra√Ænement': df_from_db['training_name'].fillna('Entra√Ænement'),
        'Heure': df_from_db['start_time'].astype(str),
        'Exercice': df_from_db['exercise'].map(exercise_mapping).fillna(df_from_db['exercise']),
        'R√©gion': 'G√©n√©rale',  # √Ä enrichir avec la table exercises
        'Groupes musculaires (Primaires)': 'Non sp√©cifi√©',
        'Groupes musculaires (Secondaires)': 'Non sp√©cifi√©',
        'S√©rie / S√©rie d\'√©chauffement / S√©rie de r√©cup√©ration': df_from_db['series_type'].map(series_type_mapping).fillna(df_from_db['series_type']),
        'R√©p√©titions / Temps': df_from_db['reps'].astype(str) + ' r√©p√©titions',
        'Poids / Distance': df_from_db['weight_kg'].astype(str) + ',0 kg',
        'Notes': df_from_db['notes_x'].fillna(''),  # notes_x = notes des sets
        'Saut√©e': df_from_db['skipped'].map({True: 'Oui', False: 'Non'})
    })
    
    # Utiliser les donn√©es de la DB
    df_csv = df_db_formatted
    print(f"üìä Donn√©es PostgreSQL converties: {len(df_csv)} sets")
    
else:
    print("üìÑ Utilisation des donn√©es CSV d'exemple")
    # Le df_csv est d√©j√† charg√© depuis le CSV

print(f"üìã Dataset final: {len(df_csv)} lignes")
print(f"üìÖ P√©riode: du {df_csv['Date'].min()} au {df_csv['Date'].max()}")
df_csv.head()

üêò Utilisation des donn√©es PostgreSQL
üìä Donn√©es PostgreSQL converties: 15 sets
üìã Dataset final: 15 lignes
üìÖ P√©riode: du 01/09/2025 au 31/08/2025


Unnamed: 0,Date,Entra√Ænement,Heure,Exercice,R√©gion,Groupes musculaires (Primaires),Groupes musculaires (Secondaires),S√©rie / S√©rie d'√©chauffement / S√©rie de r√©cup√©ration,R√©p√©titions / Temps,Poids / Distance,Notes,Saut√©e
0,29/08/2025,Pecs Dos 2,16:05:00,Traction √† la Barre Fixe,G√©n√©rale,Non sp√©cifi√©,Non sp√©cifi√©,S√©rie,13 r√©p√©titions,"0.0,0 kg",,Non
1,29/08/2025,Pecs Dos 2,16:07:00,Traction √† la Barre Fixe,G√©n√©rale,Non sp√©cifi√©,Non sp√©cifi√©,S√©rie,10 r√©p√©titions,"0.0,0 kg",,Non
2,29/08/2025,Pecs Dos 2,16:10:00,D√©velopp√© couch√©,G√©n√©rale,Non sp√©cifi√©,Non sp√©cifi√©,√âchauffement,8 r√©p√©titions,"50.0,0 kg",√âchauffement,Non
3,29/08/2025,Pecs Dos 2,16:12:00,D√©velopp√© couch√©,G√©n√©rale,Non sp√©cifi√©,Non sp√©cifi√©,S√©rie,8 r√©p√©titions,"70.0,0 kg",,Non
4,29/08/2025,Pecs Dos 2,16:14:00,D√©velopp√© couch√©,G√©n√©rale,Non sp√©cifi√©,Non sp√©cifi√©,S√©rie,6 r√©p√©titions,"75.0,0 kg",Forme parfaite,Non


## üîç Analyse des donn√©es CSV

In [9]:
# Aper√ßu g√©n√©ral des donn√©es
print("üìä INFORMATIONS G√âN√âRALES")
print("=" * 50)
print(f"Nombre total de sets: {len(df_csv)}")
print(f"P√©riode: du {df_csv['Date'].min()} au {df_csv['Date'].max()}")
print(f"Nombre d'exercices uniques: {df_csv['Exercice'].nunique()}")
print(f"Nombre d'entra√Ænements uniques: {df_csv['Entra√Ænement'].nunique()}")
print(f"Nombre de jours d'entra√Ænement: {df_csv['Date'].nunique()}")

print("\nüìã COLONNES ET TYPES")
print("=" * 50)
df_csv.info()

üìä INFORMATIONS G√âN√âRALES
Nombre total de sets: 15
P√©riode: du 01/09/2025 au 31/08/2025
Nombre d'exercices uniques: 4
Nombre d'entra√Ænements uniques: 4
Nombre de jours d'entra√Ænement: 4

üìã COLONNES ET TYPES
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15 entries, 0 to 14
Data columns (total 12 columns):
 #   Column                                                Non-Null Count  Dtype 
---  ------                                                --------------  ----- 
 0   Date                                                  15 non-null     object
 1   Entra√Ænement                                          15 non-null     object
 2   Heure                                                 15 non-null     object
 3   Exercice                                              15 non-null     object
 4   R√©gion                                                15 non-null     object
 5   Groupes musculaires (Primaires)                       15 non-null     object
 6   Groupes musculair

In [None]:
# Nettoyage et pr√©paration des donn√©es
df = df_csv.copy()

# Conversion des dates
df['Date'] = pd.to_datetime(df['Date'], format='%d/%m/%Y')

# Nettoyage de la colonne poids (suppression "kg" et conversion virgule en point)
df['Poids_kg'] = df['Poids / Distance'].str.replace(' kg', '').str.replace(',', '.').astype(float)

# Extraction du nombre de r√©p√©titions
df['Reps'] = df['R√©p√©titions / Temps'].str.extract(r'(\d+)').astype(float)

# Calcul du volume (poids √ó r√©p√©titions)
df['Volume'] = df['Poids_kg'] * df['Reps']

# Nettoyage type de s√©rie
df['Type_serie'] = df['S√©rie / S√©rie d\'√©chauffement / S√©rie de r√©cup√©ration']

# Conversion bool√©enne pour "Saut√©e"
df['Sautee'] = df['Saut√©e'].map({'Oui': True, 'Non': False})

print("‚úÖ Donn√©es nettoy√©es et enrichies")
print(f"Volume total calcul√©: {df['Volume'].sum():.0f} kg")
df[['Date', 'Exercice', 'Poids_kg', 'Reps', 'Volume', 'Type_serie']].head(10)

## üìà Statistiques descriptives

In [None]:
# Statistiques sur les variables num√©riques
print("üìä STATISTIQUES DESCRIPTIVES")
print("=" * 50)

stats_cols = ['Poids_kg', 'Reps', 'Volume']
stats = df[stats_cols].describe()
print(stats)

# Informations compl√©mentaires
print("\nüîç INFORMATIONS COMPL√âMENTAIRES")
print("=" * 50)
print(f"Valeurs manquantes:")
print(df[stats_cols].isnull().sum())
print(f"\nZ√©ros dans les donn√©es:")
print((df[stats_cols] == 0).sum())

In [None]:
# Analyse par type de s√©rie
print("üìã ANALYSE PAR TYPE DE S√âRIE")
print("=" * 50)

type_analysis = df.groupby('Type_serie').agg({
    'Poids_kg': ['count', 'mean', 'std'],
    'Reps': ['mean', 'std'],
    'Volume': ['sum', 'mean']
}).round(2)

print(type_analysis)

## üìä Visualisations - Distributions

In [None]:
# Distribution des variables principales
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('üìä Distributions des Variables Principales', fontsize=16, fontweight='bold')

# Distribution du poids
axes[0,0].hist(df['Poids_kg'].dropna(), bins=20, alpha=0.7, color='skyblue', edgecolor='black')
axes[0,0].set_title('Distribution des Poids (kg)')
axes[0,0].set_xlabel('Poids (kg)')
axes[0,0].set_ylabel('Fr√©quence')
axes[0,0].axvline(df['Poids_kg'].mean(), color='red', linestyle='--', label=f'Moyenne: {df["Poids_kg"].mean():.1f} kg')
axes[0,0].legend()

# Distribution des r√©p√©titions
axes[0,1].hist(df['Reps'].dropna(), bins=15, alpha=0.7, color='lightgreen', edgecolor='black')
axes[0,1].set_title('Distribution des R√©p√©titions')
axes[0,1].set_xlabel('R√©p√©titions')
axes[0,1].set_ylabel('Fr√©quence')
axes[0,1].axvline(df['Reps'].mean(), color='red', linestyle='--', label=f'Moyenne: {df["Reps"].mean():.1f}')
axes[0,1].legend()

# Distribution du volume
axes[1,0].hist(df['Volume'].dropna(), bins=20, alpha=0.7, color='orange', edgecolor='black')
axes[1,0].set_title('Distribution du Volume (kg√óreps)')
axes[1,0].set_xlabel('Volume')
axes[1,0].set_ylabel('Fr√©quence')
axes[1,0].axvline(df['Volume'].mean(), color='red', linestyle='--', label=f'Moyenne: {df["Volume"].mean():.0f}')
axes[1,0].legend()

# Boxplot pour d√©tecter les outliers
data_for_box = [df['Poids_kg'].dropna(), df['Reps'].dropna(), df['Volume'].dropna()]
bp = axes[1,1].boxplot(data_for_box, labels=['Poids (kg)', 'Reps', 'Volume'], patch_artist=True)
colors = ['skyblue', 'lightgreen', 'orange']
for patch, color in zip(bp['boxes'], colors):
    patch.set_facecolor(color)
axes[1,1].set_title('Boxplots - D√©tection d\'Outliers')
axes[1,1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

In [None]:
# Analyse des outliers
print("üö® D√âTECTION D'OUTLIERS")
print("=" * 50)

def detect_outliers_iqr(data, column):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return outliers, lower_bound, upper_bound

# Analyse des outliers pour chaque variable
for col in ['Poids_kg', 'Reps', 'Volume']:
    outliers, lb, ub = detect_outliers_iqr(df, col)
    print(f"\n{col}:")
    print(f"  Bornes normales: [{lb:.2f}, {ub:.2f}]")
    print(f"  Nombre d'outliers: {len(outliers)} ({len(outliers)/len(df)*100:.1f}%)")
    
    if len(outliers) > 0:
        print(f"  Valeurs extr√™mes: {outliers[col].min():.2f} - {outliers[col].max():.2f}")
        if len(outliers) <= 5:  # Afficher les d√©tails si peu d'outliers
            print(f"  D√©tails: {outliers[['Date', 'Exercice', col, 'Notes']].to_string(index=False)}")

## üìä Analyse par exercice

In [None]:
# Fr√©quence des exercices
print("üèãÔ∏è ANALYSE PAR EXERCICE")
print("=" * 50)

exercise_stats = df.groupby('Exercice').agg({
    'Date': 'count',  # Nombre de sets
    'Poids_kg': ['mean', 'max'],
    'Reps': 'mean',
    'Volume': ['sum', 'mean']
}).round(2)

exercise_stats.columns = ['Nb_Sets', 'Poids_Moyen', 'Poids_Max', 'Reps_Moyen', 'Volume_Total', 'Volume_Moyen']
exercise_stats = exercise_stats.sort_values('Volume_Total', ascending=False)

print(exercise_stats)

# Graphique des exercices les plus populaires
plt.figure(figsize=(12, 6))
exercise_counts = df['Exercice'].value_counts()
exercise_counts.plot(kind='bar', color='steelblue', alpha=0.8)
plt.title('üìä Fr√©quence des Exercices (Nombre de Sets)', fontsize=14, fontweight='bold')
plt.xlabel('Exercice')
plt.ylabel('Nombre de Sets')
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Volume par exercice
plt.figure(figsize=(12, 6))
volume_by_exercise = df.groupby('Exercice')['Volume'].sum().sort_values(ascending=False)
volume_by_exercise.plot(kind='bar', color='darkgreen', alpha=0.8)
plt.title('üìà Volume Total par Exercice (kg √ó reps)', fontsize=14, fontweight='bold')
plt.xlabel('Exercice')
plt.ylabel('Volume Total')
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\nüí™ Volume total d'entra√Ænement: {df['Volume'].sum():.0f} kg")
print(f"üèÜ Exercice avec le plus de volume: {volume_by_exercise.index[0]} ({volume_by_exercise.iloc[0]:.0f} kg)")

## üìÖ Analyse temporelle

In [None]:
# Volume par jour
daily_volume = df.groupby('Date').agg({
    'Volume': 'sum',
    'Exercice': 'count',  # Nombre de sets
    'Entra√Ænement': 'first'
}).reset_index()

daily_volume.columns = ['Date', 'Volume_Total', 'Nb_Sets', 'Type_Entrainement']

print("üìÖ ANALYSE TEMPORELLE")
print("=" * 50)
print(daily_volume)

# Graphique de l'√©volution du volume
plt.figure(figsize=(12, 6))
plt.plot(daily_volume['Date'], daily_volume['Volume_Total'], 
         marker='o', linewidth=2, markersize=8, color='navy')
plt.title('üìà √âvolution du Volume d\'Entra√Ænement dans le Temps', fontsize=14, fontweight='bold')
plt.xlabel('Date')
plt.ylabel('Volume Total (kg)')
plt.grid(True, alpha=0.3)
plt.xticks(rotation=45)

# Annotations pour chaque point
for i, row in daily_volume.iterrows():
    plt.annotate(f"{row['Type_Entrainement']}\n{row['Volume_Total']:.0f}kg", 
                xy=(row['Date'], row['Volume_Total']),
                xytext=(5, 15), textcoords='offset points',
                fontsize=8, ha='left')

plt.tight_layout()
plt.show()

## üéØ R√©sum√© et insights cl√©s

In [None]:
print("üéØ R√âSUM√â DE L'ANALYSE EXPLORATOIRE")
print("=" * 60)

# M√©triques globales
total_days = df['Date'].nunique()
total_sets = len(df)
total_volume = df['Volume'].sum()
avg_daily_volume = total_volume / total_days

print(f"üìä M√âTRIQUES GLOBALES:")
print(f"   ‚Ä¢ P√©riode analys√©e: {total_days} jours d'entra√Ænement")
print(f"   ‚Ä¢ Total des sets: {total_sets}")
print(f"   ‚Ä¢ Volume total: {total_volume:.0f} kg")
print(f"   ‚Ä¢ Volume moyen par jour: {avg_daily_volume:.0f} kg")
print(f"   ‚Ä¢ Exercices diff√©rents: {df['Exercice'].nunique()}")

print(f"\nüèãÔ∏è PATTERNS D'ENTRA√éNEMENT:")
most_frequent_exercise = df['Exercice'].value_counts().index[0]
most_volume_exercise = df.groupby('Exercice')['Volume'].sum().idxmax()
avg_weight = df['Poids_kg'].mean()
avg_reps = df['Reps'].mean()

print(f"   ‚Ä¢ Exercice le plus fr√©quent: {most_frequent_exercise}")
print(f"   ‚Ä¢ Exercice avec le plus de volume: {most_volume_exercise}")
print(f"   ‚Ä¢ Poids moyen utilis√©: {avg_weight:.1f} kg")
print(f"   ‚Ä¢ R√©p√©titions moyennes: {avg_reps:.1f}")

print(f"\n‚ö†Ô∏è POINTS D'ATTENTION:")
skipped_sets = df['Sautee'].sum()
zero_weight_sets = (df['Poids_kg'] == 0).sum()
missing_reps = df['Reps'].isnull().sum()

print(f"   ‚Ä¢ Sets saut√©s: {skipped_sets}")
print(f"   ‚Ä¢ Sets sans poids (0kg): {zero_weight_sets}")
print(f"   ‚Ä¢ Sets sans r√©p√©titions: {missing_reps}")

print(f"\n‚úÖ QUALIT√â DES DONN√âES:")
completeness = (1 - df.isnull().sum().sum() / (len(df) * len(df.columns))) * 100
print(f"   ‚Ä¢ Compl√©tude globale: {completeness:.1f}%")
print(f"   ‚Ä¢ Donn√©es exploitables pour l'analyse ML: {'‚úÖ Oui' if completeness > 90 else '‚ö†Ô∏è √Ä am√©liorer'}")

print("\nüöÄ PROCHAINES √âTAPES RECOMMAND√âES:")
print("   1. Analyser les patterns par r√©gion musculaire (notebook suivant)")
print("   2. √âtudier l'√©volution temporelle et la progression")
print("   3. Calculer les features ML (1RM, volume cumul√©, etc.)")
print("   4. Identifier les opportunit√©s d'optimisation d'entra√Ænement")

---
## üìù Notes de fin

Ce notebook a fourni une vue d'ensemble des donn√©es d'entra√Ænement. Les analyses montrent :

### Points positifs ‚úÖ
- Donn√©es structur√©es et coh√©rentes
- Volume d'entra√Ænement mesurable
- Diversit√© d'exercices appropri√©e

### Points d'am√©lioration ‚ö†Ô∏è
- Gestion des sets saut√©s √† optimiser
- Standardisation des poids (cas 0kg pour tractions)
- Enrichissement possible avec plus de m√©tadonn√©es

### Prochains notebooks üìö
1. **02_EDA_muscles_exercices.ipynb** - Analyse par r√©gion musculaire
2. **03_EDA_temporel.ipynb** - Analyse temporelle avanc√©e
3. **04_features_engineering.ipynb** - Cr√©ation des features ML