# 📊 PARTIE 2 : PANDAS ET MANIPULATION DE DONNÉES

### 🌟 Ce que vous allez apprendre :
- **DataFrames** : création et manipulation
- **Sélection** : colonnes et lignes
- **Filtrage** : conditions complexes
- **Nettoyage** : données réelles

### 🛠️ Prérequis :
Exécutez d'abord la cellule système ci-dessous.

---

In [30]:
exec(open('helpers/setup_helper.py').read())

---

## 🌟 Section 2.1 : Création de votre Premier DataFrame

### 🎯 Objectif :
Créer un DataFrame avec des données d'employés et explorer sa structure.

### 📝 Étape 2.1.1 : Générer des données d'employés

**Instructions :**
Créer des listes de données pour construire un DataFrame.

In [None]:
# 📝 ÉTAPE 2.1.1 : Données d'employés
# Créez ces 4 listes avec 10 éléments chacune :
# 1. noms : liste de prénoms
# 2. departements : 5 départements répétés (IT, RH, Finance, Marketing, Ventes)
# 3. salaires : salaires aléatoires entre 30000 et 80000
# 4. ages : âges aléatoires entre 22 et 60

# Exemple pour salaires aléatoires :
# salaires = [random.randint(30000, 80000) for _ in range(10)]

# 👇 Créez vos 4 listes ici :

In [31]:
# 💡 Aide pour l'étape 2.1.1
pandas_helper.help("2.1.1")

### 📝 Étape 2.1.2 : Créer le DataFrame

**Instructions :**
Assembler les listes dans un DataFrame pandas.

In [None]:
# 📝 ÉTAPE 2.1.2 : DataFrame principal
# Créez un DataFrame 'df_employes' avec pd.DataFrame()
# Utilisez un dictionnaire pour associer noms de colonnes et listes :
# {
#     'nom': noms,
#     'departement': departements,
#     'salaire': salaires,
#     'age': ages
# }

# 👇 Créez votre DataFrame ici :

In [32]:
# 💡 Aide pour l'étape 2.1.2
pandas_helper.help("2.1.2")

### 📝 Étape 2.1.3 : Explorer le DataFrame

**Instructions :**
Utiliser les méthodes d'exploration pandas.

In [None]:
# 📝 ÉTAPE 2.1.3 : Exploration
# Utilisez ces méthodes sur df_employes :
# 1. .head() - premières lignes
# 2. .info() - informations générales
# 3. .describe() - statistiques
# 4. .shape - forme (pas de parenthèses)

print("🔍 EXPLORATION DU DATAFRAME")
print("="*35)

# 👇 Ajoutez vos explorations ici :

In [None]:
# 🎬 Démonstration automatique
def demo_exploration():
    try:
        print("📊 Premières lignes :")
        print(df_employes.head())
        print(f"\n📏 Shape : {df_employes.shape}")
        print("\n📈 Statistiques :")
        print(df_employes.describe())
    except NameError:
        print("⚠️ Créez d'abord df_employes")

pandas_helper.demo_button(demo_exploration, "🎬 Voir l'exploration automatique")

In [33]:
# 💡 Aide pour l'étape 2.1.3
pandas_helper.help("2.1.3")

pandas_helper.success("Section 2.1 terminée ! Vous savez créer et explorer un DataFrame !")

---

## 🌟 Section 2.2 : Sélection et Filtrage de Données

### 🎯 Objectif :
Maîtriser toutes les techniques de sélection pandas.

### 📝 Étape 2.2.1 : Sélection de colonnes

**Instructions :**
Créer des sélections simples et multiples.

In [None]:
# 📝 ÉTAPE 2.2.1 : Sélections de colonnes
# Créez ces 3 variables :
# 1. noms_seuls = sélection de la colonne 'nom' uniquement
# 2. salaires_seuls = sélection de la colonne 'salaire' uniquement  
# 3. nom_salaire = sélection des colonnes 'nom' ET 'salaire'

# Syntaxe :
# Une colonne : df['colonne']
# Plusieurs colonnes : df[['col1', 'col2']]

# 👇 Créez vos sélections ici :

In [36]:
# 💡 Aide pour l'étape 2.2.1
pandas_helper.help("2.2.1")

### 📝 Étape 2.2.2 : Filtrage conditionnel

**Instructions :**
Créer des filtres avec des conditions.

In [None]:
# 📝 ÉTAPE 2.2.2 : Filtres conditionnels
# Créez ces 4 DataFrames filtrés :
# 1. employes_bien_payes = salaire > 50000
# 2. employes_jeunes = age < 30
# 3. employes_it = departement == 'IT'
# 4. seniors_it = (age > 40) ET (departement == 'IT')

# Syntaxe :
# df[df['colonne'] > valeur]
# df[(condition1) & (condition2)]  # ET
# df[(condition1) | (condition2)]  # OU

# 👇 Créez vos filtres ici :

In [None]:
# 🎬 Démonstration des résultats
def demo_filtres():
    try:
        print(f"💰 Bien payés (>50k) : {len(employes_bien_payes)} employés")
        print(f"👶 Jeunes (<30 ans) : {len(employes_jeunes)} employés")
        print(f"💻 IT : {len(employes_it)} employés")
        print(f"👨‍💼 Seniors IT : {len(seniors_it)} employés")
        
        if len(seniors_it) > 0:
            print("\n🔍 Détail seniors IT :")
            print(seniors_it[['nom', 'age', 'salaire']])
    except NameError:
        print("⚠️ Créez d'abord tous les filtres")

pandas_helper.demo_button(demo_filtres, "🎬 Voir les résultats de filtrage")

In [37]:
# 💡 Aide pour l'étape 2.2.2
pandas_helper.help("2.2.2")

pandas_helper.success("Section 2.2 terminée ! Vous maîtrisez la sélection et le filtrage !")

---

## 🌟 Section 2.3 : Agrégation et Statistiques

### 🎯 Objectif :
Calculer des statistiques par groupe et analyser les données.

### 📝 Étape 2.3.1 : Statistiques par département

**Instructions :**
Utiliser `.groupby()` pour analyser par département.

In [None]:
# 📝 ÉTAPE 2.3.1 : Groupement par département
# Créez ces analyses :
# 1. stats_par_dept = df_employes.groupby('departement').agg({
#        'salaire': ['mean', 'min', 'max', 'count'],
#        'age': 'mean'
#    })
# 
# 2. salaire_moyen_dept = df_employes.groupby('departement')['salaire'].mean()

# 👇 Créez vos analyses ici :

In [None]:
# 🎬 Démonstration des statistiques
def demo_stats():
    try:
        print("📊 STATISTIQUES PAR DÉPARTEMENT")
        print("="*40)
        print(stats_par_dept)
        
        print("\n💰 SALAIRE MOYEN PAR DÉPARTEMENT")
        print("="*35)
        for dept, salaire in salaire_moyen_dept.items():
            print(f"{dept}: {salaire:.0f}€")
            
        # Département le mieux payé
        best_dept = salaire_moyen_dept.idxmax()
        best_salary = salaire_moyen_dept.max()
        print(f"\n🏆 Département le mieux payé: {best_dept} ({best_salary:.0f}€)")
        
    except NameError:
        print("⚠️ Créez d'abord les analyses")

pandas_helper.demo_button(demo_stats, "🎬 Voir les statistiques détaillées")

In [38]:
# 💡 Aide pour l'étape 2.3.1
pandas_helper.help("2.3.1")

pandas_helper.success("Section 2.3 terminée ! Vous maîtrisez l'agrégation de données !")

In [None]:
# 🎉 VALIDATION FINALE PANDAS
pandas_helper.success("FÉLICITATIONS ! Vous maîtrisez Pandas !")

print("\n🏆 COMPÉTENCES PANDAS ACQUISES :")
print("✅ Création de DataFrames")
print("✅ Sélection de colonnes et lignes")
print("✅ Filtrage conditionnel")
print("✅ Agrégation et groupement")
print("✅ Statistiques descriptives")
print("\n🚀 Prêt pour : ETL et traitement de données !")