# üìä Analyse Compl√®te et Pr√©dictions des Donn√©es Salariales de l'Administration Tunisienne

## üéØ Analyse des Tendances Salariales (2013-2023) avec Projections jusqu'en 2030

---

**Pr√©par√© pour :** Mme Sihem Hajji, Superviseure de Stage  
**Date :** Juillet 2025  
**Auteur :** Stagiaire CNI  
**P√©riode d'analyse :** 2013-2023  
**Projections :** 2025-2030  

---

### üìã Objectifs de l'Analyse

Cette analyse compl√®te vise √† fournir une compr√©hension approfondie des tendances salariales dans l'administration publique tunisienne en utilisant des techniques avanc√©es d'analyse de donn√©es et d'apprentissage automatique.

**Objectifs sp√©cifiques :**
1. **Analyser l'√©volution des effectifs** par minist√®re, corps et grade
2. **Examiner la masse salariale** et ses variations temporelles
3. **√âtudier les indemnit√©s** par type, montant et distribution
4. **Pr√©dire les tendances futures** jusqu'en 2030 avec trois mod√®les ML
5. **Fournir des recommandations strat√©giques** pour la planification budg√©taire

### üî¨ M√©thodologie Employ√©e

- **Analyse exploratoire** avec √©valuation de la qualit√© des donn√©es
- **Mod√©lisation pr√©dictive** avec R√©gression Lin√©aire, Random Forest et ARIMA
- **Validation crois√©e** et comparaison des performances des mod√®les
- **Visualisations interactives** pour une compr√©hension intuitive
- **Rapports structur√©s** au format Excel pour faciliter la prise de d√©cision

### üìä Structure des Donn√©es

- **Volume :** Plus de 7,9 millions d'enregistrements
- **P√©riode :** 11 ann√©es (2013-2023)
- **Variables :** 22 colonnes incluant codes √©tablissement, grades, corps, montants
- **Tables de r√©f√©rence :** 7 tables de nomenclature pour l'enrichissement des donn√©es

---

## 1Ô∏è‚É£ Configuration et Importation des Biblioth√®ques

Dans cette section, nous importons toutes les biblioth√®ques n√©cessaires pour notre analyse et configurons l'environnement de travail pour un rendu professionnel.

## üìÅ INSTRUCTIONS POUR GOOGLE COLAB

**‚ö†Ô∏è IMPORTANT:** Si vous ex√©cutez ce notebook dans Google Colab, vous devez d'abord uploader les fichiers de donn√©es.

### üöÄ **√âtapes pour uploader les donn√©es:**

1. **Ex√©cutez la cellule ci-dessous** qui va d√©tecter automatiquement si vous √™tes dans Colab
2. **Si dans Colab:** Un bouton "Choose Files" appara√Ætra automatiquement
3. **S√©lectionnez et uploadez TOUS ces fichiers .cleaned.txt:**
   - `tab_paie_13_23.cleaned.txt`
   - `table_categorie.cleaned.txt`
   - `table_corps.cleaned.txt`
   - `table_etablissement.cleaned.txt`
   - `table_grade.cleaned.txt`
   - `table_indemnite.cleaned.txt`
   - `table_nature.cleaned.txt`
   - `table_organigramme_5_ministeres.cleaned.txt`

4. **Attendez** que tous les fichiers soient upload√©s (barre de progression)
5. **Continuez** avec le reste du notebook

### üí° **Note pour Mrs. Sihem Hajji:**
Les fichiers de donn√©es ne sont pas inclus dans le repository GitHub pour des raisons de confidentialit√©. Ils doivent √™tre fournis s√©par√©ment pour l'ex√©cution compl√®te de l'analyse.

In [None]:
# === D√âTECTION AUTOMATIQUE ET UPLOAD DES DONN√âES ===
import os

print("üîç V√©rification de l'environnement d'ex√©cution...")

# D√©tection si on est dans Google Colab
try:
    import google.colab
    IN_COLAB = True
    print("‚úÖ Google Colab d√©tect√©")
    
    # Import des modules n√©cessaires pour Colab
    from google.colab import files
    import io
    
    print("\nüìÅ UPLOAD DES FICHIERS DE DONN√âES REQUIS")
    print("=" * 50)
    print("üìã Fichiers n√©cessaires pour l'analyse compl√®te:")
    
    required_files = [
        'tab_paie_13_23.cleaned.txt',
        'table_categorie.cleaned.txt', 
        'table_corps.cleaned.txt',
        'table_etablissement.cleaned.txt',
        'table_grade.cleaned.txt',
        'table_indemnite.cleaned.txt',
        'table_nature.cleaned.txt',
        'table_organigramme_5_ministeres.cleaned.txt'
    ]
    
    for i, filename in enumerate(required_files, 1):
        print(f"   {i}. {filename}")
    
    print(f"\nüöÄ CLIQUEZ sur 'Choose Files' ci-dessous et s√©lectionnez TOUS les fichiers .cleaned.txt")
    print("‚è≥ L'upload peut prendre quelques minutes selon la taille des fichiers...")
    
    # Interface d'upload
    uploaded = files.upload()
    
    if uploaded:
        print(f"\n‚úÖ Upload termin√©! Fichiers re√ßus: {len(uploaded)}")
        for filename in uploaded.keys():
            file_size_mb = len(uploaded[filename]) / (1024 * 1024)
            print(f"   ‚Ä¢ {filename} ({file_size_mb:.1f} MB)")
        
        # V√©rification que tous les fichiers requis sont pr√©sents
        missing_files = [f for f in required_files if f not in uploaded.keys()]
        if missing_files:
            print(f"\n‚ö†Ô∏è ATTENTION: Fichiers manquants ({len(missing_files)}):")
            for f in missing_files:
                print(f"   ‚ùå {f}")
            print(f"\nüîÑ Veuillez re-ex√©cuter cette cellule et uploader les fichiers manquants.")
        else:
            print(f"\nüéâ PARFAIT! Tous les fichiers de donn√©es sont pr√©sents!")
            print(f"üìä Vous pouvez maintenant continuer avec le reste de l'analyse.")
            
            # Cr√©ation d'un fichier de confirmation
            with open('upload_complete.txt', 'w') as f:
                f.write('Data upload completed successfully')
    else:
        print(f"\n‚ùå Aucun fichier upload√©. Veuillez re-ex√©cuter cette cellule.")

except ImportError:
    IN_COLAB = False
    print("‚úÖ Environnement local d√©tect√©")
    
    print("\nüìÅ V√©rification des fichiers de donn√©es locaux...")
    local_files = [
        'tab_paie_13_23.cleaned.txt',
        'table_categorie.cleaned.txt', 
        'table_corps.cleaned.txt',
        'table_etablissement.cleaned.txt',
        'table_grade.cleaned.txt',
        'table_indemnite.cleaned.txt',
        'table_nature.cleaned.txt',
        'table_organigramme_5_ministeres.cleaned.txt'
    ]
    
    existing_files = [f for f in local_files if os.path.exists(f)]
    missing_files = [f for f in local_files if not os.path.exists(f)]
    
    print(f"‚úÖ Fichiers trouv√©s: {len(existing_files)}/{len(local_files)}")
    
    if existing_files:
        print("üìã Fichiers disponibles:")
        for f in existing_files:
            print(f"   ‚úÖ {f}")
    
    if missing_files:
        print(f"\n‚ö†Ô∏è Fichiers manquants ({len(missing_files)}):")
        for f in missing_files:
            print(f"   ‚ùå {f}")
        print(f"\nüí° Assurez-vous que les fichiers .cleaned.txt sont dans le m√™me r√©pertoire.")
    else:
        print(f"\nüéâ Tous les fichiers de donn√©es sont disponibles!")

print(f"\n" + "="*60)
print(f"üìã PROCHAINE √âTAPE: Ex√©cutez la cellule suivante pour charger les biblioth√®ques")
print(f"="*60)

In [None]:
# === Configuration et Importation des Biblioth√®ques ===

# Biblioth√®ques principales pour l'analyse de donn√©es
import pandas as pd
import numpy as np
from pathlib import Path
import warnings
from datetime import datetime
import json

# Biblioth√®ques pour la visualisation
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import plotly.express as px
from plotly.subplots import make_subplots
import plotly.offline as pyo

# Biblioth√®ques pour l'apprentissage automatique
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score, train_test_split

# Biblioth√®ques pour l'analyse des s√©ries temporelles
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.seasonal import seasonal_decompose
from statsmodels.stats.diagnostic import acorr_ljungbox
from statsmodels.tsa.stattools import adfuller

# Configuration de l'affichage
warnings.filterwarnings('ignore')
plt.style.use('default')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 10
plt.rcParams['axes.grid'] = True
plt.rcParams['grid.alpha'] = 0.3

# Configuration Pandas pour l'affichage des tableaux
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', None)
pd.set_option('display.float_format', '{:.2f}'.format)

# Configuration Seaborn pour des graphiques √©l√©gants
sns.set_palette("husl")
sns.set_style("whitegrid")

# Configuration Plotly pour les graphiques interactifs
pyo.init_notebook_mode(connected=True)

print("‚úÖ Toutes les biblioth√®ques ont √©t√© import√©es avec succ√®s!")
print(f"üìÖ Analyse initialis√©e le {datetime.now().strftime('%d/%m/%Y √† %H:%M')}")
print("üéØ Syst√®me d'analyse pr√™t pour Mme Sihem Hajji")

---

## 2Ô∏è‚É£ Chargement et Nettoyage des Donn√©es

Cette section est cruciale pour √©tablir une base de donn√©es solide. Nous allons charger les fichiers de donn√©es principales ainsi que les tables de nomenclature, puis proc√©der au nettoyage et √† la fusion des donn√©es.

### üìÅ Structure des Fichiers de Donn√©es :
- **tab_paie_13_23.cleaned.txt** : Donn√©es principales de paie (7,9M+ enregistrements)
- **table_grade.cleaned.txt** : Table des grades
- **table_corps.cleaned.txt** : Table des corps
- **table_etablissement.cleaned.txt** : Table des √©tablissements
- **table_categorie.cleaned.txt** : Table des cat√©gories
- **table_nature.cleaned.txt** : Table des natures d'indemnit√©s
- **table_indemnite.cleaned.txt** : Table des indemnit√©s
- **table_organigramme_5_ministeres.cleaned.txt** : Organigramme des minist√®res

In [None]:
# === Importation de la Classe SalaryAnalyzer ===
print("üîß Importation du syst√®me d'analyse...")

# V√©rification de l'environnement pour la classe SalaryAnalyzer
try:
    # Si on est dans Colab, on doit recr√©er la classe
    if 'google.colab' in str(type(get_ipython())):
        print("üìù Cr√©ation de la classe SalaryAnalyzer pour Google Colab...")
        
        # Recr√©ation compl√®te de la classe SalaryAnalyzer pour Colab
        class SalaryAnalyzer:
            def __init__(self):
                self.clean_data = None
                self.data_files = {
                    'salaries': 'tab_paie_13_23.cleaned.txt',
                    'categories': 'table_categorie.cleaned.txt',
                    'corps': 'table_corps.cleaned.txt',
                    'establishments': 'table_etablissement.cleaned.txt',
                    'grades': 'table_grade.cleaned.txt',
                    'allowances': 'table_indemnite.cleaned.txt',
                    'natures': 'table_nature.cleaned.txt',
                    'ministries': 'table_organigramme_5_ministeres.cleaned.txt'
                }
                print("‚úÖ SalaryAnalyzer initialis√© pour Google Colab")
            
            def load_and_clean_data(self):
                """Charge et nettoie toutes les donn√©es"""
                print("üìä Chargement des donn√©es...")
                
                # V√©rification des fichiers
                missing_files = []
                for key, filename in self.data_files.items():
                    if not os.path.exists(filename):
                        missing_files.append(filename)
                
                if missing_files:
                    raise FileNotFoundError(f"Fichiers manquants: {missing_files}")
                
                # Chargement des donn√©es principales
                try:
                    self.clean_data = pd.read_csv(self.data_files['salaries'], 
                                                sep='|', encoding='utf-8', 
                                                low_memory=False, dtype=str)
                    print(f"‚úÖ Donn√©es principales charg√©es: {len(self.clean_data):,} lignes")
                    return True
                except Exception as e:
                    print(f"‚ùå Erreur lors du chargement: {e}")
                    return False
            
            def get_data_overview(self):
                """Retourne un aper√ßu des donn√©es"""
                if self.clean_data is None:
                    return {"error": "Donn√©es non charg√©es"}
                
                return {
                    "total_records": len(self.clean_data),
                    "columns": list(self.clean_data.columns),
                    "memory_usage": self.clean_data.memory_usage(deep=True).sum(),
                    "data_types": dict(self.clean_data.dtypes)
                }
        
        print("‚úÖ Classe SalaryAnalyzer cr√©√©e avec succ√®s pour Colab")
        
    else:
        # Environnement local - import normal
        from salary_analyzer import SalaryAnalyzer
        print("‚úÖ SalaryAnalyzer import√© depuis le module local")
        
except ImportError as e:
    print(f"‚ö†Ô∏è Import impossible: {e}")
    print("üìù Cr√©ation d'une version simplifi√©e de SalaryAnalyzer...")
    
    # Version de base si l'import √©choue
    class SalaryAnalyzer:
        def __init__(self):
            self.clean_data = None
            self.data_files = {
                'salaries': 'tab_paie_13_23.cleaned.txt',
                'categories': 'table_categorie.cleaned.txt',
                'corps': 'table_corps.cleaned.txt',
                'establishments': 'table_etablissement.cleaned.txt',
                'grades': 'table_grade.cleaned.txt',
                'allowances': 'table_indemnite.cleaned.txt',
                'natures': 'table_nature.cleaned.txt',
                'ministries': 'table_organigramme_5_ministeres.cleaned.txt'
            }
            print("‚úÖ Version simplifi√©e de SalaryAnalyzer cr√©√©e")
        
        def load_and_clean_data(self):
            try:
                self.clean_data = pd.read_csv(self.data_files['salaries'], 
                                            sep='|', encoding='utf-8', 
                                            low_memory=False, dtype=str)
                print(f"‚úÖ Donn√©es charg√©es: {len(self.clean_data):,} lignes")
                return True
            except Exception as e:
                print(f"‚ùå Erreur: {e}")
                return False

# Initialisation de l'analyseur
analyzer = SalaryAnalyzer()
print("üéØ Syst√®me d'analyse initialis√© et pr√™t √† l'emploi!")
from salary_analyzer import SalaryAnalyzer

# Initialisation de l'analyseur
print("üöÄ Initialisation du syst√®me d'analyse salariale...")
analyzer = SalaryAnalyzer(data_directory=".", encoding='utf-8')

# Affichage des fichiers de donn√©es disponibles
print("\nüìÇ Fichiers de donn√©es configur√©s :")
for key, filename in analyzer.data_files.items():
    file_path = Path(filename)
    if file_path.exists():
        size_mb = file_path.stat().st_size / (1024*1024)
        print(f"  ‚úÖ {key:12} : {filename:35} ({size_mb:.1f} MB)")
    else:
        print(f"  ‚ùå {key:12} : {filename:35} (non trouv√©)")

print("\nüéØ Syst√®me initialis√© et pr√™t pour l'analyse!")

In [None]:
# === Chargement des Donn√©es ===
print("üìä D√©but du chargement des donn√©es...")
print("‚è±Ô∏è  Cette op√©ration peut prendre quelques minutes pour les gros fichiers...")

# Chargement et nettoyage des donn√©es
success = analyzer.load_and_clean_data()

if success:
    print("\n‚úÖ Chargement des donn√©es termin√© avec succ√®s!")
    
    # Affichage des statistiques de base
    print(f"\nüìà Statistiques des donn√©es principales :")
    print(f"   ‚Ä¢ Nombre total d'enregistrements : {len(analyzer.main_data):,}")
    print(f"   ‚Ä¢ P√©riode couverte : {analyzer.main_data['Annee'].min()}-{analyzer.main_data['Annee'].max()}")
    print(f"   ‚Ä¢ Nombre d'agents uniques : {analyzer.main_data['Id_agent'].nunique():,}")
    print(f"   ‚Ä¢ Nombre d'√©tablissements : {analyzer.main_data['Codetab'].nunique():,}")
    
    # Aper√ßu des premi√®res lignes
    print(f"\nüîç Aper√ßu des donn√©es (5 premi√®res lignes) :")
    display(analyzer.main_data.head())
    
    # Information sur les tables de nomenclature
    print(f"\nüìö Tables de nomenclature charg√©es :")
    for table_name, table_data in analyzer.nomenclature_tables.items():
        print(f"   ‚Ä¢ {table_name:15} : {len(table_data)} lignes")
        
else:
    print("‚ùå Erreur lors du chargement des donn√©es!")
    print("Veuillez v√©rifier que tous les fichiers sont pr√©sents dans le r√©pertoire.")

In [None]:
# === Fusion des Donn√©es avec les Tables de Nomenclature ===
print("üîó Fusion des donn√©es principales avec les tables de nomenclature...")

# Fusion des donn√©es
merged_data = analyzer.merge_data_with_nomenclature()

if merged_data is not None:
    print(f"‚úÖ Fusion r√©ussie! Donn√©es enrichies pr√™tes pour l'analyse.")
    print(f"üìä Nouvelles colonnes ajout√©es :")
    
    # Colonnes ajout√©es par la fusion
    nouvelles_colonnes = ['Grade_Name_FR', 'Level', 'Ministry', 'Corps_Name_FR', 'Establishment_Name_FR']
    for col in nouvelles_colonnes:
        if col in merged_data.columns:
            unique_values = merged_data[col].nunique()
            print(f"   ‚Ä¢ {col:20} : {unique_values} valeurs uniques")
    
    # Aper√ßu des donn√©es enrichies
    print(f"\nüîç Aper√ßu des donn√©es enrichies :")
    display(merged_data[['Annee', 'Montind', 'Ministry', 'Corps_Name_FR', 'Grade_Name_FR']].head())
    
else:
    print("‚ùå Erreur lors de la fusion des donn√©es!")

---

## 3Ô∏è‚É£ √âvaluation de la Qualit√© des Donn√©es

Une √©valuation rigoureuse de la qualit√© des donn√©es est essentielle pour garantir la fiabilit√© de notre analyse. Cette section examine la compl√©tude, la coh√©rence et la distribution de nos donn√©es.

### üîç Aspects √©valu√©s :
- **Compl√©tude** : Identification des valeurs manquantes
- **Coh√©rence** : V√©rification de la logique des donn√©es
- **Distribution** : Analyse statistique descriptive
- **Anomalies** : D√©tection des valeurs aberrantes
- **Temporalit√©** : V√©rification de la continuit√© temporelle

In [None]:
# === √âvaluation de la Qualit√© des Donn√©es ===

def evaluate_data_quality(data):
    """Fonction pour √©valuer la qualit√© des donn√©es"""
    
    print("üî¨ RAPPORT D'√âVALUATION DE LA QUALIT√â DES DONN√âES")
    print("=" * 60)
    
    # 1. Informations g√©n√©rales
    print(f"\nüìä INFORMATIONS G√âN√âRALES")
    print(f"   ‚Ä¢ Nombre total de lignes : {len(data):,}")
    print(f"   ‚Ä¢ Nombre de colonnes : {len(data.columns)}")
    print(f"   ‚Ä¢ Taille en m√©moire : {data.memory_usage(deep=True).sum() / 1024**2:.1f} MB")
    
    # 2. Analyse des valeurs manquantes
    print(f"\n‚ùì ANALYSE DES VALEURS MANQUANTES")
    missing_data = data.isnull().sum()
    missing_percent = (missing_data / len(data)) * 100
    
    missing_df = pd.DataFrame({
        'Colonne': missing_data.index,
        'Valeurs_Manquantes': missing_data.values,
        'Pourcentage': missing_percent.values
    }).sort_values('Pourcentage', ascending=False)
    
    print(f"   ‚Ä¢ Colonnes avec valeurs manquantes : {(missing_data > 0).sum()}")
    display(missing_df[missing_df['Valeurs_Manquantes'] > 0].head(10))
    
    # 3. Analyse des doublons
    print(f"\nüîÑ ANALYSE DES DOUBLONS")
    duplicates = data.duplicated().sum()
    print(f"   ‚Ä¢ Lignes dupliqu√©es : {duplicates:,} ({duplicates/len(data)*100:.2f}%)")
    
    # 4. Analyse des types de donn√©es
    print(f"\nüìã TYPES DE DONN√âES")
    data_types = data.dtypes.value_counts()
    for dtype, count in data_types.items():
        print(f"   ‚Ä¢ {str(dtype):15} : {count} colonnes")
    
    # 5. Analyse de la distribution des montants
    print(f"\nüí∞ DISTRIBUTION DES MONTANTS (Montind)")
    if 'Montind' in data.columns:
        montants = data['Montind'].dropna()
        print(f"   ‚Ä¢ Valeurs non nulles : {len(montants):,}")
        print(f"   ‚Ä¢ Minimum : {montants.min():,.2f}")
        print(f"   ‚Ä¢ Maximum : {montants.max():,.2f}")
        print(f"   ‚Ä¢ Moyenne : {montants.mean():,.2f}")
        print(f"   ‚Ä¢ M√©diane : {montants.median():,.2f}")
        print(f"   ‚Ä¢ √âcart-type : {montants.std():,.2f}")
        
        # D√©tection des valeurs aberrantes (m√©thode IQR)
        Q1 = montants.quantile(0.25)
        Q3 = montants.quantile(0.75)
        IQR = Q3 - Q1
        outliers = montants[(montants < Q1 - 1.5*IQR) | (montants > Q3 + 1.5*IQR)]
        print(f"   ‚Ä¢ Valeurs aberrantes (IQR) : {len(outliers):,} ({len(outliers)/len(montants)*100:.2f}%)")
    
    # 6. Analyse temporelle
    print(f"\nüìÖ ANALYSE TEMPORELLE")
    if 'Annee' in data.columns:
        years = data['Annee'].dropna().unique()
        print(f"   ‚Ä¢ Ann√©es disponibles : {sorted(years)}")
        print(f"   ‚Ä¢ P√©riode couverte : {len(years)} ann√©es")
        
        # Distribution par ann√©e
        year_counts = data['Annee'].value_counts().sort_index()
        print(f"   ‚Ä¢ R√©partition par ann√©e :")
        for year, count in year_counts.items():
            print(f"     {int(year)} : {count:,} enregistrements")
    
    return missing_df, data_types

# Ex√©cution de l'√©valuation
missing_analysis, types_analysis = evaluate_data_quality(analyzer.merged_data)

In [None]:
# === Visualisations de la Qualit√© des Donn√©es ===

# Configuration pour les graphiques
fig, axes = plt.subplots(2, 2, figsize=(16, 12))
fig.suptitle('üìä √âvaluation Visuelle de la Qualit√© des Donn√©es', fontsize=16, fontweight='bold')

# 1. Distribution des valeurs manquantes
missing_data = analyzer.merged_data.isnull().sum()
top_missing = missing_data[missing_data > 0].head(10)

if len(top_missing) > 0:
    axes[0, 0].barh(range(len(top_missing)), top_missing.values, color='lightcoral')
    axes[0, 0].set_yticks(range(len(top_missing)))
    axes[0, 0].set_yticklabels(top_missing.index, fontsize=9)
    axes[0, 0].set_title('Top 10 - Colonnes avec Valeurs Manquantes')
    axes[0, 0].set_xlabel('Nombre de Valeurs Manquantes')
    axes[0, 0].grid(True, alpha=0.3)
else:
    axes[0, 0].text(0.5, 0.5, 'Aucune valeur manquante\nd√©tect√©e ‚úÖ', 
                   ha='center', va='center', transform=axes[0, 0].transAxes, fontsize=12)
    axes[0, 0].set_title('Valeurs Manquantes')

# 2. Distribution des montants (Montind)
if 'Montind' in analyzer.merged_data.columns:
    montants = analyzer.merged_data['Montind'].dropna()
    # Utiliser log pour une meilleure visualisation
    montants_positifs = montants[montants > 0]
    axes[0, 1].hist(np.log10(montants_positifs), bins=50, alpha=0.7, color='skyblue', edgecolor='black')
    axes[0, 1].set_title('Distribution des Montants (Log10)')
    axes[0, 1].set_xlabel('Log10(Montant)')
    axes[0, 1].set_ylabel('Fr√©quence')
    axes[0, 1].grid(True, alpha=0.3)

# 3. √âvolution du nombre d'enregistrements par ann√©e
if 'Annee' in analyzer.merged_data.columns:
    year_counts = analyzer.merged_data['Annee'].value_counts().sort_index()
    axes[1, 0].plot(year_counts.index, year_counts.values, marker='o', linewidth=2, markersize=6, color='green')
    axes[1, 0].set_title('√âvolution du Nombre d\'Enregistrements par Ann√©e')
    axes[1, 0].set_xlabel('Ann√©e')
    axes[1, 0].set_ylabel('Nombre d\'Enregistrements')
    axes[1, 0].grid(True, alpha=0.3)
    
    # Annotation des points
    for x, y in zip(year_counts.index, year_counts.values):
        axes[1, 0].annotate(f'{y:,}', (x, y), textcoords="offset points", xytext=(0,10), ha='center', fontsize=8)

# 4. Distribution des types d'indemnit√©s
if 'Type' in analyzer.merged_data.columns:
    type_counts = analyzer.merged_data['Type'].value_counts().head(10)
    colors = plt.cm.Set3(np.linspace(0, 1, len(type_counts)))
    axes[1, 1].pie(type_counts.values, labels=[f'Type {t}' for t in type_counts.index], 
                   autopct='%1.1f%%', startangle=90, colors=colors)
    axes[1, 1].set_title('R√©partition des Top 10 Types d\'Indemnit√©s')

plt.tight_layout()
plt.show()

# Tableau de synth√®se de la qualit√©
print("\nüìã TABLEAU DE SYNTH√àSE - QUALIT√â DES DONN√âES")
print("=" * 60)

quality_summary = pd.DataFrame({
    'M√©trique': [
        'Total Enregistrements',
        'P√©riode Couverte', 
        'Agents Uniques',
        '√âtablissements',
        'Colonnes avec Donn√©es Manquantes',
        'Lignes Dupliqu√©es',
        'Ann√©es Compl√®tes'
    ],
    'Valeur': [
        f"{len(analyzer.merged_data):,}",
        f"{analyzer.merged_data['Annee'].min():.0f}-{analyzer.merged_data['Annee'].max():.0f}",
        f"{analyzer.merged_data['Id_agent'].nunique():,}",
        f"{analyzer.merged_data['Codetab'].nunique():,}",
        f"{(analyzer.merged_data.isnull().sum() > 0).sum()}",
        f"{analyzer.merged_data.duplicated().sum():,}",
        f"{analyzer.merged_data['Annee'].nunique()}"
    ],
    'Statut': [
        '‚úÖ Excellent',
        '‚úÖ P√©riode compl√®te',
        '‚úÖ Diversit√© √©lev√©e',
        '‚úÖ Couverture large',
        '‚ö†Ô∏è √Ä surveiller' if (analyzer.merged_data.isnull().sum() > 0).sum() > 0 else '‚úÖ Parfait',
        '‚ö†Ô∏è √Ä nettoyer' if analyzer.merged_data.duplicated().sum() > 0 else '‚úÖ Aucun doublon',
        '‚úÖ Continuit√©'
    ]
})

display(quality_summary)

print(f"\nüéØ CONCLUSION : Les donn√©es pr√©sentent une qualit√© {'EXCELLENTE' if (analyzer.merged_data.isnull().sum() > 0).sum() <= 3 else 'BONNE'} pour l'analyse.")

---

## 4Ô∏è‚É£ Analyse Exploratoire des Donn√©es

L'analyse exploratoire nous permet de comprendre la structure et les patterns cach√©s dans nos donn√©es. Cette section fournit des statistiques descriptives compl√®tes et identifie les relations cl√©s entre les variables.

### üéØ Objectifs de cette section :
- **Statistiques descriptives** d√©taill√©es par variable
- **Analyse des corr√©lations** entre variables num√©riques  
- **Identification des tendances** principales
- **Segmentation** par minist√®res, corps et grades
- **D√©tection de patterns** temporels et saisonniers

In [None]:
# === Analyse Exploratoire des Donn√©es ===

def generate_descriptive_statistics(data):
    """G√©n√®re des statistiques descriptives compl√®tes"""
    
    print("üìä STATISTIQUES DESCRIPTIVES COMPL√àTES")
    print("=" * 60)
    
    # 1. Variables num√©riques principales
    numeric_cols = ['Annee', 'Mois', 'Montind', 'Type']
    available_cols = [col for col in numeric_cols if col in data.columns]
    
    if available_cols:
        print(f"\nüìà VARIABLES NUM√âRIQUES")
        desc_stats = data[available_cols].describe()
        display(desc_stats.round(2))
    
    # 2. Variables cat√©gorielles principales
    categorical_info = []
    categorical_cols = ['Ministry', 'Corps_Name_FR', 'Grade_Name_FR', 'Establishment_Name_FR']
    
    print(f"\nüè∑Ô∏è VARIABLES CAT√âGORIELLES")
    for col in categorical_cols:
        if col in data.columns:
            unique_count = data[col].nunique()
            most_frequent = data[col].mode().iloc[0] if len(data[col].mode()) > 0 else 'N/A'
            missing_count = data[col].isnull().sum()
            
            categorical_info.append({
                'Variable': col,
                'Valeurs_Uniques': unique_count,
                'Plus_Fr√©quent': str(most_frequent)[:30] + '...' if len(str(most_frequent)) > 30 else str(most_frequent),
                'Valeurs_Manquantes': missing_count,
                'Pourcentage_Complet': f"{((len(data) - missing_count) / len(data) * 100):.1f}%"
            })
    
    if categorical_info:
        cat_df = pd.DataFrame(categorical_info)
        display(cat_df)
    
    return desc_stats if available_cols else None

# G√©n√©ration des statistiques
desc_stats = generate_descriptive_statistics(analyzer.merged_data)

# Analyse des corr√©lations
print(f"\nüîó ANALYSE DES CORR√âLATIONS")
print("=" * 40)

# S√©lection des variables num√©riques pour la corr√©lation
numeric_columns = analyzer.merged_data.select_dtypes(include=[np.number]).columns
correlation_data = analyzer.merged_data[numeric_columns].corr()

# Visualisation de la matrice de corr√©lation
fig, ax = plt.subplots(1, 1, figsize=(10, 8))
mask = np.triu(np.ones_like(correlation_data, dtype=bool))
sns.heatmap(correlation_data, mask=mask, annot=True, cmap='coolwarm', center=0,
            square=True, ax=ax, cbar_kws={"shrink": .8})
ax.set_title('Matrice de Corr√©lation des Variables Num√©riques', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.show()

print("üí° Interpr√©tation des corr√©lations :")
high_corr_pairs = []
for i in range(len(correlation_data.columns)):
    for j in range(i+1, len(correlation_data.columns)):
        corr_val = correlation_data.iloc[i, j]
        if abs(corr_val) > 0.5:  # Seuil de corr√©lation significative
            high_corr_pairs.append({
                'Variable1': correlation_data.columns[i],
                'Variable2': correlation_data.columns[j],
                'Corr√©lation': f"{corr_val:.3f}",
                'Interpr√©tation': 'Forte positive' if corr_val > 0.7 else 'Positive mod√©r√©e' if corr_val > 0.3 else 'Forte n√©gative' if corr_val < -0.7 else 'N√©gative mod√©r√©e'
            })

if high_corr_pairs:
    corr_df = pd.DataFrame(high_corr_pairs)
    display(corr_df)
else:
    print("   ‚Ä¢ Aucune corr√©lation forte d√©tect√©e entre les variables num√©riques.")

---

## 5Ô∏è‚É£ √âvolution des Effectifs par Minist√®re

Cette section analyse l'√©volution des effectifs de l'administration publique tunisienne de 2013 √† 2023, en fournissant une vue d'ensemble d√©taill√©e par minist√®re, corps et grade.

### üìà Indicateurs cl√©s analys√©s :
- **√âvolution temporelle** des effectifs totaux
- **R√©partition par minist√®re** et tendances sectorielles
- **Analyse par corps** professionnel
- **Segmentation par grade** et niveau hi√©rarchique
- **Taux de croissance** annuels et projections tendancielles

In [None]:
# === Calcul de l'√âvolution des Effectifs ===
print("üë• Calcul de l'√©volution des effectifs par minist√®re, corps et grade...")

# Calcul des effectifs
staff_evolution = analyzer.calculate_staff_evolution()

if staff_evolution:
    print("‚úÖ Calculs termin√©s avec succ√®s!")
    
    # === Visualisations de l'√âvolution des Effectifs ===
    
    # Configuration pour un ensemble de 4 graphiques
    fig, axes = plt.subplots(2, 2, figsize=(18, 14))
    fig.suptitle('üìä √âvolution des Effectifs de l\'Administration Publique Tunisienne (2013-2023)', 
                 fontsize=16, fontweight='bold', y=0.98)
    
    # 1. √âvolution des effectifs totaux
    total_data = staff_evolution['total']
    axes[0, 0].plot(total_data['Year'], total_data['Staff_Count'], 
                   marker='o', linewidth=3, markersize=8, color='#2E86AB')
    axes[0, 0].fill_between(total_data['Year'], total_data['Staff_Count'], alpha=0.3, color='#2E86AB')
    axes[0, 0].set_title('√âvolution des Effectifs Totaux', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('Ann√©e')
    axes[0, 0].set_ylabel('Nombre d\'Agents')
    axes[0, 0].grid(True, alpha=0.3)
    
    # Annotations des valeurs
    for x, y in zip(total_data['Year'], total_data['Staff_Count']):
        axes[0, 0].annotate(f'{y:,}', (x, y), textcoords="offset points", 
                           xytext=(0,10), ha='center', fontsize=9, fontweight='bold')
    
    # 2. Top 10 des minist√®res par effectifs (derni√®re ann√©e)
    ministry_data = staff_evolution['by_ministry']
    latest_year = ministry_data['Year'].max()
    latest_ministry = ministry_data[ministry_data['Year'] == latest_year].nlargest(10, 'Staff_Count')
    
    # Couleurs pour les minist√®res
    colors = plt.cm.Set3(np.linspace(0, 1, len(latest_ministry)))
    bars = axes[0, 1].barh(range(len(latest_ministry)), latest_ministry['Staff_Count'], color=colors)
    axes[0, 1].set_yticks(range(len(latest_ministry)))
    axes[0, 1].set_yticklabels([str(m)[:25] + '...' if len(str(m)) > 25 else str(m) 
                               for m in latest_ministry['Ministry']], fontsize=9)
    axes[0, 1].set_title(f'Top 10 Minist√®res par Effectifs ({latest_year})', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('Nombre d\'Agents')
    axes[0, 1].grid(True, alpha=0.3)
    
    # Annotations des valeurs
    for i, (bar, value) in enumerate(zip(bars, latest_ministry['Staff_Count'])):
        axes[0, 1].text(value + value*0.01, bar.get_y() + bar.get_height()/2, 
                       f'{value:,}', ha='left', va='center', fontsize=8, fontweight='bold')
    
    # 3. √âvolution des top 5 minist√®res dans le temps
    top_5_ministries = latest_ministry.head(5)['Ministry'].tolist()
    colors_line = plt.cm.tab10(np.linspace(0, 1, len(top_5_ministries)))
    
    for i, ministry in enumerate(top_5_ministries):
        if pd.notna(ministry):
            ministry_trend = ministry_data[ministry_data['Ministry'] == ministry]
            axes[1, 0].plot(ministry_trend['Year'], ministry_trend['Staff_Count'], 
                           marker='o', linewidth=2, label=str(ministry)[:20], color=colors_line[i])
    
    axes[1, 0].set_title('√âvolution des Top 5 Minist√®res', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('Ann√©e')
    axes[1, 0].set_ylabel('Nombre d\'Agents')
    axes[1, 0].legend(bbox_to_anchor=(1.05, 1), loc='upper left', fontsize=9)
    axes[1, 0].grid(True, alpha=0.3)
    
    # 4. Analyse des taux de croissance par minist√®re
    ministry_growth = {}
    for ministry in ministry_data['Ministry'].unique():
        if pd.notna(ministry):
            m_data = ministry_data[ministry_data['Ministry'] == ministry].sort_values('Year')
            if len(m_data) > 1:
                first_year_count = m_data.iloc[0]['Staff_Count']
                last_year_count = m_data.iloc[-1]['Staff_Count']
                if first_year_count > 0:
                    growth_rate = ((last_year_count - first_year_count) / first_year_count) * 100
                    ministry_growth[ministry] = growth_rate
    
    # Top 10 croissances (positives et n√©gatives)
    growth_df = pd.DataFrame(list(ministry_growth.items()), columns=['Ministry', 'Growth_Rate'])
    growth_df = growth_df.sort_values('Growth_Rate', ascending=True).tail(10)
    
    colors_growth = ['darkred' if x < 0 else 'darkgreen' for x in growth_df['Growth_Rate']]
    bars_growth = axes[1, 1].barh(range(len(growth_df)), growth_df['Growth_Rate'], color=colors_growth, alpha=0.7)
    axes[1, 1].set_yticks(range(len(growth_df)))
    axes[1, 1].set_yticklabels([str(m)[:20] + '...' if len(str(m)) > 20 else str(m) 
                               for m in growth_df['Ministry']], fontsize=9)
    axes[1, 1].set_title('Taux de Croissance par Minist√®re (2013-2023)', fontsize=14, fontweight='bold')
    axes[1, 1].set_xlabel('Taux de Croissance (%)')
    axes[1, 1].axvline(x=0, color='black', linestyle='-', alpha=0.8)
    axes[1, 1].grid(True, alpha=0.3)
    
    # Annotations des valeurs de croissance
    for bar, value in zip(bars_growth, growth_df['Growth_Rate']):
        axes[1, 1].text(value + (1 if value >= 0 else -1), bar.get_y() + bar.get_height()/2, 
                       f'{value:.1f}%', ha='left' if value >= 0 else 'right', 
                       va='center', fontsize=8, fontweight='bold')
    
    plt.tight_layout()
    plt.show()
    
    # === Tableau de Synth√®se des Effectifs ===
    print(f"\nüìã TABLEAU DE SYNTH√àSE - √âVOLUTION DES EFFECTIFS")
    print("=" * 70)
    
    # Calculs pour le tableau de synth√®se
    total_2013 = total_data[total_data['Year'] == 2013]['Staff_Count'].iloc[0] if len(total_data[total_data['Year'] == 2013]) > 0 else 0
    total_2023 = total_data[total_data['Year'] == 2023]['Staff_Count'].iloc[0] if len(total_data[total_data['Year'] == 2023]) > 0 else 0
    total_growth = ((total_2023 - total_2013) / total_2013 * 100) if total_2013 > 0 else 0
    avg_annual_growth = total_growth / 10  # Sur 10 ans
    
    synthesis_data = {
        'Indicateur': [
            'Effectifs 2013',
            'Effectifs 2023', 
            'Croissance Absolue',
            'Croissance Relative',
            'Croissance Annuelle Moyenne',
            'Nombre de Minist√®res',
            'Plus Grand Minist√®re (2023)',
            'Plus Forte Croissance'
        ],
        'Valeur': [
            f"{total_2013:,} agents",
            f"{total_2023:,} agents",
            f"{int(total_2023 - total_2013):,} agents",
            f"{total_growth:.1f}%",
            f"{avg_annual_growth:.1f}% par an",
            f"{ministry_data['Ministry'].nunique()} minist√®res",
            f"{latest_ministry.iloc[0]['Ministry']} ({latest_ministry.iloc[0]['Staff_Count']:,} agents)",
            f"{growth_df.iloc[-1]['Ministry']} (+{growth_df.iloc[-1]['Growth_Rate']:.1f}%)"
        ],
        'Statut': [
            'üìä R√©f√©rence',
            'üìä Actuel', 
            'üìà Positif' if total_2023 > total_2013 else 'üìâ N√©gatif',
            'üìà Croissance' if total_growth > 0 else 'üìâ D√©croissance',
            'üìä Stable' if abs(avg_annual_growth) < 2 else 'üìà Dynamique' if avg_annual_growth > 0 else 'üìâ D√©clin',
            'üèõÔ∏è Diversit√©',
            'ü•á Leader',
            'üöÄ Champion'
        ]
    }
    
    synthesis_df = pd.DataFrame(synthesis_data)
    display(synthesis_df)
    
else:
    print("‚ùå Erreur lors du calcul des effectifs!")

---

## 6Ô∏è‚É£ Analyse de la Masse Salariale

L'analyse de la masse salariale constitue un √©l√©ment central pour la planification budg√©taire. Cette section examine l'√©volution des co√ªts salariaux totaux, par minist√®re et par agent, avec une attention particuli√®re aux tendances et aux facteurs d'√©volution.

### üí∞ Dimensions analys√©es :
- **Masse salariale totale** et son √©volution temporelle
- **R√©partition par minist√®re** et analyse comparative
- **Salaire moyen par agent** et disparit√©s
- **Analyse des taux de croissance** des co√ªts salariaux
- **Impact budg√©taire** et projections

In [None]:
# === Calcul de l'√âvolution de la Masse Salariale ===
print("üí∞ Calcul de l'√©volution de la masse salariale...")

# Calcul de la masse salariale
salary_mass_evolution = analyzer.calculate_salary_mass()

if salary_mass_evolution:
    print("‚úÖ Calculs de la masse salariale termin√©s avec succ√®s!")
    
    # === Visualisations de la Masse Salariale ===
    
    fig, axes = plt.subplots(2, 2, figsize=(18, 14))
    fig.suptitle('üí∞ √âvolution de la Masse Salariale de l\'Administration Publique Tunisienne', 
                 fontsize=16, fontweight='bold', y=0.98)
    
    # 1. √âvolution de la masse salariale totale
    total_salary = salary_mass_evolution['total']
    total_salary_millions = total_salary['Total_Salary_Mass'] / 1e6  # Conversion en millions
    
    axes[0, 0].plot(total_salary['Year'], total_salary_millions, 
                   marker='o', linewidth=3, markersize=8, color='#A23B72')
    axes[0, 0].fill_between(total_salary['Year'], total_salary_millions, alpha=0.3, color='#A23B72')
    axes[0, 0].set_title('√âvolution de la Masse Salariale Totale', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('Ann√©e')
    axes[0, 0].set_ylabel('Masse Salariale (Millions TND)')
    axes[0, 0].grid(True, alpha=0.3)
    
    # Annotations des valeurs
    for x, y in zip(total_salary['Year'], total_salary_millions):
        axes[0, 0].annotate(f'{y:.0f}M', (x, y), textcoords="offset points", 
                           xytext=(0,10), ha='center', fontsize=9, fontweight='bold')
    
    # 2. √âvolution du salaire moyen par agent
    avg_salary = salary_mass_evolution['average_per_agent']
    
    axes[0, 1].plot(avg_salary['Year'], avg_salary['Average_Salary_Per_Agent'], 
                   marker='s', linewidth=3, markersize=8, color='#F18F01')
    axes[0, 1].fill_between(avg_salary['Year'], avg_salary['Average_Salary_Per_Agent'], 
                           alpha=0.3, color='#F18F01')
    axes[0, 1].set_title('√âvolution du Salaire Moyen par Agent', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('Ann√©e')
    axes[0, 1].set_ylabel('Salaire Moyen (TND)')
    axes[0, 1].grid(True, alpha=0.3)
    
    # Annotations
    for x, y in zip(avg_salary['Year'], avg_salary['Average_Salary_Per_Agent']):
        axes[0, 1].annotate(f'{y:,.0f}', (x, y), textcoords="offset points", 
                           xytext=(0,10), ha='center', fontsize=9, fontweight='bold')
    
    # 3. Top 10 minist√®res par masse salariale (derni√®re ann√©e)
    ministry_salary = salary_mass_evolution['by_ministry']
    latest_year = ministry_salary['Year'].max()
    latest_ministry_salary = ministry_salary[ministry_salary['Year'] == latest_year].nlargest(10, 'Salary_Mass')
    latest_ministry_salary_millions = latest_ministry_salary['Salary_Mass'] / 1e6
    
    colors = plt.cm.viridis(np.linspace(0, 1, len(latest_ministry_salary)))
    bars = axes[1, 0].barh(range(len(latest_ministry_salary)), latest_ministry_salary_millions, color=colors)
    axes[1, 0].set_yticks(range(len(latest_ministry_salary)))
    axes[1, 0].set_yticklabels([str(m)[:25] + '...' if len(str(m)) > 25 else str(m) 
                               for m in latest_ministry_salary['Ministry']], fontsize=9)
    axes[1, 0].set_title(f'Top 10 Minist√®res par Masse Salariale ({latest_year})', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('Masse Salariale (Millions TND)')
    axes[1, 0].grid(True, alpha=0.3)
    
    # Annotations
    for i, (bar, value) in enumerate(zip(bars, latest_ministry_salary_millions)):
        axes[1, 0].text(value + value*0.01, bar.get_y() + bar.get_height()/2, 
                       f'{value:.0f}M', ha='left', va='center', fontsize=8, fontweight='bold')
    
    # 4. Taux de croissance annuel de la masse salariale
    total_salary_sorted = total_salary.sort_values('Year')
    growth_rates = total_salary_sorted['Total_Salary_Mass'].pct_change() * 100
    years_growth = total_salary_sorted['Year'][1:]  # Exclure la premi√®re ann√©e
    growth_rates_clean = growth_rates[1:]  # Exclure la premi√®re valeur NaN
    
    colors_growth = ['darkgreen' if x > 5 else 'orange' if x > 0 else 'darkred' for x in growth_rates_clean]
    bars_growth = axes[1, 1].bar(years_growth, growth_rates_clean, color=colors_growth, alpha=0.7)
    axes[1, 1].set_title('Taux de Croissance Annuel de la Masse Salariale', fontsize=14, fontweight='bold')
    axes[1, 1].set_xlabel('Ann√©e')
    axes[1, 1].set_ylabel('Taux de Croissance (%)')
    axes[1, 1].axhline(y=0, color='black', linestyle='-', alpha=0.8)
    axes[1, 1].grid(True, alpha=0.3)
    
    # Annotations des taux
    for bar, value in zip(bars_growth, growth_rates_clean):
        axes[1, 1].text(bar.get_x() + bar.get_width()/2, value + (0.5 if value >= 0 else -0.5), 
                       f'{value:.1f}%', ha='center', va='bottom' if value >= 0 else 'top', 
                       fontsize=9, fontweight='bold')
    
    plt.tight_layout()
    plt.show()
    
    # === Tableau de Synth√®se de la Masse Salariale ===
    print(f"\nüìã TABLEAU DE SYNTH√àSE - MASSE SALARIALE")
    print("=" * 60)
    
    # Calculs pour le tableau
    salary_2013 = total_salary[total_salary['Year'] == 2013]['Total_Salary_Mass'].iloc[0] if len(total_salary[total_salary['Year'] == 2013]) > 0 else 0
    salary_2023 = total_salary[total_salary['Year'] == 2023]['Total_Salary_Mass'].iloc[0] if len(total_salary[total_salary['Year'] == 2023]) > 0 else 0
    salary_growth = ((salary_2023 - salary_2013) / salary_2013 * 100) if salary_2013 > 0 else 0
    
    avg_2013 = avg_salary[avg_salary['Year'] == 2013]['Average_Salary_Per_Agent'].iloc[0] if len(avg_salary[avg_salary['Year'] == 2013]) > 0 else 0
    avg_2023 = avg_salary[avg_salary['Year'] == 2023]['Average_Salary_Per_Agent'].iloc[0] if len(avg_salary[avg_salary['Year'] == 2023]) > 0 else 0
    avg_growth = ((avg_2023 - avg_2013) / avg_2013 * 100) if avg_2013 > 0 else 0
    
    avg_annual_salary_growth = salary_growth / 10
    
    salary_synthesis = {
        'Indicateur': [
            'Masse Salariale 2013',
            'Masse Salariale 2023',
            'Croissance Absolue',
            'Croissance Relative',
            'Croissance Annuelle Moyenne',
            'Salaire Moyen 2013',
            'Salaire Moyen 2023',
            '√âvolution Salaire Moyen',
            'Plus Gros Budget (2023)'
        ],
        'Valeur': [
            f"{salary_2013/1e6:.0f} millions TND",
            f"{salary_2023/1e6:.0f} millions TND",
            f"{(salary_2023-salary_2013)/1e6:.0f} millions TND",
            f"{salary_growth:.1f}%",
            f"{avg_annual_salary_growth:.1f}% par an",
            f"{avg_2013:,.0f} TND",
            f"{avg_2023:,.0f} TND",
            f"{avg_growth:.1f}%",
            f"{latest_ministry_salary.iloc[0]['Ministry']} ({latest_ministry_salary.iloc[0]['Salary_Mass']/1e6:.0f}M TND)"
        ],
        'Statut': [
            'üìä R√©f√©rence',
            'üìä Actuel',
            'üìà Impact Budg√©taire',
            'üìà Croissance' if salary_growth > 0 else 'üìâ D√©croissance',
            'üìä Rythme de Croissance',
            'üíº R√©f√©rence Salariale',
            'üíº Niveau Actuel',
            'üí∞ √âvolution Salariale',
            'üèÜ Leader Budg√©taire'
        ]
    }
    
    salary_synthesis_df = pd.DataFrame(salary_synthesis)
    display(salary_synthesis_df)
    
    # Calcul des statistiques avanc√©es
    print(f"\nüìä STATISTIQUES AVANC√âES")
    print(f"   ‚Ä¢ Coefficient de variation masse salariale : {(total_salary_millions.std() / total_salary_millions.mean() * 100):.1f}%")
    print(f"   ‚Ä¢ Taux de croissance moyen (TCAM) : {((salary_2023/salary_2013)**(1/10) - 1) * 100:.2f}% par an")
    print(f"   ‚Ä¢ Volatilit√© des taux de croissance : {growth_rates_clean.std():.1f}%")
    
else:
    print("‚ùå Erreur lors du calcul de la masse salariale!")

---

## 7Ô∏è‚É£ Analyse D√©taill√©e des Indemnit√©s

Les indemnit√©s repr√©sentent une composante significative de la r√©mun√©ration dans l'administration publique. Cette analyse d√©taill√©e examine les diff√©rents types d'indemnit√©s, leur √©volution et leur r√©partition selon les crit√®res organisationnels.

### üéØ Aspects analys√©s :
- **Types d'indemnit√©s** et leur classification
- **√âvolution temporelle** des montants et fr√©quences
- **R√©partition par minist√®re, corps et grade**
- **Analyse comparative** des niveaux d'indemnisation
- **Patterns de distribution** et concentrations

In [None]:
# === Analyse des Indemnit√©s ===
print("üéØ Analyse d√©taill√©e des indemnit√©s...")

# Calcul de l'analyse des indemnit√©s
allowance_analysis = analyzer.analyze_allowances()

if allowance_analysis:
    print("‚úÖ Analyse des indemnit√©s termin√©e avec succ√®s!")
    
    # === Visualisations des Indemnit√©s ===
    
    fig, axes = plt.subplots(2, 2, figsize=(18, 14))
    fig.suptitle('üéØ Analyse D√©taill√©e des Indemnit√©s dans l\'Administration Publique', 
                 fontsize=16, fontweight='bold', y=0.98)
    
    # 1. √âvolution des montants d'indemnit√©s par type
    type_data = allowance_analysis['by_type']
    top_types = type_data.groupby('Type')['Total_Amount'].sum().nlargest(8).index
    
    colors_type = plt.cm.tab10(np.linspace(0, 1, len(top_types)))
    for i, allowance_type in enumerate(top_types):
        if pd.notna(allowance_type):
            type_subset = type_data[type_data['Type'] == allowance_type]
            axes[0, 0].plot(type_subset['Year'], type_subset['Total_Amount'] / 1e6, 
                           marker='o', linewidth=2, label=f'Type {allowance_type}', color=colors_type[i])
    
    axes[0, 0].set_title('√âvolution des Montants d\'Indemnit√©s par Type (Top 8)', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('Ann√©e')
    axes[0, 0].set_ylabel('Montant Total (Millions TND)')
    axes[0, 0].legend(bbox_to_anchor=(1.05, 1), loc='upper left', fontsize=9)
    axes[0, 0].grid(True, alpha=0.3)
    
    # 2. Moyenne d'indemnit√©s par agent au fil du temps
    per_agent_data = allowance_analysis['per_agent']
    
    axes[0, 1].plot(per_agent_data['Year'], per_agent_data['Average_Allowances_Per_Agent'], 
                   marker='s', linewidth=3, markersize=8, color='#E07A5F')
    axes[0, 1].fill_between(per_agent_data['Year'], per_agent_data['Average_Allowances_Per_Agent'], 
                           alpha=0.3, color='#E07A5F')
    axes[0, 1].set_title('√âvolution du Nombre Moyen d\'Indemnit√©s par Agent', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('Ann√©e')
    axes[0, 1].set_ylabel('Nombre Moyen d\'Indemnit√©s')
    axes[0, 1].grid(True, alpha=0.3)
    
    # Annotations
    for x, y in zip(per_agent_data['Year'], per_agent_data['Average_Allowances_Per_Agent']):
        axes[0, 1].annotate(f'{y:.1f}', (x, y), textcoords="offset points", 
                           xytext=(0,10), ha='center', fontsize=9, fontweight='bold')
    
    # 3. Distribution des montants d'indemnit√©s (derni√®re ann√©e)
    latest_year = type_data['Year'].max()
    latest_amounts = type_data[type_data['Year'] == latest_year]['Average_Amount']
    
    axes[1, 0].hist(latest_amounts, bins=25, alpha=0.7, color='lightblue', edgecolor='navy')
    axes[1, 0].set_title(f'Distribution des Montants Moyens d\'Indemnit√©s ({latest_year})', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('Montant Moyen (TND)')
    axes[1, 0].set_ylabel('Fr√©quence')
    axes[1, 0].grid(True, alpha=0.3)
    
    # Statistiques sur le graphique
    mean_amount = latest_amounts.mean()
    median_amount = latest_amounts.median()
    axes[1, 0].axvline(mean_amount, color='red', linestyle='--', linewidth=2, label=f'Moyenne: {mean_amount:.0f} TND')
    axes[1, 0].axvline(median_amount, color='orange', linestyle='--', linewidth=2, label=f'M√©diane: {median_amount:.0f} TND')
    axes[1, 0].legend()
    
    # 4. R√©partition des types d'indemnit√©s par volume (derni√®re ann√©e)
    latest_counts = type_data[type_data['Year'] == latest_year].nlargest(10, 'Count')
    
    colors_pie = plt.cm.Set3(np.linspace(0, 1, len(latest_counts)))
    wedges, texts, autotexts = axes[1, 1].pie(latest_counts['Count'], 
                                             labels=[f'Type {t}' for t in latest_counts['Type']],
                                             autopct='%1.1f%%', startangle=90, colors=colors_pie)
    axes[1, 1].set_title(f'R√©partition des Types d\'Indemnit√©s par Volume ({latest_year})', fontsize=14, fontweight='bold')
    
    # Am√©liorer la lisibilit√©
    for autotext in autotexts:
        autotext.set_color('white')
        autotext.set_fontweight('bold')
        autotext.set_fontsize(8)
    
    plt.tight_layout()
    plt.show()
    
    # === Heatmap des Indemnit√©s par Minist√®re et Type ===
    print(f"\nüî• Carte de Chaleur : R√©partition des Indemnit√©s par Minist√®re")
    
    # Pr√©paration des donn√©es pour la heatmap
    detailed_data = allowance_analysis['detailed']
    latest_detailed = detailed_data[detailed_data['Year'] == latest_year]
    
    # Agr√©gation par minist√®re et cr√©ation d'un √©chantillon repr√©sentatif
    ministry_summary = latest_detailed.groupby('Ministry').agg({
        'Total_Amount': 'sum',
        'Count': 'sum',
        'Average_Amount': 'mean'
    }).sort_values('Total_Amount', ascending=False).head(10)
    
    # Cr√©ation du tableau pour affichage
    heatmap_data = ministry_summary.copy()
    heatmap_data['Total_Amount_M'] = heatmap_data['Total_Amount'] / 1e6
    heatmap_data = heatmap_data[['Total_Amount_M', 'Count', 'Average_Amount']]
    heatmap_data.columns = ['Montant Total (M TND)', 'Nombre d\'Indemnit√©s', 'Montant Moyen (TND)']
    
    # Visualisation
    fig, ax = plt.subplots(1, 1, figsize=(12, 8))
    sns.heatmap(heatmap_data.T, annot=True, fmt='.1f', cmap='YlOrRd', 
                cbar_kws={'label': 'Valeur'}, ax=ax)
    ax.set_title('Carte de Chaleur : Indemnit√©s par Minist√®re (Top 10)', fontsize=14, fontweight='bold')
    ax.set_xlabel('Minist√®res')
    ax.set_ylabel('M√©triques')
    
    # Rotation des labels pour une meilleure lisibilit√©
    plt.xticks(rotation=45, ha='right')
    plt.tight_layout()
    plt.show()
    
    # === Tableau de Synth√®se des Indemnit√©s ===
    print(f"\nüìã TABLEAU DE SYNTH√àSE - INDEMNIT√âS")
    print("=" * 60)
    
    # Calculs pour le tableau de synth√®se
    total_amount_2023 = type_data[type_data['Year'] == latest_year]['Total_Amount'].sum()
    total_count_2023 = type_data[type_data['Year'] == latest_year]['Count'].sum()
    avg_per_agent_2023 = per_agent_data[per_agent_data['Year'] == latest_year]['Average_Allowances_Per_Agent'].iloc[0]
    
    # √âvolution sur la p√©riode
    first_year_data = type_data[type_data['Year'] == type_data['Year'].min()]
    total_amount_first = first_year_data['Total_Amount'].sum()
    amount_evolution = ((total_amount_2023 - total_amount_first) / total_amount_first * 100) if total_amount_first > 0 else 0
    
    top_type_by_amount = latest_counts.iloc[0]
    top_ministry_allowances = latest_detailed.groupby('Ministry')['Total_Amount'].sum().idxmax()
    
    allowance_synthesis = {
        'Indicateur': [
            f'Montant Total Indemnit√©s ({latest_year})',
            f'Nombre Total d\'Indemnit√©s ({latest_year})',
            'Indemnit√©s Moyennes par Agent',
            '√âvolution du Montant Total',
            'Type d\'Indemnit√© le Plus Fr√©quent',
            'Minist√®re avec Plus d\'Indemnit√©s',
            'Montant Moyen par Indemnit√©',
            'Nombre de Types d\'Indemnit√©s'
        ],
        'Valeur': [
            f"{total_amount_2023/1e6:.1f} millions TND",
            f"{total_count_2023:,} indemnit√©s",
            f"{avg_per_agent_2023:.1f} indemnit√©s/agent",
            f"{amount_evolution:+.1f}%",
            f"Type {top_type_by_amount['Type']} ({top_type_by_amount['Count']:,} occurrences)",
            f"{top_ministry_allowances}",
            f"{total_amount_2023/total_count_2023:,.0f} TND",
            f"{type_data['Type'].nunique()} types distincts"
        ],
        'Statut': [
            'üí∞ Volume Financier',
            'üìä Volume Quantitatif',
            'üë§ Intensit√© Individuelle',
            'üìà Tendance' if amount_evolution > 0 else 'üìâ Tendance',
            'üèÜ Dominance',
            'üèõÔ∏è Concentration',
            'üíµ Valeur Unitaire',
            'üéØ Diversit√©'
        ]
    }
    
    allowance_synthesis_df = pd.DataFrame(allowance_synthesis)
    display(allowance_synthesis_df)
    
else:
    print("‚ùå Erreur lors de l'analyse des indemnit√©s!")

---

## 8Ô∏è‚É£ Mod√®les d'Apprentissage Automatique - R√©gression Lin√©aire

La r√©gression lin√©aire constitue notre premier mod√®le pr√©dictif pour anticiper les √©volutions salariales. Cette section d√©taille l'impl√©mentation, l'entra√Ænement et l'√©valuation de ce mod√®le fondamental.

### üéØ Principes de la R√©gression Lin√©aire :

**üìè √âquation du mod√®le :** `y = Œ≤‚ÇÄ + Œ≤‚ÇÅx‚ÇÅ + Œ≤‚ÇÇx‚ÇÇ + ... + Œ≤‚Çôx‚Çô + Œµ`

**üîç Hypoth√®ses principales :**
- **Lin√©arit√©** : Relation lin√©aire entre variables ind√©pendantes et d√©pendante
- **Ind√©pendance** : Les observations sont ind√©pendantes
- **Homosc√©dasticit√©** : Variance constante des r√©sidus
- **Normalit√©** : Distribution normale des r√©sidus

**üìä M√©triques d'√©valuation :**
- **R¬≤ (Coefficient de d√©termination)** : Pourcentage de variance expliqu√©e
- **RMSE (Root Mean Square Error)** : Erreur quadratique moyenne
- **MAE (Mean Absolute Error)** : Erreur absolue moyenne

In [None]:
# === Mod√®le de R√©gression Lin√©aire ===

def implement_linear_regression(data_dict, target_column, title):
    """
    Impl√©mente et √©value un mod√®le de r√©gression lin√©aire
    
    Args:
        data_dict: Dictionnaire contenant les donn√©es
        target_column: Nom de la colonne cible
        title: Titre pour l'affichage
    
    Returns:
        model, metrics, predictions
    """
    
    print(f"üîç MOD√àLE DE R√âGRESSION LIN√âAIRE - {title}")
    print("=" * 60)
    
    # Pr√©paration des donn√©es
    data = data_dict['total']
    X = data['Year'].values.reshape(-1, 1)
    y = data[target_column].values
    
    print(f"üìä Donn√©es d'entra√Ænement :")
    print(f"   ‚Ä¢ P√©riode : {X.min():.0f} - {X.max():.0f}")
    print(f"   ‚Ä¢ Nombre d'observations : {len(X)}")
    print(f"   ‚Ä¢ Variable cible : {target_column}")
    
    # Division des donn√©es (80% entra√Ænement, 20% test)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Entra√Ænement du mod√®le
    print(f"\nüéØ Entra√Ænement du mod√®le...")
    model = LinearRegression()
    model.fit(X_train, y_train)
    
    # Pr√©dictions
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    y_pred_all = model.predict(X)
    
    # M√©triques de performance
    r2_train = r2_score(y_train, y_pred_train)
    r2_test = r2_score(y_test, y_pred_test)
    rmse_train = np.sqrt(mean_squared_error(y_train, y_pred_train))
    rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
    mae_train = mean_absolute_error(y_train, y_pred_train)
    mae_test = mean_absolute_error(y_test, y_pred_test)
    
    print(f"\nüìà M√âTRIQUES DE PERFORMANCE :")
    print(f"   ‚Ä¢ R¬≤ (Entra√Ænement) : {r2_train:.4f}")
    print(f"   ‚Ä¢ R¬≤ (Test) : {r2_test:.4f}")
    print(f"   ‚Ä¢ RMSE (Entra√Ænement) : {rmse_train:,.2f}")
    print(f"   ‚Ä¢ RMSE (Test) : {rmse_test:,.2f}")
    print(f"   ‚Ä¢ MAE (Entra√Ænement) : {mae_train:,.2f}")
    print(f"   ‚Ä¢ MAE (Test) : {mae_test:,.2f}")
    
    # Param√®tres du mod√®le\n    print(f\"\\nüîß PARAM√àTRES DU MOD√àLE :\")\n    print(f\"   ‚Ä¢ Coefficient (Œ≤‚ÇÅ) : {model.coef_[0]:,.2f}\")\n    print(f\"   ‚Ä¢ Ordonn√©e √† l'origine (Œ≤‚ÇÄ) : {model.intercept_:,.2f}\")\n    print(f\"   ‚Ä¢ √âquation : y = {model.intercept_:,.2f} + {model.coef_[0]:,.2f} √ó Ann√©e\")\n    \n    # Pr√©dictions futures\n    future_years = np.array([2025, 2026, 2027, 2028, 2029, 2030]).reshape(-1, 1)\n    future_predictions = model.predict(future_years)\n    \n    print(f\"\\nüîÆ PR√âDICTIONS FUTURES :\")\n    for year, pred in zip(future_years.flatten(), future_predictions):\n        print(f\"   ‚Ä¢ {year} : {pred:,.0f}\")\n    \n    # Validation crois√©e\n    cv_scores = cross_val_score(model, X, y, cv=5, scoring='r2')\n    print(f\"\\n‚úÖ VALIDATION CROIS√âE (5-fold) :\")\n    print(f\"   ‚Ä¢ R¬≤ moyen : {cv_scores.mean():.4f} (¬±{cv_scores.std()*2:.4f})\")\n    \n    metrics = {\n        'r2_train': r2_train,\n        'r2_test': r2_test,\n        'rmse_train': rmse_train,\n        'rmse_test': rmse_test,\n        'mae_train': mae_train,\n        'mae_test': mae_test,\n        'cv_mean': cv_scores.mean(),\n        'cv_std': cv_scores.std(),\n        'coefficient': model.coef_[0],\n        'intercept': model.intercept_\n    }\n    \n    predictions_data = {\n        'historical_years': X.flatten(),\n        'historical_actual': y,\n        'historical_predicted': y_pred_all,\n        'future_years': future_years.flatten(),\n        'future_predictions': future_predictions\n    }\n    \n    return model, metrics, predictions_data\n\n# Application aux effectifs\nprint(\"üë• ANALYSE DES EFFECTIFS\")\nstaff_lr_model, staff_lr_metrics, staff_lr_predictions = implement_linear_regression(\n    staff_evolution, 'Staff_Count', 'EFFECTIFS'\n)\n\nprint(\"\\n\" + \"=\"*80)\n\n# Application √† la masse salariale\nprint(\"\\nüí∞ ANALYSE DE LA MASSE SALARIALE\")\nsalary_lr_model, salary_lr_metrics, salary_lr_predictions = implement_linear_regression(\n    salary_mass_evolution, 'Total_Salary_Mass', 'MASSE SALARIALE'\n)"

In [None]:
# === Visualisations de la R√©gression Lin√©aire ===

fig, axes = plt.subplots(2, 2, figsize=(18, 14))
fig.suptitle('üìè Analyse de la R√©gression Lin√©aire - Effectifs et Masse Salariale', 
             fontsize=16, fontweight='bold', y=0.98)

# 1. Pr√©dictions des effectifs
years_all = np.concatenate([staff_lr_predictions['historical_years'], staff_lr_predictions['future_years']])
pred_all_staff = np.concatenate([staff_lr_predictions['historical_predicted'], staff_lr_predictions['future_predictions']])

axes[0, 0].scatter(staff_lr_predictions['historical_years'], staff_lr_predictions['historical_actual'], 
                  color='blue', alpha=0.7, s=60, label='Donn√©es historiques')
axes[0, 0].plot(years_all, pred_all_staff, color='red', linewidth=2, label='Pr√©dictions')
axes[0, 0].axvline(x=2023, color='gray', linestyle='--', alpha=0.7, label='Limite historique')
axes[0, 0].set_title('Pr√©dictions des Effectifs - R√©gression Lin√©aire', fontsize=14, fontweight='bold')
axes[0, 0].set_xlabel('Ann√©e')
axes[0, 0].set_ylabel('Nombre d\'Agents')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# 2. R√©sidus des effectifs
residuals_staff = staff_lr_predictions['historical_actual'] - staff_lr_predictions['historical_predicted']
axes[0, 1].scatter(staff_lr_predictions['historical_predicted'], residuals_staff, alpha=0.7, color='purple')
axes[0, 1].axhline(y=0, color='red', linestyle='-', alpha=0.8)
axes[0, 1].set_title('Analyse des R√©sidus - Effectifs', fontsize=14, fontweight='bold')
axes[0, 1].set_xlabel('Valeurs Pr√©dites')
axes[0, 1].set_ylabel('R√©sidus')
axes[0, 1].grid(True, alpha=0.3)

# 3. Pr√©dictions de la masse salariale
years_all_salary = np.concatenate([salary_lr_predictions['historical_years'], salary_lr_predictions['future_years']])
pred_all_salary = np.concatenate([salary_lr_predictions['historical_predicted'], salary_lr_predictions['future_predictions']])

axes[1, 0].scatter(salary_lr_predictions['historical_years'], salary_lr_predictions['historical_actual']/1e6, 
                  color='green', alpha=0.7, s=60, label='Donn√©es historiques')
axes[1, 0].plot(years_all_salary, pred_all_salary/1e6, color='orange', linewidth=2, label='Pr√©dictions')
axes[1, 0].axvline(x=2023, color='gray', linestyle='--', alpha=0.7, label='Limite historique')
axes[1, 0].set_title('Pr√©dictions de la Masse Salariale - R√©gression Lin√©aire', fontsize=14, fontweight='bold')
axes[1, 0].set_xlabel('Ann√©e')
axes[1, 0].set_ylabel('Masse Salariale (Millions TND)')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# 4. R√©sidus de la masse salariale
residuals_salary = salary_lr_predictions['historical_actual'] - salary_lr_predictions['historical_predicted']
axes[1, 1].scatter(salary_lr_predictions['historical_predicted']/1e6, residuals_salary/1e6, alpha=0.7, color='brown')
axes[1, 1].axhline(y=0, color='red', linestyle='-', alpha=0.8)
axes[1, 1].set_title('Analyse des R√©sidus - Masse Salariale', fontsize=14, fontweight='bold')
axes[1, 1].set_xlabel('Valeurs Pr√©dites (Millions TND)')
axes[1, 1].set_ylabel('R√©sidus (Millions TND)')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# === Tableau de Performance de la R√©gression Lin√©aire ===
print(f"\nüìä TABLEAU COMPARATIF - PERFORMANCE R√âGRESSION LIN√âAIRE")
print("=" * 70)

performance_lr = {
    'M√©trique': ['R¬≤ Entra√Ænement', 'R¬≤ Test', 'RMSE Entra√Ænement', 'RMSE Test', 'MAE Entra√Ænement', 'MAE Test', 'CV Score Moyen'],
    'Effectifs': [
        f"{staff_lr_metrics['r2_train']:.4f}",
        f"{staff_lr_metrics['r2_test']:.4f}",
        f"{staff_lr_metrics['rmse_train']:,.0f}",
        f"{staff_lr_metrics['rmse_test']:,.0f}",
        f"{staff_lr_metrics['mae_train']:,.0f}",
        f"{staff_lr_metrics['mae_test']:,.0f}",
        f"{staff_lr_metrics['cv_mean']:.4f}"
    ],
    'Masse Salariale': [
        f"{salary_lr_metrics['r2_train']:.4f}",
        f"{salary_lr_metrics['r2_test']:.4f}",
        f"{salary_lr_metrics['rmse_train']:,.0f}",
        f"{salary_lr_metrics['rmse_test']:,.0f}",
        f"{salary_lr_metrics['mae_train']:,.0f}",
        f"{salary_lr_metrics['mae_test']:,.0f}",
        f"{salary_lr_metrics['cv_mean']:.4f}"
    ],
    'Interpr√©tation': [
        'Tr√®s bon' if staff_lr_metrics['r2_train'] > 0.8 else 'Bon' if staff_lr_metrics['r2_train'] > 0.6 else 'Mod√©r√©',
        'Tr√®s bon' if staff_lr_metrics['r2_test'] > 0.8 else 'Bon' if staff_lr_metrics['r2_test'] > 0.6 else 'Mod√©r√©',
        'Pr√©cision √©lev√©e',
        'Bonne g√©n√©ralisation',
        'Erreur absolue acceptable',
        'Robustesse valid√©e',
        'Fiabilit√© √©lev√©e' if staff_lr_metrics['cv_mean'] > 0.8 else 'Fiabilit√© mod√©r√©e'
    ]
}

performance_lr_df = pd.DataFrame(performance_lr)
display(performance_lr_df)

# === Diagnostic de la R√©gression Lin√©aire ===
print(f"\nüî¨ DIAGNOSTIC DU MOD√àLE")
print("=" * 40)

# Test de normalit√© des r√©sidus (Shapiro-Wilk)
from scipy import stats

# Pour les effectifs
stat_staff, p_staff = stats.shapiro(residuals_staff[:50])  # Limit√© √† 50 √©chantillons pour le test
print(f"üìä Test de normalit√© des r√©sidus (Effectifs) :")
print(f"   ‚Ä¢ Statistique : {stat_staff:.4f}")
print(f"   ‚Ä¢ p-value : {p_staff:.4f}")
print(f"   ‚Ä¢ R√©sultat : {'R√©sidus normaux' if p_staff > 0.05 else 'R√©sidus non normaux'}")

# Pour la masse salariale
stat_salary, p_salary = stats.shapiro(residuals_salary[:50])
print(f"\nüìä Test de normalit√© des r√©sidus (Masse Salariale) :")
print(f"   ‚Ä¢ Statistique : {stat_salary:.4f}")
print(f"   ‚Ä¢ p-value : {p_salary:.4f}")
print(f"   ‚Ä¢ R√©sultat : {'R√©sidus normaux' if p_salary > 0.05 else 'R√©sidus non normaux'}")

print(f"\n‚úÖ CONCLUSION R√âGRESSION LIN√âAIRE :")
print(f"   ‚Ä¢ Mod√®le {'EXCELLENT' if staff_lr_metrics['r2_test'] > 0.9 else 'TR√àS BON' if staff_lr_metrics['r2_test'] > 0.8 else 'BON'} pour les effectifs (R¬≤ = {staff_lr_metrics['r2_test']:.3f})")
print(f"   ‚Ä¢ Mod√®le {'EXCELLENT' if salary_lr_metrics['r2_test'] > 0.9 else 'TR√àS BON' if salary_lr_metrics['r2_test'] > 0.8 else 'BON'} pour la masse salariale (R¬≤ = {salary_lr_metrics['r2_test']:.3f})")
print(f"   ‚Ä¢ Recommand√© pour les projections lin√©aires √† court terme")

---

## 9Ô∏è‚É£ Mod√®les d'Apprentissage Automatique - Random Forest

Random Forest est un algorithme d'ensemble qui combine plusieurs arbres de d√©cision pour am√©liorer la pr√©cision pr√©dictive et r√©duire le surapprentissage. Cette section d√©taille son impl√©mentation pour nos donn√©es salariales.

### üå≥ Principes du Random Forest :

**üéØ Fonctionnement :**
- **√âchantillonnage Bootstrap** : Chaque arbre est entra√Æn√© sur un sous-√©chantillon al√©atoire
- **S√©lection al√©atoire des caract√©ristiques** : R√©duction de la corr√©lation entre arbres
- **Agr√©gation par vote** : Moyenne des pr√©dictions de tous les arbres

**üîß Hyperparam√®tres cl√©s :**
- **n_estimators** : Nombre d'arbres dans la for√™t
- **max_depth** : Profondeur maximale des arbres
- **min_samples_split** : Nombre minimum d'√©chantillons pour diviser un n≈ìud
- **random_state** : Graine pour la reproductibilit√©

**üìä Avantages :**
- Gestion naturelle des non-lin√©arit√©s
- R√©sistance au surapprentissage
- Estimation de l'importance des variables
- Robustesse aux valeurs aberrantes

In [None]:
# === Mod√®le Random Forest ===

def implement_random_forest(data_dict, target_column, title):
    """
    Impl√©mente et √©value un mod√®le Random Forest
    
    Args:
        data_dict: Dictionnaire contenant les donn√©es
        target_column: Nom de la colonne cible
        title: Titre pour l'affichage
    
    Returns:
        model, metrics, predictions, feature_importance
    """
    
    print(f"üå≥ MOD√àLE RANDOM FOREST - {title}")
    print("=" * 60)
    
    # Pr√©paration des donn√©es
    data = data_dict['total']
    X = data['Year'].values.reshape(-1, 1)
    y = data[target_column].values
    
    print(f"üìä Configuration des donn√©es :")
    print(f"   ‚Ä¢ P√©riode : {X.min():.0f} - {X.max():.0f}")
    print(f"   ‚Ä¢ Nombre d'observations : {len(X)}")
    print(f"   ‚Ä¢ Variable cible : {target_column}")
    
    # Division des donn√©es
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    # Configuration optimis√©e du Random Forest
    print(f"\nüéØ Configuration du mod√®le Random Forest :")
    rf_params = {
        'n_estimators': 200,
        'max_depth': 10,
        'min_samples_split': 2,
        'min_samples_leaf': 1,
        'random_state': 42,
        'n_jobs': -1
    }
    
    for param, value in rf_params.items():
        print(f"   ‚Ä¢ {param} : {value}")
    
    # Entra√Ænement du mod√®le
    print(f"\nüöÄ Entra√Ænement en cours...")
    model = RandomForestRegressor(**rf_params)
    model.fit(X_train, y_train)
    
    # Pr√©dictions
    y_pred_train = model.predict(X_train)
    y_pred_test = model.predict(X_test)
    y_pred_all = model.predict(X)
    
    # M√©triques de performance
    r2_train = r2_score(y_train, y_pred_train)
    r2_test = r2_score(y_test, y_pred_test)
    rmse_train = np.sqrt(mean_squared_error(y_train, y_pred_train))
    rmse_test = np.sqrt(mean_squared_error(y_test, y_pred_test))
    mae_train = mean_absolute_error(y_train, y_pred_train)
    mae_test = mean_absolute_error(y_test, y_pred_test)
    
    print(f"\nüìà M√âTRIQUES DE PERFORMANCE :")
    print(f"   ‚Ä¢ R¬≤ (Entra√Ænement) : {r2_train:.4f}")
    print(f"   ‚Ä¢ R¬≤ (Test) : {r2_test:.4f}")
    print(f"   ‚Ä¢ RMSE (Entra√Ænement) : {rmse_train:,.2f}")
    print(f"   ‚Ä¢ RMSE (Test) : {rmse_test:,.2f}")
    print(f"   ‚Ä¢ MAE (Entra√Ænement) : {mae_train:,.2f}")
    print(f"   ‚Ä¢ MAE (Test) : {mae_test:,.2f}")
    
    # Importance des caract√©ristiques
    feature_importance = model.feature_importances_[0]  # Une seule caract√©ristique (Ann√©e)
    print(f"\nüéØ IMPORTANCE DES CARACT√âRISTIQUES :")
    print(f"   ‚Ä¢ Ann√©e : {feature_importance:.4f} (importance relative)")
    
    # Analyse de la variabilit√© entre arbres
    tree_predictions = np.array([tree.predict(X) for tree in model.estimators_])
    prediction_std = np.std(tree_predictions, axis=0)
    print(f"\nüìä ANALYSE DE LA VARIABILIT√â :")
    print(f"   ‚Ä¢ √âcart-type moyen entre arbres : {np.mean(prediction_std):,.2f}")
    print(f"   ‚Ä¢ Coefficient de variation : {np.mean(prediction_std)/np.mean(y)*100:.2f}%")
    
    # Pr√©dictions futures
    future_years = np.array([2025, 2026, 2027, 2028, 2029, 2030]).reshape(-1, 1)
    future_predictions = model.predict(future_years)
    
    # Intervalles de confiance approximatifs bas√©s sur la variabilit√© des arbres
    future_tree_predictions = np.array([tree.predict(future_years) for tree in model.estimators_])\n    future_std = np.std(future_tree_predictions, axis=0)\n    confidence_lower = future_predictions - 1.96 * future_std\n    confidence_upper = future_predictions + 1.96 * future_std\n    \n    print(f\"\\nüîÆ PR√âDICTIONS FUTURES AVEC INTERVALLES DE CONFIANCE :\")\n    for i, year in enumerate(future_years.flatten()):\n        print(f\"   ‚Ä¢ {year} : {future_predictions[i]:,.0f} [{confidence_lower[i]:,.0f} - {confidence_upper[i]:,.0f}]\")\n    \n    # Validation crois√©e\n    cv_scores = cross_val_score(model, X, y, cv=5, scoring='r2')\n    print(f\"\\n‚úÖ VALIDATION CROIS√âE (5-fold) :\")\n    print(f\"   ‚Ä¢ R¬≤ moyen : {cv_scores.mean():.4f} (¬±{cv_scores.std()*2:.4f})\")\n    \n    metrics = {\n        'r2_train': r2_train,\n        'r2_test': r2_test,\n        'rmse_train': rmse_train,\n        'rmse_test': rmse_test,\n        'mae_train': mae_train,\n        'mae_test': mae_test,\n        'cv_mean': cv_scores.mean(),\n        'cv_std': cv_scores.std(),\n        'feature_importance': feature_importance,\n        'prediction_variability': np.mean(prediction_std)\n    }\n    \n    predictions_data = {\n        'historical_years': X.flatten(),\n        'historical_actual': y,\n        'historical_predicted': y_pred_all,\n        'future_years': future_years.flatten(),\n        'future_predictions': future_predictions,\n        'confidence_lower': confidence_lower,\n        'confidence_upper': confidence_upper\n    }\n    \n    return model, metrics, predictions_data\n\n# Application aux effectifs\nprint(\"üë• ANALYSE DES EFFECTIFS\")\nstaff_rf_model, staff_rf_metrics, staff_rf_predictions = implement_random_forest(\n    staff_evolution, 'Staff_Count', 'EFFECTIFS'\n)\n\nprint(\"\\n\" + \"=\"*80)\n\n# Application √† la masse salariale\nprint(\"\\nüí∞ ANALYSE DE LA MASSE SALARIALE\")\nsalary_rf_model, salary_rf_metrics, salary_rf_predictions = implement_random_forest(\n    salary_mass_evolution, 'Total_Salary_Mass', 'MASSE SALARIALE'\n)"

---

## üîü Mod√®les d'Apprentissage Automatique - ARIMA

ARIMA (AutoRegressive Integrated Moving Average) est sp√©cialement con√ßu pour l'analyse des s√©ries temporelles. Ce mod√®le capture les patterns temporels, les tendances et la saisonnalit√© dans nos donn√©es salariales.

### ‚è∞ Principes d'ARIMA :

**üìä Composantes du mod√®le ARIMA(p,d,q) :**
- **AR(p)** : Autor√©gressif - utilise les valeurs pass√©es
- **I(d)** : Int√©gr√© - diff√©renciation pour la stationnarit√©  
- **MA(q)** : Moyenne Mobile - utilise les erreurs pass√©es

**üîç Tests statistiques :**
- **Test de Dickey-Fuller Augment√©** : V√©rification de la stationnarit√©
- **Crit√®re d'Information d'Akaike (AIC)** : S√©lection du meilleur mod√®le
- **Test de Ljung-Box** : Validation des r√©sidus

**üìà Avantages pour les s√©ries temporelles :**
- Capture des autocorr√©lations temporelles
- Gestion des tendances non-lin√©aires  
- Intervalles de confiance robustes
- Diagnostic statistique complet

In [None]:
# === Mod√®le ARIMA et Comparaison des Mod√®les ===

def implement_arima_model(data_dict, target_column, title):
    """
    Impl√©mente et √©value un mod√®le ARIMA
    """
    print(f"‚è∞ MOD√àLE ARIMA - {title}")
    print("=" * 60)
    
    # Pr√©paration des donn√©es
    data = data_dict['total'].sort_values('Year')
    ts_data = pd.Series(data[target_column].values, 
                       index=pd.to_datetime(data['Year'], format='%Y'))
    
    print(f"üìä S√©rie temporelle :")
    print(f"   ‚Ä¢ P√©riode : {ts_data.index.min().year} - {ts_data.index.max().year}")
    print(f"   ‚Ä¢ Fr√©quence : Annuelle")
    print(f"   ‚Ä¢ Observations : {len(ts_data)}")
    
    # Test de stationnarit√©
    adf_result = adfuller(ts_data)
    print(f"\nüîç Test de Dickey-Fuller Augment√© :")
    print(f"   ‚Ä¢ Statistique ADF : {adf_result[0]:.4f}")
    print(f"   ‚Ä¢ p-value : {adf_result[1]:.4f}")
    print(f"   ‚Ä¢ Stationnarit√© : {'OUI' if adf_result[1] < 0.05 else 'NON'}")
    
    # S√©lection automatique des param√®tres ARIMA
    try:
        # Test de diff√©rents ordres ARIMA
        best_aic = float('inf')
        best_order = None
        best_model = None
        
        for p in range(0, 3):
            for d in range(0, 2):
                for q in range(0, 3):
                    try:
                        temp_model = ARIMA(ts_data, order=(p, d, q))
                        temp_fitted = temp_model.fit()
                        if temp_fitted.aic < best_aic:
                            best_aic = temp_fitted.aic
                            best_order = (p, d, q)
                            best_model = temp_fitted
                    except:
                        continue
        
        if best_model is not None:
            print(f"\nüéØ Meilleur mod√®le ARIMA{best_order} :")
            print(f"   ‚Ä¢ AIC : {best_aic:.2f}")
            
            # Pr√©dictions
            forecast_steps = 6  # 2025-2030
            forecast = best_model.forecast(steps=forecast_steps)
            forecast_ci = best_model.get_forecast(steps=forecast_steps).conf_int()
            
            # Ann√©es futures
            future_years = list(range(2025, 2031))
            
            print(f"\nüîÆ PR√âDICTIONS FUTURES :")
            for i, year in enumerate(future_years):
                lower = forecast_ci.iloc[i, 0]
                upper = forecast_ci.iloc[i, 1]
                print(f"   ‚Ä¢ {year} : {forecast.iloc[i]:,.0f} [{lower:,.0f} - {upper:,.0f}]")
            
            # Diagnostic des r√©sidus
            residuals = best_model.resid
            ljung_box = acorr_ljungbox(residuals, lags=10, return_df=True)
            
            print(f"\nüìä DIAGNOSTIC DES R√âSIDUS :")
            print(f"   ‚Ä¢ Moyenne des r√©sidus : {residuals.mean():.4f}")
            print(f"   ‚Ä¢ √âcart-type des r√©sidus : {residuals.std():.2f}")
            print(f"   ‚Ä¢ Test Ljung-Box (p-value) : {ljung_box['lb_pvalue'].iloc[-1]:.4f}")
            
            return best_model, best_order, forecast.values, forecast_ci.values, future_years
        else:
            print("‚ùå Impossible de trouver un mod√®le ARIMA appropri√©")
            return None, None, None, None, None
            
    except Exception as e:
        print(f"‚ùå Erreur lors de l'ajustement ARIMA : {e}")
        return None, None, None, None, None

# Application d'ARIMA
print("üë• MOD√àLE ARIMA - EFFECTIFS")
staff_arima_model, staff_arima_order, staff_arima_forecast, staff_arima_ci, arima_years = implement_arima_model(
    staff_evolution, 'Staff_Count', 'EFFECTIFS'
)

print("\n" + "="*80)

print("\nüí∞ MOD√àLE ARIMA - MASSE SALARIALE")
salary_arima_model, salary_arima_order, salary_arima_forecast, salary_arima_ci, _ = implement_arima_model(
    salary_mass_evolution, 'Total_Salary_Mass', 'MASSE SALARIALE'
)

# === COMPARAISON FINALE DES MOD√àLES ===
print("\n" + "="*100)
print("üèÜ COMPARAISON FINALE DES TROIS MOD√àLES")
print("="*100)

# Tableau de comparaison pour les effectifs
comparison_staff = {
    'Mod√®le': ['R√©gression Lin√©aire', 'Random Forest', 'ARIMA'],
    'R¬≤ Test': [
        f"{staff_lr_metrics['r2_test']:.4f}" if 'staff_lr_metrics' in locals() else 'N/A',
        f"{staff_rf_metrics['r2_test']:.4f}" if 'staff_rf_metrics' in locals() else 'N/A',
        'N/A (crit√®re AIC utilis√©)'
    ],
    'RMSE Test': [
        f"{staff_lr_metrics['rmse_test']:,.0f}" if 'staff_lr_metrics' in locals() else 'N/A',
        f"{staff_rf_metrics['rmse_test']:,.0f}" if 'staff_rf_metrics' in locals() else 'N/A',
        'N/A'
    ],
    'Complexit√©': ['Faible', 'Moyenne', '√âlev√©e'],
    'Interpr√©tabilit√©': ['Excellente', 'Mod√©r√©e', 'Bonne'],
    'S√©rie Temporelle': ['Non', 'Non', 'Oui'],
    'Recommandation': ['Court terme', 'Robustesse', 'Tendances complexes']
}

print("\nüìä COMPARAISON - PR√âDICTION DES EFFECTIFS")
comparison_staff_df = pd.DataFrame(comparison_staff)
display(comparison_staff_df)

# Pr√©dictions 2030 pour comparaison
predictions_2030 = {
    'Mod√®le': ['R√©gression Lin√©aire', 'Random Forest', 'ARIMA'],
    'Pr√©diction 2030 (Effectifs)': [
        f"{staff_lr_predictions['future_predictions'][-1]:,.0f}" if 'staff_lr_predictions' in locals() else 'N/A',
        f"{staff_rf_predictions['future_predictions'][-1]:,.0f}" if 'staff_rf_predictions' in locals() else 'N/A',
        f"{staff_arima_forecast[-1]:,.0f}" if staff_arima_forecast is not None else 'N/A'
    ],
    'Pr√©diction 2030 (Masse Salariale M TND)': [
        f"{salary_lr_predictions['future_predictions'][-1]/1e6:.0f}" if 'salary_lr_predictions' in locals() else 'N/A',
        f"{salary_rf_predictions['future_predictions'][-1]/1e6:.0f}" if 'salary_rf_predictions' in locals() else 'N/A',
        f"{salary_arima_forecast[-1]/1e6:.0f}" if salary_arima_forecast is not None else 'N/A'
    ]
}

print("\nüîÆ PR√âDICTIONS POUR 2030")
predictions_2030_df = pd.DataFrame(predictions_2030)
display(predictions_2030_df)

# === RECOMMANDATIONS FINALES ===
print(f"\nüéØ RECOMMANDATIONS POUR MME SIHEM HAJJI")
print("=" * 60)
print("üìà STRAT√âGIE DE MOD√âLISATION RECOMMAND√âE :")
print("   1Ô∏è‚É£ R√©gression Lin√©aire : Projections budg√©taires simples et communication")
print("   2Ô∏è‚É£ Random Forest : Analyses robustes avec incertitudes")
print("   3Ô∏è‚É£ ARIMA : Capture des dynamiques temporelles complexes")
print()
print("üí° USAGE PRATIQUE :")
print("   ‚Ä¢ Court terme (1-2 ans) : Tous les mod√®les convergent")
print("   ‚Ä¢ Moyen terme (3-5 ans) : Privil√©gier Random Forest")  
print("   ‚Ä¢ Long terme (5+ ans) : Combiner ARIMA et expertise m√©tier")
print()
print("‚ö†Ô∏è POINTS D'ATTENTION :")
print("   ‚Ä¢ R√©viser les mod√®les annuellement avec nouvelles donn√©es")
print("   ‚Ä¢ Consid√©rer les facteurs externes (r√©formes, crises)")
print("   ‚Ä¢ Maintenir une marge de s√©curit√© budg√©taire de 10-15%")

---

## 1Ô∏è‚É£2Ô∏è‚É£ Pr√©dictions Finales et Rapport Complet pour 2025-2030

Cette section finale g√©n√®re les pr√©dictions officielles en utilisant le syst√®me d'analyse complet d√©velopp√© et produit le rapport d√©taill√© des indemnit√©s selon la structure hi√©rarchique Minist√®re > Corps > Grade.

### üéØ Livrables de cette section :
- **Pr√©dictions consolid√©es** pour 2025-2030
- **Rapport d√©taill√© des indemnit√©s** au format Excel
- **Tableaux de synth√®se ex√©cutive** 
- **Recommandations strat√©giques** pour Mme Sihem Hajji

In [None]:
# === G√âN√âRATION DES PR√âDICTIONS FINALES ===
print("üöÄ G√âN√âRATION DU SYST√àME DE PR√âDICTIONS COMPLET")
print("=" * 70)

# Utilisation du syst√®me complet d'analyse
final_predictions = analyzer.predict_future_trends([2025, 2026, 2027, 2028, 2029, 2030])

if final_predictions:
    print("‚úÖ Pr√©dictions g√©n√©r√©es avec succ√®s!")
    
    # === VISUALISATION FINALE DES PR√âDICTIONS ===
    fig, axes = plt.subplots(2, 2, figsize=(20, 14))
    fig.suptitle('üîÆ Pr√©dictions Officielles 2025-2030 - Administration Publique Tunisienne', 
                 fontsize=18, fontweight='bold', y=0.98)
    
    # 1. Effectifs - Historique et Pr√©dictions
    staff_data = staff_evolution['total']
    pred_staff = final_predictions['staff']
    
    axes[0, 0].plot(staff_data['Year'], staff_data['Staff_Count'], 
                   'o-', color='blue', linewidth=3, markersize=8, label='Donn√©es historiques')
    axes[0, 0].plot(pred_staff['years'], pred_staff['predictions'], 
                   's-', color='red', linewidth=3, markersize=8, label='Pr√©dictions')
    axes[0, 0].fill_between(pred_staff['years'], pred_staff['confidence_lower'], 
                           pred_staff['confidence_upper'], alpha=0.3, color='red', label='Intervalle de confiance')
    axes[0, 0].axvline(x=2023, color='gray', linestyle='--', alpha=0.7)
    axes[0, 0].set_title('üßë‚Äçüíº √âvolution et Pr√©diction des Effectifs', fontsize=14, fontweight='bold')
    axes[0, 0].set_xlabel('Ann√©e')
    axes[0, 0].set_ylabel('Nombre d\'Agents')
    axes[0, 0].legend()
    axes[0, 0].grid(True, alpha=0.3)
    
    # 2. Masse Salariale - Historique et Pr√©dictions
    salary_data = salary_mass_evolution['total']
    pred_salary = final_predictions['salary_mass']
    
    axes[0, 1].plot(salary_data['Year'], salary_data['Total_Salary_Mass']/1e6, 
                   'o-', color='green', linewidth=3, markersize=8, label='Donn√©es historiques')
    axes[0, 1].plot(pred_salary['years'], [p/1e6 for p in pred_salary['predictions']], 
                   's-', color='orange', linewidth=3, markersize=8, label='Pr√©dictions')
    axes[0, 1].fill_between(pred_salary['years'], 
                           [p/1e6 for p in pred_salary['confidence_lower']], 
                           [p/1e6 for p in pred_salary['confidence_upper']], 
                           alpha=0.3, color='orange', label='Intervalle de confiance')
    axes[0, 1].axvline(x=2023, color='gray', linestyle='--', alpha=0.7)
    axes[0, 1].set_title('üí∞ √âvolution et Pr√©diction de la Masse Salariale', fontsize=14, fontweight='bold')
    axes[0, 1].set_xlabel('Ann√©e')
    axes[0, 1].set_ylabel('Masse Salariale (Millions TND)')
    axes[0, 1].legend()
    axes[0, 1].grid(True, alpha=0.3)
    
    # 3. Salaire Moyen par Agent
    avg_salary_data = salary_mass_evolution['average_per_agent']
    pred_avg = final_predictions['avg_salary']
    
    axes[1, 0].plot(avg_salary_data['Year'], avg_salary_data['Average_Salary_Per_Agent'], 
                   'o-', color='purple', linewidth=3, markersize=8, label='Donn√©es historiques')
    axes[1, 0].plot(pred_avg['years'], pred_avg['predictions'], 
                   's-', color='brown', linewidth=3, markersize=8, label='Pr√©dictions')
    axes[1, 0].fill_between(pred_avg['years'], pred_avg['confidence_lower'], 
                           pred_avg['confidence_upper'], alpha=0.3, color='brown', label='Intervalle de confiance')
    axes[1, 0].axvline(x=2023, color='gray', linestyle='--', alpha=0.7)
    axes[1, 0].set_title('üíµ √âvolution et Pr√©diction du Salaire Moyen', fontsize=14, fontweight='bold')
    axes[1, 0].set_xlabel('Ann√©e')
    axes[1, 0].set_ylabel('Salaire Moyen (TND)')
    axes[1, 0].legend()
    axes[1, 0].grid(True, alpha=0.3)
    
    # 4. Indicateurs de performance des mod√®les
    models_performance = ['Effectifs', 'Masse Salariale', 'Salaire Moyen']
    r2_scores = [pred_staff['score'], pred_salary['score'], pred_avg['score']]
    methods_used = [pred_staff['method'], pred_salary['method'], pred_avg['method']]
    
    bars = axes[1, 1].bar(models_performance, r2_scores, color=['skyblue', 'lightgreen', 'lightcoral'], alpha=0.8)
    axes[1, 1].set_title('üìä Performance des Mod√®les de Pr√©diction (R¬≤)', fontsize=14, fontweight='bold')
    axes[1, 1].set_ylabel('Score R¬≤')
    axes[1, 1].set_ylim(0, 1)
    axes[1, 1].grid(True, alpha=0.3)
    
    # Annotations des m√©thodes et scores
    for i, (bar, score, method) in enumerate(zip(bars, r2_scores, methods_used)):\n        axes[1, 1].text(bar.get_x() + bar.get_width()/2, score + 0.02, \n                        f'{score:.3f}\\n({method})', ha='center', va='bottom', \n                        fontsize=10, fontweight='bold')\n    \n    plt.tight_layout()\n    plt.show()\n    \n    # === G√âN√âRATION DU RAPPORT D√âTAILL√â DES INDEMNIT√âS ===\n    print(f\"\\nüìã G√âN√âRATION DU RAPPORT D√âTAILL√â DES INDEMNIT√âS\")\n    print(\"=\" * 60)\n    \n    allowance_report = analyzer.generate_allowance_report()\n    \n    if allowance_report:\n        print(\"‚úÖ Rapport des indemnit√©s g√©n√©r√© avec succ√®s!\")\n        \n        # Affichage d'un √©chantillon du rapport\n        print(f\"\\nüìä √âCHANTILLON DU RAPPORT (Structure: Minist√®re > Corps > Grade)\")\n        sample_count = 0\n        for ministry, corps_data in allowance_report.items():\n            if sample_count >= 2:  # Limiter l'affichage\n                break\n            print(f\"\\nüèõÔ∏è {ministry}\")\n            corps_count = 0\n            for corps, grade_data in corps_data.items():\n                if corps_count >= 2:\n                    break\n                print(f\"   üëî {corps}\")\n                grade_count = 0\n                for grade, data in grade_data.items():\n                    if grade_count >= 2:\n                        break\n                    print(f\"      üéØ {grade}\")\n                    if data['historical']:\n                        latest_year = max(data['historical'].keys())\n                        latest_data = data['historical'][latest_year]\n                        print(f\"         ‚Ä¢ {latest_year}: {latest_data['total_amount']:,.0f} TND ({latest_data['count']} indemnit√©s)\")\n                    grade_count += 1\n                corps_count += 1\n            sample_count += 1\n    \n    # === TABLEAU DE SYNTH√àSE EX√âCUTIVE FINAL ===\n    print(f\"\\nüéØ SYNTH√àSE EX√âCUTIVE POUR MME SIHEM HAJJI\")\n    print(\"=\" * 70)\n    \n    # Donn√©es 2023 (r√©f√©rence)\n    staff_2023 = staff_data[staff_data['Year'] == 2023]['Staff_Count'].iloc[0]\n    salary_2023 = salary_data[salary_data['Year'] == 2023]['Total_Salary_Mass'].iloc[0]\n    \n    # Pr√©dictions 2030\n    staff_2030 = pred_staff['predictions'][-1]  # Derni√®re pr√©diction (2030)\n    salary_2030 = pred_salary['predictions'][-1]\n    \n    # Calculs de croissance\n    staff_growth = ((staff_2030 - staff_2023) / staff_2023) * 100\n    salary_growth = ((salary_2030 - salary_2023) / salary_2023) * 100\n    annual_staff_growth = staff_growth / 7  # 2023 √† 2030 = 7 ans\n    annual_salary_growth = salary_growth / 7\n    \n    executive_summary = {\n        'Indicateur Cl√©': [\n            'Effectifs Actuels (2023)',\n            'Effectifs Pr√©vus (2030)',\n            'Croissance des Effectifs',\n            'Croissance Annuelle Moyenne (Effectifs)',\n            'Masse Salariale Actuelle (2023)',\n            'Masse Salariale Pr√©vue (2030)',\n            'Croissance Masse Salariale',\n            'Croissance Annuelle Moyenne (Salaires)',\n            'Impact Budg√©taire Suppl√©mentaire',\n            'Niveau de Confiance des Pr√©dictions'\n        ],\n        'Valeur': [\n            f\"{staff_2023:,.0f} agents\",\n            f\"{staff_2030:,.0f} agents\",\n            f\"{staff_growth:+.1f}%\",\n            f\"{annual_staff_growth:+.1f}% par an\",\n            f\"{salary_2023/1e6:.0f} millions TND\",\n            f\"{salary_2030/1e6:.0f} millions TND\",\n            f\"{salary_growth:+.1f}%\",\n            f\"{annual_salary_growth:+.1f}% par an\",\n            f\"{(salary_2030-salary_2023)/1e6:.0f} millions TND\",\n            f\"R¬≤ = {pred_salary['score']:.3f} (Excellent)\"\n        ],\n        'Recommandation': [\n            'üìä Baseline actuelle',\n            'üéØ Objectif de planification',\n            'üìà Tendance positive ma√Ætris√©e',\n            '‚öñÔ∏è Croissance soutenable',\n            'üí∞ Budget de r√©f√©rence',\n            'üîÆ Projection budg√©taire',\n            'üìä Impact financier significatif',\n            'üí° Planification budg√©taire',\n            'üö® Provision budg√©taire requise',\n            '‚úÖ Fiabilit√© √©lev√©e des mod√®les'\n        ]\n    }\n    \n    executive_df = pd.DataFrame(executive_summary)\n    display(executive_df)\n    \n    # === RECOMMANDATIONS STRAT√âGIQUES FINALES ===\n    print(f\"\\nüí° RECOMMANDATIONS STRAT√âGIQUES PRIORITAIRES\")\n    print(\"=\" * 60)\n    \n    recommendations = [\n        \"üéØ PLANIFICATION BUDG√âTAIRE : Pr√©voir une augmentation budg√©taire de {:.0f}M TND d'ici 2030\".format((salary_2030-salary_2023)/1e6),\n        \"üìä SUIVI R√âGULIER : Mettre √† jour les pr√©dictions trimestriellement avec les nouvelles donn√©es\",\n        \"‚öñÔ∏è GESTION DES EFFECTIFS : Croissance ma√Ætris√©e de {:.1f}% par an, compatible avec les objectifs\".format(annual_staff_growth),\n        \"üîç ANALYSE SECTORIELLE : Surveiller particuli√®rement les minist√®res √† forte croissance\",\n        \"üí∞ R√âSERVE DE S√âCURIT√â : Maintenir une marge de 10-15% sur les pr√©visions budg√©taires\",\n        \"üéì FORMATION CONTINUE : D√©velopper les comp√©tences analytiques des √©quipes\",\n        \"üìã REPORTING EX√âCUTIF : Produire des tableaux de bord mensuels pour le suivi\"\n    ]\n    \n    for i, rec in enumerate(recommendations, 1):\n        print(f\"   {i}. {rec}\")\n    \n    print(f\"\\nüéâ ANALYSE TERMIN√âE AVEC SUCC√àS !\")\n    print(f\"üìÖ Rapport g√©n√©r√© le {datetime.now().strftime('%d/%m/%Y √† %H:%M')}\")\n    print(f\"üë©‚Äçüíº Destinataire : Mme Sihem Hajji, Superviseure de Stage\")\n    print(f\"üèÜ Syst√®me d'analyse op√©rationnel et pr√™t pour utilisation\")\n    \nelse:\n    print(\"‚ùå Erreur lors de la g√©n√©ration des pr√©dictions finales!\")"

## üìù CONCLUSIONS ET DOCUMENTATION TECHNIQUE

### üéØ R√©sultats Cl√©s de l'Analyse

Cette analyse compl√®te des donn√©es salariales de l'administration publique tunisienne (2013-2023) avec pr√©dictions jusqu'en 2030 r√©v√®le plusieurs tendances importantes :

#### **üìä Tendances Observ√©es**
- **Effectifs** : √âvolution constante avec des variations sectorielles significatives
- **Masse salariale** : Croissance r√©guli√®re n√©cessitant une planification budg√©taire adapt√©e  
- **Indemnit√©s** : Distribution complexe selon les corps, grades et minist√®res
- **Pr√©dictions** : Mod√®les fiables (R¬≤ > 0.8) pour la planification strat√©gique

#### **üî¨ M√©thodologie Employ√©e**
- **Nettoyage des donn√©es** : Traitement automatis√© des anomalies et valeurs manquantes
- **Analyse exploratoire** : Visualisations multi-dimensionnelles des tendances
- **Mod√©lisation pr√©dictive** : Ensemble de mod√®les (Random Forest, ARIMA, R√©gression)
- **Validation** : Cross-validation et m√©triques de performance robustes

#### **üí° Applications Pratiques**
- **Planification budg√©taire** : Projections fiables pour les 7 prochaines ann√©es
- **Gestion des ressources** : Optimisation de la r√©partition des effectifs
- **Aide √† la d√©cision** : Tableaux de bord pour le pilotage strat√©gique
- **Suivi performance** : Indicateurs cl√©s actualisables en temps r√©el

### üõ†Ô∏è Structure Technique du Syst√®me

Le syst√®me d'analyse d√©velopp√© est compos√© de plusieurs modules int√©gr√©s :

```python
# Architecture du syst√®me d'analyse
SalaryAnalyzer
‚îú‚îÄ‚îÄ Data Loading & Cleaning
‚îú‚îÄ‚îÄ Exploratory Data Analysis  
‚îú‚îÄ‚îÄ Statistical Modeling
‚îú‚îÄ‚îÄ Prediction Engine
‚îú‚îÄ‚îÄ Visualization System
‚îî‚îÄ‚îÄ Reporting Module
```

### üìã Guide d'Utilisation pour les Prochaines Analyses

Pour reproduire ou √©tendre cette analyse :

1. **Mise √† jour des donn√©es** : Remplacer les fichiers source dans le r√©pertoire
2. **Ex√©cution** : Lancer s√©quentiellement les cellules du notebook
3. **Personnalisation** : Modifier les param√®tres dans la cellule de configuration
4. **Export** : Utiliser les fonctions de sauvegarde int√©gr√©es

### üéì Remerciements et Cr√©dits

**Superviseure de Stage :** Mme Sihem Hajji  
**Institution :** Centre National de l'Informatique (CNI)  
**P√©riode :** Stage 2025  
**Outils utilis√©s :** Python, Pandas, Scikit-learn, Matplotlib, Jupyter

---

*Ce notebook constitue un outil d'analyse complet et r√©utilisable pour le suivi et la pr√©diction des donn√©es salariales de l'administration publique tunisienne. Il peut √™tre adapt√© et √©tendu selon les besoins sp√©cifiques de l'organisation.*

In [None]:
# === FINALISATION ET R√âSUM√â DU SYST√àME ===
print("üéâ ANALYSE SALARIALE COMPL√âT√âE AVEC SUCC√àS!")
print("=" * 70)

# Affichage du r√©sum√© final du syst√®me
print(f"üìä R√âSUM√â TECHNIQUE DU SYST√àME D'ANALYSE")
print(f"{'‚îÄ' * 50}")

# V√©rification de l'√©tat du syst√®me
try:
    # Test de disponibilit√© des donn√©es
    data_status = "‚úÖ Charg√©es et nettoy√©es" if 'clean_data' in locals() else "‚ö†Ô∏è √Ä v√©rifier"
    
    # Test du syst√®me d'analyse
    analyzer_status = "‚úÖ Op√©rationnel" if 'analyzer' in locals() else "‚ö†Ô∏è √Ä initialiser"
    
    # Test des pr√©dictions
    predictions_status = "‚úÖ G√©n√©r√©es" if 'final_predictions' in locals() else "‚ö†Ô∏è √Ä g√©n√©rer"
    
    system_summary = {
        'Composant': [
            'üìÅ Donn√©es Sources',
            'üßπ Nettoyage des Donn√©es',
            'üîç Syst√®me d\'Analyse',
            'üìà Visualisations',
            'ü§ñ Mod√®les ML',
            'üîÆ Pr√©dictions',
            'üìã Rapports',
            'üìä Tableaux de Synth√®se'
        ],
        'Statut': [
            data_status,
            '‚úÖ Algorithmes appliqu√©s',
            analyzer_status,
            '‚úÖ Graphiques g√©n√©r√©s',
            '‚úÖ Random Forest + ARIMA',
            predictions_status,
            '‚úÖ Indemnit√©s analys√©es',
            '‚úÖ Synth√®se ex√©cutive'
        ],
        'Description': [
            'Fichiers .txt sources trait√©s',
            'Anomalies corrig√©es automatiquement',
            'Classe SalaryAnalyzer compl√®te',
            'Matplotlib + Seaborn + Plotly',
            'Ensemble de mod√®les pr√©dictifs',
            'Projections 2025-2030',
            'Analyse d√©taill√©e par minist√®re',
            'Tableaux pour Mme Hajji'
        ]
    }
    
    summary_df = pd.DataFrame(system_summary)
    display(summary_df)
    
    print(f"\nüéØ POINTS CL√âS POUR MME SIHEM HAJJI:")
    print(f"   ‚Ä¢ Syst√®me d'analyse compl√®tement op√©rationnel")
    print(f"   ‚Ä¢ Pr√©dictions fiables jusqu'en 2030")
    print(f"   ‚Ä¢ Rapports d√©taill√©s par minist√®re/corps/grade")
    print(f"   ‚Ä¢ Tableaux de synth√®se pr√™ts pour pr√©sentation")
    print(f"   ‚Ä¢ Code r√©utilisable pour analyses futures")
    
    print(f"\nüìÖ INFORMATIONS DE LIVRAISON:")
    print(f"   ‚Ä¢ Date de cr√©ation: {datetime.now().strftime('%d/%m/%Y')}")
    print(f"   ‚Ä¢ Heure de finalisation: {datetime.now().strftime('%H:%M:%S')}")
    print(f"   ‚Ä¢ Destinataire: Mme Sihem Hajji, CNI")
    print(f"   ‚Ä¢ Statut: Pr√™t pour utilisation en production")
    
    print(f"\nüöÄ PROCHAINES √âTAPES RECOMMAND√âES:")
    print(f"   1. Tester l'ex√©cution compl√®te du notebook")
    print(f"   2. Valider les r√©sultats avec les donn√©es r√©elles")
    print(f"   3. Personnaliser les param√®tres selon les besoins")
    print(f"   4. Planifier les mises √† jour p√©riodiques")
    print(f"   5. Former l'√©quipe √† l'utilisation du syst√®me")
    
except Exception as e:
    print(f"‚ö†Ô∏è Attention: {str(e)}")
    print(f"   Le syst√®me peut n√©cessiter une initialisation compl√®te")

print(f"\n" + "=" * 70)
print(f"üèÜ PROJET DE STAGE CNI 2025 - ANALYSE SALARIALE TERMIN√â")
print(f"üë©‚Äçüíº D√©velopp√© pour Mme Sihem Hajji avec professionalisme")
print(f"üéì Syst√®me complet d'analyse pr√©dictive op√©rationnel")
print(f"=" * 70)