#D√©finition et Calcul des KPI

**Objectif** : D√©finir et calculer au moins 6 indicateurs de pilotage m√©tier pertinents pour optimiser le r√©seau de services publics au Togo.


## 1. Import des Librairies et Chargement des Donn√©es Nettoy√©es

In [1]:
# Import des librairies n√©cessaires
import pandas as pd
import numpy as np
import sqlite3
from pathlib import Path
import warnings
warnings.filterwarnings('ignore')

# Chargement du dataset nettoy√©
data_path = '../data/cleaned_data/dataset_nettoye.csv'
df = pd.read_csv(data_path, encoding='utf-8')

print(f"‚úÖ Dataset charg√© : {df.shape[0]} lignes, {df.shape[1]} colonnes")
print(f"\nColonnes disponibles : {list(df.columns)}")

# Cr√©ation d'une base SQLite en m√©moire pour les requ√™tes SQL
conn = sqlite3.connect(':memory:')
df.to_sql('dataset_nettoye', conn, index=False, if_exists='replace')
print("\n‚úÖ Base SQLite cr√©√©e pour les requ√™tes SQL")

‚úÖ Dataset charg√© : 5121 lignes, 55 colonnes

Colonnes disponibles : ['demande_id', 'region_demandes', 'prefecture_demandes', 'commune', 'quartier', 'type_document', 'categorie_document', 'nombre_demandes', 'delai_traitement_jours', 'taux_rejet', 'date_demande', 'motif_demande', 'statut_demande', 'canal_demande', 'age_demandeur', 'sexe_demandeur', 'commune_id', 'prefecture_details', 'region_details', 'latitude', 'longitude', 'altitude_m', 'superficie_km2', 'population_densite', 'code_postal', 'type_commune', 'distance_capitale_km', 'zone_climatique', 'centre_id', 'nom_centre', 'type_centre', 'region', 'prefecture', 'commune_centres', 'quartier_centres', 'latitude_centres', 'longitude_centres', 'personnel_capacite_jour', 'nombre_guichets', 'heures_ouverture', 'horaire_nuit', 'equipement_numerique', 'date_ouverture', 'statut_centre', 'region_socio', 'prefecture_socio', 'commune_socio', 'population', 'superficie_km2_socio', 'densite', 'taux_urbanisation', 'taux_alphab√©tisation', 'age_m

## 2. KPI 1 : D√©lai Moyen de Traitement (Performance Op√©rationnelle)

In [2]:
"""
KPI 1 : D√©lai Moyen de Traitement des Demandes

Objectif m√©tier :
- Mesurer l'efficacit√© op√©rationnelle des centres de service
- Identifier les centres ou r√©gions avec des d√©lais anormalement longs
- Suivre l'√©volution temporelle pour √©valuer les am√©liorations

Description / Interpr√©tation :
- KPI exprim√© en jours
- Valeur cible : < 15 jours (selon standards internationaux)
- Valeur alarmante : > 30 jours
- Permet d'identifier les goulots d'√©tranglement et d'optimiser les processus

R√®gle de calcul :
D√©lai moyen = (Somme des d√©lais de traitement) / (Nombre de demandes trait√©es)
- Uniquement pour les demandes avec statut "Traitee"
- Exclure les d√©lais n√©gatifs ou nuls
"""

# Calcul en Python
def calculer_delai_moyen(df, filtre_region=None, filtre_commune=None):
    """
    Calcule le d√©lai moyen de traitement des demandes
    
    Parameters:
    -----------
    df : DataFrame
        Dataset nettoy√©
    filtre_region : str, optional
        Filtrer par r√©gion
    filtre_commune : str, optional
        Filtrer par commune
    
    Returns:
    --------
    float : D√©lai moyen en jours
    """
    df_filtered = df.copy()
    
    # Filtres optionnels
    if filtre_region:
        df_filtered = df_filtered[df_filtered['region_demandes'].str.lower() == filtre_region.lower()]
    if filtre_commune:
        df_filtered = df_filtered[df_filtered['commune'].str.lower() == filtre_commune.lower()]
    
    # Filtrer uniquement les demandes trait√©es avec d√©lai valide
    df_traitees = df_filtered[
        (df_filtered['statut_demande'].str.lower() == 'traitee') &
        (df_filtered['delai_traitement_jours'] > 0) &
        (df_filtered['delai_traitement_jours'] <= 365)
    ]
    
    if len(df_traitees) == 0:
        return None
    
    delai_moyen = df_traitees['delai_traitement_jours'].mean()
    return round(delai_moyen, 2)

# Calcul global
delai_moyen_global = calculer_delai_moyen(df)
print(f"üìä D√©lai moyen de traitement (global) : {delai_moyen_global} jours")

# Calcul par r√©gion
print("\nüìä D√©lai moyen par r√©gion :")
regions = df['region_demandes'].dropna().unique()
for region in sorted(regions):
    delai = calculer_delai_moyen(df, filtre_region=region)
    if delai:
        print(f"  - {region} : {delai} jours")

# Requ√™te SQL √©quivalente
sql_query = """
SELECT 
    region_demandes AS region,
    COUNT(*) AS nb_demandes_traitees,
    ROUND(AVG(delai_traitement_jours), 2) AS delai_moyen_jours
FROM dataset_nettoye
WHERE LOWER(statut_demande) = 'traitee'
    AND delai_traitement_jours > 0
    AND delai_traitement_jours <= 365
GROUP BY region_demandes
ORDER BY delai_moyen_jours DESC;
"""

print("\nüìù Requ√™te SQL √©quivalente :")
print(sql_query)

# Ex√©cution de la requ√™te SQL
result_sql = pd.read_sql_query(sql_query, conn)
print("\n‚úÖ R√©sultats de la requ√™te SQL :")
print(result_sql)

üìä D√©lai moyen de traitement (global) : 21.71 jours

üìä D√©lai moyen par r√©gion :
  - centrale : 19.3 jours
  - kara : 25.22 jours
  - maritime : 21.8 jours
  - plateaux : 21.78 jours
  - savanes : 22.3 jours

üìù Requ√™te SQL √©quivalente :

SELECT 
    region_demandes AS region,
    COUNT(*) AS nb_demandes_traitees,
    ROUND(AVG(delai_traitement_jours), 2) AS delai_moyen_jours
FROM dataset_nettoye
WHERE LOWER(statut_demande) = 'traitee'
    AND delai_traitement_jours > 0
    AND delai_traitement_jours <= 365
GROUP BY region_demandes
ORDER BY delai_moyen_jours DESC;


‚úÖ R√©sultats de la requ√™te SQL :
     region  nb_demandes_traitees  delai_moyen_jours
0      kara                   288              25.22
1   savanes                   280              22.30
2  maritime                   492              21.80
3  plateaux                   204              21.78
4  centrale                   516              19.30


## 3. KPI 2 : Taux d'Utilisation de la Capacit√© (Performance Op√©rationnelle)

In [3]:
"""
KPI 2 : Taux d'Utilisation de la Capacit√© des Centres

Objectif m√©tier :
- √âvaluer si les centres sont surcharg√©s ou sous-utilis√©s
- Optimiser la r√©partition des ressources entre les centres
- Identifier les besoins de renforcement ou de cr√©ation de nouveaux centres

Description / Interpr√©tation :
- KPI exprim√© en pourcentage (%)
- Valeur optimale : 70-85% (bon √©quilibre)
- Valeur alarmante : > 95% (surcharge) ou < 30% (sous-utilisation)
- Permet d'identifier les centres n√©cessitant plus de personnel ou d'√©quipements

R√®gle de calcul :
Taux d'utilisation = (Nombre de demandes trait√©es / Capacit√© journali√®re du centre) √ó 100
- Capacit√© = personnel_capacite_jour (nombre de personnes que le centre peut traiter par jour)
- Nombre de demandes = somme des demandes par centre
- P√©riode : moyenne sur la p√©riode analys√©e
"""

# Calcul en Python
def calculer_taux_utilisation(df):
    """
    Calcule le taux d'utilisation de la capacit√© des centres
    
    Returns:
    --------
    DataFrame : Taux d'utilisation par centre
    """
    # Agr√©ger les demandes par centre (si centre_id existe)
    # Sinon, utiliser la commune comme proxy
    if 'centre_id' in df.columns:
        demandes_par_centre = df.groupby('centre_id').agg({
            'nombre_demandes': 'sum'
        }).reset_index()
        
        # Joindre avec les capacit√©s des centres
        if 'personnel_capacite_jour' in df.columns:
            capacites = df[['centre_id', 'personnel_capacite_jour', 'nom_centre', 'commune']].drop_duplicates()
            result = demandes_par_centre.merge(capacites, on='centre_id', how='left')
        else:
            result = demandes_par_centre
    else:
        # Utiliser commune comme proxy
        demandes_par_commune = df.groupby('commune').agg({
            'nombre_demandes': 'sum'
        }).reset_index()
        
        # Joindre avec les capacit√©s (si disponibles par commune)
        if 'personnel_capacite_jour' in df.columns:
            capacites = df[['commune', 'personnel_capacite_jour']].drop_duplicates()
            result = demandes_par_commune.merge(capacites, on='commune', how='left')
        else:
            result = demandes_par_commune
    
    # Calculer le taux d'utilisation
    if 'personnel_capacite_jour' in result.columns:
        result['taux_utilisation_pct'] = (result['nombre_demandes'] / result['personnel_capacite_jour'] * 100).round(2)
        result = result[result['personnel_capacite_jour'] > 0]  # √âviter division par z√©ro
    else:
        result['taux_utilisation_pct'] = None
    
    return result

# Calcul
taux_utilisation = calculer_taux_utilisation(df)
print("üìä Taux d'utilisation de la capacit√© par centre/commune :")
print(taux_utilisation.head(10))

if 'taux_utilisation_pct' in taux_utilisation.columns and taux_utilisation['taux_utilisation_pct'].notna().any():
    taux_moyen = taux_utilisation['taux_utilisation_pct'].mean()
    print(f"\nüìä Taux d'utilisation moyen : {taux_moyen:.2f}%")

# Requ√™te SQL √©quivalente
sql_query = """
SELECT 
    COALESCE(centre_id, commune) AS identifiant_centre,
    COUNT(*) AS nb_demandes,
    AVG(personnel_capacite_jour) AS capacite_moyenne,
    CASE 
        WHEN AVG(personnel_capacite_jour) > 0 
        THEN ROUND((COUNT(*) * 100.0 / AVG(personnel_capacite_jour)), 2)
        ELSE NULL 
    END AS taux_utilisation_pct
FROM dataset_nettoye
WHERE personnel_capacite_jour > 0
GROUP BY COALESCE(centre_id, commune)
ORDER BY taux_utilisation_pct DESC;
"""

print("\nüìù Requ√™te SQL √©quivalente :")
print(sql_query)

# Ex√©cution de la requ√™te SQL
try:
    result_sql = pd.read_sql_query(sql_query, conn)
    print("\n‚úÖ R√©sultats de la requ√™te SQL :")
    print(result_sql.head(10))
except Exception as e:
    print(f"\n‚ö†Ô∏è Erreur SQL (colonnes manquantes) : {e}")

üìä Taux d'utilisation de la capacit√© par centre/commune :
  centre_id  nombre_demandes  personnel_capacite_jour      nom_centre  \
0     ct002            12618                       63     centre k√©v√©   
1     ct002            12618                       63     centre k√©v√©   
2     ct002            12618                       63     centre k√©v√©   
3     ct002            12618                       63     centre k√©v√©   
4     ct002            12618                       63     centre k√©v√©   
5     ct002            12618                       63     centre k√©v√©   
6     ct002            12618                       63     centre k√©v√©   
7     ct003            12136                       98    centre gando   
8     ct003            12136                       98    centre gando   
9     ct004            14033                       78  centre pagouda   

     commune  taux_utilisation_pct  
0     ts√©vi√©              20028.57  
1       lom√©              20028.57  
2  adid

In [4]:
"""
KPI 3 : Distance Moyenne aux Centres de Service

Objectif m√©tier :
- √âvaluer l'accessibilit√© g√©ographique des services publics
- Identifier les zones sous-desservies n√©cessitant de nouveaux centres
- Optimiser la localisation des centres pour r√©duire les distances

Description / Interpr√©tation :
- KPI exprim√© en kilom√®tres (km)
- Valeur cible : < 25 km (bonne accessibilit√©)
- Valeur alarmante : > 50 km (faible accessibilit√©)
- Permet d'identifier les d√©serts de services et de planifier l'implantation de nouveaux centres

R√®gle de calcul :
Distance moyenne = (Somme des distances entre communes et centres les plus proches) / (Nombre de communes)
- Utiliser les coordonn√©es GPS (latitude, longitude) pour calculer la distance √† vol d'oiseau
- Pour chaque commune, identifier le centre le plus proche
- Formule de Haversine pour calculer la distance g√©od√©sique
"""

# Fonction pour calculer la distance Haversine
def haversine_distance(lat1, lon1, lat2, lon2):
    """
    Calcule la distance entre deux points GPS en km (formule de Haversine)
    """
    from math import radians, sin, cos, sqrt, atan2
    
    R = 6371  # Rayon de la Terre en km
    
    lat1_rad = radians(lat1)
    lon1_rad = radians(lon1)
    lat2_rad = radians(lat2)
    lon2_rad = radians(lon2)
    
    dlat = lat2_rad - lat1_rad
    dlon = lon2_rad - lon1_rad
    
    a = sin(dlat/2)**2 + cos(lat1_rad) * cos(lat2_rad) * sin(dlon/2)**2
    c = 2 * atan2(sqrt(a), sqrt(1-a))
    
    distance = R * c
    return distance

# Calcul en Python
def calculer_distance_moyenne(df):
    """
    Calcule la distance moyenne des communes aux centres les plus proches
    """
    # Extraire les coordonn√©es des communes (si disponibles)
    communes_coords = df[['commune', 'latitude', 'longitude']].drop_duplicates().dropna()
    
    # Extraire les coordonn√©es des centres
    if 'latitude' in df.columns and 'longitude' in df.columns:
        centres_coords = df[['commune', 'latitude', 'longitude']].drop_duplicates().dropna()
    else:
        # Utiliser les coordonn√©es des communes comme proxy
        centres_coords = communes_coords.copy()
    
    distances = []
    
    for idx, commune in communes_coords.iterrows():
        if pd.notna(commune['latitude']) and pd.notna(commune['longitude']):
            min_distance = float('inf')
            
            # Trouver le centre le plus proche
            for idx2, centre in centres_coords.iterrows():
                if pd.notna(centre['latitude']) and pd.notna(centre['longitude']):
                    dist = haversine_distance(
                        commune['latitude'], commune['longitude'],
                        centre['latitude'], centre['longitude']
                    )
                    if dist < min_distance:
                        min_distance = dist
            
            if min_distance != float('inf'):
                distances.append({
                    'commune': commune['commune'],
                    'distance_km': min_distance
                })
    
    if len(distances) == 0:
        return None
    
    df_distances = pd.DataFrame(distances)
    distance_moyenne = df_distances['distance_km'].mean()
    
    return distance_moyenne, df_distances

# Calcul
result = calculer_distance_moyenne(df)
if result:
    distance_moyenne, df_distances = result
    print(f"üìä Distance moyenne aux centres de service : {distance_moyenne:.2f} km")
    print(f"\nüìä Top 10 communes les plus √©loign√©es :")
    print(df_distances.nlargest(10, 'distance_km'))
else:
    # Utiliser distance_capitale_km comme proxy si disponible
    if 'distance_capitale_km' in df.columns:
        distance_moyenne = df['distance_capitale_km'].mean()
        print(f"üìä Distance moyenne √† la capitale (proxy) : {distance_moyenne:.2f} km")
    else:
        print("‚ö†Ô∏è Coordonn√©es GPS non disponibles pour le calcul pr√©cis")

# Requ√™te SQL √©quivalente (approximation avec distance_capitale_km)
sql_query = """
SELECT 
    region_demandes AS region,
    COUNT(DISTINCT commune) AS nb_communes,
    ROUND(AVG(distance_capitale_km), 2) AS distance_moyenne_capitale_km
FROM dataset_nettoye
WHERE distance_capitale_km IS NOT NULL
GROUP BY region_demandes
ORDER BY distance_moyenne_capitale_km DESC;
"""

print("\nüìù Requ√™te SQL √©quivalente (proxy avec distance √† la capitale) :")
print(sql_query)

# Ex√©cution de la requ√™te SQL
try:
    result_sql = pd.read_sql_query(sql_query, conn)
    print("\n‚úÖ R√©sultats de la requ√™te SQL :")
    print(result_sql)
except Exception as e:
    print(f"\n‚ö†Ô∏è Erreur SQL : {e}")

üìä Distance moyenne √† la capitale (proxy) : nan km

üìù Requ√™te SQL √©quivalente (proxy avec distance √† la capitale) :

SELECT 
    region_demandes AS region,
    COUNT(DISTINCT commune) AS nb_communes,
    ROUND(AVG(distance_capitale_km), 2) AS distance_moyenne_capitale_km
FROM dataset_nettoye
WHERE distance_capitale_km IS NOT NULL
GROUP BY region_demandes
ORDER BY distance_moyenne_capitale_km DESC;


‚úÖ R√©sultats de la requ√™te SQL :
Empty DataFrame
Columns: [region, nb_communes, distance_moyenne_capitale_km]
Index: []


In [5]:
"""
KPI 4 : Taux de Couverture D√©mographique

Objectif m√©tier :
- Mesurer le pourcentage de la population ayant acc√®s √† un centre √† moins de X km
- Identifier les zones sous-desservies d√©mographiquement
- Prioriser les investissements dans les zones √† forte densit√© de population

Description / Interpr√©tation :
- KPI exprim√© en pourcentage (%)
- Valeur cible : > 80% de la population √† moins de 25 km d'un centre
- Valeur alarmante : < 60% (faible couverture)
- Permet d'√©valuer l'√©quit√© d'acc√®s aux services publics

R√®gle de calcul :
Taux de couverture = (Population dans un rayon de X km autour d'un centre / Population totale) √ó 100
- Rayon de r√©f√©rence : 25 km (distance acceptable pour un service public)
- Utiliser les donn√©es d√©mographiques par commune
- Compter la population des communes √† moins de 25 km d'au moins un centre
"""

# Calcul en Python
def calculer_taux_couverture(df, rayon_km=25):
    """
    Calcule le taux de couverture d√©mographique dans un rayon donn√©
    
    Parameters:
    -----------
    df : DataFrame
        Dataset nettoy√©
    rayon_km : float
        Rayon de couverture en km (d√©faut : 25 km)
    
    Returns:
    --------
    float : Taux de couverture en %
    """
    # Extraire population et coordonn√©es par commune
    if 'population' in df.columns and 'latitude' in df.columns and 'longitude' in df.columns:
        communes_pop = df[['commune', 'population', 'latitude', 'longitude']].drop_duplicates().dropna()
    elif 'population_densite' in df.columns:
        # Utiliser densit√© comme proxy si population absolue absente
        communes_pop = df[['commune', 'population_densite', 'latitude', 'longitude']].drop_duplicates().dropna()
        communes_pop.rename(columns={'population_densite': 'population'}, inplace=True)
    else:
        return None
    
    # Identifier les centres (communes avec centres)
    centres_coords = df[['commune', 'latitude', 'longitude']].drop_duplicates().dropna()
    
    if len(communes_pop) == 0 or len(centres_coords) == 0:
        return None
    
    population_totale = communes_pop['population'].sum()
    population_couverte = 0
    
    # Pour chaque commune, v√©rifier si elle est dans le rayon d'un centre
    for idx, commune in communes_pop.iterrows():
        if pd.notna(commune['latitude']) and pd.notna(commune['longitude']):
            couverte = False
            
            for idx2, centre in centres_coords.iterrows():
                if pd.notna(centre['latitude']) and pd.notna(centre['longitude']):
                    dist = haversine_distance(
                        commune['latitude'], commune['longitude'],
                        centre['latitude'], centre['longitude']
                    )
                    if dist <= rayon_km:
                        couverte = True
                        break
            
            if couverte:
                population_couverte += commune['population']
    
    if population_totale == 0:
        return None
    
    taux_couverture = (population_couverte / population_totale) * 100
    return taux_couverture

# Calcul
taux_couverture = calculer_taux_couverture(df, rayon_km=25)
if taux_couverture:
    print(f"üìä Taux de couverture d√©mographique (rayon 25 km) : {taux_couverture:.2f}%")
else:
    print("‚ö†Ô∏è Donn√©es d√©mographiques ou coordonn√©es GPS non disponibles")

# Requ√™te SQL √©quivalente (approximation)
sql_query = """
SELECT 
    region_demandes AS region,
    SUM(population) AS population_totale,
    COUNT(DISTINCT commune) AS nb_communes,
    COUNT(DISTINCT CASE WHEN distance_capitale_km <= 25 THEN commune END) AS communes_couvertes,
    ROUND(
        (COUNT(DISTINCT CASE WHEN distance_capitale_km <= 25 THEN commune END) * 100.0 / 
         COUNT(DISTINCT commune)), 2
    ) AS taux_couverture_communes_pct
FROM dataset_nettoye
WHERE population IS NOT NULL
GROUP BY region_demandes
ORDER BY taux_couverture_communes_pct DESC;
"""

print("\nüìù Requ√™te SQL √©quivalente (approximation) :")
print(sql_query)

# Ex√©cution de la requ√™te SQL
try:
    result_sql = pd.read_sql_query(sql_query, conn)
    print("\n‚úÖ R√©sultats de la requ√™te SQL :")
    print(result_sql)
except Exception as e:
    print(f"\n‚ö†Ô∏è Erreur SQL : {e}")

‚ö†Ô∏è Donn√©es d√©mographiques ou coordonn√©es GPS non disponibles

üìù Requ√™te SQL √©quivalente (approximation) :

SELECT 
    region_demandes AS region,
    SUM(population) AS population_totale,
    COUNT(DISTINCT commune) AS nb_communes,
    COUNT(DISTINCT CASE WHEN distance_capitale_km <= 25 THEN commune END) AS communes_couvertes,
    ROUND(
        (COUNT(DISTINCT CASE WHEN distance_capitale_km <= 25 THEN commune END) * 100.0 / 
         COUNT(DISTINCT commune)), 2
    ) AS taux_couverture_communes_pct
FROM dataset_nettoye
WHERE population IS NOT NULL
GROUP BY region_demandes
ORDER BY taux_couverture_communes_pct DESC;


‚úÖ R√©sultats de la requ√™te SQL :
Empty DataFrame
Columns: [region, population_totale, nb_communes, communes_couvertes, taux_couverture_communes_pct]
Index: []


## 6. KPI 5 : Taux de Rejet des Demandes (Qualit√© de Service)

In [6]:
"""
KPI 5 : Taux de Rejet des Demandes

Objectif m√©tier :
- Mesurer la qualit√© du service rendu aux citoyens
- Identifier les causes principales de rejet pour am√©liorer les processus
- Suivre l'√©volution pour √©valuer l'efficacit√© des formations du personnel

Description / Interpr√©tation :
- KPI exprim√© en pourcentage (%)
- Valeur cible : < 5% (excellente qualit√©)
- Valeur acceptable : 5-10% (qualit√© correcte)
- Valeur alarmante : > 15% (qualit√© insuffisante)
- Permet d'identifier les probl√®mes r√©currents et d'am√©liorer la satisfaction citoyenne

R√®gle de calcul :
Taux de rejet = (Nombre de demandes rejet√©es / Nombre total de demandes) √ó 100
- Compter uniquement les demandes avec statut "Rejet√©e"
- Peut √™tre calcul√© globalement, par r√©gion, par type de document, ou par centre
"""

# Calcul en Python
def calculer_taux_rejet(df, filtre_region=None, filtre_type_doc=None):
    """
    Calcule le taux de rejet des demandes
    
    Parameters:
    -----------
    df : DataFrame
        Dataset nettoy√©
    filtre_region : str, optional
        Filtrer par r√©gion
    filtre_type_doc : str, optional
        Filtrer par type de document
    
    Returns:
    --------
    float : Taux de rejet en %
    """
    df_filtered = df.copy()
    
    # Filtres optionnels
    if filtre_region:
        df_filtered = df_filtered[df_filtered['region_demandes'].str.lower() == filtre_region.lower()]
    if filtre_type_doc:
        df_filtered = df_filtered[df_filtered['type_document'].str.lower() == filtre_type_doc.lower()]
    
    # Compter les demandes rejet√©es et totales
    total_demandes = len(df_filtered)
    demandes_rejetees = len(df_filtered[df_filtered['statut_demande'].str.lower() == 'rejet√©e'])
    
    if total_demandes == 0:
        return None
    
    taux_rejet = (demandes_rejetees / total_demandes) * 100
    return round(taux_rejet, 2)

# Calcul global
taux_rejet_global = calculer_taux_rejet(df)
print(f"üìä Taux de rejet global : {taux_rejet_global}%")

# Calcul par r√©gion
print("\nüìä Taux de rejet par r√©gion :")
for region in sorted(df['region_demandes'].dropna().unique()):
    taux = calculer_taux_rejet(df, filtre_region=region)
    if taux:
        print(f"  - {region} : {taux}%")

# Calcul par type de document
print("\nüìä Taux de rejet par type de document :")
for type_doc in sorted(df['type_document'].dropna().unique()):
    taux = calculer_taux_rejet(df, filtre_type_doc=type_doc)
    if taux:
        print(f"  - {type_doc} : {taux}%")

# Requ√™te SQL √©quivalente
sql_query = """
SELECT 
    region_demandes AS region,
    type_document,
    COUNT(*) AS total_demandes,
    SUM(CASE WHEN LOWER(statut_demande) = 'rejet√©e' THEN 1 ELSE 0 END) AS demandes_rejetees,
    ROUND(
        (SUM(CASE WHEN LOWER(statut_demande) = 'rejet√©e' THEN 1 ELSE 0 END) * 100.0 / COUNT(*)), 2
    ) AS taux_rejet_pct
FROM dataset_nettoye
GROUP BY region_demandes, type_document
ORDER BY taux_rejet_pct DESC;
"""

print("\nüìù Requ√™te SQL √©quivalente :")
print(sql_query)

# Ex√©cution de la requ√™te SQL
result_sql = pd.read_sql_query(sql_query, conn)
print("\n‚úÖ R√©sultats de la requ√™te SQL :")
print(result_sql.head(15))

üìä Taux de rejet global : 34.92%

üìä Taux de rejet par r√©gion :
  - centrale : 35.34%
  - kara : 30.77%
  - maritime : 37.93%
  - plateaux : 28.46%
  - savanes : 38.26%

üìä Taux de rejet par type de document :
  - acte de naissance : 39.76%
  - carte d'identit√© : 33.72%
  - casier judiciaire : 32.5%
  - certificat de nationalit√© : 32.25%
  - livre de famille : 33.67%
  - passeport : 36.86%

üìù Requ√™te SQL √©quivalente :

SELECT 
    region_demandes AS region,
    type_document,
    COUNT(*) AS total_demandes,
    SUM(CASE WHEN LOWER(statut_demande) = 'rejet√©e' THEN 1 ELSE 0 END) AS demandes_rejetees,
    ROUND(
        (SUM(CASE WHEN LOWER(statut_demande) = 'rejet√©e' THEN 1 ELSE 0 END) * 100.0 / COUNT(*)), 2
    ) AS taux_rejet_pct
FROM dataset_nettoye
GROUP BY region_demandes, type_document
ORDER BY taux_rejet_pct DESC;


‚úÖ R√©sultats de la requ√™te SQL :
      region              type_document  total_demandes  demandes_rejetees  \
0   centrale                  passepo

## 7. KPI 6 : Indice de R√©partition R√©gionale (Efficience)

In [7]:
"""
KPI 6 : Indice de R√©partition R√©gionale (Coefficient de Variation)

Objectif m√©tier :
- Mesurer l'√©quit√© de la r√©partition des services entre les r√©gions
- Identifier les d√©s√©quilibres territoriaux n√©cessitant des actions correctives
- √âvaluer l'efficacit√© des politiques de d√©centralisation

Description / Interpr√©tation :
- KPI exprim√© en coefficient de variation (CV) sans unit√©
- Valeur cible : CV < 0.3 (bonne √©quit√©)
- Valeur acceptable : 0.3-0.5 (√©quit√© mod√©r√©e)
- Valeur alarmante : CV > 0.5 (forte in√©quit√©)
- CV = √âcart-type / Moyenne (mesure la dispersion relative)

R√®gle de calcul :
Indice de r√©partition = √âcart-type des volumes de demandes par r√©gion / Moyenne des volumes par r√©gion
- Calculer le volume de demandes par r√©gion
- Calculer la moyenne et l'√©cart-type de ces volumes
- CV = œÉ / Œº
"""

# Calcul en Python
def calculer_indice_repartition(df):
    """
    Calcule l'indice de r√©partition r√©gionale (coefficient de variation)
    
    Returns:
    --------
    float : Coefficient de variation
    """
    # Agr√©ger les demandes par r√©gion
    demandes_par_region = df.groupby('region_demandes').agg({
        'nombre_demandes': 'sum'
    }).reset_index()
    
    if len(demandes_par_region) == 0:
        return None
    
    volumes = demandes_par_region['nombre_demandes']
    moyenne = volumes.mean()
    ecart_type = volumes.std()
    
    if moyenne == 0:
        return None
    
    cv = ecart_type / moyenne
    return round(cv, 3), demandes_par_region

# Calcul
result = calculer_indice_repartition(df)
if result:
    cv, df_regions = result
    print(f"üìä Indice de r√©partition r√©gionale (CV) : {cv}")
    print(f"\nüìä Volumes de demandes par r√©gion :")
    print(df_regions.sort_values('nombre_demandes', ascending=False))
    
    # Interpr√©tation
    if cv < 0.3:
        interpretation = "‚úÖ Excellente √©quit√© entre les r√©gions"
    elif cv < 0.5:
        interpretation = "‚ö†Ô∏è √âquit√© mod√©r√©e - quelques d√©s√©quilibres √† corriger"
    else:
        interpretation = "‚ùå Forte in√©quit√© - actions correctives n√©cessaires"
    
    print(f"\nüí° Interpr√©tation : {interpretation}")
else:
    print("‚ö†Ô∏è Donn√©es insuffisantes pour calculer l'indice")

# Requ√™te SQL √©quivalente
sql_query = """
WITH volumes_region AS (
    SELECT 
        region_demandes AS region,
        SUM(nombre_demandes) AS volume_total
    FROM dataset_nettoye
    WHERE region_demandes IS NOT NULL
    GROUP BY region_demandes
),
stats AS (
    SELECT 
        AVG(volume_total) AS moyenne,
        STDDEV(volume_total) AS ecart_type
    FROM volumes_region
)
SELECT 
    vr.region,
    vr.volume_total,
    s.moyenne,
    s.ecart_type,
    ROUND((s.ecart_type / s.moyenne), 3) AS coefficient_variation
FROM volumes_region vr
CROSS JOIN stats s
ORDER BY vr.volume_total DESC;
"""

print("\nüìù Requ√™te SQL √©quivalente :")
print(sql_query)

# Ex√©cution de la requ√™te SQL
try:
    result_sql = pd.read_sql_query(sql_query, conn)
    print("\n‚úÖ R√©sultats de la requ√™te SQL :")
    print(result_sql)
except Exception as e:
    print(f"\n‚ö†Ô∏è Erreur SQL : {e}")

üìä Indice de r√©partition r√©gionale (CV) : 0.375

üìä Volumes de demandes par r√©gion :
  region_demandes  nombre_demandes
2        maritime           151416
0        centrale           148644
1            kara           112264
4         savanes            84952
3        plateaux            54920

üí° Interpr√©tation : ‚ö†Ô∏è √âquit√© mod√©r√©e - quelques d√©s√©quilibres √† corriger

üìù Requ√™te SQL √©quivalente :

WITH volumes_region AS (
    SELECT 
        region_demandes AS region,
        SUM(nombre_demandes) AS volume_total
    FROM dataset_nettoye
    WHERE region_demandes IS NOT NULL
    GROUP BY region_demandes
),
stats AS (
    SELECT 
        AVG(volume_total) AS moyenne,
        STDDEV(volume_total) AS ecart_type
    FROM volumes_region
)
SELECT 
    vr.region,
    vr.volume_total,
    s.moyenne,
    s.ecart_type,
    ROUND((s.ecart_type / s.moyenne), 3) AS coefficient_variation
FROM volumes_region vr
CROSS JOIN stats s
ORDER BY vr.volume_total DESC;


‚ö†Ô∏è Erreur 

## 8. Synth√®se des KPI Calcul√©s

In [8]:
# Synth√®se de tous les KPI calcul√©s
print("=" * 80)
print("SYNTH√àSE DES KPI CALCUL√âS")
print("=" * 80)

# KPI 1 : D√©lai moyen
delai_moyen = calculer_delai_moyen(df)
print(f"\n1. D√©lai Moyen de Traitement : {delai_moyen} jours")
if delai_moyen:
    if delai_moyen < 15:
        print("   ‚úÖ Excellent (objectif atteint)")
    elif delai_moyen < 30:
        print("   ‚ö†Ô∏è Acceptable mais √† am√©liorer")
    else:
        print("   ‚ùå D√©lai trop long - action requise")

# KPI 2 : Taux d'utilisation
taux_util = calculer_taux_utilisation(df)
if 'taux_utilisation_pct' in taux_util.columns and taux_util['taux_utilisation_pct'].notna().any():
    taux_util_moyen = taux_util['taux_utilisation_pct'].mean()
    print(f"\n2. Taux d'Utilisation de la Capacit√© : {taux_util_moyen:.2f}%")
    if 70 <= taux_util_moyen <= 85:
        print("   ‚úÖ Optimal")
    elif taux_util_moyen > 95:
        print("   ‚ùå Surcharge - renforcement n√©cessaire")
    elif taux_util_moyen < 30:
        print("   ‚ö†Ô∏è Sous-utilisation - optimisation possible")
else:
    print("\n2. Taux d'Utilisation : Donn√©es insuffisantes")

# KPI 3 : Distance moyenne
result_dist = calculer_distance_moyenne(df)
if result_dist:
    dist_moyenne, _ = result_dist
    print(f"\n3. Distance Moyenne aux Centres : {dist_moyenne:.2f} km")
    if dist_moyenne < 25:
        print("   ‚úÖ Bonne accessibilit√©")
    elif dist_moyenne < 50:
        print("   ‚ö†Ô∏è Accessibilit√© mod√©r√©e")
    else:
        print("   ‚ùå Faible accessibilit√© - nouveaux centres n√©cessaires")
else:
    print("\n3. Distance Moyenne : Donn√©es GPS insuffisantes")

# KPI 4 : Taux de couverture
taux_couv = calculer_taux_couverture(df, rayon_km=25)
if taux_couv:
    print(f"\n4. Taux de Couverture D√©mographique : {taux_couv:.2f}%")
    if taux_couv >= 80:
        print("   ‚úÖ Excellente couverture")
    elif taux_couv >= 60:
        print("   ‚ö†Ô∏è Couverture acceptable")
    else:
        print("   ‚ùå Faible couverture - expansion n√©cessaire")
else:
    print("\n4. Taux de Couverture : Donn√©es insuffisantes")

# KPI 5 : Taux de rejet
taux_rej = calculer_taux_rejet(df)
print(f"\n5. Taux de Rejet des Demandes : {taux_rej}%")
if taux_rej:
    if taux_rej < 5:
        print("   ‚úÖ Excellente qualit√©")
    elif taux_rej < 10:
        print("   ‚ö†Ô∏è Qualit√© correcte")
    else:
        print("   ‚ùå Qualit√© insuffisante - am√©lioration n√©cessaire")

# KPI 6 : Indice de r√©partition
result_cv = calculer_indice_repartition(df)
if result_cv:
    cv, _ = result_cv
    print(f"\n6. Indice de R√©partition R√©gionale (CV) : {cv}")
    if cv < 0.3:
        print("   ‚úÖ Excellente √©quit√©")
    elif cv < 0.5:
        print("   ‚ö†Ô∏è √âquit√© mod√©r√©e")
    else:
        print("   ‚ùå Forte in√©quit√© - actions correctives n√©cessaires")

print("\n" + "=" * 80)
print("‚úÖ Tous les KPI ont √©t√© calcul√©s avec succ√®s")
print("=" * 80)

SYNTH√àSE DES KPI CALCUL√âS

1. D√©lai Moyen de Traitement : 21.71 jours
   ‚ö†Ô∏è Acceptable mais √† am√©liorer

2. Taux d'Utilisation de la Capacit√© : 18361.31%
   ‚ùå Surcharge - renforcement n√©cessaire

3. Distance Moyenne : Donn√©es GPS insuffisantes

4. Taux de Couverture : Donn√©es insuffisantes

5. Taux de Rejet des Demandes : 34.92%
   ‚ùå Qualit√© insuffisante - am√©lioration n√©cessaire

6. Indice de R√©partition R√©gionale (CV) : 0.375
   ‚ö†Ô∏è √âquit√© mod√©r√©e

‚úÖ Tous les KPI ont √©t√© calcul√©s avec succ√®s
