# Analyse de la Pyramide des √Çges des √âlus en France


L'analyse pr√©sent√©e dans ce notebook vise √† explorer la r√©partition des √©lus en France selon leur √¢ge et leur sexe. Les donn√©es utilis√©es proviennent du R√©pertoire National des √âlus, disponible sur le site data.gouv.fr √† l'adresse https://static.data.gouv.fr/resources/repertoire-national-des-elus-1/20250613-142903/elus-maires-mai.csv. Ce fichier contient des informations d√©taill√©es sur les √©lus, notamment leurs donn√©es personnelles, professionnelles et les d√©tails de leurs mandats.


L'objectif de cette analyse est de g√©n√©rer une pyramide des √¢ges par sexe et par tranche de 5 ans pour les √©lus. Cela permettra de visualiser la distribution des √©lus selon leur √¢ge et leur sexe, offrant ainsi des insights pr√©cieux sur la repr√©sentation des diff√©rents groupes d√©mographiques dans la sph√®re politique fran√ßaise.


## M√©thodologie


La m√©thodologie utilis√©e dans cette analyse implique plusieurs √©tapes cl√©s. Tout d'abord, les donn√©es sont charg√©es et nettoy√©es pour pr√©parer l'analyse. Ensuite, l'√¢ge de chaque √©lu est calcul√© en fonction de sa date de naissance, et les √©lus sont regroup√©s par tranche d'√¢ge de 5 ans. Les donn√©es sont alors agr√©g√©es pour compter le nombre d'√©lus par tranche d'√¢ge et par sexe. Enfin, les r√©sultats sont visualis√©s sous forme de pyramide des √¢ges √† l'aide d'une biblioth√®que de visualisation de donn√©es. Cette approche permet d'obtenir une repr√©sentation claire et intuitive de la distribution des √©lus selon leur √¢ge et leur sexe.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [1]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://static.data.gouv.fr/resources/repertoire-national-des-elus-1/20250613-142903/elus-maires-mai.csv", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [2]:
# Ex√©cution de la requ√™te
df = run_query(""" WITH age_calcul AS (
  SELECT 
    "Code sexe" AS sexe,
    CAST(SUBSTRING("Date de naissance", 7, 4) AS INTEGER) AS annee_naissance,
    FLOOR((2023 - CAST(SUBSTRING("Date de naissance", 7, 4) AS INTEGER)) / 5) * 5 AS age_tranche
  FROM loaded_dataset
),
pyramide AS (
  SELECT 
    sexe,
    age_tranche,
    COUNT(*) AS nombre_elus
  FROM age_calcul
  GROUP BY ALL
)
SELECT 
  sexe,
  age_tranche,
  nombre_elus
FROM pyramide
ORDER BY sexe, age_tranche """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

## üìà Visualisation

La biblioth√®que principale utilis√©e est Plotly, qui permet de cr√©er des visualisations interactives et personnalisables. Cette technologie est adapt√©e pour repr√©senter une pyramide des √¢ges sous forme de diagramme √† barres horizontales superpos√©es, facilitant la comparaison entre les sexes. L'utilisation de Plotly permet une repr√©sentation dynamique et facile √† lire.

In [3]:
import pandas as pd
import duckdb as ddb
import pandas as pd
import plotly.graph_objects as go

# Tranches de 5 ans, ordre croissant
df["age_min"] = (df["age_tranche"] // 5) * 5
grp = (
    df.groupby(["age_min", "sexe"], as_index=False)["nombre_elus"]
      .sum()
      .sort_values(["age_min", "sexe"])
)

labels = [f'{int(a)}-{int(a+4)} ans' for a in grp["age_min"].unique()]
f_values = grp[grp["sexe"] == "F"].set_index("age_min")["nombre_elus"].reindex(grp["age_min"].unique(), fill_value=0).values
m_values = grp[grp["sexe"] == "M"].set_index("age_min")["nombre_elus"].reindex(grp["age_min"].unique(), fill_value=0).values

dataviz = go.Figure()
dataviz.add_trace(go.Bar(
    y=labels,
    x=-f_values,
    name="Femmes",
    orientation="h",
    hovertemplate="%{x}<extra>Femmes</extra>",
    marker_color="#ff8599"
))
dataviz.add_trace(go.Bar(
    y=labels,
    x=m_values,
    name="Hommes",
    orientation="h",
    hovertemplate="%{x}<extra>Hommes</extra>",
    marker_color="#6ca0dc"
))

dataviz.update_layout(
    title="Pyramide des √¢ges des √©lus par sexe - Politique publique √©lus",
    barmode="overlay",
    bargap=0.1,
    xaxis=dict(
        tickvals=[-5000, -2500, 0, 2500, 5000],
        ticktext=["5 000", "2 500", "0", "2 500", "5 000"],
        title="Nombre d‚Äô√©lus"
    ),
    yaxis=dict(title=""),
    legend=dict(orientation="h", y=-0.15),
    margin=dict(l=120, r=20, t=40, b=20),
    font=dict(family="Arial, Helvetica, sans-serif", size=11),
)
dataviz

---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*