# Analyse de la R√©partition des √âlus par Sexe et Cat√©gorie Socio-Professionnelle

L'analyse pr√©sent√©e dans ce notebook se base sur le R√©pertoire National des √âlus publi√© par le gouvernement fran√ßais, disponible √† l'adresse https://static.data.gouv.fr/resources/repertoire-national-des-elus-1/20250613-142903/elus-maires-mai.csv. Ce jeu de donn√©es fournit des informations d√©taill√©es sur les √©lus en France, y compris leurs donn√©es personnelles, professionnelles et les d√©tails de leurs mandats. L'objectif de cette analyse est de pr√©parer les donn√©es pour un diagramme circulaire √† deux niveaux repr√©sentant la r√©partition des √©lus par sexe et cat√©gorie socio-professionnelle, afin de mieux comprendre la composition d√©mographique et socio-professionnelle des √©lus en France.

L'analyse de la r√©partition des √©lus par sexe et cat√©gorie socio-professionnelle est cruciale pour comprendre les dynamiques de repr√©sentation au sein des instances politiques fran√ßaises. En examinant ces donn√©es, nous pouvons identifier les tendances et les disparit√©s dans la repr√©sentation des diff√©rents groupes socio-professionnels et des sexes. Cela peut √©clairer les discussions sur l'√©galit√© des sexes et la diversit√© dans la sph√®re politique.


## M√©thodologie

La m√©thodologie employ√©e dans cette analyse consiste √† charger le jeu de donn√©es dans une base de donn√©es DuckDB, puis √† ex√©cuter une requ√™te SQL pour agr√©ger les donn√©es par sexe et cat√©gorie socio-professionnelle. Les donn√©es sont ensuite trait√©es en utilisant la biblioth√®que Pandas pour pr√©parer le diagramme circulaire √† deux niveaux. La visualisation est cr√©√©e en utilisant Plotly Express, avec une attention particuli√®re port√©e √† la s√©lection des cat√©gories socio-professionnelles les plus repr√©sent√©es pour am√©liorer la lisibilit√© du diagramme. La requ√™te SQL utilis√©e est : 
 SELECT "Code sexe" AS sexe, "Libell√© de la cat√©gorie socio-professionnelle" AS csp_libelle, COUNT(*) AS nb_elus FROM loaded_dataset GROUP BY "Code sexe", "Libell√© de la cat√©gorie socio-professionnelle" ORDER BY nb_elus DESC.

Les donn√©es sont ensuite visualis√©es sous forme de sunburst chart, permettant de repr√©senter de mani√®re claire et interactive la r√©partition des √©lus selon les crit√®res choisis. 

 
## Visualisation des Donn√©es 

La visualisation est g√©n√©r√©e en utilisant le code Python bas√© sur les biblioth√®ques Plotly et Pandas.


## Interpr√©tation des R√©sultats 

L'analyse permet d'identifier les tendances dans la r√©partition des √©lus en fonction de leur sexe et de leur cat√©gorie socio-professionnelle, et de mettre en √©vidence les cat√©gories les plus repr√©sent√©es.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [1]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://static.data.gouv.fr/resources/repertoire-national-des-elus-1/20250613-142903/elus-maires-mai.csv", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [2]:
# Ex√©cution de la requ√™te
df = run_query(""" SELECT 
  "Code sexe" AS sexe,
  "Libell√© de la cat√©gorie socio-professionnelle" AS csp_libelle,
  COUNT(*) AS nb_elus
FROM 
  loaded_dataset
GROUP BY 
  "Code sexe",
  "Libell√© de la cat√©gorie socio-professionnelle"
ORDER BY 
  nb_elus DESC """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

## üìà Visualisation

La biblioth√®que principale utilis√©e est Plotly Express, qui est adapt√©e pour cr√©er des visualisations interactives complexes telles que des diagrammes de sunburst. Ce type de repr√©sentation est id√©al pour afficher la r√©partition des donn√©es selon plusieurs cat√©gories hi√©rarchis√©es, ici le sexe et la cat√©gorie socio-professionnelle des √©lus. Cela permet une exploration intuitive et d√©taill√©e des donn√©es.

In [3]:
import pandas as pd
import duckdb as ddb
import plotly.express as px

# Pr√©paration : conserver uniquement les CSP les plus fr√©quentes si trop cat√©gories
top_csp = df.groupby("csp_libelle")["nb_elus"].sum().nlargest(15).index
df_plot = df[df["csp_libelle"].isin(top_csp)].copy()

dataviz = px.sunburst(
    df_plot,
    path=["sexe", "csp_libelle"],
    values="nb_elus",
    title="R√©partition des √©lus par sexe et CSP - Politique publique √©lus",
    color="sexe",
    color_discrete_map={"F": "#EF553B", "M": "#636EFA"},
    hover_data={"nb_elus": ":.0f"},
)

dataviz.update_traces(textinfo="label+value+percent parent")
dataviz.update_layout(
    font=dict(family="Roboto, sans-serif", size=12),
    margin=dict(l=20, r=20, t=40, b=20),
)
dataviz

---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*