# D√©cryptage des In√©galit√©s √âducatives: Une Analyse Temporelle de l'IPS Public vs. Priv√©

Bienvenue dans ce notebook Jupyter, con√ßu pour plonger au c≈ìur des dynamiques sociales de notre syst√®me √©ducatif fran√ßais. Notre objectif est d'analyser l'√©volution de l'Indice de Position Sociale (IPS) des √©tablissements scolaires, un indicateur cl√© refl√©tant le contexte socio-culturel des √©l√®ves. Cette analyse est rendue possible gr√¢ce au jeu de donn√©es `fr-en-ips_ecoles_v2` disponible sur le portail Open Data du Minist√®re de l'√âducation Nationale et de la Jeunesse, accessible via l'URL source: [https://data.education.gouv.fr/api/explore/v2.1/catalog/datasets/fr-en-ips_ecoles_v2/exports/csv?use_labels=true](https://data.education.gouv.fr/api/explore/v2.1/catalog/datasets/fr-en-ips_ecoles_v2/exports/csv?use_labels=true). Ce dataset d√©taill√©, couvrant les rentr√©es scolaires de 2016-2017 √† 2021-2022, fournit l'IPS pour chaque √©tablissement, ainsi que des informations cruciales comme son acad√©mie, son d√©partement, et surtout, son secteur (public ou priv√© sous contrat).

La question centrale de notre investigation porte sur les disparit√©s potentielles d'IPS entre les √©tablissements scolaires publics et priv√©s sous contrat, et leur √©volution au fil du temps. En d√©sagr√©geant l'IPS moyen par secteur et par ann√©e scolaire, nous cherchons √† visualiser et quantifier l'ampleur de ces in√©galit√©s sociales. L'aper√ßu obtenu est fondamental pour comprendre les dynamiques socio-√©conomiques √† l'≈ìuvre dans nos r√©seaux d'enseignement et pourra servir de levier √† la r√©flexion sur les politiques publiques visant √† promouvoir une √©ducation plus √©quitable. Ce th√®me s'inscrit pleinement dans les enjeux des **In√©galit√©s √âducation IPS**.

## M√©thodologie: De la Donn√©e Brute √† l'Analyse Crois√©e

Pour mener √† bien cette analyse, nous avons adopt√© une approche structur√©e en plusieurs √©tapes, optimis√©e pour l'exploration de donn√©es.

Tout d'abord, les donn√©es brutes issues du dataset ont fait l'objet d'un nettoyage pr√©liminaire. Nous avons extrait l'ann√©e scolaire de la colonne `"Rentr√©e scolaire"` et converti l'Indice de Position Sociale (`"IPS"`) en un format num√©rique (`DOUBLE`), tout en filtrant les entr√©es non valides pour assurer la robustesse de nos calculs.

Ensuite, l'√©tape cl√© a consist√© √† calculer l'IPS moyen pour chaque secteur (public et priv√© sous contrat) et pour chaque ann√©e scolaire disponible. Cette agr√©gation nous a permis d'obtenir une vision synth√©tique de l'√©volution de ces indicateurs.

Enfin, pour mettre en lumi√®re les disparit√©s, nous avons crois√© ces moyennes annuelles afin de calculer l'√©cart entre l'IPS moyen du public et celui du priv√© sous contrat. Les r√©sultats de cette agr√©gation ont √©t√© ordonn√©s chronologiquement, pr√©parant ainsi le terrain pour une visualisation claire et percutante des tendances et des √©carts, permettant de d√©celer si et comment les in√©galit√©s socio-√©conomiques entre ces deux grands r√©seaux √©ducatifs se sont accentu√©es, r√©duites ou maintenues au cours des ann√©es.

## üîß Configuration

In [1]:
# Installation et imports
import duckdb as ddb
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

## ü¶Ü Chargement du dataset avec Duckdb

In [2]:
# Fonction de chargement compl√®te (bas√©e sur load_file_from_url_lite)
def load_file_from_url_lite(url_dataset="", loader="read_csv_auto", options="", nom_table="loaded_dataset", safe_mode=False):
    ddb.execute("install spatial")
    ddb.execute("load spatial")
    ddb.execute("INSTALL h3 FROM community")
    ddb.execute("LOAD h3")
    ddb.execute("install webbed from community;")
    ddb.execute("load webbed")
    ddb.execute("set force_download=True")
    ddb.execute(f"drop table if exists {nom_table}")   
    
    # D√©tection automatique du type de fichier
    if 'csv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'tsv' in url_dataset: 
        loader = "read_csv_auto"
    elif 'txt' in url_dataset: 
        loader = "read_csv_auto"
    elif 'parquet' in url_dataset: 
        loader = "read_parquet"
    elif 'json' in url_dataset: 
        loader = "read_json_auto"
    elif 'xls' in url_dataset or 'xlsx' in url_dataset: 
        loader = "st_read"
    elif 'shp' in url_dataset: 
        loader = "st_read"
    elif 'geojson' in url_dataset: 
        loader = "st_read"
    elif 'xml' in url_dataset: 
        loader = "read_xml"
    elif 'html' in url_dataset: 
        loader = "read_html"
    else: 
        raise ValueError(f"Type de fichier non support√© pour {url_dataset}")
    
    if options=="": 
        options = "" 
    if 'csv' in url_dataset and safe_mode==True: 
        options = ", all_varchar=1" 
    if nom_table=="": 
        nom_table = "loaded_dataset"
    
    try:
        status = ddb.sql(f"""
            create or replace table {nom_table} as select *
            from
            {loader}("{url_dataset}" {options})
        """)
        return status
    except Exception as e:
        return f"Erreur au chargement du fichier : {str(e)}"

def run_query(sql):
    return ddb.sql(sql.replace("`"," ")).to_df()

# Chargement des donn√©es
load_file_from_url_lite("https://data.education.gouv.fr/api/explore/v2.1/catalog/datasets/fr-en-ips_ecoles_v2/exports/csv?use_labels=true", safe_mode=True)
print("‚úÖ Donn√©es charg√©es avec succ√®s")

‚úÖ Donn√©es charg√©es avec succ√®s


## üîç Analyse SQL

Cette requ√™te utilise des techniques SQL pour extraire et transformer les donn√©es de mani√®re efficace.

In [3]:
# Ex√©cution de la requ√™te
df = run_query(""" WITH cleaned_data AS (
    SELECT
        SUBSTRING("Rentr√©e scolaire", 1, 4) AS annee_scolaire,
        "Secteur" AS secteur,
        CAST("IPS" AS DOUBLE) AS ips_value
    FROM
        loaded_dataset
    WHERE
        CAST("IPS" AS DOUBLE) IS NOT NULL -- Filtre les lignes o√π IPS n'est pas un nombre valide
),
yearly_sector_ips AS (
    SELECT
        annee_scolaire,
        secteur,
        AVG(ips_value) AS avg_ips
    FROM
        cleaned_data
    GROUP BY ALL
)
SELECT
    t1.annee_scolaire,
    MAX(CASE WHEN t1.secteur = 'public' THEN t1.avg_ips ELSE NULL END) AS ips_moyen_public,
    MAX(CASE WHEN t1.secteur = 'priv√© sous contrat' THEN t1.avg_ips ELSE NULL END) AS ips_moyen_prive_sous_contrat,
    (MAX(CASE WHEN t1.secteur = 'public' THEN t1.avg_ips ELSE NULL END) - MAX(CASE WHEN t1.secteur = 'priv√© sous contrat' THEN t1.avg_ips ELSE NULL END)) AS ecart_ips_public_prive
FROM
    yearly_sector_ips AS t1
GROUP BY
    t1.annee_scolaire
ORDER BY
    t1.annee_scolaire """)
print(f"R√©sultats : {len(df)} lignes")
df.head()

R√©sultats : 6 lignes


Unnamed: 0,annee_scolaire,ips_moyen_public,ips_moyen_prive_sous_contrat,ecart_ips_public_prive
0,2016,101.015046,111.243301,-10.228255
1,2017,101.25679,111.556445,-10.299655
2,2018,101.244216,111.681919,-10.437703
3,2019,101.249284,112.031635,-10.782351
4,2020,101.177744,112.246411,-11.068667


## üìà Visualisation

La visualisation utilise Plotly Express pour cr√©er des graphiques en ligne avec facettes (petits multiples), ce qui permet de visualiser l'√©volution temporelle de plusieurs indicateurs d'IPS distincts c√¥te √† c√¥te. Ce choix de repr√©sentation est id√©al pour comparer des tendances qui peuvent avoir des √©chelles de valeurs tr√®s diff√©rentes, offrant une clart√© visuelle sans confusion. Plotly Express est particuli√®rement adapt√© pour ce type de visualisation gr√¢ce √† sa capacit√© √† g√©rer le "tidy data" et √† g√©n√©rer des graphiques interactifs avec un minimum de code.

In [4]:
import pandas as pd
import duckdb as ddb

import pandas as pd
import plotly.express as px

# On s'assure que les donn√©es sont tri√©es par ann√©e pour un trac√© chronologique correct
df = df.sort_values('annee_scolaire')

# On transforme les donn√©es du format large au format long ("tidy data").
# C'est la structure id√©ale pour cr√©er des facettes avec Plotly Express.
df_long = pd.melt(df, 
                  id_vars=['annee_scolaire'], 
                  value_vars=['ips_moyen_public', 'ips_moyen_prive_sous_contrat', 'ecart_ips_public_prive'],
                  var_name='indicateur', 
                  value_name='valeur')

# On renomme les indicateurs pour des titres de facettes plus clairs
noms_indicateurs_map = {
    'ips_moyen_public': 'IPS Moyen Public',
    'ips_moyen_prive_sous_contrat': 'IPS Moyen Priv√© Sous Contrat',
    'ecart_ips_public_prive': '√âcart IPS Public / Priv√©'
}
df_long['indicateur'] = df_long['indicateur'].map(noms_indicateurs_map)

# Cr√©ation du graphique en lignes avec des facettes pour chaque indicateur
# Les facettes permettent de comparer les tendances sans que les diff√©rentes √©chelles de valeur n'interf√®rent
dataviz = px.line(
    df_long,
    x='annee_scolaire',
    y='valeur',
    facet_row='indicateur',
    color='indicateur', # Permet d'attribuer une couleur distincte √† chaque indicateur
    markers=True, # Ajoute des points sur chaque observation
    title="In√©galit√©s √âducation IPS : √âvolution des Indicateurs IPS Publics et Priv√©s Sous Contrat",
    labels={
        "annee_scolaire": "Ann√©e Scolaire",
        "valeur": "Valeur de l'indicateur",
        "indicateur": "Indicateur"
    }
)

# Personnalisation de l'apparence du graphique pour une meilleure lisibilit√©
dataviz.update_layout(
    showlegend=False,  # La l√©gende est redondante car les titres des facettes sont explicites
    font=dict(family="Arial, sans-serif", size=12),
    margin=dict(l=80, r=20, t=50, b=20) # Ajuste les marges pour le titre de l'axe Y global
)

# On s'assure que chaque facette a sa propre √©chelle sur l'axe Y et on supprime les titres Y individuels
dataviz.update_yaxes(matches=None, title_text="")

# On nettoie les titres des facettes qui par d√©faut sont "indicateur=Nom de l'indicateur"
dataviz.for_each_annotation(lambda a: a.update(text=a.text.split("=")[-1]))

# On ajoute un titre global unique pour l'axe Y √† gauche du graphique
dataviz.add_annotation(
    x=-0.1, 
    y=0.5,
    text="Valeur IPS",
    textangle=-90,
    xref="paper", 
    yref="paper",
    font=dict(size=14),
    showarrow=False
)
dataviz

---
*Made with ‚ù§Ô∏è and with [duckit.fr](https://duckit.fr) - [Ali Hmaou](https://www.linkedin.com/in/ali-hmaou-6b7b73146/)*

In [5]:

# --- Variables inject√©es par le script ---
FINAL_OBJECT_VARIABLE_NAME = 'dataviz'
OUTPUT_IMAGE_NAME = 'published\\notebooks\\duckit_analysis_20250801_224535.png'
OUTPUT_HTML_NAME = 'published\\notebooks\\duckit_analysis_20250801_224535.html'

# ===================================================================
# CELLULE INJECT√âE AUTOMATIQUEMENT (VERSION ROBUSTE)
# ===================================================================
import sys
import os
# On importe les modules n√©cessaires pour l'export au cas o√π
try:
    from bokeh.io import save as bokeh_save
except ImportError:
    bokeh_save = None

try:
    # On s'assure que le dossier de sortie existe
    output_dir = os.path.dirname(OUTPUT_IMAGE_NAME)
    if output_dir:
        os.makedirs(output_dir, exist_ok=True)

    # On utilise globals().get() pour une r√©cup√©ration plus s√ªre
    final_object = globals().get(FINAL_OBJECT_VARIABLE_NAME)

    if final_object is None:
        # On l√®ve une NameError pour √™tre coh√©rent avec le code original
        raise NameError(f"name '{FINAL_OBJECT_VARIABLE_NAME}' is not defined")

    print(f"INFO: Variable '{FINAL_OBJECT_VARIABLE_NAME}' trouv√©e. Tentative d'exportation...")

    object_type = str(type(final_object))

    if 'plotly.graph_objs._figure.Figure' in object_type:
        print(f"--> D√©tect√© : Plotly. Sauvegarde HTML et PNG.")
        # 1. Sauvegarde HTML pour l'interactivit√©
        print(f"--> Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.write_html(OUTPUT_HTML_NAME, include_plotlyjs='cdn')
        # 2. Sauvegarde PNG pour l'aper√ßu statique
        try:
            print(f"--> Tentative de sauvegarde PNG directe dans : {OUTPUT_IMAGE_NAME}")
            final_object.write_image(OUTPUT_IMAGE_NAME, scale=3, width=1200, height=800)
            print(f"--> Image Plotly sauvegard√©e avec succ√®s.")
        except Exception as e:
            print(f"AVERTISSEMENT: La sauvegarde directe en PNG a √©chou√© (kaleido est-il install√©?).", file=sys.stderr)
            print(f"   Erreur: {e}", file=sys.stderr)
            print(f"--> PLAN B: On va utiliser la capture d'√©cran du HTML √† la place.")
            # On cr√©e un fichier marqueur pour que le script de post-traitement prenne le relais
            with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
                f.write("plotly")
    elif 'folium.folium.Map' in object_type:
        print(f"--> D√©tect√© : Folium. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.save(OUTPUT_HTML_NAME)
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("folium")
    elif 'altair.vegalite' in object_type and hasattr(final_object, 'save'):
        print(f"--> D√©tect√© : Altair. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        final_object.save(OUTPUT_HTML_NAME)
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("altair")
    elif 'bokeh.plotting' in object_type and bokeh_save is not None:
        print(f"--> D√©tect√© : Bokeh. Sauvegarde HTML dans : {OUTPUT_HTML_NAME}")
        bokeh_save(final_object, filename=OUTPUT_HTML_NAME, title="")
        # On cr√©e un fichier marqueur g√©n√©rique pour la capture d'√©cran
        print(f"--> Cr√©ation du marqueur de capture d'√©cran.")
        with open(f"{OUTPUT_HTML_NAME}.needs_screenshot", "w") as f:
            f.write("bokeh")
    elif 'matplotlib.figure.Figure' in object_type:
        print(f"--> D√©tect√© : Matplotlib. Sauvegarde dans : {OUTPUT_IMAGE_NAME}")
        final_object.savefig(OUTPUT_IMAGE_NAME, dpi=300, bbox_inches='tight')
    else:
        print(f"AVERTISSEMENT: Type non support√© : {object_type}", file=sys.stderr)
except NameError:
    print(f"AVERTISSEMENT: Aucune variable '{FINAL_OBJECT_VARIABLE_NAME}' trouv√©e.", file=sys.stderr)
except Exception as e:
    print(f"ERREUR lors de l'exportation : {e}", file=sys.stderr)


INFO: Variable 'dataviz' trouv√©e. Tentative d'exportation...
--> D√©tect√© : Plotly. Sauvegarde HTML et PNG.
--> Sauvegarde HTML dans : published\notebooks\duckit_analysis_20250801_224535.html
--> Tentative de sauvegarde PNG directe dans : published\notebooks\duckit_analysis_20250801_224535.png


--> Image Plotly sauvegard√©e avec succ√®s.
