## **Projet Analyse Parcoursup**

### __Analyse sous 3 axes__:

-  Cartographie des formations Parcoursup (période 2020 à 2026)
-  Vœux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements entre 2018 et 2025
-  Propositions d'admission dans l'enseignement supérieur des élèves de terminale diplômés du baccalauréat général selon leurs enseignements de spécialité

Sources des données:

https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-cartographie_formations_parcoursup/autres_jeux/?disjunctive.tf&disjunctive.nm&disjunctive.fl&disjunctive.nmc&disjunctive.amg

In [94]:
#Configuration de l'environnement:

import pandas as pd
import numpy as np


In [95]:
# configuration des options d'affichage

#pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)

pd.reset_option('display.max_columns')
pd.reset_option('display.max_rows')


### Cartographie des formations Parcoursup (période 2020 à 2026)

In [96]:
carto = pd.read_parquet("sources_brutes/fr-esr-cartographie_formations_parcoursup.parquet")

carto.head(1)



Unnamed: 0,annee,etab_uai,etab_nom,tc,tf,nm,fl,app,int,amg,...,dataviz,etab_url,etab_gps,nmc,gta,gti,etablissement_id_paysage,composante_id_paysage,rnd,code_formation
0,2026,0632084Y,Université Clermont Auvergne (Clermont-Ferrand...,Publics,"Etudes de santé,Licence",Licence - Parcours d'Accès Spécifique Santé (P...,L1 - Parcours d'Accès Spécifique Santé (PASS),,,"Enseignement partiellement à distance,Formatio...",...,https://data.enseignementsup-recherche.gouv.fr...,http://www.uca.fr,b'\x01\x01\x00\x00\x00JF\xce\xc2\x9e\xb6\x08@S...,PASS,26631,26629,K4lR3,,5660,2047


In [97]:
col = pd.DataFrame(carto.columns)

col

Unnamed: 0,0
0,annee
1,etab_uai
2,etab_nom
3,tc
4,tf
5,nm
6,fl
7,app
8,int
9,amg


In [98]:
#Renommage des colonnes

colonnes = {
    'etab_uai':'Identifiant Etablissement ',
    'etab_nom':'nom de l établissement',
    'tc':'Type d établissement',
    'tf':'Type de formation',
    'nm':'Nom de la formation',
    'fl':'Mentions Spécialités',
    'app':'Apprentissage',
    'int':'Internat',
    'amg':'Aménagement',
    'region':'Région',
    'departement':'Département',
    'commune':'Commune',
    'fiche':'Lien vers la fiche formation',
    'dataviz':'Lien vers les données statistiques',
    'etab_url':'Site internet de l établissement',
    'nmc':'Nom court de la formation',
    'gta':'GTA   Gestion des Désistements en Phase d Admission',
    'gti':'GTI   Groupe de Traitement des Inscriptions',
    'rnd':'Rang du dernier candidat appelé'
}

carto = carto.rename(columns=colonnes)
carto.head(1)

Unnamed: 0,annee,Identifiant Etablissement,nom de l établissement,Type d établissement,Type de formation,Nom de la formation,Mentions Spécialités,Apprentissage,Internat,Aménagement,...,Lien vers les données statistiques,Site internet de l établissement,etab_gps,Nom court de la formation,GTA Gestion des Désistements en Phase d Admission,GTI Groupe de Traitement des Inscriptions,etablissement_id_paysage,composante_id_paysage,Rang du dernier candidat appelé,code_formation
0,2026,0632084Y,Université Clermont Auvergne (Clermont-Ferrand...,Publics,"Etudes de santé,Licence",Licence - Parcours d'Accès Spécifique Santé (P...,L1 - Parcours d'Accès Spécifique Santé (PASS),,,"Enseignement partiellement à distance,Formatio...",...,https://data.enseignementsup-recherche.gouv.fr...,http://www.uca.fr,b'\x01\x01\x00\x00\x00JF\xce\xc2\x9e\xb6\x08@S...,PASS,26631,26629,K4lR3,,5660,2047


In [99]:
carto.describe(include="all")

Unnamed: 0,annee,Identifiant Etablissement,nom de l établissement,Type d établissement,Type de formation,Nom de la formation,Mentions Spécialités,Apprentissage,Internat,Aménagement,...,Lien vers les données statistiques,Site internet de l établissement,etab_gps,Nom court de la formation,GTA Gestion des Désistements en Phase d Admission,GTI Groupe de Traitement des Inscriptions,etablissement_id_paysage,composante_id_paysage,Rang du dernier candidat appelé,code_formation
count,155912,155912,155912,155912,155912,155912,155912,59033,5216,155912,...,90185,154787,155912,155912,155912,155912,49771,1846,138922,138922
unique,7,7597,11590,6,85,11433,1897,1,3,24,...,15663,8650,11507,1677,34048,30676,505,106,32313,1291
top,2025,0673021V,Université de Lille (59),Publics,BTS - BTSA - BTSM,BTS - Services - Management Commercial Opérati...,BTS - Management Commercial Opérationnel,Formations en apprentissage,Etablissements avec internat pour filles et ga...,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,http://formations.univ-amu.fr,"b'\x01\x01\x00\x00\x00\x06\r\xfd\x13\\,\x03@#J...",BTS-MCO-App,2480,166,xJdyB,Ib4aA,0,11423
freq,25827,684,862,94825,80919,5636,8108,59033,5040,105087,...,7,1004,612,4889,7,486,1277,65,104,5374


In [100]:

valeurs_manquantes = pd.DataFrame({'valeurs manquantes' : carto.isna().sum()})
valeurs_manquantes = valeurs_manquantes.sort_values(by= 'valeurs manquantes', ascending = False)
valeurs_manquantes

Unnamed: 0,valeurs manquantes
composante_id_paysage,154066
Internat,150696
aut,129635
etablissement_id_paysage,106141
Apprentissage,96879
Lien vers les données statistiques,65727
Lien vers la fiche formation,36429
code_formation,16990
Rang du dernier candidat appelé,16990
Site internet de l établissement,1125


In [101]:
region_vide = carto[carto["Région"].isna()]
region_vide 

Unnamed: 0,annee,Identifiant Etablissement,nom de l établissement,Type d établissement,Type de formation,Nom de la formation,Mentions Spécialités,Apprentissage,Internat,Aménagement,...,Lien vers les données statistiques,Site internet de l établissement,etab_gps,Nom court de la formation,GTA Gestion des Désistements en Phase d Admission,GTI Groupe de Traitement des Inscriptions,etablissement_id_paysage,composante_id_paysage,Rang du dernier candidat appelé,code_formation
419,2026,3500067W,ESSEC Business School - Global BBA - track fra...,Privés en contrat avec l’Etat / EESC,Formations des écoles de commerce et de manage...,Formation des écoles de commerce et de managem...,Formation des écoles de commerce et de managem...,,,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,https://www.essec.edu/fr/campus/rabat/,b'\x01\x01\x00\x00\x00\xabx#\xf3\xc8\xff\x1a\x...,FECM-B4,31987,26102,,,6628,242
639,2026,0763381M,Sciences Po - campus du Havre - Keio Universit...,Publics,Sciences Po - Instituts d'études politiques,Sciences Po / Instituts d'études politiques - ...,Sciences Po / Instituts d'études politiques - ...,,,"Enseignement en présentiel,Formations avec amé...",...,,http://www.sciencespo.fr/,b'\x01\x01\x00\x00\x00\x89$z\x19\xc5wa@\x89\x0...,ScPo-Lic,34466,32570,u79ZJ,4hGhl,4794,291
641,2026,0542407Y,Sciences Po - campus de Nancy - Freie Universi...,Publics,Sciences Po - Instituts d'études politiques,Double diplôme Sciences Po (Programme européen...,Sciences Po / Instituts d'études politiques - ...,,,"Enseignement en présentiel,Formations avec amé...",...,,http://www.sciencespo.fr/,b'\x01\x01\x00\x00\x00\xcaO\xaa}:\x8e*@oG8-x9J@',ScPo-Lic,34475,32569,u79ZJ,lp6tu,19029,291
1095,2026,1360003P,EM Normandie - Programme Grande Ecole - Campus...,Privés en contrat avec l’Etat / EESC,Formations des écoles de commerce et de manage...,Formation des écoles de commerce et de managem...,Formation des écoles de commerce et de managem...,,,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,https://www.em-normandie.com/fr,b'\x01\x01\x00\x00\x00\xa8\x18\xe7oB\x01\x19\x...,FECM-B5,39294,26102,,,24821,240
2900,2026,T171435T,EIGSI Casablanca (Maroc) (Maroc),Privés en contrat avec l’Etat / EESC,Formations des écoles d'ingénieurs,Formation d'ingénieur Bac + 5 - Bac série géné...,Formation d'ingénieur Bac + 5,,,"Enseignement en présentiel,Formations avec amé...",...,,https://www.eigsica.ma/,b'\x01\x01\x00\x00\x00\xf6\x7f\x0e\xf3\xe5\x85...,FI-BAC5,50569,50563,,,3377,210
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
148236,2020,9840386X,Lycée de Papara (987),Publics,BTS - BTSA - BTSM,BTS - Production - Electrotechnique,BTS - Electrotechnique,,,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,http://www.lyceepapara.com,b'\x01\x01\x00\x00\x00\xacs\x0c\xc8^\xafb\xc0\...,BTS-Electrotec,13596,13596,,,,
148838,2020,1090025K,Université Paris Dauphine - Campus de Francfor...,Publics,Licence sélective,Formation valant grade de licence - Sciences d...,Formation valant grade de licence,,,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,http://dauphine.psl.eu,b'\x01\x01\x00\x00\x00\xd0~\xa4\x88\x0c[!@\xca...,FVGL,25820,25820,C6Ps7,,,
149632,2020,9730279R,EGC Guyane (Matoury - 973),Privés,Formations des écoles de commerce et de manage...,Formation des écoles de commerce et de managem...,Formation des écoles de commerce et de managem...,,,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,http://egc@guyane.cci.fr,b'\x01\x01\x00\x00\x00I.\xff!\xfd.J\xc09\xd6\x...,FECM-B3,12047,12047,,,,
154185,2020,2260003A,ESSEC Business School - Campus de Singapour (S...,Privés,Formations des écoles de commerce et de manage...,Formation des écoles de commerce et de managem...,Formation des écoles de commerce et de managem...,,,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,http://www.essec.edu/fr/programme/global-bba/b...,b'\x01\x01\x00\x00\x00\xdfO\x8d\x97n\xf2Y@c\x7...,FECM-B4,28455,26102,,,,


In [102]:
# gestion des valeurs manquantes, elles correspondent à des campus hors métropole 

carto['Région'] = carto["Région"].fillna("Campus hors métropole")

carto['Département'] = carto["Département"].fillna("Campus hors métropole")

#Suppression des colonnes composante_id_paysage	Internat, aut , etablissement_id_paysage	

col_a_supprimer = ["composante_id_paysage","Internat","aut","etablissement_id_paysage","Lien vers les données statistiques"]

carto = carto.drop(columns=col_a_supprimer)

carto.shape

(155912, 20)

In [111]:
carto["Rang du dernier candidat appelé"] = carto["Rang du dernier candidat appelé"].fillna(0)

In [112]:

valeurs_manquantes = pd.DataFrame({'valeurs manquantes' : carto.isna().sum()})
valeurs_manquantes = valeurs_manquantes.sort_values(by= 'valeurs manquantes', ascending = False)
valeurs_manquantes

Unnamed: 0,valeurs manquantes
Apprentissage,96879
Lien vers la fiche formation,36429
code_formation,16990
Site internet de l établissement,1125
Commune,773
nom de l établissement,0
Identifiant Etablissement,0
annee,0
Type d établissement,0
Mentions Spécialités,0


In [113]:
carto.dtypes

annee                                                  object
Identifiant Etablissement                              object
nom de l établissement                                 object
Type d établissement                                   object
Type de formation                                      object
Nom de la formation                                    object
Mentions Spécialités                                   object
Apprentissage                                          object
Aménagement                                            object
Région                                                 object
Département                                            object
Commune                                                object
Lien vers la fiche formation                           object
Site internet de l établissement                       object
etab_gps                                               object
Nom court de la formation                              object
GTA   Ge

In [114]:
carto["Rang du dernier candidat appelé"] = carto["Rang du dernier candidat appelé"].astype(int)
carto.dtypes

annee                                                  object
Identifiant Etablissement                              object
nom de l établissement                                 object
Type d établissement                                   object
Type de formation                                      object
Nom de la formation                                    object
Mentions Spécialités                                   object
Apprentissage                                          object
Aménagement                                            object
Région                                                 object
Département                                            object
Commune                                                object
Lien vers la fiche formation                           object
Site internet de l établissement                       object
etab_gps                                               object
Nom court de la formation                              object
GTA   Ge

In [119]:
carto.to_csv("sources_clean_powerBI/Cartographie_formations_pbi", index=False)

print("le fichier est prêt à être intégré dans PowerBI")

le fichier est prêt à être intégré dans PowerBI


### Vœux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements entre 2018 et 2025

In [88]:
periode = ["2018","2019","2020","2021","2022","2023","2024","2025"]

dataframes = []

for i in periode:
    fichier_parquet = "sources_brutes/fr-esr-parcoursup_"+i+".parquet"
    df = pd.read_parquet(fichier_parquet)
    dataframes.append(df)


for idx, df in enumerate(dataframes):
    print(f"\n--- Fichier {periode[idx]} ---")
    display(df.head(1))


--- Fichier 2018 ---


Unnamed: 0,session,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,fili,form_lib_voe_acc,regr_forma,...,pct_ab,pct_b,pct_tb,pct_bg,pct_bg_mention,pct_bt,pct_bt_mention,pct_bp,pct_bp_mention,tri
0,2018,0692437Z,Université Jean Moulin Lyon 3,69,Rhône,Auvergne-Rhône-Alpes,Lyon,Licence,Licence - Arts-lettres-langues,,...,0.0,0.0,0.0,100.0,0.0,0.0,0.0,0.0,0.0,1_universités



--- Fichier 2019 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,fili,form_lib_voe_acc,...,pct_ab,pct_b,pct_tb,pct_bg,pct_bg_mention,pct_bt,pct_bt_mention,pct_bp,pct_bp_mention,tri
0,2019,Privé,0783720V,ESEO Paris - Vélizy,78,Yvelines,Ile-de-France,Versailles,Autre formation,Formations d'ingénieurs,...,33.328125,7.142578,2.380859,100.0,42.851562,0.0,0.0,0.0,0.0,3_Autres formations



--- Fichier 2020 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,select_form,fili,...,lib_grp4,ran_grp4,lib_grp5,ran_grp5,taux_adm_psup,taux_adm_psup_pro,taux_adm_psup_gen,taux_adm_psup_techno,tri,cod_aff_form
0,2020,Privé sous contrat d'association,0754784T,Ecole de service social de la CRAMIF,75,Paris,Ile-de-France,Paris,formation selective,EFTS,...,,,,,57.0,42.0,31.0,19.0,3_Autres formations,23450



--- Fichier 2021 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,select_form,...,list_com,tri,cod_aff_form,lien_form_psup,taux_adm_psup,taux_adm_psup_gen,taux_adm_psup_techno,taux_adm_psup_pro,etablissement_id_paysage,composante_id_paysage
0,2021,Privé sous contrat d'association,0932019P,ESIEE Paris,93,Seine-Saint-Denis,Ile-de-France,Créteil,Noisy-le-Grand,formation sélective,...,Liste d'appel propre à cette formation,3_Autres formations,94,https://dossier.parcoursup.fr/Candidat/carte?g...,77.0,100.0,0.0,0.0,mFZJs,



--- Fichier 2022 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,lib_for_voe_ins,...,tri,cod_aff_form,detail_forma2,lien_form_psup,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro,etablissement_id_paysage,composante_id_paysage
0,2022,Public,0770926N,Lycée Francois Couperin,77,Seine-et-Marne,Ile-de-France,Créteil,Fontainebleau,CPGE - ECG - - Mathématiques appliquées + ESH,...,2_Lycées,31292,,https://dossier.parcoursup.fr/Candidats/public...,80.0,100.0,0.0,0.0,,



--- Fichier 2023 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,lib_for_voe_ins,...,tri,cod_aff_form,detail_forma2,lien_form_psup,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro,etablissement_id_paysage,composante_id_paysage
0,2023,Privé sous contrat d'association,0031041R,Lycée Anna Rodier,3,Allier,Auvergne-Rhône-Alpes,Clermont-Ferrand,Moulins,BTS - Services - Gestion de la PME,...,2_Lycées,2151,,https://dossier.parcoursup.fr/Candidats/public...,77.0,25.0,44.0,31.0,,



--- Fichier 2024 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,lib_for_voe_ins,...,tri,cod_aff_form,detail_forma2,lien_form_psup,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro,etablissement_id_paysage,composante_id_paysage
0,2024,Public,0870669E,Université de Limoges,87,Haute-Vienne,Nouvelle Aquitaine,Limoges,Limoges,Licence - Portail Droit - Droit Limoges,...,1_universités,10718,,https://dossier.parcoursup.fr/Candidats/public...,100,81.0,15.0,4.0,nkbwh,



--- Fichier 2025 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,lib_for_voe_ins,...,tri,cod_aff_form,detail_forma2,lien_form_psup,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro,etablissement_id_paysage,composante_id_paysage
0,2025,Public,0755976N,Université Paris Cité,75,Paris,Ile-de-France,Paris,Paris 6e Arrondissement,Licence - Parcours d'Accès Spécifique Santé (P...,...,1_universités,28097,,https://dossierappel.parcoursup.fr/Candidats/p...,27,99,1,0,,


In [None]:

# Liste des années
periode = ["2018", "2019", "2020", "2021", "2022", "2023", "2024", "2025"]

# Charger les DataFrames et stocker les colonnes dans l'ordre initial
dataframes = []
colonnes_par_annee = {}
for annee in periode:
    fichier_parquet = f"sources_brutes/fr-esr-parcoursup_{annee}.parquet"
    df = pd.read_parquet(fichier_parquet)
    colonnes_par_annee[annee] = df.columns.tolist()  # Conserver l'ordre initial
    dataframes.append(df)

# Lister toutes les colonnes uniques dans l'ordre d'apparition
toutes_colonnes = []
for annee in periode:
    for colonne in colonnes_par_annee[annee]:
        if colonne not in toutes_colonnes:
            toutes_colonnes.append(colonne)

# Ajouter les colonnes manquantes à chaque DataFrame (remplies de NaN)
for i, annee in enumerate(periode):
    df = dataframes[i]
    for colonne in toutes_colonnes:
        if colonne not in df.columns:
            df[colonne] = np.nan  
    # Réorganiser les colonnes dans l'ordre de toutes_colonnes
    df = df[toutes_colonnes]
    dataframes[i] = df

# Concaténer les DataFrames
voeux = pd.concat(dataframes, ignore_index=True)

# Afficher un aperçu du résultat
print("Aperçu du DataFrame concaténé :")
print(f"le DataFrame concaténé contient {len(voeux)} lignes")
display(voeux.head())


Aperçu du DataFrame concaténé :
le DataFrame concaténé contient 104274 lignes


Unnamed: 0,session,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,fili,form_lib_voe_acc,regr_forma,...,detail_forma2,acc_tbf,pct_tbf,list_com,etablissement_id_paysage,composante_id_paysage,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro
0,2018,0692437Z,Université Jean Moulin Lyon 3,69,Rhône,Auvergne-Rhône-Alpes,Lyon,Licence,Licence - Arts-lettres-langues,,...,,,,,,,,,,
1,2018,0751717J,Université Paris 1 Panthéon Sorbonne,75,Paris,Ile-de-France,Paris,Autre formation,DU,,...,,,,,,,,,,
2,2018,0931827F,Université Paris 8,93,Seine-Saint-Denis,Ile-de-France,Créteil,Licence,Licence - Sciences humaines et sociales,,...,,,,,,,,,,
3,2018,0921204J,Université Paris Nanterre,92,Hauts-de-Seine,Ile-de-France,Versailles,Licence,Licence - Arts-lettres-langues,,...,,,,,,,,,,
4,2018,0921204J,Université Paris Nanterre,92,Hauts-de-Seine,Ile-de-France,Versailles,Licence,Licence - Arts-lettres-langues,,...,,,,,,,,,,


### Propositions d'admission dans l'enseignement supérieur des élèves de terminale diplômés du baccalauréat général selon leurs enseignements de spécialité