## **Projet Analyse Parcoursup**

### __Analyse sous 3 axes__:

-  Cartographie des formations Parcoursup (période 2020 à 2026)
-  Vœux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements entre 2018 et 2025
-  Propositions d'admission dans l'enseignement supérieur des élèves de terminale diplômés du baccalauréat général selon leurs enseignements de spécialité

Sources des données:

https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-cartographie_formations_parcoursup/autres_jeux/?disjunctive.tf&disjunctive.nm&disjunctive.fl&disjunctive.nmc&disjunctive.amg

In [150]:
#Configuration de l'environnement:

import pandas as pd
import numpy as np


In [151]:
# configuration des options d'affichage

#pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)

pd.reset_option('display.max_columns')
pd.reset_option('display.max_rows')


### Cartographie des formations Parcoursup (période 2020 à 2026)

In [152]:
carto = pd.read_parquet("sources_brutes/fr-esr-cartographie_formations_parcoursup.parquet")

carto.head(1)



Unnamed: 0,annee,etab_uai,etab_nom,tc,tf,nm,fl,app,int,amg,...,dataviz,etab_url,etab_gps,nmc,gta,gti,etablissement_id_paysage,composante_id_paysage,rnd,code_formation
0,2026,0632084Y,Université Clermont Auvergne (Clermont-Ferrand...,Publics,"Etudes de santé,Licence",Licence - Parcours d'Accès Spécifique Santé (P...,L1 - Parcours d'Accès Spécifique Santé (PASS),,,"Enseignement partiellement à distance,Formatio...",...,https://data.enseignementsup-recherche.gouv.fr...,http://www.uca.fr,b'\x01\x01\x00\x00\x00JF\xce\xc2\x9e\xb6\x08@S...,PASS,26631,26629,K4lR3,,5660,2047


In [153]:
col = pd.DataFrame(carto.columns)

col

Unnamed: 0,0
0,annee
1,etab_uai
2,etab_nom
3,tc
4,tf
5,nm
6,fl
7,app
8,int
9,amg


In [154]:
#Renommage des colonnes

colonnes = {
    'etab_uai':'Identifiant Etablissement',
    'etab_nom':'nom de l établissement',
    'tc':'Type d établissement',
    'tf':'Type de formation',
    'nm':'Nom de la formation',
    'fl':'Mentions Spécialités',
    'app':'Apprentissage',
    'int':'Internat',
    'amg':'Aménagement',
    'region':'Région',
    'departement':'Département',
    'commune':'Commune',
    'fiche':'Lien vers la fiche formation',
    'dataviz':'Lien vers les données statistiques',
    'etab_url':'Site internet de l établissement',
    'nmc':'Nom court de la formation',
    'gta':'GTA   Gestion des Désistements en Phase d Admission',
    'gti':'GTI   Groupe de Traitement des Inscriptions',
    'rnd':'Rang du dernier candidat appelé'
}

carto = carto.rename(columns=colonnes)
carto.head(1)

Unnamed: 0,annee,Identifiant Etablissement,nom de l établissement,Type d établissement,Type de formation,Nom de la formation,Mentions Spécialités,Apprentissage,Internat,Aménagement,...,Lien vers les données statistiques,Site internet de l établissement,etab_gps,Nom court de la formation,GTA Gestion des Désistements en Phase d Admission,GTI Groupe de Traitement des Inscriptions,etablissement_id_paysage,composante_id_paysage,Rang du dernier candidat appelé,code_formation
0,2026,0632084Y,Université Clermont Auvergne (Clermont-Ferrand...,Publics,"Etudes de santé,Licence",Licence - Parcours d'Accès Spécifique Santé (P...,L1 - Parcours d'Accès Spécifique Santé (PASS),,,"Enseignement partiellement à distance,Formatio...",...,https://data.enseignementsup-recherche.gouv.fr...,http://www.uca.fr,b'\x01\x01\x00\x00\x00JF\xce\xc2\x9e\xb6\x08@S...,PASS,26631,26629,K4lR3,,5660,2047


In [155]:
carto.describe(include="all")

Unnamed: 0,annee,Identifiant Etablissement,nom de l établissement,Type d établissement,Type de formation,Nom de la formation,Mentions Spécialités,Apprentissage,Internat,Aménagement,...,Lien vers les données statistiques,Site internet de l établissement,etab_gps,Nom court de la formation,GTA Gestion des Désistements en Phase d Admission,GTI Groupe de Traitement des Inscriptions,etablissement_id_paysage,composante_id_paysage,Rang du dernier candidat appelé,code_formation
count,155912,155912,155912,155912,155912,155912,155912,59033,5216,155912,...,90185,154787,155912,155912,155912,155912,49771,1846,138922,138922
unique,7,7597,11590,6,85,11433,1897,1,3,24,...,15663,8650,11507,1677,34048,30676,505,106,32313,1291
top,2025,0673021V,Université de Lille (59),Publics,BTS - BTSA - BTSM,BTS - Services - Management Commercial Opérati...,BTS - Management Commercial Opérationnel,Formations en apprentissage,Etablissements avec internat pour filles et ga...,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,http://formations.univ-amu.fr,"b'\x01\x01\x00\x00\x00\x06\r\xfd\x13\\,\x03@#J...",BTS-MCO-App,2480,166,xJdyB,Ib4aA,0,11423
freq,25827,684,862,94825,80919,5636,8108,59033,5040,105087,...,7,1004,612,4889,7,486,1277,65,104,5374


In [156]:

valeurs_manquantes = pd.DataFrame({'valeurs manquantes' : carto.isna().sum()})
valeurs_manquantes = valeurs_manquantes.sort_values(by= 'valeurs manquantes', ascending = False)
valeurs_manquantes

Unnamed: 0,valeurs manquantes
composante_id_paysage,154066
Internat,150696
aut,129635
etablissement_id_paysage,106141
Apprentissage,96879
Lien vers les données statistiques,65727
Lien vers la fiche formation,36429
code_formation,16990
Rang du dernier candidat appelé,16990
Site internet de l établissement,1125


In [157]:
region_vide = carto[carto["Région"].isna()]
region_vide.head()

Unnamed: 0,annee,Identifiant Etablissement,nom de l établissement,Type d établissement,Type de formation,Nom de la formation,Mentions Spécialités,Apprentissage,Internat,Aménagement,...,Lien vers les données statistiques,Site internet de l établissement,etab_gps,Nom court de la formation,GTA Gestion des Désistements en Phase d Admission,GTI Groupe de Traitement des Inscriptions,etablissement_id_paysage,composante_id_paysage,Rang du dernier candidat appelé,code_formation
419,2026,3500067W,ESSEC Business School - Global BBA - track fra...,Privés en contrat avec l’Etat / EESC,Formations des écoles de commerce et de manage...,Formation des écoles de commerce et de managem...,Formation des écoles de commerce et de managem...,,,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,https://www.essec.edu/fr/campus/rabat/,b'\x01\x01\x00\x00\x00\xabx#\xf3\xc8\xff\x1a\x...,FECM-B4,31987,26102,,,6628,242
639,2026,0763381M,Sciences Po - campus du Havre - Keio Universit...,Publics,Sciences Po - Instituts d'études politiques,Sciences Po / Instituts d'études politiques - ...,Sciences Po / Instituts d'études politiques - ...,,,"Enseignement en présentiel,Formations avec amé...",...,,http://www.sciencespo.fr/,b'\x01\x01\x00\x00\x00\x89$z\x19\xc5wa@\x89\x0...,ScPo-Lic,34466,32570,u79ZJ,4hGhl,4794,291
641,2026,0542407Y,Sciences Po - campus de Nancy - Freie Universi...,Publics,Sciences Po - Instituts d'études politiques,Double diplôme Sciences Po (Programme européen...,Sciences Po / Instituts d'études politiques - ...,,,"Enseignement en présentiel,Formations avec amé...",...,,http://www.sciencespo.fr/,b'\x01\x01\x00\x00\x00\xcaO\xaa}:\x8e*@oG8-x9J@',ScPo-Lic,34475,32569,u79ZJ,lp6tu,19029,291
1095,2026,1360003P,EM Normandie - Programme Grande Ecole - Campus...,Privés en contrat avec l’Etat / EESC,Formations des écoles de commerce et de manage...,Formation des écoles de commerce et de managem...,Formation des écoles de commerce et de managem...,,,Enseignement en présentiel,...,https://data.enseignementsup-recherche.gouv.fr...,https://www.em-normandie.com/fr,b'\x01\x01\x00\x00\x00\xa8\x18\xe7oB\x01\x19\x...,FECM-B5,39294,26102,,,24821,240
2900,2026,T171435T,EIGSI Casablanca (Maroc) (Maroc),Privés en contrat avec l’Etat / EESC,Formations des écoles d'ingénieurs,Formation d'ingénieur Bac + 5 - Bac série géné...,Formation d'ingénieur Bac + 5,,,"Enseignement en présentiel,Formations avec amé...",...,,https://www.eigsica.ma/,b'\x01\x01\x00\x00\x00\xf6\x7f\x0e\xf3\xe5\x85...,FI-BAC5,50569,50563,,,3377,210


In [158]:
# gestion des valeurs manquantes, elles correspondent à des campus hors métropole 

carto['Région'] = carto["Région"].fillna("Campus hors métropole")

carto['Département'] = carto["Département"].fillna("Campus hors métropole")

#Suppression des colonnes composante_id_paysage	Internat, aut , etablissement_id_paysage	

col_a_supprimer = ["composante_id_paysage","Internat","aut","etablissement_id_paysage","Lien vers les données statistiques"]

carto = carto.drop(columns=col_a_supprimer)

carto.shape

(155912, 20)

In [159]:
carto["Rang du dernier candidat appelé"] = carto["Rang du dernier candidat appelé"].fillna(0)

In [160]:

valeurs_manquantes = pd.DataFrame({'valeurs manquantes' : carto.isna().sum()})
valeurs_manquantes = valeurs_manquantes.sort_values(by= 'valeurs manquantes', ascending = False)
valeurs_manquantes

Unnamed: 0,valeurs manquantes
Apprentissage,96879
Lien vers la fiche formation,36429
code_formation,16990
Site internet de l établissement,1125
Commune,773
nom de l établissement,0
Identifiant Etablissement,0
annee,0
Type d établissement,0
Mentions Spécialités,0


In [161]:
carto.dtypes

annee                                                  object
Identifiant Etablissement                              object
nom de l établissement                                 object
Type d établissement                                   object
Type de formation                                      object
Nom de la formation                                    object
Mentions Spécialités                                   object
Apprentissage                                          object
Aménagement                                            object
Région                                                 object
Département                                            object
Commune                                                object
Lien vers la fiche formation                           object
Site internet de l établissement                       object
etab_gps                                               object
Nom court de la formation                              object
GTA   Ge

In [162]:
carto["Rang du dernier candidat appelé"] = carto["Rang du dernier candidat appelé"].astype(int)
carto.dtypes

annee                                                  object
Identifiant Etablissement                              object
nom de l établissement                                 object
Type d établissement                                   object
Type de formation                                      object
Nom de la formation                                    object
Mentions Spécialités                                   object
Apprentissage                                          object
Aménagement                                            object
Région                                                 object
Département                                            object
Commune                                                object
Lien vers la fiche formation                           object
Site internet de l établissement                       object
etab_gps                                               object
Nom court de la formation                              object
GTA   Ge

### Vœux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements entre 2018 et 2025

In [163]:
periode = ["2018","2019","2020","2021","2022","2023","2024","2025"]

dataframes = []

for i in periode:
    fichier_parquet = "sources_brutes/fr-esr-parcoursup_"+i+".parquet"
    df = pd.read_parquet(fichier_parquet)
    dataframes.append(df)


for idx, df in enumerate(dataframes):
    print(f"\n--- Fichier {periode[idx]} ---")
    display(df.head(1))


--- Fichier 2018 ---


Unnamed: 0,session,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,fili,form_lib_voe_acc,regr_forma,...,pct_ab,pct_b,pct_tb,pct_bg,pct_bg_mention,pct_bt,pct_bt_mention,pct_bp,pct_bp_mention,tri
0,2018,0692437Z,Université Jean Moulin Lyon 3,69,Rhône,Auvergne-Rhône-Alpes,Lyon,Licence,Licence - Arts-lettres-langues,,...,0.0,0.0,0.0,100.0,0.0,0.0,0.0,0.0,0.0,1_universités



--- Fichier 2019 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,fili,form_lib_voe_acc,...,pct_ab,pct_b,pct_tb,pct_bg,pct_bg_mention,pct_bt,pct_bt_mention,pct_bp,pct_bp_mention,tri
0,2019,Privé,0783720V,ESEO Paris - Vélizy,78,Yvelines,Ile-de-France,Versailles,Autre formation,Formations d'ingénieurs,...,33.328125,7.142578,2.380859,100.0,42.851562,0.0,0.0,0.0,0.0,3_Autres formations



--- Fichier 2020 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,select_form,fili,...,lib_grp4,ran_grp4,lib_grp5,ran_grp5,taux_adm_psup,taux_adm_psup_pro,taux_adm_psup_gen,taux_adm_psup_techno,tri,cod_aff_form
0,2020,Privé sous contrat d'association,0754784T,Ecole de service social de la CRAMIF,75,Paris,Ile-de-France,Paris,formation selective,EFTS,...,,,,,57.0,42.0,31.0,19.0,3_Autres formations,23450



--- Fichier 2021 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,select_form,...,list_com,tri,cod_aff_form,lien_form_psup,taux_adm_psup,taux_adm_psup_gen,taux_adm_psup_techno,taux_adm_psup_pro,etablissement_id_paysage,composante_id_paysage
0,2021,Privé sous contrat d'association,0932019P,ESIEE Paris,93,Seine-Saint-Denis,Ile-de-France,Créteil,Noisy-le-Grand,formation sélective,...,Liste d'appel propre à cette formation,3_Autres formations,94,https://dossier.parcoursup.fr/Candidat/carte?g...,77.0,100.0,0.0,0.0,mFZJs,



--- Fichier 2022 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,lib_for_voe_ins,...,tri,cod_aff_form,detail_forma2,lien_form_psup,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro,etablissement_id_paysage,composante_id_paysage
0,2022,Public,0770926N,Lycée Francois Couperin,77,Seine-et-Marne,Ile-de-France,Créteil,Fontainebleau,CPGE - ECG - - Mathématiques appliquées + ESH,...,2_Lycées,31292,,https://dossier.parcoursup.fr/Candidats/public...,80.0,100.0,0.0,0.0,,



--- Fichier 2023 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,lib_for_voe_ins,...,tri,cod_aff_form,detail_forma2,lien_form_psup,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro,etablissement_id_paysage,composante_id_paysage
0,2023,Privé sous contrat d'association,0031041R,Lycée Anna Rodier,3,Allier,Auvergne-Rhône-Alpes,Clermont-Ferrand,Moulins,BTS - Services - Gestion de la PME,...,2_Lycées,2151,,https://dossier.parcoursup.fr/Candidats/public...,77.0,25.0,44.0,31.0,,



--- Fichier 2024 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,lib_for_voe_ins,...,tri,cod_aff_form,detail_forma2,lien_form_psup,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro,etablissement_id_paysage,composante_id_paysage
0,2024,Public,0870669E,Université de Limoges,87,Haute-Vienne,Nouvelle Aquitaine,Limoges,Limoges,Licence - Portail Droit - Droit Limoges,...,1_universités,10718,,https://dossier.parcoursup.fr/Candidats/public...,100,81.0,15.0,4.0,nkbwh,



--- Fichier 2025 ---


Unnamed: 0,session,contrat_etab,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,ville_etab,lib_for_voe_ins,...,tri,cod_aff_form,detail_forma2,lien_form_psup,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro,etablissement_id_paysage,composante_id_paysage
0,2025,Public,0755976N,Université Paris Cité,75,Paris,Ile-de-France,Paris,Paris 6e Arrondissement,Licence - Parcours d'Accès Spécifique Santé (P...,...,1_universités,28097,,https://dossierappel.parcoursup.fr/Candidats/p...,27,99,1,0,,


In [164]:

# Liste des années
periode = ["2018", "2019", "2020", "2021", "2022", "2023", "2024", "2025"]

# Charger les DataFrames et stocker les colonnes dans l'ordre initial
dataframes = []
colonnes_par_annee = {}
for annee in periode:
    fichier_parquet = f"sources_brutes/fr-esr-parcoursup_{annee}.parquet"
    df = pd.read_parquet(fichier_parquet)
    colonnes_par_annee[annee] = df.columns.tolist()  # Conserver l'ordre initial
    dataframes.append(df)

# Lister toutes les colonnes uniques dans l'ordre d'apparition
toutes_colonnes = []
for annee in periode:
    for colonne in colonnes_par_annee[annee]:
        if colonne not in toutes_colonnes:
            toutes_colonnes.append(colonne)

# Ajouter les colonnes manquantes à chaque DataFrame (remplies de NaN)
for i, annee in enumerate(periode):
    df = dataframes[i]
    for colonne in toutes_colonnes:
        if colonne not in df.columns:
            df[colonne] = np.nan  
    # Réorganiser les colonnes dans l'ordre de toutes_colonnes
    df = df[toutes_colonnes]
    dataframes[i] = df

# Concaténer les DataFrames
voeux = pd.concat(dataframes, ignore_index=True)

# Afficher un aperçu du résultat
print("Aperçu du DataFrame concaténé :")
print(f"le DataFrame concaténé contient {len(voeux)} lignes")
display(voeux.head())


Aperçu du DataFrame concaténé :
le DataFrame concaténé contient 104274 lignes


Unnamed: 0,session,cod_uai,g_ea_lib_vx,dep,dep_lib,region_etab_aff,acad_mies,fili,form_lib_voe_acc,regr_forma,...,detail_forma2,acc_tbf,pct_tbf,list_com,etablissement_id_paysage,composante_id_paysage,taux_acces_ens,part_acces_gen,part_acces_tec,part_acces_pro
0,2018,0692437Z,Université Jean Moulin Lyon 3,69,Rhône,Auvergne-Rhône-Alpes,Lyon,Licence,Licence - Arts-lettres-langues,,...,,,,,,,,,,
1,2018,0751717J,Université Paris 1 Panthéon Sorbonne,75,Paris,Ile-de-France,Paris,Autre formation,DU,,...,,,,,,,,,,
2,2018,0931827F,Université Paris 8,93,Seine-Saint-Denis,Ile-de-France,Créteil,Licence,Licence - Sciences humaines et sociales,,...,,,,,,,,,,
3,2018,0921204J,Université Paris Nanterre,92,Hauts-de-Seine,Ile-de-France,Versailles,Licence,Licence - Arts-lettres-langues,,...,,,,,,,,,,
4,2018,0921204J,Université Paris Nanterre,92,Hauts-de-Seine,Ile-de-France,Versailles,Licence,Licence - Arts-lettres-langues,,...,,,,,,,,,,


In [165]:
col_voeux = pd.DataFrame(voeux.columns)

col_voeux

Unnamed: 0,0
0,session
1,cod_uai
2,g_ea_lib_vx
3,dep
4,dep_lib
...,...
123,composante_id_paysage
124,taux_acces_ens
125,part_acces_gen
126,part_acces_tec


In [166]:
#suppression des colonnes à supprimer (deja présentes dans cartographie pour les établissements )
# suppression du référentiel paysage (non systématiquement renseigné)

col_a_supprimer = ['g_ea_lib_vx','dep','dep_lib','region_etab_aff','lien_form_psup',
'g_olocalisation_des_formations','etablissement_id_paysage','composante_id_paysage','contrat_etab'
]

voeux = voeux.drop(columns=col_a_supprimer)

voeux.shape

(104274, 119)

In [167]:
#renommage des intitulés de colonnes:

mapping_renommage = {
   'session':'annee',
    'cod_uai':'Identifiant Etablissement',
    'acad_mies':'Académie',
    'fili':'Filière de formation',
    'form_lib_voe_acc':'Libellé de la formation (tel qu affiché aux candidats)',
    'regr_forma':'Régime de la formation',
    'fil_lib_voe_acc':'Libellé de la filière (tel qu affiché aux candidats)',
    'detail_forma':'Détails sur la formation',
    'capa_fin':'Capacité d accueil finale de la formation',
    'voe_tot':'Nombre total de vœux confirmés',
    'voe_tot_f':'Nombre total de vœux confirmés par des filles',
    'nb_voe_pp':'Nombre de vœux confirmés en phase principale',
    'nb_voe_pp_internat':'Nombre de vœux confirmés en phase principale pour l internat',
    'nb_voe_pp_bg':'Nombre de vœux confirmés en phase principale par des bacheliers généraux',
    'nb_voe_pp_bg_brs':'Nombre de vœux confirmés en phase principale par des bacheliers généraux boursiers',
    'nb_voe_pp_bt':'Nombre de vœux confirmés en phase principale par des bacheliers technologiques',
    'nb_voe_pp_bt_brs':'Nombre de vœux confirmés en phase principale par des bacheliers technologiques boursiers',
    'nb_voe_pp_bp':'Nombre de vœux confirmés en phase principale par des bacheliers professionnels',
    'nb_voe_pp_bp_brs':'Nombre de vœux confirmés en phase principale par des bacheliers professionnels boursiers',
    'nb_voe_pp_at':'Nombre de vœux confirmés en phase principale en apprentissage',
    'nb_voe_pc':'Nombre de vœux confirmés en phase complémentaire',
    'nb_voe_pc_bg':'Nombre de vœux confirmés en phase complémentaire par des bacheliers généraux',
    'nb_voe_pc_bt':'Nombre de vœux confirmés en phase complémentaire par des bacheliers technologiques',
    'nb_voe_pc_bp':'Nombre de vœux confirmés en phase complémentaire par des bacheliers professionnels',
    'nb_voe_pc_at':'Nombre de vœux confirmés en phase complémentaire en apprentissage',
    'nb_cla_pp':'Nombre de candidats en liste d appel en phase principale',
    'nb_cla_pc':'Nombre de candidats en liste d appel en phase complémentaire',
    'nb_cla_pp_internat':'Nombre de candidats en liste d appel en phase principale pour l internat',
    'nb_cla_pp_pasinternat':'Nombre de candidats en liste d appel en phase principale sans internat',
    'nb_cla_pp_bg':'Nombre de candidats en liste d appel en phase principale parmi les bacheliers généraux',
    'nb_cla_pp_bg_brs':'Nombre de candidats en liste d appel en phase principale parmi les bacheliers généraux boursiers',
    'nb_cla_pp_bt':'Nombre de candidats en liste d appel en phase principale parmi les bacheliers technologiques',
    'nb_cla_pp_bt_brs':'Nombre de candidats en liste d appel en phase principale parmi les bacheliers technologiques boursiers',
    'nb_cla_pp_bp':'Nombre de candidats en liste d appel en phase principale parmi les bacheliers professionnels',
    'nb_cla_pp_bp_brs':'Nombre de candidats en liste d appel en phase principale parmi les bacheliers professionnels boursiers',
    'nb_cla_pp_at':'Nombre de candidats en liste d appel en phase principale en apprentissage',
    'prop_tot':'Nombre total de propositions d admission',
    'rang_der_max':'Rang du dernier candidat appelé',
    'acc_tot':'Nombre total d acceptations',
    'acc_tot_f':'Nombre total d acceptations par des filles',
    'acc_pp':'Nombre d acceptations en phase principale',
    'acc_pc':'Nombre d acceptations en phase complémentaire',
    'acc_internat':'Nombre d acceptations pour l internat',
    'acc_brs':'Nombre d acceptations par des boursiers',
    'acc_neobac':'Nombre d acceptations par des néo-bacheliers',
    'acc_bg':'Nombre d acceptations par des bacheliers généraux',
    'acc_bt':'Nombre d acceptations par des bacheliers technologiques',
    'acc_bp':'Nombre d acceptations par des bacheliers professionnels',
    'acc_at':'Nombre d acceptations en apprentissage',
    'acc_mention_nonrenseignee':'Nombre d acceptations avec mention non renseignée',
    'acc_sansmention':'Nombre d acceptations sans mention',
    'acc_ab':'Nombre d acceptations avec mention Assez Bien',
    'acc_b':'Nombre d acceptations avec mention Bien',
    'acc_tb':'Nombre d acceptations avec mention Très Bien',
    'acc_bg_mention':'Nombre d acceptations avec mention parmi les bacheliers généraux',
    'acc_bt_mention':'Nombre d acceptations avec mention parmi les bacheliers technologiques',
    'acc_bp_mention':'Nombre d acceptations avec mention parmi les bacheliers professionnels',
    'acc_term':'Nombre d acceptations parmi les terminales',
    'acc_term_f':'Nombre d acceptations parmi les terminales filles',
    'acc_aca_orig':'Nombre d acceptations par académie d origine',
    'acc_aca_orig_idf':'Nombre d acceptations par académie d origine en Île-de-France',
    'pct_f':'Pourcentage de filles parmi les acceptations',
    'pct_aca_orig':'Pourcentage d acceptations par académie d origine',
    'pct_aca_orig_idf':'Pourcentage d acceptations par académie d origine en Île-de-France',
    'pct_etab_orig':'Pourcentage d acceptations par établissement d origine',
    'pct_bours':'Pourcentage d acceptations par des boursiers',
    'pct_neobac':'Pourcentage d acceptations par des néo-bacheliers',
    'pct_mention_nonrenseignee':'Pourcentage d acceptations avec mention non renseignée',
    'pct_sansmention':'Pourcentage d acceptations sans mention',
    'pct_ab':'Pourcentage d acceptations avec mention Assez Bien',
    'pct_b':'Pourcentage d acceptations avec mention Bien',
    'pct_tb':'Pourcentage d acceptations avec mention Très Bien',
    'pct_bg':'Pourcentage d acceptations parmi les bacheliers généraux',
    'pct_bg_mention':'Pourcentage d acceptations avec mention parmi les bacheliers généraux',
    'pct_bt':'Pourcentage d acceptations parmi les bacheliers technologiques',
    'pct_bt_mention':'Pourcentage d acceptations avec mention parmi les bacheliers technologiques',
    'pct_bp':'Pourcentage d acceptations parmi les bacheliers professionnels',
    'pct_bp_mention':'Pourcentage d acceptations avec mention parmi les bacheliers professionnels',
    'tri':'Tri des données',
    'acc_debutpp':'Nombre d acceptations en début de phase principale',
    'acc_datebac':'Nombre d acceptations à la date du bac',
    'acc_finpp':'Nombre d acceptations en fin de phase principale',
    'pct_acc_debutpp':'Pourcentage d acceptations en début de phase principale',
    'pct_acc_datebac':'Pourcentage d acceptations à la date du bac',
    'pct_acc_finpp':'Pourcentage d acceptations en fin de phase principale',
    'select_form':'Sélectivité de la formation',
    'lib_comp_voe_ins':'Filière de formation détaillée',
    'prop_tot_bg':'Proportion totale de propositions pour les bacheliers généraux',
    'prop_tot_bg_brs':'Proportion totale de propositions pour les bacheliers généraux boursiers',
    'prop_tot_bt':'Proportion totale de propositions pour les bacheliers technologiques',
    'prop_tot_bt_brs':'Proportion totale de propositions pour les bacheliers technologiques boursiers',
    'prop_tot_bp':'Proportion totale de propositions pour les bacheliers professionnels',
    'prop_tot_bp_brs':'Proportion totale de propositions pour les bacheliers professionnels boursiers',
    'prop_tot_at':'Proportion totale de propositions pour l apprentissage',
    'lib_grp1':'Libellé du groupe 1 ',
    'ran_grp1':'Rang du dernier candidat appelé dans le groupe 1',
    'lib_grp2':'Libellé du groupe 2',
    'ran_grp2':'Rang du dernier candidat appelé dans le groupe 2',
    'lib_grp3':'Libellé du groupe 3',
    'ran_grp3':'Rang du dernier candidat appelé dans le groupe 3',
    'lib_grp4':'Libellé du groupe 4',
    'ran_grp4':'Rang du dernier candidat appelé dans le groupe 4',
    'lib_grp5':'Libellé du groupe 5',
    'ran_grp5':'Rang du dernier candidat appelé dans le groupe 5',
    'taux_adm_psup':'Taux d admission sur Parcoursup',
    'taux_adm_psup_pro':'Taux d admission sur Parcoursup pour les formations professionnelles',
    'taux_adm_psup_gen':'Taux d admission sur Parcoursup pour les formations générales',
    'taux_adm_psup_techno':'Taux d admission sur Parcoursup pour les formations technologiques',
    'cod_aff_form':'Code affectation de la formation',
    'ville_etab':'Commune',
    'lib_for_voe_ins':'Libellé de la formation pour les vœux d inscription',
    'detail_forma2':'Détails supplémentaires sur la formation',
    'acc_tbf':'Nombre d acceptations avec mention Très Bien avec Félicitations',
    'pct_tbf':'Pourcentage d acceptations avec mention Très Bien avec Félicitations',
    'list_com':'Liste d appel',
    'taux_acces_ens':'Taux d accès à l enseignement supérieur',
    'part_acces_gen':'Part d accès pour les bacheliers généraux',
    'part_acces_tec':'Part d accès pour les bacheliers technologiques',
    'part_acces_pro':'Part d accès pour les bacheliers professionnels' 
}

voeux = voeux.rename(columns=mapping_renommage)

voeux.head(1)

Unnamed: 0,annee,Identifiant Etablissement,Académie,Filière de formation,Libellé de la formation (tel qu affiché aux candidats),Régime de la formation,Libellé de la filière (tel qu affiché aux candidats),Détails sur la formation,Capacité d accueil finale de la formation,Nombre total de vœux confirmés,...,Commune,Libellé de la formation pour les vœux d inscription,Détails supplémentaires sur la formation,Nombre d acceptations avec mention Très Bien avec Félicitations,Pourcentage d acceptations avec mention Très Bien avec Félicitations,Liste d appel,Taux d accès à l enseignement supérieur,Part d accès pour les bacheliers généraux,Part d accès pour les bacheliers technologiques,Part d accès pour les bacheliers professionnels
0,2018,0692437Z,Lyon,Licence,Licence - Arts-lettres-langues,,"Langues, littératures & civilisations étrangèr...","Langues, Littératures et Civilisations Etrangè...",11.0,50,...,,,,,,,,,,


In [168]:
voeux.describe(include = "all")

Unnamed: 0,annee,Identifiant Etablissement,Académie,Filière de formation,Libellé de la formation (tel qu affiché aux candidats),Régime de la formation,Libellé de la filière (tel qu affiché aux candidats),Détails sur la formation,Capacité d accueil finale de la formation,Nombre total de vœux confirmés,...,Commune,Libellé de la formation pour les vœux d inscription,Détails supplémentaires sur la formation,Nombre d acceptations avec mention Très Bien avec Félicitations,Pourcentage d acceptations avec mention Très Bien avec Félicitations,Liste d appel,Taux d accès à l enseignement supérieur,Part d accès pour les bacheliers généraux,Part d accès pour les bacheliers technologiques,Part d accès pour les bacheliers professionnels
count,104274.0,104274,104274,104274,104274,1139,104274,29275,104254.0,104274.0,...,69240,69240,3506,69240.0,69014.0,69240,55473.0,55812.0,55812.0,55812.0
unique,8.0,4521,37,13,79,71,958,7061,,,...,1331,6368,216,,,2,201.0,203.0,191.0,201.0
top,2025.0,0673021V,Paris,BTS,BTS - Services,Concours Puissance Alpha,Comptabilité et gestion,Anglais,,,...,Toulouse,BTS - Services - Management Commercial Opérati...,Concours Puissance Alpha,,,Liste d'appel propre à cette formation,100.0,100.0,0.0,0.0
freq,14252.0,718,7349,41966,23957,294,2796,322,,,...,1596,1709,824,,,39191,2360.0,6340.0,7475.0,13173.0
mean,,,,,,,,,57.566271,853.649769,...,,,,0.519743,0.929758,,,,,
std,,,,,,,,,107.584469,1414.021465,...,,,,4.075638,4.569911,,,,,
min,,,,,,,,,0.0,0.0,...,,,,0.0,0.0,,,,,
25%,,,,,,,,,20.0,173.0,...,,,,0.0,0.0,,,,,
50%,,,,,,,,,32.0,385.0,...,,,,0.0,0.0,,,,,
75%,,,,,,,,,52.0,905.0,...,,,,0.0,0.0,,,,,


In [169]:
valeurs_manquantes = pd.DataFrame({'valeurs manquantes' : voeux.isna().sum()})
valeurs_manquantes = valeurs_manquantes.sort_values(by= 'valeurs manquantes', ascending = False)
valeurs_manquantes.head(25)

Unnamed: 0,valeurs manquantes
Libellé du groupe 4,104260
Rang du dernier candidat appelé dans le groupe 4,104260
Rang du dernier candidat appelé dans le groupe 5,104260
Libellé du groupe 5,104260
Régime de la formation,103135
Détails supplémentaires sur la formation,100768
Nombre de vœux confirmés en phase principale pour l internat,96839
Nombre de candidats en liste d appel en phase principale pour l internat,96839
Nombre d acceptations pour l internat,96839
Nombre de candidats en liste d appel en phase principale sans internat,96839


In [170]:
voeux = voeux.fillna(0)

In [171]:
type = pd.DataFrame(voeux.dtypes)
type

Unnamed: 0,0
annee,object
Identifiant Etablissement,object
Académie,object
Filière de formation,object
Libellé de la formation (tel qu affiché aux candidats),object
...,...
Liste d appel,object
Taux d accès à l enseignement supérieur,object
Part d accès pour les bacheliers généraux,object
Part d accès pour les bacheliers technologiques,object


### Propositions d'admission dans l'enseignement supérieur des élèves de terminale diplômés du baccalauréat général selon leurs enseignements de spécialité

In [172]:
dim_admissions = pd.read_parquet("sources_brutes/fr-esr-parcoursup-enseignements-de-specialite-bacheliers-generaux-2.parquet")

dim_admissions.head()

Unnamed: 0,annee_du_bac,doublette,formation,voeux,propositions_d_admissions,acceptations
0,2021,"Art,Art",Licence Histoire,1,0.0,0
1,2021,"Art,Art","Licence Mécanique, Génie mécanique, Ingénierie...",0,0.0,0
2,2021,"Art,Humanités, Littérature et Philosophie",Licence Sciences et technologies industrielles,18,9.0,4
3,2021,"Art,Humanités, Littérature et Philosophie",DEUST,82,27.0,15
4,2021,"Art,Langues, littératures et cultures étrangèr...",Licence Géographie,83,39.0,11


In [173]:
len(dim_admissions)

17420

### finalisation des tables de dimensions et de faits



In [174]:
#création de la table établissements:

col_etablissements = ['Identifiant Etablissement', 'nom de l établissement',
       'Type d établissement','Région',
       'Département', 'Commune','Site internet de l établissement', 'etab_gps']

dim_etablissements = carto[col_etablissements]

dim_etablissements = dim_etablissements.drop_duplicates(subset='Identifiant Etablissement')

len(dim_etablissements)


7597

In [175]:
# rapatriement de la colonne Académie (présente dans voeux)

académie = voeux[['Identifiant Etablissement','Académie']]
académie = académie.drop_duplicates(subset='Identifiant Etablissement')

print(académie.isna().sum())

print(f"Avant merge l'extrait Académie comporte {len(académie)} lignes")

print(f"Avant merge la table Etablissements comporte {len(dim_etablissements)} lignes")


dim_etablissements = dim_etablissements.merge(
    académie, 
    left_on="Identifiant Etablissement", 
    right_on="Identifiant Etablissement", 
    how='left') 

dim_etablissements.drop_duplicates(subset='Identifiant Etablissement')

display(dim_etablissements.head(1))

print(f"Après merge la table Etablissements comporte {len(dim_etablissements)} lignes")

Identifiant Etablissement    0
Académie                     0
dtype: int64
Avant merge l'extrait Académie comporte 4521 lignes
Avant merge la table Etablissements comporte 7597 lignes


Unnamed: 0,Identifiant Etablissement,nom de l établissement,Type d établissement,Région,Département,Commune,Site internet de l établissement,etab_gps,Académie
0,0632084Y,Université Clermont Auvergne (Clermont-Ferrand...,Publics,Auvergne-Rhône-Alpes,Puy-de-Dôme,Beaumont,http://www.uca.fr,b'\x01\x01\x00\x00\x00JF\xce\xc2\x9e\xb6\x08@S...,Clermont-Ferrand


Après merge la table Etablissements comporte 7597 lignes


In [176]:
print(dim_etablissements.isna().sum())


Identifiant Etablissement              0
nom de l établissement                 0
Type d établissement                   0
Région                                 0
Département                            0
Commune                               60
Site internet de l établissement      33
etab_gps                               0
Académie                            3178
dtype: int64


In [177]:
# suppression de la colonne Académie dans la table voeux aprés rapatriement dans dim_etablissements

voeux = voeux.drop(columns='Académie')

voeux.shape

(104274, 118)

In [178]:
col_etablissements_supp = ['nom de l établissement',
       'Type d établissement','Région',
       'Département', 'Commune','Site internet de l établissement', 'etab_gps']

dim_formations = carto.drop(columns=col_etablissements_supp)

dim_formations.head(1)

Unnamed: 0,annee,Identifiant Etablissement,Type de formation,Nom de la formation,Mentions Spécialités,Apprentissage,Aménagement,Lien vers la fiche formation,Nom court de la formation,GTA Gestion des Désistements en Phase d Admission,GTI Groupe de Traitement des Inscriptions,Rang du dernier candidat appelé,code_formation
0,2026,0632084Y,"Etudes de santé,Licence",Licence - Parcours d'Accès Spécifique Santé (P...,L1 - Parcours d'Accès Spécifique Santé (PASS),,"Enseignement partiellement à distance,Formatio...",https://dossierappel.parcoursup.fr/Candidats/p...,PASS,26631,26629,5660,2047


### Export sous CSV ou parquet pour intégration dans Power BI

In [179]:
dim_formations.to_parquet("sources_clean_powerBI/dim_formations_pbi.parquet", index=False)

dim_etablissements.to_parquet("sources_clean_powerBI/dim_etablissements_pbi.parquet", index=False)

voeux.to_csv("sources_clean_powerBI/voeux_pbi.csv", index=False) 

dim_admissions.to_parquet("sources_clean_powerBI/dim_admissions_pbi.parquet", index= False)

print("les fichiers sont prêts à être intégrés dans PowerBI")

les fichiers sont prêts à être intégrés dans PowerBI
