## **Projet Analyse Parcoursup**

### __Analyse des données__:

-  Vœux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements entre 2018 et 2025   [2022,2023,2024,2025]
-  Propositions d'admission dans l'enseignement supérieur des élèves de terminale diplômés du baccalauréat général selon leurs enseignements de spécialité   [2022,2023,2024]

Sources des données:

https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-cartographie_formations_parcoursup/autres_jeux/?disjunctive.tf&disjunctive.nm&disjunctive.fl&disjunctive.nmc&disjunctive.amg

In [1]:
#Configuration de l'environnement:

import pandas as pd
import numpy as np



In [2]:
# configuration des options d'affichage

pd.set_option('display.max_columns', None)
#pd.set_option('display.max_rows', None)

#pd.reset_option('display.max_columns')
#pd.reset_option('display.max_rows')


### Vœux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements entre 2018 et 2025

In [3]:

# Liste des années
periode = ["2018", "2019", "2020", "2021", "2022", "2023", "2024", "2025"]


dataframes = []
colonnes_par_annee = {}
for annee in periode:
    fichier_csv = f"sources_brutes_csv/fr-esr-parcoursup_{annee}.csv"
    df = pd.read_csv(fichier_csv,sep=";")
    

    for colonne in df.columns:
        try:
            pd.to_numeric(df[colonne], errors='coerce')
        except ValueError:
            df[colonne] = df[colonne].astype('str')

    colonnes_par_annee[annee] = df.columns.tolist()  
    dataframes.append(df)


toutes_colonnes = []
for annee in periode:
    for colonne in colonnes_par_annee[annee]:
        if colonne not in toutes_colonnes:
            toutes_colonnes.append(colonne)


for i, annee in enumerate(periode):
    df = dataframes[i]
    for colonne in toutes_colonnes:
        if colonne not in df.columns:
            df[colonne] = np.nan
    
    df = df[toutes_colonnes]
    dataframes[i] = df


voeux = pd.concat(dataframes, ignore_index=True)



print("Aperçu du DataFrame concaténé :")
print(f"Le DataFrame concaténé contient {len(voeux)} lignes")
display(voeux.head(1))

Aperçu du DataFrame concaténé :
Le DataFrame concaténé contient 104274 lignes


Unnamed: 0,Session,Code UAI de l'établissement,Établissement,Code départemental de l’établissement,Département de l’établissement,Région de l’établissement,Académie de l’établissement,Filière de formation très agrégée,Filière de formation,Concours communs et banques d'épreuves,Filière de formation détaillée,Filière de formation très détaillée,Lien de la formation sur la plateforme Parcoursup,Coordonnées GPS de la formation,Capacité de l’établissement par formation,Effectif total des candidats pour une formation,Dont effectif des candidates pour une formation,Effectif total des candidats en phase principale,Dont effectif des candidats ayant postulé en internat,Effectif des candidats néo bacheliers généraux en phase principale,Dont effectif des candidats boursiers néo bacheliers généraux en phase principale,Effectif des candidats néo bacheliers technologiques en phase principale,Dont effectif des candidats boursiers néo bacheliers technologiques en phase principale,Effectif des candidats néo bacheliers professionnels en phase principale,Dont effectif des candidats boursiers néo bacheliers professionnels en phase principale,Effectif des autres candidats en phase principale,Effectif total des candidats en phase complémentaire,Effectif des candidats néo bacheliers généraux en phase complémentaire,Effectif des candidats néo bacheliers technologique en phase complémentaire,Effectif des candidats néo bacheliers professionnels en phase complémentaire,Effectifs des autres candidats en phase complémentaire,Effectif total des candidats classés par l’établissement en phase principale,Effectif des candidats classés par l’établissement en phase complémentaire,Effectif des candidats classés par l’établissement en internat (CPGE),Effectif des candidats classés par l’établissement hors internat (CPGE),Effectif des candidats néo bacheliers généraux classés par l’établissement,Dont effectif des candidats boursiers néo bacheliers généraux classés par l’établissement,Effectif des candidats néo bacheliers technologiques classés par l’établissement,Dont effectif des candidats boursiers néo bacheliers technologiques classés par l’établissement,Effectif des candidats néo bacheliers professionnels classés par l’établissement,Dont effectif des candidats boursiers néo bacheliers professionnels classés par l’établissement,Effectif des autres candidats classés par l’établissement,Effectif total des candidats ayant reçu une proposition d’admission de la part de l’établissement,Rang du dernier appelé,Effectif total des candidats ayant accepté la proposition de l’établissement (admis),Dont effectif des candidates admises,Effectif des admis en phase principale,Effectif des admis en phase complémentaire,Dont effectif des admis en internat,Dont effectif des admis boursiers néo bacheliers,Effectif des admis néo bacheliers,Effectif des admis néo bacheliers généraux,Effectif des admis néo bacheliers technologiques,Effectif des admis néo bacheliers professionnels,Effectif des autres candidats admis,Dont effectif des admis néo bacheliers sans information sur la mention au bac,Dont effectif des admis néo bacheliers sans mention au bac,Dont effectif des admis néo bacheliers avec mention Assez Bien au bac,Dont effectif des admis néo bacheliers avec mention Bien au bac,Dont effectif des admis néo bacheliers avec mention Très Bien au bac,Effectif des admis néo bacheliers généraux ayant eu une mention au bac,Effectif des admis néo bacheliers technologiques ayant eu une mention au bac,Effectif des admis néo bacheliers professionnels ayant eu une mention au bac,Dont effectif des admis issus du même établissement (BTS/CPGE),Dont effectif des admises issues du même établissement (BTS/CPGE),Dont effectif des admis issus de la même académie,Dont effectif des admis issus de la même académie (Paris/Créteil/Versailles réunies),% d’admis dont filles,% d’admis néo bacheliers issus de la même académie,% d’admis néo bacheliers issus de la même académie (Paris/Créteil/Versailles réunies),% d’admis néo bacheliers issus du même établissement (BTS/CPGE),% d’admis néo bacheliers boursiers,% d’admis néo bacheliers,% d’admis néo bacheliers sans information sur la mention au bac,% d’admis néo bacheliers sans mention au bac,% d’admis néo bacheliers avec mention Assez Bien au bac,% d’admis néo bacheliers avec mention Bien au bac,% d’admis néo bacheliers avec mention Très Bien au bac,% d’admis néo bacheliers généraux,Dont % d’admis avec mention,% d’admis néo bacheliers technologiques,Dont % d’admis avec mention.1,% d’admis néo bacheliers professionnels,Dont % d’admis avec mention.2,tri,"Statut de l’établissement de la filière de formation (public, privé…)",Dont effectif des admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale,Dont effectif des admis ayant reçu leur proposition d’admission avant le baccalauréat,Dont effectif des admis ayant reçu leur proposition d’admission avant la fin de la procédure principale,% d’admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale,% d’admis ayant reçu leur proposition d’admission avant le baccalauréat,% d’admis ayant reçu leur proposition d’admission avant la fin de la procédure principale,Sélectivité,Filière de formation détaillée.1,Effectif des candidats en terminale générale ayant reçu une proposition d’admission de la part de l’établissement,Dont effectif des candidats boursiers en terminale générale ayant reçu une proposition d’admission de la part de l’établissement,Effectif des candidats en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement,Dont effectif des candidats boursiers en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement,Effectif des candidats en terminale professionnelle ayant reçu une proposition d’admission de la part de l’établissement,Dont effectif des candidats boursiers en terminale générale professionnelle ayant reçu une proposition d’admission de la part de l’établissement,Effectif des autres candidats ayant reçu une proposition d’admission de la part de l’établissement,Regroupement 1 effectué par les formations pour les classements,Rang du dernier appelé du groupe 1,Regroupement 2 effectué par les formations pour les classements,Rang du dernier appelé du groupe 2,Regroupement 3 effectué par les formations pour les classements,Rang du dernier appelé du groupe 3,Regroupement 4 effectué par les formations pour les classements,Rang du dernier appelé du groupe 4,Regroupement 5 effectué par les formations pour les classements,Rang du dernier appelé du groupe 5,Indicateur Parcoursup du taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le dernier classé),Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation,COD_AFF_FORM,Commune de l’établissement,Filière de formation.1,Filière de formation détaillée bis,Concours communs et banque d'épreuves,Dont effectif des admis néo bacheliers avec mention Très Bien avec félicitations au bac,% d’admis néo bacheliers avec mention Très Bien avec félicitations au bac,Dont % d’admis avec mention (BG),Dont % d’admis avec mention (BT),Dont % d’admis avec mention (BP),list_com,Taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le nombre vœux PP),etablissement_id_paysage,composante_id_paysage,cod_aff_form,Taux d’accès,Part des terminales générales qui étaient en position de recevoir une proposition en phase principale,Part des terminales technologiques qui étaient en position de recevoir une proposition en phase principale,Part des terminales professionnelles qui étaient en position de recevoir une proposition en phase principale
0,2018,0692437Z,Université Jean Moulin Lyon 3,69,Rhône,Auvergne-Rhône-Alpes,Lyon,Licence,Licence - Arts-lettres-langues,,"Langues, littératures & civilisations étrangèr...","Langues, Littératures et Civilisations Etrangè...",https://dossier.parcoursup.fr/Candidat/candida...,"45.747754, 4.8593556",11.0,50,34,45,,34,5,2,1,0,0,9,5,0,0,0,5,45,5,,,34,5,2,1,0,0,9,35,44.0,9,6,8,1,,0,5,5,0,0,4,1,4,0,0,0,0,0,0,,,2,2,66.7,40.0,40.0,,0.0,55.6,20.0,80.0,0.0,0.0,0.0,100.0,0.0,0.0,0.0,0.0,0.0,1_universités,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [4]:
voeux.describe(include="all")

Unnamed: 0,Session,Code UAI de l'établissement,Établissement,Code départemental de l’établissement,Département de l’établissement,Région de l’établissement,Académie de l’établissement,Filière de formation très agrégée,Filière de formation,Concours communs et banques d'épreuves,Filière de formation détaillée,Filière de formation très détaillée,Lien de la formation sur la plateforme Parcoursup,Coordonnées GPS de la formation,Capacité de l’établissement par formation,Effectif total des candidats pour une formation,Dont effectif des candidates pour une formation,Effectif total des candidats en phase principale,Dont effectif des candidats ayant postulé en internat,Effectif des candidats néo bacheliers généraux en phase principale,Dont effectif des candidats boursiers néo bacheliers généraux en phase principale,Effectif des candidats néo bacheliers technologiques en phase principale,Dont effectif des candidats boursiers néo bacheliers technologiques en phase principale,Effectif des candidats néo bacheliers professionnels en phase principale,Dont effectif des candidats boursiers néo bacheliers professionnels en phase principale,Effectif des autres candidats en phase principale,Effectif total des candidats en phase complémentaire,Effectif des candidats néo bacheliers généraux en phase complémentaire,Effectif des candidats néo bacheliers technologique en phase complémentaire,Effectif des candidats néo bacheliers professionnels en phase complémentaire,Effectifs des autres candidats en phase complémentaire,Effectif total des candidats classés par l’établissement en phase principale,Effectif des candidats classés par l’établissement en phase complémentaire,Effectif des candidats classés par l’établissement en internat (CPGE),Effectif des candidats classés par l’établissement hors internat (CPGE),Effectif des candidats néo bacheliers généraux classés par l’établissement,Dont effectif des candidats boursiers néo bacheliers généraux classés par l’établissement,Effectif des candidats néo bacheliers technologiques classés par l’établissement,Dont effectif des candidats boursiers néo bacheliers technologiques classés par l’établissement,Effectif des candidats néo bacheliers professionnels classés par l’établissement,Dont effectif des candidats boursiers néo bacheliers professionnels classés par l’établissement,Effectif des autres candidats classés par l’établissement,Effectif total des candidats ayant reçu une proposition d’admission de la part de l’établissement,Rang du dernier appelé,Effectif total des candidats ayant accepté la proposition de l’établissement (admis),Dont effectif des candidates admises,Effectif des admis en phase principale,Effectif des admis en phase complémentaire,Dont effectif des admis en internat,Dont effectif des admis boursiers néo bacheliers,Effectif des admis néo bacheliers,Effectif des admis néo bacheliers généraux,Effectif des admis néo bacheliers technologiques,Effectif des admis néo bacheliers professionnels,Effectif des autres candidats admis,Dont effectif des admis néo bacheliers sans information sur la mention au bac,Dont effectif des admis néo bacheliers sans mention au bac,Dont effectif des admis néo bacheliers avec mention Assez Bien au bac,Dont effectif des admis néo bacheliers avec mention Bien au bac,Dont effectif des admis néo bacheliers avec mention Très Bien au bac,Effectif des admis néo bacheliers généraux ayant eu une mention au bac,Effectif des admis néo bacheliers technologiques ayant eu une mention au bac,Effectif des admis néo bacheliers professionnels ayant eu une mention au bac,Dont effectif des admis issus du même établissement (BTS/CPGE),Dont effectif des admises issues du même établissement (BTS/CPGE),Dont effectif des admis issus de la même académie,Dont effectif des admis issus de la même académie (Paris/Créteil/Versailles réunies),% d’admis dont filles,% d’admis néo bacheliers issus de la même académie,% d’admis néo bacheliers issus de la même académie (Paris/Créteil/Versailles réunies),% d’admis néo bacheliers issus du même établissement (BTS/CPGE),% d’admis néo bacheliers boursiers,% d’admis néo bacheliers,% d’admis néo bacheliers sans information sur la mention au bac,% d’admis néo bacheliers sans mention au bac,% d’admis néo bacheliers avec mention Assez Bien au bac,% d’admis néo bacheliers avec mention Bien au bac,% d’admis néo bacheliers avec mention Très Bien au bac,% d’admis néo bacheliers généraux,Dont % d’admis avec mention,% d’admis néo bacheliers technologiques,Dont % d’admis avec mention.1,% d’admis néo bacheliers professionnels,Dont % d’admis avec mention.2,tri,"Statut de l’établissement de la filière de formation (public, privé…)",Dont effectif des admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale,Dont effectif des admis ayant reçu leur proposition d’admission avant le baccalauréat,Dont effectif des admis ayant reçu leur proposition d’admission avant la fin de la procédure principale,% d’admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale,% d’admis ayant reçu leur proposition d’admission avant le baccalauréat,% d’admis ayant reçu leur proposition d’admission avant la fin de la procédure principale,Sélectivité,Filière de formation détaillée.1,Effectif des candidats en terminale générale ayant reçu une proposition d’admission de la part de l’établissement,Dont effectif des candidats boursiers en terminale générale ayant reçu une proposition d’admission de la part de l’établissement,Effectif des candidats en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement,Dont effectif des candidats boursiers en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement,Effectif des candidats en terminale professionnelle ayant reçu une proposition d’admission de la part de l’établissement,Dont effectif des candidats boursiers en terminale générale professionnelle ayant reçu une proposition d’admission de la part de l’établissement,Effectif des autres candidats ayant reçu une proposition d’admission de la part de l’établissement,Regroupement 1 effectué par les formations pour les classements,Rang du dernier appelé du groupe 1,Regroupement 2 effectué par les formations pour les classements,Rang du dernier appelé du groupe 2,Regroupement 3 effectué par les formations pour les classements,Rang du dernier appelé du groupe 3,Regroupement 4 effectué par les formations pour les classements,Rang du dernier appelé du groupe 4,Regroupement 5 effectué par les formations pour les classements,Rang du dernier appelé du groupe 5,Indicateur Parcoursup du taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le dernier classé),Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation,COD_AFF_FORM,Commune de l’établissement,Filière de formation.1,Filière de formation détaillée bis,Concours communs et banque d'épreuves,Dont effectif des admis néo bacheliers avec mention Très Bien avec félicitations au bac,% d’admis néo bacheliers avec mention Très Bien avec félicitations au bac,Dont % d’admis avec mention (BG),Dont % d’admis avec mention (BT),Dont % d’admis avec mention (BP),list_com,Taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le nombre vœux PP),etablissement_id_paysage,composante_id_paysage,cod_aff_form,Taux d’accès,Part des terminales générales qui étaient en position de recevoir une proposition en phase principale,Part des terminales technologiques qui étaient en position de recevoir une proposition en phase principale,Part des terminales professionnelles qui étaient en position de recevoir une proposition en phase principale
count,104274.0,104274,104274,104202.0,104271,104086,104274,104274,104274,1139,104274,29275,101759,102761,104254.0,104274.0,104274.0,104274.0,7435.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,7435.0,7435.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,11126.0,104274.0,104274.0,104274.0,104274.0,7435.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,49401.0,49401.0,104274.0,104274.0,103959.0,103588.0,103588.0,72546.0,103662.0,103959.0,103588.0,103588.0,103588.0,103588.0,103588.0,103588.0,34574.0,103588.0,34574.0,103588.0,34574.0,104274,93577,93577.0,93577.0,93577.0,93353.0,93353.0,93353.0,82000,12760,82000.0,82000.0,82000.0,82000.0,82000.0,82000.0,82000.0,78593,80452,36318,36563.0,22378,22691.0,14,14.0,14,14.0,12526.0,24986.0,24986.0,24986.0,26156.0,69240,69240,69240,3506,69240.0,69014.0,69014.0,69014.0,69014.0,69240,13181.0,26053,883,55844.0,55473.0,55812.0,55812.0,55812.0
unique,,4521,4860,209.0,114,28,37,13,5449,71,23827,7061,64929,18679,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,4,5,,,,,,,4,517,,,,,,,,34,6310,26,,13,,5,,5,,,,,,,1331,3503,668,216,,,,,,2,,497,105,,201.0,203.0,191.0,201.0
top,,0673021V,Université de Lille,75.0,Paris,Ile-de-France,Paris,BTS,BTS - Services,Concours Puissance Alpha,"Langues, littératures & civilisations étrangèr...",Anglais,https://dossier.parcoursup.fr/Candidats/public...,"48.8452, 2.39666",,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,2_Lycées,Public,,,,,,,formation sélective,"Langues, littératures & civilisations étrangèr...",,,,,,,,Tous les candidats,nd,Bacheliers professionnels toutes series,,Bacheliers technologiques toutes series,,Bac S SVT/EAT spécialité SVT,,Bac S Sciences de l'Ingénieur,,,,,,,Toulouse,BTS - Services,Formation d'ingénieur Bac + 5,Concours Puissance Alpha,,,,,,Liste d'appel propre à cette formation,,xJdyB,Nn3jE,,100.0,100.0,0.0,0.0
freq,,718,824,6351.0,7349,19498,7349,41966,11603,294,823,322,3,512,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,49401,73838,,,,,,,53835,480,,,,,,,,42124,1119,14603,,9774,,4,,4,,,,,,,1596,12354,2214,824,,,,,,39191,,690,30,,3537.0,6340.0,7475.0,13173.0
mean,2021.696454,,,,,,,,,,,,,,57.566271,853.649769,473.47192,824.622418,362.216947,425.001496,64.256938,119.971153,35.073595,59.774949,23.261139,219.87482,29.007346,5.667338,4.196655,2.880315,16.263038,588.504699,12.297495,188.002555,527.856221,331.411819,50.32569,82.60692,22.586052,40.958139,15.271985,133.527821,275.729846,435.682186,48.971057,27.191141,44.300794,4.478403,11.40269,8.354815,36.660587,24.927316,7.340142,4.393128,12.309722,0.152751,11.610507,11.953526,8.459606,4.134693,17.755183,4.108704,3.029058,4.130787,1.562337,25.910275,28.525778,49.662762,70.669348,76.232304,15.569735,24.360347,74.694979,0.457994,35.395386,33.00357,20.807224,8.626167,49.134356,29.218148,26.38241,15.961489,23.418519,15.7643,,,15.270569,37.769537,42.975614,30.624836,76.732543,87.558081,,,168.080207,27.119171,37.369341,10.855451,18.051476,7.092963,59.819293,,,,71.983617,,69.01873,,1493.285714,,1532.0,52.202698,21.574162,51.728808,26.064076,14211.371884,,,,,0.519743,0.929758,35.712056,12.767653,15.647002,,52.936803,,,17319.512016,,,,
std,2.251585,,,,,,,,,,,,,,107.584469,1414.021465,901.294526,1414.202043,600.813121,1017.013174,142.189546,211.164522,69.568854,111.14897,48.487296,456.226818,78.729634,22.595739,16.207804,9.834868,43.404755,1103.058754,36.766153,350.163481,504.669621,783.11787,123.380769,142.766062,43.453805,77.212104,32.350589,345.572295,441.245391,814.77135,86.309556,58.130383,81.419826,14.045797,14.535265,15.670297,68.703312,63.208075,11.018784,5.928654,25.967212,0.801283,24.620028,23.252612,19.73579,15.492335,48.457973,7.69114,4.311524,4.424476,2.432524,52.198461,57.217943,29.686464,27.327651,24.070752,21.206576,18.312831,21.364724,2.593358,24.81581,17.662991,17.144797,15.498701,37.427899,32.657272,23.656765,18.560516,27.73139,19.325837,,,37.469771,69.556968,75.988058,24.828691,20.225653,15.150692,,,348.518793,53.460686,57.564817,18.014594,25.849062,11.592451,116.03963,,,,113.460939,,115.095086,,2485.56319,,1553.879116,27.842798,24.51936,34.346896,21.185039,9355.284971,,,,,4.075638,4.569911,35.065421,17.289693,20.746457,,27.957189,,,12342.792878,,,,
min,2018.0,,,,,,,,,,,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,0.0,0.0,0.0,0.0,0.0,0.0,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,1.0,,1.0,,89.0,,19.0,1.0,0.0,0.0,0.0,2.0,,,,,0.0,0.0,0.0,0.0,0.0,,1.0,,,2.0,,,,
25%,2020.0,,,,,,,,,,,,,,20.0,173.0,57.0,153.0,22.0,24.0,4.0,14.0,3.0,4.0,1.0,33.0,0.0,0.0,0.0,0.0,0.0,99.0,0.0,0.0,198.0,18.0,3.0,8.0,1.0,1.0,0.0,12.0,66.0,61.0,15.0,4.0,13.0,0.0,0.0,2.0,11.0,2.0,1.0,0.0,2.0,0.0,2.0,3.0,1.0,0.0,0.0,0.0,0.0,1.0,0.0,7.0,7.0,25.0,55.0,65.0,0.0,11.0,63.6,0.0,14.285714,22.21875,8.0,0.0,12.0,0.0,3.0,0.0,0.0,0.0,,,2.0,11.0,13.0,11.0,67.0,82.608696,,,11.0,2.0,4.0,1.0,0.0,0.0,9.0,,,,24.0,,26.0,,155.5,,187.25,30.0,0.0,19.0,8.0,6354.0,,,,,0.0,0.0,0.0,0.0,0.0,,30.0,,,6824.0,,,,
50%,2022.0,,,,,,,,,,,,,,32.0,385.0,183.0,354.0,139.0,98.0,18.0,50.0,12.0,23.0,7.0,88.0,4.0,0.0,0.0,0.0,2.0,226.0,1.0,71.0,385.0,66.0,11.0,37.0,8.0,14.0,4.0,35.0,125.0,162.0,26.0,13.0,24.0,0.0,7.0,4.0,20.0,6.0,4.0,2.0,5.0,0.0,6.0,6.0,3.0,1.0,3.0,2.0,1.0,3.0,1.0,14.0,15.0,53.0,78.596875,83.296875,6.0,21.199219,79.0,0.0,36.0,33.3,17.5,2.6,46.695312,16.39,23.691715,10.04,10.798828,7.142578,,,6.0,20.0,23.0,25.0,80.597015,91.0,,,37.0,7.0,20.0,5.0,8.0,3.0,21.0,,,,45.0,,51.0,,348.0,,1111.5,47.0,12.0,51.0,25.0,10906.0,,,,,0.0,0.0,25.0,6.699219,5.0,,49.0,,,11953.5,,,,
75%,2024.0,,,,,,,,,,,,,,52.0,905.0,474.0,859.0,429.0,398.0,64.0,131.0,35.0,65.0,22.0,217.0,27.0,4.0,3.0,2.0,14.0,553.0,8.0,213.5,689.0,308.0,45.0,93.0,24.0,47.0,16.0,100.0,277.0,453.75,46.0,26.0,42.0,3.0,17.0,9.0,35.0,24.0,9.0,7.0,11.0,0.0,12.0,12.0,8.0,3.0,17.0,5.0,5.0,6.0,2.0,26.0,28.0,74.0,92.8,95.0,25.0,33.33,91.0,0.0,52.941176,44.0,30.0,9.8,87.931034,49.646328,42.898438,25.0,42.851562,27.3,,,13.0,35.0,41.0,45.0,91.666667,99.0,,,183.0,29.0,46.0,13.0,27.0,10.0,53.0,,,,81.0,,88.0,,1594.75,,2734.25,74.0,38.0,84.0,40.0,23196.0,,,,,0.0,0.0,62.0,20.0,27.296875,,75.0,,,26840.0,,,,


In [5]:
voeux.shape

(104274, 134)

In [6]:
valeurs_manquantes = pd.DataFrame({'valeurs manquantes' : voeux.isna().sum()})
valeurs_manquantes = valeurs_manquantes.sort_values(by= 'valeurs manquantes', ascending = False)
valeurs_manquantes.head(25)

Unnamed: 0,valeurs manquantes
Regroupement 5 effectué par les formations pour les classements,104260
Rang du dernier appelé du groupe 4,104260
Rang du dernier appelé du groupe 5,104260
Regroupement 4 effectué par les formations pour les classements,104260
composante_id_paysage,103391
Concours communs et banques d'épreuves,103135
Concours communs et banque d'épreuves,100768
Effectif des candidats classés par l’établissement hors internat (CPGE),96839
Dont effectif des admis en internat,96839
Dont effectif des candidats ayant postulé en internat,96839


In [7]:
voeux = voeux.replace(['nd', np.inf],np.nan)
voeux = voeux.replace(r'\n', ' ', regex=True)
voeux = voeux.fillna(0)


voeux.columns = voeux.columns.str.replace('%', 'taux de', regex=False)

In [8]:
col_dim_etablissements=[ 
    "Code UAI de l'établissement",
    'Établissement',
    'Département de l’établissement',
    'Région de l’établissement',
    'Académie de l’établissement',
    'Coordonnées GPS de la formation',
    'Statut de l’établissement de la filière de formation (public, privé…)',
    'Commune de l’établissement'
    ]

#création de la table établissements:

dim_etablissements = voeux[col_dim_etablissements]

dim_etablissements = dim_etablissements.drop_duplicates(subset="Code UAI de l'établissement")

len(dim_etablissements)

4521

In [9]:
dim_etablissements.dtypes

Code UAI de l'établissement                                              object
Établissement                                                            object
Département de l’établissement                                           object
Région de l’établissement                                                object
Académie de l’établissement                                              object
Coordonnées GPS de la formation                                          object
Statut de l’établissement de la filière de formation (public, privé…)    object
Commune de l’établissement                                               object
dtype: object

In [10]:
dim_etablissements["Région de l’établissement"].unique()

array(['Auvergne-Rhône-Alpes', 'Ile-de-France', 'Occitanie', 'Grand Est',
       'Bourgogne-Franche-Comté', 'Centre-Val de Loire',
       'Hauts-de-France', "Provence Alpes Côte d'Azur",
       'Nouvelle-Aquitaine', 'Pays de la Loire', 'Normandie', 'Bretagne',
       'Polynésie française', 'Martinique', 'Mayotte', 'La Réunion',
       'Guadeloupe', 'Guyane', 'Corse', 'Etranger', 'Saint-Martin',
       'Provence-Alpes-Côte d’Azur', 'Nouvelle Aquitaine', 'Grand-Est',
       'Pays-de-la-Loire', "Provence-Alpes-Côte d'Azur", 'Centre', 0,
       'Réunion'], dtype=object)

In [11]:
dim_etablissements[dim_etablissements["Région de l’établissement"] == 0]

Unnamed: 0,Code UAI de l'établissement,Établissement,Département de l’établissement,Région de l’établissement,Académie de l’établissement,Coordonnées GPS de la formation,"Statut de l’établissement de la filière de formation (public, privé…)",Commune de l’établissement
95615,1340047Y,ESSCA School of Management - Malaga,Etranger,0,Etranger,"36.7243, -4.4234",Privé enseignement supérieur,Malaga
97392,1120002U,ESSCA School of Management - Budapest,Etranger,0,Etranger,"47.58029, 19.0823",Privé enseignement supérieur,Budapest
101431,3220013P,EIME - Ecole Internationale du Management et d...,Etranger,0,Etranger,"3.86, 11.56",Privé enseignement supérieur,Yaoundé
103181,9830707B,Département Sciences et techniques de l'univer...,Nouvelle-Calédonie,0,Nouvelle-Calédonie,"-22.2627, 166.40335",Public,Nouméa
103187,3220014R,South Champagne Business School (Y Schools) - ...,Etranger,0,Etranger,"4.03, 9.42",Privé enseignement supérieur,douala
103226,9840521U,Ecole Polytechnique Universitaire,Polynésie française,0,Polynésie Française,"17.5774, 149.60905",Public,Faaa


In [12]:
# gestion des valeurs région à 0, elles correspondent à des campus hors métropole 

dim_etablissements["Région de l’établissement"] = dim_etablissements["Région de l’établissement"].replace(0,"Campus hors métropole")

dim_etablissements["Région de l’établissement"].unique()

array(['Auvergne-Rhône-Alpes', 'Ile-de-France', 'Occitanie', 'Grand Est',
       'Bourgogne-Franche-Comté', 'Centre-Val de Loire',
       'Hauts-de-France', "Provence Alpes Côte d'Azur",
       'Nouvelle-Aquitaine', 'Pays de la Loire', 'Normandie', 'Bretagne',
       'Polynésie française', 'Martinique', 'Mayotte', 'La Réunion',
       'Guadeloupe', 'Guyane', 'Corse', 'Etranger', 'Saint-Martin',
       'Provence-Alpes-Côte d’Azur', 'Nouvelle Aquitaine', 'Grand-Est',
       'Pays-de-la-Loire', "Provence-Alpes-Côte d'Azur", 'Centre',
       'Campus hors métropole', 'Réunion'], dtype=object)

In [13]:
dim_etablissements["Commune de l’établissement"] = dim_etablissements["Commune de l’établissement"].replace(0,"Non précisé")

dim_etablissements["Commune de l’établissement"].unique()

array(['Non précisé', 'Nice', "Saint-Martin-d'Hères", 'Valenciennes',
       'Bègles', 'Dijon', "Rives de l'Yon", 'Strasbourg', 'Limoges',
       'Aurillac', 'Angers', 'Reims', 'Mulhouse', 'Versailles',
       'Marne-la-Vallée', 'Aix-en-Provence', 'Aubervilliers',
       'Contamine-sur-Arve', 'Elancourt', 'Tulle', 'Cayenne', 'Aniche',
       'Saint-Martin', 'Arcueil', 'Abbeville', "Marcy-l'Etoile",
       'Les Abymes', 'Saint-Denis', 'Annecy', 'Saint-Chamond', 'Issoudun',
       'Roubaix', 'Montpellier', 'Bruz', 'Lyon 5e  Arrondissement',
       'Fort-de-France', 'Saint-Etienne', 'Puteaux', 'Saint-Nazaire',
       'Bayonne', 'Niort', 'Verdun', 'Cambrai', 'Nancy', 'Thionville',
       "Villeneuve-d'Ascq", 'Marseille 14e  Arrondissement',
       'Paris  4e  Arrondissement', 'Saverne', 'Saint-Lô', 'Montrouge',
       'Saint-Omer', 'Anglet', 'Fontainebleau', 'Bort-les-Orgues',
       'Chenôve', 'Lognes', 'Rouen', 'Dax', 'Paris  6e  Arrondissement',
       'Mauguio', 'Amiens', 'Lille', 'Le 

In [14]:
dim_etablissements["Statut de l’établissement de la filière de formation (public, privé…)"] = dim_etablissements["Statut de l’établissement de la filière de formation (public, privé…)"].replace(0,"Non précisé")

dim_etablissements["Statut de l’établissement de la filière de formation (public, privé…)"].unique()

array(['Non précisé', 'Privé', 'Public', 'Privé enseignement supérieur',
       'Privé hors contrat', "Privé sous contrat d'association"],
      dtype=object)

In [15]:
dim_etablissements.dtypes

Code UAI de l'établissement                                              object
Établissement                                                            object
Département de l’établissement                                           object
Région de l’établissement                                                object
Académie de l’établissement                                              object
Coordonnées GPS de la formation                                          object
Statut de l’établissement de la filière de formation (public, privé…)    object
Commune de l’établissement                                               object
dtype: object

In [16]:
col_a_garder = ['Session',
"Code UAI de l'établissement",
'Filière de formation très agrégée',
'Filière de formation',
"Concours communs et banques d'épreuves",
'Filière de formation détaillée',
'Filière de formation très détaillée',
'Lien de la formation sur la plateforme Parcoursup',
'Coordonnées GPS de la formation',
"Capacité de l’établissement par formation",
'Effectif total des candidats pour une formation',
'Dont effectif des candidates pour une formation',
'Effectif total des candidats en phase principale',
'Effectif des candidats néo bacheliers généraux en phase principale',
'Dont effectif des candidats boursiers néo bacheliers généraux en phase principale',
'Effectif des candidats néo bacheliers technologiques en phase principale',
'Dont effectif des candidats boursiers néo bacheliers technologiques en phase principale',
'Effectif des candidats néo bacheliers professionnels en phase principale',
'Dont effectif des candidats boursiers néo bacheliers professionnels en phase principale',
'Effectif des autres candidats en phase principale',
'Effectif total des candidats en phase complémentaire',
'Effectif des candidats néo bacheliers généraux en phase complémentaire',
'Effectif des candidats néo bacheliers technologique en phase complémentaire',
'Effectif des candidats néo bacheliers professionnels en phase complémentaire',
'Effectifs des autres candidats en phase complémentaire',
"Effectif total des candidats classés par l’établissement en phase principale",
'Effectif des candidats classés par l’établissement en phase complémentaire',
"Effectif des candidats néo bacheliers généraux classés par l’établissement",
"Dont effectif des candidats boursiers néo bacheliers généraux classés par l’établissement",
"Effectif des candidats néo bacheliers technologiques classés par l’établissement",
"Dont effectif des candidats boursiers néo bacheliers technologiques classés par l’établissement",
"Effectif des candidats néo bacheliers professionnels classés par l’établissement",
"Dont effectif des candidats boursiers néo bacheliers professionnels classés par l’établissement",
"Effectif des autres candidats classés par l’établissement",
"Effectif total des candidats ayant reçu une proposition d’admission de la part de l’établissement",
'Rang du dernier appelé',
"Effectif total des candidats ayant accepté la proposition de l’établissement (admis)",
'Dont effectif des candidates admises',
'Effectif des admis en phase principale',
'Effectif des admis en phase complémentaire',
'Dont effectif des admis boursiers néo bacheliers',
'Effectif des admis néo bacheliers',
'Effectif des admis néo bacheliers généraux',
'Effectif des admis néo bacheliers technologiques',
'Effectif des admis néo bacheliers professionnels',
'Effectif des autres candidats admis',
'Dont effectif des admis néo bacheliers sans information sur la mention au bac',
'Dont effectif des admis néo bacheliers sans mention au bac',
'Dont effectif des admis néo bacheliers avec mention Assez Bien au bac',
'Dont effectif des admis néo bacheliers avec mention Bien au bac',
'Dont effectif des admis néo bacheliers avec mention Très Bien au bac',
'Effectif des admis néo bacheliers généraux ayant eu une mention au bac',
'Effectif des admis néo bacheliers technologiques ayant eu une mention au bac',
'Effectif des admis néo bacheliers professionnels ayant eu une mention au bac',
'tri',
"Dont effectif des admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale",
"Dont effectif des admis ayant reçu leur proposition d’admission avant le baccalauréat",
"Dont effectif des admis ayant reçu leur proposition d’admission avant la fin de la procédure principale",
'Sélectivité',
'Filière de formation détaillée.1',
"Effectif des candidats en terminale générale ayant reçu une proposition d’admission de la part de l’établissement",
"Dont effectif des candidats boursiers en terminale générale ayant reçu une proposition d’admission de la part de l’établissement",
"Effectif des candidats en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement",
"Dont effectif des candidats boursiers en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement",
"Effectif des candidats en terminale professionnelle ayant reçu une proposition d’admission de la part de l’établissement",
"Dont effectif des candidats boursiers en terminale générale professionnelle ayant reçu une proposition d’admission de la part de l’établissement",
"Effectif des autres candidats ayant reçu une proposition d’admission de la part de l’établissement",
'Regroupement 1 effectué par les formations pour les classements',
'Rang du dernier appelé du groupe 1',
'Regroupement 2 effectué par les formations pour les classements',
'Rang du dernier appelé du groupe 2',
'Regroupement 3 effectué par les formations pour les classements',
'Rang du dernier appelé du groupe 3',
'Regroupement 4 effectué par les formations pour les classements',
'Rang du dernier appelé du groupe 4',
'Regroupement 5 effectué par les formations pour les classements',
'Rang du dernier appelé du groupe 5',
"Indicateur Parcoursup du taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le dernier classé)",
'Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation',
'Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation',
'Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation',
'COD_AFF_FORM',
'Filière de formation.1',
'Filière de formation détaillée bis',
"Concours communs et banque d'épreuves",
'Dont effectif des admis néo bacheliers avec mention Très Bien avec félicitations au bac',
'list_com',
"Taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le nombre vœux PP)",
'cod_aff_form',
"Taux d’accès",
"Académie de l’établissement"
]

voeux = voeux[col_a_garder]

In [17]:
voeux.shape

(104274, 91)

In [18]:
voeux.describe(include = "all")

Unnamed: 0,Session,Code UAI de l'établissement,Filière de formation très agrégée,Filière de formation,Concours communs et banques d'épreuves,Filière de formation détaillée,Filière de formation très détaillée,Lien de la formation sur la plateforme Parcoursup,Coordonnées GPS de la formation,Capacité de l’établissement par formation,Effectif total des candidats pour une formation,Dont effectif des candidates pour une formation,Effectif total des candidats en phase principale,Effectif des candidats néo bacheliers généraux en phase principale,Dont effectif des candidats boursiers néo bacheliers généraux en phase principale,Effectif des candidats néo bacheliers technologiques en phase principale,Dont effectif des candidats boursiers néo bacheliers technologiques en phase principale,Effectif des candidats néo bacheliers professionnels en phase principale,Dont effectif des candidats boursiers néo bacheliers professionnels en phase principale,Effectif des autres candidats en phase principale,Effectif total des candidats en phase complémentaire,Effectif des candidats néo bacheliers généraux en phase complémentaire,Effectif des candidats néo bacheliers technologique en phase complémentaire,Effectif des candidats néo bacheliers professionnels en phase complémentaire,Effectifs des autres candidats en phase complémentaire,Effectif total des candidats classés par l’établissement en phase principale,Effectif des candidats classés par l’établissement en phase complémentaire,Effectif des candidats néo bacheliers généraux classés par l’établissement,Dont effectif des candidats boursiers néo bacheliers généraux classés par l’établissement,Effectif des candidats néo bacheliers technologiques classés par l’établissement,Dont effectif des candidats boursiers néo bacheliers technologiques classés par l’établissement,Effectif des candidats néo bacheliers professionnels classés par l’établissement,Dont effectif des candidats boursiers néo bacheliers professionnels classés par l’établissement,Effectif des autres candidats classés par l’établissement,Effectif total des candidats ayant reçu une proposition d’admission de la part de l’établissement,Rang du dernier appelé,Effectif total des candidats ayant accepté la proposition de l’établissement (admis),Dont effectif des candidates admises,Effectif des admis en phase principale,Effectif des admis en phase complémentaire,Dont effectif des admis boursiers néo bacheliers,Effectif des admis néo bacheliers,Effectif des admis néo bacheliers généraux,Effectif des admis néo bacheliers technologiques,Effectif des admis néo bacheliers professionnels,Effectif des autres candidats admis,Dont effectif des admis néo bacheliers sans information sur la mention au bac,Dont effectif des admis néo bacheliers sans mention au bac,Dont effectif des admis néo bacheliers avec mention Assez Bien au bac,Dont effectif des admis néo bacheliers avec mention Bien au bac,Dont effectif des admis néo bacheliers avec mention Très Bien au bac,Effectif des admis néo bacheliers généraux ayant eu une mention au bac,Effectif des admis néo bacheliers technologiques ayant eu une mention au bac,Effectif des admis néo bacheliers professionnels ayant eu une mention au bac,tri,Dont effectif des admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale,Dont effectif des admis ayant reçu leur proposition d’admission avant le baccalauréat,Dont effectif des admis ayant reçu leur proposition d’admission avant la fin de la procédure principale,Sélectivité,Filière de formation détaillée.1,Effectif des candidats en terminale générale ayant reçu une proposition d’admission de la part de l’établissement,Dont effectif des candidats boursiers en terminale générale ayant reçu une proposition d’admission de la part de l’établissement,Effectif des candidats en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement,Dont effectif des candidats boursiers en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement,Effectif des candidats en terminale professionnelle ayant reçu une proposition d’admission de la part de l’établissement,Dont effectif des candidats boursiers en terminale générale professionnelle ayant reçu une proposition d’admission de la part de l’établissement,Effectif des autres candidats ayant reçu une proposition d’admission de la part de l’établissement,Regroupement 1 effectué par les formations pour les classements,Rang du dernier appelé du groupe 1,Regroupement 2 effectué par les formations pour les classements,Rang du dernier appelé du groupe 2,Regroupement 3 effectué par les formations pour les classements,Rang du dernier appelé du groupe 3,Regroupement 4 effectué par les formations pour les classements,Rang du dernier appelé du groupe 4,Regroupement 5 effectué par les formations pour les classements,Rang du dernier appelé du groupe 5,Indicateur Parcoursup du taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le dernier classé),Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation,COD_AFF_FORM,Filière de formation.1,Filière de formation détaillée bis,Concours communs et banque d'épreuves,Dont effectif des admis néo bacheliers avec mention Très Bien avec félicitations au bac,list_com,Taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le nombre vœux PP),cod_aff_form,Taux d’accès,Académie de l’établissement
count,104274.0,104274,104274,104274,104274.0,104274,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274,104274.0,104274.0,104274.0,104274,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274.0,104274,104274.0,104274.0,104274.0,104274
unique,,4521,13,5449,72.0,23827,7062.0,64930.0,18680.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,4,,,,5,518.0,,,,,,,,35,6310.0,27.0,,14.0,,6.0,,6.0,,,,,,,3504.0,669.0,217.0,,3,,,201.0,37
top,,0673021V,BTS,BTS - Services,0.0,"Langues, littératures & civilisations étrangèr...",0.0,0.0,0.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,2_Lycées,,,,formation sélective,0.0,,,,,,,,Tous les candidats,0.0,0.0,,0.0,,0.0,,0.0,,,,,,,0.0,0.0,0.0,,Liste d'appel propre à cette formation,,,0.0,Paris
freq,,718,41966,11603,103135.0,823,74999.0,2515.0,1513.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,49401,,,,53835,91514.0,,,,,,,,42124,24941.0,67956.0,,81896.0,,104260.0,,104260.0,,,,,,,35034.0,35034.0,100768.0,,39191,,,49920.0,7349
mean,2021.696454,,,,,,,,,57.555229,853.649769,473.47192,824.622418,425.001496,64.256938,119.971153,35.073595,59.774949,23.261139,219.87482,29.007346,5.667338,4.196655,2.880315,16.263038,588.504699,12.297495,331.411819,50.32569,82.60692,22.586052,40.958139,15.271985,133.527821,275.729846,46.48714,48.971057,27.191141,44.300794,4.478403,8.354815,36.660587,24.927316,7.340142,4.393128,12.309722,0.152751,11.610507,11.953526,8.459606,4.134693,17.755183,4.108704,3.029058,,13.70403,33.894931,38.566939,,,132.176544,21.326237,29.386865,8.536615,14.195495,5.577833,47.041276,,,,25.240587,,15.019123,,0.200491,,0.205689,6.270892,5.169572,12.39519,6.24544,3564.768236,,,,0.34512,,6.691601,9275.474509,,
std,2.251585,,,,,,,,,107.577105,1414.021465,901.294526,1414.202043,1017.013174,142.189546,211.164522,69.568854,111.14897,48.487296,456.226818,78.729634,22.595739,16.207804,9.834868,43.404755,1103.058754,36.766153,783.11787,123.380769,142.766062,43.453805,77.212104,32.350589,345.572295,441.245391,298.194348,86.309556,58.130383,81.419826,14.045797,15.670297,68.703312,63.208075,11.018784,5.928654,25.967212,0.801283,24.620028,23.252612,19.73579,15.492335,48.457973,7.69114,4.311524,,35.796956,66.881773,73.156424,,,316.64573,48.693674,53.295792,16.583068,24.086965,10.683158,105.782625,,,,75.456751,,60.774831,,32.704499,,24.82143,19.523159,15.128108,27.752912,15.209086,7739.908989,,,,3.330185,,20.205232,12498.020032,,
min,2018.0,,,,,,,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,0.0,0.0,0.0,,,0.0,0.0,0.0,0.0,0.0,0.0,0.0,,,,0.0,,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,0.0,,,,0.0,,0.0,0.0,,
25%,2020.0,,,,,,,,,20.0,173.0,57.0,153.0,24.0,4.0,14.0,3.0,4.0,1.0,33.0,0.0,0.0,0.0,0.0,0.0,99.0,0.0,18.0,3.0,8.0,1.0,1.0,0.0,12.0,66.0,0.0,15.0,4.0,13.0,0.0,2.0,11.0,2.0,1.0,0.0,2.0,0.0,2.0,3.0,1.0,0.0,0.0,0.0,0.0,,1.0,8.0,10.0,,,0.0,0.0,0.0,0.0,0.0,0.0,1.0,,,,0.0,,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,0.0,,,,0.0,,0.0,0.0,,
50%,2022.0,,,,,,,,,32.0,385.0,183.0,354.0,98.0,18.0,50.0,12.0,23.0,7.0,88.0,4.0,0.0,0.0,0.0,2.0,226.0,1.0,66.0,11.0,37.0,8.0,14.0,4.0,35.0,125.0,0.0,26.0,13.0,24.0,0.0,4.0,20.0,6.0,4.0,2.0,5.0,0.0,6.0,6.0,3.0,1.0,3.0,2.0,1.0,,5.0,18.0,20.0,,,19.0,4.0,10.0,2.0,2.0,1.0,14.0,,,,0.0,,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,0.0,,,,0.0,,0.0,3114.5,,
75%,2024.0,,,,,,,,,52.0,905.0,474.0,859.0,398.0,64.0,131.0,35.0,65.0,22.0,217.0,27.0,4.0,3.0,2.0,14.0,553.0,8.0,308.0,45.0,93.0,24.0,47.0,16.0,100.0,277.0,0.0,46.0,26.0,42.0,3.0,9.0,35.0,24.0,9.0,7.0,11.0,0.0,12.0,12.0,8.0,3.0,17.0,5.0,5.0,,12.0,32.0,37.0,,,120.0,20.0,37.0,10.0,21.0,7.0,39.0,,,,26.0,,0.0,,0.0,,0.0,0.0,0.0,0.0,0.0,60.75,,,,0.0,,0.0,14686.0,,


In [19]:
for col in voeux.columns:
    if voeux[col].dtypes == 'float64':
        voeux[col] = voeux[col].astype('int')

voeux["Taux d’accès"] = voeux["Taux d’accès"].astype(int)

In [20]:
#harmonisation de la colonne "Sélectivité"

voeux["Sélectivité"] = voeux["Sélectivité"].replace(['formation selective'],'formation sélective')
voeux["Sélectivité"] = voeux["Sélectivité"].replace(['formation non selec'],'formation non sélective')
voeux["Sélectivité"] = voeux["Sélectivité"].replace([0],'Non précisé')

voeux["Sélectivité"].unique()

array(['Non précisé', 'formation sélective', 'formation non sélective'],
      dtype=object)

In [21]:


voeux["Rang du dernier appelé du groupe 1"]=voeux["Rang du dernier appelé du groupe 1"].astype(int)

print(voeux["Rang du dernier appelé du groupe 1"].unique())
voeux["Rang du dernier appelé du groupe 1"].dtype

[   0  127  489 ... 4271 2468 5538]


dtype('int64')

In [22]:
voeux["list_com"].unique()


array([0, "Liste d'appel propre à cette formation",
       "Liste d'appel commune à plusieurs formations"], dtype=object)

In [23]:
# Modification à effectuer pour eviter les anomalies de chargement dans power BI

col_a_retraiter = ["Regroupement 1 effectué par les formations pour les classements",
    "Filière de formation détaillée.1",
    "Regroupement 2 effectué par les formations pour les classements",
    "Regroupement 3 effectué par les formations pour les classements",
    "Regroupement 4 effectué par les formations pour les classements",
    "Regroupement 5 effectué par les formations pour les classements",
    "Filière de formation.1",
    "Filière de formation détaillée bis",
    "Concours communs et banque d'épreuves",
    "list_com"
    ]


voeux[col_a_retraiter] = voeux[col_a_retraiter].replace([0],'Non précisé')



### Propositions d'admission dans l'enseignement supérieur des élèves de terminale diplômés du baccalauréat général selon leurs enseignements de spécialité

In [24]:
dim_admissions = pd.read_csv("sources_brutes_csv/fr-esr-parcoursup-enseignements-de-specialite-bacheliers-generaux-2.csv", sep=";")


dim_admissions.head()

Unnamed: 0,Année du Baccalauréat,Enseignements de spécialité,Formation,Nombre de candidats bacheliers ayant confirmé au moins un vœu,Nombre de candidats bacheliers ayant reçu au moins une proposition d'admission,Nombre de candidats bacheliers ayant accepté une proposition d'admission
0,2021,"Art,Art",Licence Histoire,1,0.0,0
1,2021,"Art,Art","Licence Mécanique, Génie mécanique, Ingénierie...",0,0.0,0
2,2021,"Art,Humanités, Littérature et Philosophie",Licence Sciences et technologies industrielles,18,9.0,4
3,2021,"Art,Humanités, Littérature et Philosophie",DEUST,82,27.0,15
4,2021,"Art,Langues, littératures et cultures étrangèr...",Licence Géographie,83,39.0,11


In [25]:
dim_admissions.dtypes

Année du Baccalauréat                                                               int64
Enseignements de spécialité                                                        object
Formation                                                                          object
Nombre de candidats bacheliers ayant confirmé au moins un vœu                       int64
Nombre de candidats bacheliers ayant reçu au moins une proposition d'admission    float64
Nombre de candidats bacheliers ayant accepté une proposition d'admission            int64
dtype: object

In [26]:
dim_admissions["Nombre de candidats bacheliers ayant reçu au moins une proposition d'admission"] = dim_admissions["Nombre de candidats bacheliers ayant reçu au moins une proposition d'admission"].astype(int)

dim_admissions.dtypes

Année du Baccalauréat                                                              int64
Enseignements de spécialité                                                       object
Formation                                                                         object
Nombre de candidats bacheliers ayant confirmé au moins un vœu                      int64
Nombre de candidats bacheliers ayant reçu au moins une proposition d'admission     int64
Nombre de candidats bacheliers ayant accepté une proposition d'admission           int64
dtype: object

In [27]:
valeurs_manquantes = pd.DataFrame({'valeurs manquantes' : dim_admissions.isna().sum()})
valeurs_manquantes = valeurs_manquantes.sort_values(by= 'valeurs manquantes', ascending = False)
valeurs_manquantes.head(25)

Unnamed: 0,valeurs manquantes
Année du Baccalauréat,0
Enseignements de spécialité,0
Formation,0
Nombre de candidats bacheliers ayant confirmé au moins un vœu,0
Nombre de candidats bacheliers ayant reçu au moins une proposition d'admission,0
Nombre de candidats bacheliers ayant accepté une proposition d'admission,0


In [28]:
dim_admissions.describe(include="all")

Unnamed: 0,Année du Baccalauréat,Enseignements de spécialité,Formation,Nombre de candidats bacheliers ayant confirmé au moins un vœu,Nombre de candidats bacheliers ayant reçu au moins une proposition d'admission,Nombre de candidats bacheliers ayant accepté une proposition d'admission
count,17420.0,17420,17420,17420.0,17420.0,17420.0
unique,,76,65,,,
top,,"Art,Humanités, Littérature et Philosophie",Licence Histoire,,,
freq,,260,268,,,
mean,2022.589552,,,514.460505,309.952124,151.926406
std,1.117817,,,2812.364045,2125.829872,1665.951039
min,2021.0,,,0.0,0.0,0.0
25%,2022.0,,,1.0,0.0,0.0
50%,2023.0,,,9.0,4.0,1.0
75%,2024.0,,,100.0,40.0,13.0


In [29]:
dim_admissions.columns

Index(['Année du Baccalauréat', 'Enseignements de spécialité', 'Formation',
       'Nombre de candidats bacheliers ayant confirmé au moins un vœu',
       'Nombre de candidats bacheliers ayant reçu au moins une proposition d'admission',
       'Nombre de candidats bacheliers ayant accepté une proposition d'admission'],
      dtype='object')

In [30]:
len(dim_admissions)

17420

In [31]:
dim_admissions['Année du Baccalauréat'].unique()

array([2021, 2022, 2023, 2024])

In [32]:
print(dim_etablissements.isna().sum())


Code UAI de l'établissement                                              0
Établissement                                                            0
Département de l’établissement                                           0
Région de l’établissement                                                0
Académie de l’établissement                                              0
Coordonnées GPS de la formation                                          0
Statut de l’établissement de la filière de formation (public, privé…)    0
Commune de l’établissement                                               0
dtype: int64


Forçage des noms de colonnes pour qu'elles apparaissent dans le bon ordre dans powerBI

In [33]:
voeux.columns = [f"{i}_{col}" for i, col in enumerate(voeux.columns)]

voeux.columns

Index(['0_Session', '1_Code UAI de l'établissement',
       '2_Filière de formation très agrégée', '3_Filière de formation',
       '4_Concours communs et banques d'épreuves',
       '5_Filière de formation détaillée',
       '6_Filière de formation très détaillée',
       '7_Lien de la formation sur la plateforme Parcoursup',
       '8_Coordonnées GPS de la formation',
       '9_Capacité de l’établissement par formation',
       '10_Effectif total des candidats pour une formation',
       '11_Dont effectif des candidates pour une formation',
       '12_Effectif total des candidats en phase principale',
       '13_Effectif des candidats néo bacheliers généraux en phase principale',
       '14_Dont effectif des candidats boursiers néo bacheliers généraux en phase principale',
       '15_Effectif des candidats néo bacheliers technologiques en phase principale',
       '16_Dont effectif des candidats boursiers néo bacheliers technologiques en phase principale',
       '17_Effectif des can

### Export sous CSV  pour intégration dans Power BI

In [34]:
# Réduire les noms de colonnes à 128 caractères (limite sql)
#voeux.columns = [colonne[:128] for colonne in voeux.columns]

# En commentaire pour eviter d'écraser à chq lancement 
'''
dim_etablissements.to_csv("sources_clean_powerbi/dim_etablissements.csv", index=False, sep=";")

voeux.to_csv("sources_clean_powerbi/voeux.csv", index=False, sep=";") 

dim_admissions.to_csv("sources_clean_powerbi/dim_admissions.csv", index= False, sep=";")

print("les fichiers sont prêts à être intégrés dans PowerBI")'''

'\ndim_etablissements.to_csv("sources_clean_powerbi/dim_etablissements.csv", index=False, sep=";")\n\nvoeux.to_csv("sources_clean_powerbi/voeux.csv", index=False, sep=";") \n\ndim_admissions.to_csv("sources_clean_powerbi/dim_admissions.csv", index= False, sep=";")\n\nprint("les fichiers sont prêts à être intégrés dans PowerBI")'

In [38]:
list(voeux.columns)

['0_Session',
 "1_Code UAI de l'établissement",
 '2_Filière de formation très agrégée',
 '3_Filière de formation',
 "4_Concours communs et banques d'épreuves",
 '5_Filière de formation détaillée',
 '6_Filière de formation très détaillée',
 '7_Lien de la formation sur la plateforme Parcoursup',
 '8_Coordonnées GPS de la formation',
 '9_Capacité de l’établissement par formation',
 '10_Effectif total des candidats pour une formation',
 '11_Dont effectif des candidates pour une formation',
 '12_Effectif total des candidats en phase principale',
 '13_Effectif des candidats néo bacheliers généraux en phase principale',
 '14_Dont effectif des candidats boursiers néo bacheliers généraux en phase principale',
 '15_Effectif des candidats néo bacheliers technologiques en phase principale',
 '16_Dont effectif des candidats boursiers néo bacheliers technologiques en phase principale',
 '17_Effectif des candidats néo bacheliers professionnels en phase principale',
 '18_Dont effectif des candidats bo

In [49]:
len(voeux['59_Filière de formation détaillée.1'].unique())

518

In [50]:
df = pd.DataFrame(dim_admissions['Formation'].unique())

#df.to_excel("Archives/col_dim_adm.xlsx", index= False)

df2 = pd.DataFrame(voeux['2_Filière de formation très agrégée'].unique())

df2.to_excel("Archives/col_voeux.xlsx", index= False)