#Imports

In [None]:
!pip install simpledbf

import pandas as pd
from simpledbf import Dbf5



In [None]:
from google.colab import drive
mnt_point = '/content/drive/'
drive.mount(mnt_point, force_remount = True)

Mounted at /content/drive/


In [None]:
dir = mnt_point + 'My Drive/Data Camp Group 7/'
dir_parcoursup = dir + 'data/' + 'raw/' + 'parcoursup/'
dir_departments = dir + 'data/' + 'raw/' + 'departments/'
dir_final = 'drive/My Drive/Data Camp Group 7/data/'

years = [2019, 2020, 2021]
years_str = map(str, years)
years_birth_str = map(str, [year - 18 for year in years])

prefix_parcoursup = "fr-esr-parcoursup-"
prefix_births = "NAIS"

The Parcoursup data, along with the methodology, can be found at: https://data.enseignementsup-recherche.gouv.fr/pages/parcoursupdata/?disjunctive.fili&sort=tri

In [None]:
files = {}

for year in years_str:
  files["parcoursup_{0}".format(year)] = pd.read_csv(dir_parcoursup + prefix_parcoursup + year + ".csv",
                                                     sep = ";",
                                                     header = 0)

The birth data from 2001 to 2003 can be found at: https://www.insee.fr/fr/statistiques/2408004?sommaire=2117120

In [None]:
files_birth = {}

for year in years_birth_str:
  births = Dbf5(dir_departments + prefix_births + year + ".dbf").to_dataframe()
  births = births.groupby(by=["SEXE", "DEPNAIS"]).count()
  births = births['ANAIS'].reset_index()
  births = births.pivot(index = "DEPNAIS",
                        columns = "SEXE",
                        values = "ANAIS"
                        ).reset_index()
  births['1'] += births['2'] 
  births.rename({"1" : "nb_18_years_old_department",
                 "2" : "nb_18_years_old_department_female",
                 "DEPNAIS" : "department"},
                axis = 1,
                inplace = True)
  files_birth["births_{0}".format(year)] = births

#Formatting per year

##2019

In [None]:
files["parcoursup_2019"].rename({"Session" : "year",
                                 "Statut de l’établissement de la filière de formation (public, privé…)" : "school_status",
                                 "Code UAI de l'établissement" : "school_UAI",
                                 "Établissement" : "school_name",
                                 "Code départemental de l’établissement" : "department",
                                 "Département de l’établissement" : "department_name",
                                 "Région de l’établissement" : "region_name",
                                 "Académie de l’établissement" : "city_name",
                                 "Filière de formation très agrégée" : "super_path",
                                 "Filière de formation" : "path",
                                 "Concours communs et banques d'épreuves" : "recruitment_group",
                                 "Filière de formation détaillée" : "sub_path",
                                 "Filière de formation très détaillée" : "sub_sub_path",
                                 "Lien de la formation sur la plateforme Parcoursup" : "link",
                                 "Coordonnées GPS de la formation" : "GPS_coordinates",
                                 "Capacité de l’établissement par formation" : "capacity",
                                 "Effectif total des candidats pour une formation" : "nb_applicants",
                                 "Dont effectif des candidates pour une formation" : "nb_applicants_female",
                                 "Effectif total des candidats en phase principale" : "nb_applicants_main_round",
                                 "Dont effectif des candidats ayant postulé en internat" : "nb_applicants_main_round_with_residence",
                                 "Effectif des candidats néo bacheliers généraux en phase principale" : "nb_applicants_main_round_general_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers généraux en phase principale" : "nb_applicants_main_round_general_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers technologiques en phase principale" : "nb_applicants_main_round_technical_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers technologiques en phase principale" : "nb_applicants_main_round_technical_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers professionnels en phase principale" : "nb_applicants_main_round_professional_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers professionnels en phase principale" : "nb_applicants_main_round_professional_diploma_scholarship",
                                 "Effectif des autres candidats en phase principale" : "nb_applicants_main_round_other",
                                 "Effectif total des candidats en phase complémentaire" : "nb_applicants_complementary_round",
                                 "Effectif des candidats néo bacheliers généraux en phase complémentaire" : "nb_applicants_complementary_round_general_diploma",
                                 "Effectif des candidats néo bacheliers technologique en phase complémentaire" : "nb_applicants_complementary_round_technical_diploma",
                                 "Effectif des candidats néo bacheliers professionnels en phase complémentaire" : "nb_applicants_complementary_round_professional_diploma",
                                 "Effectifs des autres candidats en phase complémentaire" : "nb_applicants_complementary_round_other",
                                 "Effectif total des candidats classés par l’établissement en phase principale" : "nb_ranked_main_round",
                                 "Effectif des candidats classés par l’établissement en phase complémentaire" : "nb_ranked_complementary_round",
                                 "Effectif des candidats classés par l’établissement en internat (CPGE)" : "nb_ranked_CPGE_with_residence",
                                 "Effectif des candidats classés par l’établissement hors internat (CPGE)" : "nb_ranked_CPGE_without_residence",
                                 "Effectif des candidats néo bacheliers généraux classés par l’établissement" : "nb_ranked_general_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers généraux classés par l’établissement" : "nb_ranked_general_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers technologiques classés par l’établissement" : "nb_ranked_technical_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers technologiques classés par l’établissement" : "nb_ranked_technical_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers professionnels classés par l’établissement" : "nb_ranked_professional_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers professionnels classés par l’établissement" : "nb_ranked_professional_diploma_scholarship",
                                 "Effectif des autres candidats classés par l’établissement" : "nb_ranked_other",
                                 "Effectif total des candidats ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered",
                                 "Rang du dernier appelé" : "rank_last_offered",
                                 "Effectif total des candidats ayant accepté la proposition de l’établissement (admis)" : "nb_admitted",
                                 "Dont effectif des candidates admises" : "nb_admitted_female",
                                 "Effectif des admis en phase principale" : "nb_admitted_main_round",
                                 "Effectif des admis en phase complémentaire" : "nb_admitted_complementary_round",
                                 "Dont effectif des admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale" : "nb_admitted_offered_beginning_main_round",
                                 "Dont effectif des admis ayant reçu leur proposition d’admission avant le baccalauréat" : "nb_admitted_offered_before_diploma",
                                 "Dont effectif des admis ayant reçu leur proposition d’admission avant la fin de la procédure principale" : "nb_admitted_offered_before_end_main_round",
                                 "Dont effectif des admis en internat" : "nb_admitted_with_residence",
                                 "Dont effectif des admis boursiers néo bacheliers" : "nb_admitted_diploma_scholarship",
                                 "Effectif des admis néo bacheliers" : "nb_admitted_diploma",
                                 "Effectif des admis néo bacheliers généraux" : "nb_admitted_general_diploma",
                                 "Effectif des admis néo bacheliers technologiques" : "nb_admitted_technical_diploma",
                                 "Effectif des admis néo bacheliers professionnels" : "nb_admitted_professional_diploma",
                                 "Effectif des autres candidats admis" : "nb_admitted_other",
                                 "Dont effectif des admis néo bacheliers sans information sur la mention au bac" : "nb_admitted_diploma_unknown_grade",
                                 "Dont effectif des admis néo bacheliers sans mention au bac" : "nb_admitted_diploma_10_12",
                                 "Dont effectif des admis néo bacheliers avec mention Assez Bien au bac" : "nb_admitted_diploma_12_14",
                                 "Dont effectif des admis néo bacheliers avec mention Bien au bac" : "nb_admitted_diploma_14_16",
                                 "Dont effectif des admis néo bacheliers avec mention Très Bien au bac" : "nb_admitted_diploma_16_20",
                                 "Effectif des admis néo bacheliers généraux ayant eu une mention au bac" : "nb_admitted_general_diploma_12_20",
                                 "Effectif des admis néo bacheliers technologiques ayant eu une mention au bac" : "nb_admitted_technical_diploma_12_20",
                                 "Effectif des admis néo bacheliers professionnels ayant eu une mention au bac" : "nb_admitted_professional_diploma_12_20",
                                 "Dont effectif des admis issus du même établissement (BTS/CPGE)" : "nb_admitted_BTS_CPGE_diploma_same_school",
                                 "Dont effectif des admises issues du même établissement (BTS/CPGE)" : "nb_admitted_BTS_CPGE_diploma_same_school_female",
                                 "Dont effectif des admis issus de la même académie" : "nb_admitted_diploma_same_city",
                                 "Dont effectif des admis issus de la même académie (Paris/Créteil/Versailles réunies)" : "nb_admitted_diploma_same_city_with_one_paris_area",
                                 "% d’admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale" : "pct_admitted_offered_beginning_main_round_among_admitted",
                                 "% d’admis ayant reçu leur proposition d’admission avant le baccalauréat" : "pct_admitted_offered_before_diploma_among_admitted",
                                 "% d’admis ayant reçu leur proposition d’admission avant la fin de la procédure principale" : "pct_admitted_offered_before_end_main_round_among_admitted",
                                 "% d’admis dont filles" : "pct_admitted_female_among_admitted",
                                 "% d’admis néo bacheliers issus de la même académie" : "pct_admitted_diploma_same_city_among_admitted_diploma",
                                 "% d’admis néo bacheliers issus de la même académie (Paris/Créteil/Versailles réunies)" : "pct_admitted_diploma_same_city_with_one_paris_area_among_admitted_diploma",
                                 "% d’admis néo bacheliers issus du même établissement (BTS/CPGE)" : "pct_admitted_BTS_CPGE_diploma_same_school_among_admitted_diploma",
                                 "% d’admis néo bacheliers boursiers" : "pct_admitted_diploma_scholarship_among_admitted_diploma",
                                 "% d’admis néo bacheliers" : "pct_admitted_diploma_among_admitted",
                                 "% d’admis néo bacheliers sans information sur la mention au bac" : "pct_admitted_diploma_unknown_grade_among_admitted_diploma",
                                 "% d’admis néo bacheliers sans mention au bac" : "pct_admitted_diploma_10_12_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Assez Bien au bac" : "pct_admitted_diploma_12_14_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Bien au bac" : "pct_admitted_diploma_14_16_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Très Bien au bac" : "pct_admitted_diploma_16_20_among_admitted_diploma",
                                 "% d’admis néo bacheliers généraux" : "pct_admitted_general_diploma_among_admitted_diploma",
                                 "Dont % d’admis avec mention" : "pct_admitted_general_diploma_12_20_among_admitted_general_diploma",
                                 "% d’admis néo bacheliers technologiques" : "pct_admitted_technical_diploma_among_admitted_diploma",
                                 "Dont % d’admis avec mention.1" : "pct_admitted_technical_diploma_12_20_among_admitted_technical_diploma",
                                 "% d’admis néo bacheliers professionnels" : "pct_admitted_professional_diploma_among_admitted_diploma",
                                 "Dont % d’admis avec mention.2" : "pct_admitted_professional_diploma_12_20_among_admitted_technical_diploma",
                                 "tri" : "category_school"
                                 },
                                axis = 1,
                                inplace = True)

files["parcoursup_2019"] = files["parcoursup_2019"].convert_dtypes()

In [None]:
files_birth["births_2001"] = files_birth["births_2001"].astype({"department": str})
files["parcoursup_2019"] = files["parcoursup_2019"].merge(files_birth["births_2001"], on = "department", how = "left")

In [None]:
files["parcoursup_2019"].head()

Unnamed: 0,year,school_status,school_UAI,school_name,department,department_name,region_name,city_name,super_path,path,recruitment_group,sub_path,sub_sub_path,link,GPS_coordinates,capacity,nb_applicants,nb_applicants_female,nb_applicants_main_round,nb_applicants_main_round_with_residence,nb_applicants_main_round_general_diploma,nb_applicants_main_round_general_diploma_scholarship,nb_applicants_main_round_technical_diploma,nb_applicants_main_round_technical_diploma_scholarship,nb_applicants_main_round_professional_diploma,nb_applicants_main_round_professional_diploma_scholarship,nb_applicants_main_round_other,nb_applicants_complementary_round,nb_applicants_complementary_round_general_diploma,nb_applicants_complementary_round_technical_diploma,nb_applicants_complementary_round_professional_diploma,nb_applicants_complementary_round_other,nb_ranked_main_round,nb_ranked_complementary_round,nb_ranked_CPGE_with_residence,nb_ranked_CPGE_without_residence,nb_ranked_general_diploma,nb_ranked_general_diploma_scholarship,nb_ranked_technical_diploma,nb_ranked_technical_diploma_scholarship,...,nb_admitted_diploma,nb_admitted_general_diploma,nb_admitted_technical_diploma,nb_admitted_professional_diploma,nb_admitted_other,nb_admitted_diploma_unknown_grade,nb_admitted_diploma_10_12,nb_admitted_diploma_12_14,nb_admitted_diploma_14_16,nb_admitted_diploma_16_20,nb_admitted_general_diploma_12_20,nb_admitted_technical_diploma_12_20,nb_admitted_professional_diploma_12_20,nb_admitted_BTS_CPGE_diploma_same_school,nb_admitted_BTS_CPGE_diploma_same_school_female,nb_admitted_diploma_same_city,nb_admitted_diploma_same_city_with_one_paris_area,pct_admitted_offered_beginning_main_round_among_admitted,pct_admitted_offered_before_diploma_among_admitted,pct_admitted_offered_before_end_main_round_among_admitted,pct_admitted_female_among_admitted,pct_admitted_diploma_same_city_among_admitted_diploma,pct_admitted_diploma_same_city_with_one_paris_area_among_admitted_diploma,pct_admitted_BTS_CPGE_diploma_same_school_among_admitted_diploma,pct_admitted_diploma_scholarship_among_admitted_diploma,pct_admitted_diploma_among_admitted,pct_admitted_diploma_unknown_grade_among_admitted_diploma,pct_admitted_diploma_10_12_among_admitted_diploma,pct_admitted_diploma_12_14_among_admitted_diploma,pct_admitted_diploma_14_16_among_admitted_diploma,pct_admitted_diploma_16_20_among_admitted_diploma,pct_admitted_general_diploma_among_admitted_diploma,pct_admitted_general_diploma_12_20_among_admitted_general_diploma,pct_admitted_technical_diploma_among_admitted_diploma,pct_admitted_technical_diploma_12_20_among_admitted_technical_diploma,pct_admitted_professional_diploma_among_admitted_diploma,pct_admitted_professional_diploma_12_20_among_admitted_technical_diploma,category_school,nb_18_years_old_department,nb_18_years_old_department_female
0,2019,Public,0333269Z,La Prépa des INP - Groupe INP - Bordeaux,33,Gironde,Nouvelle-Aquitaine,Bordeaux,Autre formation,Formations d'ingénieurs,La Prépa des INP - Groupe INP,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"44.8014,-0.6112",70,3706,1370,3706,,3706,312,0,0,0,0,0,0,0,0,0,0,2503,0,,,2503,182,0,0,...,75,75,0,0,0,2,0,2,24,47,73,0,0,,,31,31,72.0,100.0,100.0,58.664062,41.328125,41.328125,,18.664062,100.0,2.666504,0.0,2.666504,32.0,62.664062,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,16851.0,8125.0
1,2019,Public,0382881A,Polytech Grenoble,38,Isère,Auvergne-Rhône-Alpes,Grenoble,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"45.1914,5.7672",116,7851,1920,7851,,7167,546,1,0,0,0,683,0,0,0,0,0,5228,0,,,4892,276,0,0,...,121,121,0,0,7,0,1,34,55,31,120,0,0,,,75,75,95.3125,99.21875,100.0,25.0,61.976562,61.976562,,9.916016,94.53125,0.0,0.826416,28.097656,45.453125,25.617188,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,13787.0,6688.0
2,2019,Public,0492226D,ISTIA - Polytech Angers,49,Maine-et-Loire,Pays de la Loire,Nantes,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"47.4809,-0.5928",91,5085,1271,5085,,4609,352,1,0,0,0,475,0,0,0,0,0,3260,0,,,3035,176,0,0,...,243,243,0,0,5,0,17,90,112,24,226,0,0,,,133,133,98.387097,99.596774,99.596774,21.773438,54.726562,54.726562,,9.464844,97.96875,0.0,6.995117,37.03125,46.085938,9.875,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,11340.0,5565.0
3,2019,Public,0540130Y,Polytech Nancy,54,Meurthe-et-Moselle,Grand Est,Nancy-Metz,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"48.6599,6.1882",131,5993,1359,5993,,5452,418,0,0,0,0,541,0,0,0,0,0,3945,0,,,3667,205,0,0,...,125,125,0,0,7,0,4,46,56,19,121,0,0,,,83,83,71.212121,90.909091,98.484848,15.150391,66.390625,66.390625,,10.398438,94.6875,0.0,3.199707,36.796875,44.796875,15.199219,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,9369.0,4605.0
4,2019,Public,0542307P,ENSGSI Nancy - Groupe INP,54,Meurthe-et-Moselle,Grand Est,Nancy-Metz,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"48.695,6.1936",43,3708,900,3708,,3281,254,0,0,0,0,427,0,0,0,0,0,2361,0,,,2146,113,0,0,...,37,37,0,0,4,0,1,8,20,8,36,0,0,,,30,30,65.853659,90.243902,97.560976,36.578125,81.078125,81.078125,,13.511719,90.234375,0.0,2.702637,21.621094,54.046875,21.621094,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,9369.0,4605.0


##2020

In [None]:
files["parcoursup_2020"].rename({"Session" : "year",
                                 "Statut de l’établissement de la filière de formation (public, privé…)" : "school_status",
                                 "Code UAI de l'établissement" : "school_UAI",
                                 "Établissement" : "school_name",
                                 "Code départemental de l’établissement" : "department",
                                 "Département de l’établissement" : "department_name",
                                 "Région de l’établissement" : "region_name",
                                 "Sélectivité" : "is_selective",
                                 "Académie de l’établissement" : "city_name",
                                 "Filière de formation très agrégée" : "super_path",
                                 "Filière de formation" : "path",
                                 "Concours communs et banques d'épreuves" : "recruitment_group",
                                 "Filière de formation détaillée" : "sub_path_detailed",
                                 "Filière de formation détaillée.1" : "sub_path",
                                 "Filière de formation très détaillée" : "sub_sub_path",
                                 "Lien de la formation sur la plateforme Parcoursup" : "link",
                                 "Coordonnées GPS de la formation" : "GPS_coordinates",
                                 "Capacité de l’établissement par formation" : "capacity",
                                 "Effectif total des candidats pour une formation" : "nb_applicants",
                                 "Dont effectif des candidates pour une formation" : "nb_applicants_female",
                                 "Effectif total des candidats en phase principale" : "nb_applicants_main_round",
                                 "Dont effectif des candidats ayant postulé en internat" : "nb_applicants_main_round_with_residence",
                                 "Effectif des candidats néo bacheliers généraux en phase principale" : "nb_applicants_main_round_general_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers généraux en phase principale" : "nb_applicants_main_round_general_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers technologiques en phase principale" : "nb_applicants_main_round_technical_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers technologiques en phase principale" : "nb_applicants_main_round_technical_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers professionnels en phase principale" : "nb_applicants_main_round_professional_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers professionnels en phase principale" : "nb_applicants_main_round_professional_diploma_scholarship",
                                 "Effectif des autres candidats en phase principale" : "nb_applicants_main_round_other",
                                 "Effectif total des candidats en phase complémentaire" : "nb_applicants_complementary_round",
                                 "Effectif des candidats néo bacheliers généraux en phase complémentaire" : "nb_applicants_complementary_round_general_diploma",
                                 "Effectif des candidats néo bacheliers technologique en phase complémentaire" : "nb_applicants_complementary_round_technical_diploma",
                                 "Effectif des candidats néo bacheliers professionnels en phase complémentaire" : "nb_applicants_complementary_round_professional_diploma",
                                 "Effectifs des autres candidats en phase complémentaire" : "nb_applicants_complementary_round_other",
                                 "Effectif total des candidats classés par l’établissement en phase principale" : "nb_ranked_main_round",
                                 "Effectif des candidats classés par l’établissement en phase complémentaire" : "nb_ranked_complementary_round",
                                 "Effectif des candidats classés par l’établissement en internat (CPGE)" : "nb_ranked_CPGE_with_residence",
                                 "Effectif des candidats classés par l’établissement hors internat (CPGE)" : "nb_ranked_CPGE_without_residence",
                                 "Effectif des candidats néo bacheliers généraux classés par l’établissement" : "nb_ranked_general_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers généraux classés par l’établissement" : "nb_ranked_general_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers technologiques classés par l’établissement" : "nb_ranked_technical_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers technologiques classés par l’établissement" : "nb_ranked_technical_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers professionnels classés par l’établissement" : "nb_ranked_professional_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers professionnels classés par l’établissement" : "nb_ranked_professional_diploma_scholarship",
                                 "Effectif des autres candidats classés par l’établissement" : "nb_ranked_other",
                                 "Effectif total des candidats ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered",
                                 "Rang du dernier appelé" : "rank_last_offered",
                                 "Effectif total des candidats ayant accepté la proposition de l’établissement (admis)" : "nb_admitted",
                                 "Dont effectif des candidates admises" : "nb_admitted_female",
                                 "Effectif des admis en phase principale" : "nb_admitted_main_round",
                                 "Effectif des admis en phase complémentaire" : "nb_admitted_complementary_round",
                                 "Dont effectif des admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale" : "nb_admitted_offered_beginning_main_round",
                                 "Dont effectif des admis ayant reçu leur proposition d’admission avant le baccalauréat" : "nb_admitted_offered_before_diploma",
                                 "Dont effectif des admis ayant reçu leur proposition d’admission avant la fin de la procédure principale" : "nb_admitted_offered_before_end_main_round",
                                 "Dont effectif des admis en internat" : "nb_admitted_with_residence",
                                 "Dont effectif des admis boursiers néo bacheliers" : "nb_admitted_diploma_scholarship",
                                 "Effectif des admis néo bacheliers" : "nb_admitted_diploma",
                                 "Effectif des admis néo bacheliers généraux" : "nb_admitted_general_diploma",
                                 "Effectif des admis néo bacheliers technologiques" : "nb_admitted_technical_diploma",
                                 "Effectif des admis néo bacheliers professionnels" : "nb_admitted_professional_diploma",
                                 "Effectif des autres candidats admis" : "nb_admitted_other",
                                 "Dont effectif des admis néo bacheliers sans information sur la mention au bac" : "nb_admitted_diploma_unknown_grade",
                                 "Dont effectif des admis néo bacheliers sans mention au bac" : "nb_admitted_diploma_10_12",
                                 "Dont effectif des admis néo bacheliers avec mention Assez Bien au bac" : "nb_admitted_diploma_12_14",
                                 "Dont effectif des admis néo bacheliers avec mention Bien au bac" : "nb_admitted_diploma_14_16",
                                 "Dont effectif des admis néo bacheliers avec mention Très Bien au bac" : "nb_admitted_diploma_16_20",
                                 "Effectif des admis néo bacheliers généraux ayant eu une mention au bac" : "nb_admitted_general_diploma_12_20",
                                 "Effectif des admis néo bacheliers technologiques ayant eu une mention au bac" : "nb_admitted_technical_diploma_12_20",
                                 "Effectif des admis néo bacheliers professionnels ayant eu une mention au bac" : "nb_admitted_professional_diploma_12_20",
                                 "Dont effectif des admis issus du même établissement (BTS/CPGE)" : "nb_admitted_BTS_CPGE_diploma_same_school",
                                 "Dont effectif des admises issues du même établissement (BTS/CPGE)" : "nb_admitted_BTS_CPGE_diploma_same_school_female",
                                 "Dont effectif des admis issus de la même académie" : "nb_admitted_diploma_same_city",
                                 "Dont effectif des admis issus de la même académie (Paris/Créteil/Versailles réunies)" : "nb_admitted_diploma_same_city_with_one_paris_area",
                                 "% d’admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale" : "pct_admitted_offered_beginning_main_round_among_admitted",
                                 "% d’admis ayant reçu leur proposition d’admission avant le baccalauréat" : "pct_admitted_offered_before_diploma_among_admitted",
                                 "% d’admis ayant reçu leur proposition d’admission avant la fin de la procédure principale" : "pct_admitted_offered_before_end_main_round_among_admitted",
                                 "% d’admis dont filles" : "pct_admitted_female_among_admitted",
                                 "% d’admis néo bacheliers issus de la même académie" : "pct_admitted_diploma_same_city_among_admitted_diploma",
                                 "% d’admis néo bacheliers issus de la même académie (Paris/Créteil/Versailles réunies)" : "pct_admitted_diploma_same_city_with_one_paris_area_among_admitted_diploma",
                                 "% d’admis néo bacheliers issus du même établissement (BTS/CPGE)" : "pct_admitted_BTS_CPGE_diploma_same_school_among_admitted_diploma",
                                 "% d’admis néo bacheliers boursiers" : "pct_admitted_diploma_scholarship_among_admitted_diploma",
                                 "% d’admis néo bacheliers" : "pct_admitted_diploma_among_admitted",
                                 "% d’admis néo bacheliers sans information sur la mention au bac" : "pct_admitted_diploma_unknown_grade_among_admitted_diploma",
                                 "% d’admis néo bacheliers sans mention au bac" : "pct_admitted_diploma_10_12_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Assez Bien au bac" : "pct_admitted_diploma_12_14_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Bien au bac" : "pct_admitted_diploma_14_16_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Très Bien au bac" : "pct_admitted_diploma_16_20_among_admitted_diploma",
                                 "% d’admis néo bacheliers généraux" : "pct_admitted_general_diploma_among_admitted_diploma",
                                 "Dont % d’admis avec mention" : "pct_admitted_general_diploma_12_20_among_admitted_general_diploma",
                                 "% d’admis néo bacheliers technologiques" : "pct_admitted_technical_diploma_among_admitted_diploma",
                                 "Dont % d’admis avec mention.1" : "pct_admitted_technical_diploma_12_20_among_admitted_technical_diploma",
                                 "% d’admis néo bacheliers professionnels" : "pct_admitted_professional_diploma_among_admitted_diploma",
                                 "Dont % d’admis avec mention.2" : "pct_admitted_professional_diploma_12_20_among_admitted_technical_diploma",
                                 "Effectif des candidats en terminale générale ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_general_diploma",
                                 "Dont effectif des candidats boursiers en terminale générale ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_general_diploma_scholarship",
                                 "Effectif des candidats en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_technical_diploma",
                                 "Dont effectif des candidats boursiers en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_technical_diploma_scholarship",
                                 "Effectif des candidats en terminale professionnelle ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_professional_diploma",
                                 "Dont effectif des candidats boursiers en terminale générale professionnelle ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_professional_diploma_scholarship",
                                 "Effectif des autres candidats ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_other",
                                 "Regroupement 1 effectué par les formations pour les classements" : "group_1_for_rankings",
                                 "Rang du dernier appelé du groupe 1" : "rank_last_offered_group_1",
                                 "Regroupement 2 effectué par les formations pour les classements" : "group_2_for_rankings",
                                 "Rang du dernier appelé du groupe 2" : "rank_last_offered_group_2",
                                 "Regroupement 3 effectué par les formations pour les classements" : "group_3_for_rankings",
                                 "Rang du dernier appelé du groupe 3" : "rank_last_offered_group_3",
                                 "Regroupement 4 effectué par les formations pour les classements" : "group_4_for_rankings",
                                 "Rang du dernier appelé du groupe 4" : "rank_last_offered_group_4",
                                 "Regroupement 5 effectué par les formations pour les classements" : "group_5_for_rankings",
                                 "Rang du dernier appelé du groupe 5" : "rank_last_offered_group_5",
                                 #access_rate = rank_last_offered / nb_ranked, where nb_ranked = nb_ranked_main_round + nb_ranked_complementary_round
                                 "Indicateur Parcoursup du taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le dernier classé)" : "access_rate",
                                 #access_rate_professional_diploma = rank_last_offered_professional_diploma_among_applicants_professional_diploma / nb_ranked_professional_diploma
                                 "Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation" : "access_rate_professional_diploma",
                                #access_rate_general = rank_last_offered_professional_diploma_among_applicants_general_diploma / nb_ranked_general_diploma
                                 "Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation" : "access_rate_general_diploma",
                                 #access_rate_technical = rank_last_offered_technical_diploma_among_applicants_technical_diploma / nb_ranked_technical_diploma
                                 "Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation" : "access_rate_technical_diploma",
                                 "tri" : "category_school",
                                 "COD_AFF_FORM" : "id_formation"
                                 },
                                axis = 1,
                                inplace = True)

files["parcoursup_2020"] = files["parcoursup_2020"].convert_dtypes()

In [None]:
files_birth["births_2002"] = files_birth["births_2002"].astype({"department": str})
files["parcoursup_2020"] = files["parcoursup_2020"].merge(files_birth["births_2002"], on = "department", how = "left")

In [None]:
files["parcoursup_2020"].head()

Unnamed: 0,year,school_status,school_UAI,school_name,department,department_name,region_name,city_name,is_selective,super_path,sub_path_detailed,path,recruitment_group,sub_path,sub_sub_path,link,GPS_coordinates,capacity,nb_applicants,nb_applicants_female,nb_applicants_main_round,nb_applicants_main_round_with_residence,nb_applicants_main_round_general_diploma,nb_applicants_main_round_general_diploma_scholarship,nb_applicants_main_round_technical_diploma,nb_applicants_main_round_technical_diploma_scholarship,nb_applicants_main_round_professional_diploma,nb_applicants_main_round_professional_diploma_scholarship,nb_applicants_main_round_other,nb_applicants_complementary_round,nb_applicants_complementary_round_general_diploma,nb_applicants_complementary_round_technical_diploma,nb_applicants_complementary_round_professional_diploma,nb_applicants_complementary_round_other,nb_ranked_main_round,nb_ranked_complementary_round,nb_ranked_CPGE_with_residence,nb_ranked_CPGE_without_residence,nb_ranked_general_diploma,nb_ranked_general_diploma_scholarship,...,pct_admitted_diploma_same_city_with_one_paris_area_among_admitted_diploma,pct_admitted_BTS_CPGE_diploma_same_school_among_admitted_diploma,pct_admitted_diploma_scholarship_among_admitted_diploma,pct_admitted_diploma_among_admitted,pct_admitted_diploma_unknown_grade_among_admitted_diploma,pct_admitted_diploma_10_12_among_admitted_diploma,pct_admitted_diploma_12_14_among_admitted_diploma,pct_admitted_diploma_14_16_among_admitted_diploma,pct_admitted_diploma_16_20_among_admitted_diploma,pct_admitted_general_diploma_among_admitted_diploma,pct_admitted_general_diploma_12_20_among_admitted_general_diploma,pct_admitted_technical_diploma_among_admitted_diploma,pct_admitted_technical_diploma_12_20_among_admitted_technical_diploma,pct_admitted_professional_diploma_among_admitted_diploma,pct_admitted_professional_diploma_12_20_among_admitted_technical_diploma,nb_offered_general_diploma,nb_offered_general_diploma_scholarship,nb_offered_technical_diploma,nb_offered_technical_diploma_scholarship,nb_offered_professional_diploma,nb_offered_professional_diploma_scholarship,nb_offered_other,group_1_for_rankings,rank_last_offered_group_1,group_2_for_rankings,rank_last_offered_group_2,group_3_for_rankings,rank_last_offered_group_3,group_4_for_rankings,rank_last_offered_group_4,group_5_for_rankings,rank_last_offered_group_5,access_rate,access_rate_professional_diploma,access_rate_general_diploma,access_rate_technical_diploma,category_school,id_formation,nb_18_years_old_department,nb_18_years_old_department_female
0,2020,Public,0791018C,IFSI CH Niort,79,Deux-Sèvres,Nouvelle-Aquitaine,Poitiers,formation selective,IFSI,Regroupement d'IFSI Université Poitiers - D.E ...,D.E secteur sanitaire,,Regroupement d'IFSI Université Poitiers - D.E ...,,https://dossier.parcoursup.fr/Candidat/carte?A...,"46.3152,-0.46034",110,3717,3192,3717,,720,94,769,169,329,100,1899,0,0,0,0,0,2409,0,,,577,57,...,59.74,,23.38,58.78,0.0,20.779221,24.675325,44.155844,10.38961,49.350649,29.87,25.974026,29.87,24.675325,29.87,269,32,187,45,71,22,412,Tous les candidats,1762,,,,,,,,,34,21,60,20,3_Autres formations,23215,3340.0,1678.0
1,2020,Public,0271476H,IFSI Evreux CHI Eure-Seine,27,Eure,Normandie,Normandie,formation selective,IFSI,Regroupement d'IFSI Université Rouen - D.E Inf...,D.E secteur sanitaire,,Regroupement d'IFSI Université Rouen - D.E Inf...,,https://dossier.parcoursup.fr/Candidat/carte?A...,"49.0372,1.14314",153,3153,2690,3153,,571,126,614,168,319,112,1649,0,0,0,0,0,2877,0,,,561,121,...,72.62,,32.14,56.0,0.0,28.571429,38.095238,26.190476,7.142857,33.333333,14.29,36.904762,14.29,29.761905,14.29,297,54,234,54,107,42,464,Tous les candidats,1995,,,,,,,,,38,21,49,29,3_Autres formations,23224,5114.0,2469.0
2,2020,Public,0762638E,IFSI CH Dieppe,76,Seine-Maritime,Normandie,Normandie,formation selective,IFSI,Regroupement d'IFSI Université Rouen - D.E Inf...,D.E secteur sanitaire,,Regroupement d'IFSI Université Rouen - D.E Inf...,,https://dossier.parcoursup.fr/Candidat/carte?A...,"49.9202,1.0789",87,2851,2420,2851,,539,123,555,151,251,94,1506,0,0,0,0,0,2614,0,,,531,120,...,88.46,,28.85,62.65,0.0,32.692308,32.692308,34.615385,0.0,42.307692,9.62,28.846154,9.62,28.846154,9.62,248,49,157,34,71,26,367,Tous les candidats,1936,,,,,,,,,38,20,54,25,3_Autres formations,23226,16806.0,8287.0
3,2020,Public,0762642J,ERFPS CHU Rouen,76,Seine-Maritime,Normandie,Normandie,formation selective,IFSI,Regroupement d'IFSI Université Rouen - D.E Inf...,D.E secteur sanitaire,,Regroupement d'IFSI Université Rouen - D.E Inf...,,https://dossier.parcoursup.fr/Candidat/carte?A...,"49.4376,1.10974",217,4346,3737,4346,,951,227,839,244,398,148,2158,0,0,0,0,0,4012,0,,,937,219,...,82.64,,23.97,55.76,0.0,16.528926,42.975207,30.578512,9.917355,63.636364,47.11,28.92562,47.11,7.438017,47.11,311,57,144,38,52,19,420,Tous les candidats,1053,,,,,,,,,22,5,76,20,3_Autres formations,23229,16806.0,8287.0
4,2020,Public,0672336A,IFSI de Saverne,67,Bas-Rhin,Grand Est,Strasbourg,formation selective,IFSI,Regroupement d'IFSI Université Strasbourg - D....,D.E secteur sanitaire,,Regroupement d'IFSI Université Strasbourg - D....,,https://dossier.parcoursup.fr/Candidat/carte?A...,"48.74675,7.34727",39,2444,2091,2444,,442,81,515,168,225,83,1262,0,0,0,0,0,2234,0,,,435,78,...,40.0,,8.0,62.5,0.0,16.0,32.0,32.0,20.0,32.0,24.0,48.0,24.0,20.0,24.0,124,24,103,32,32,9,211,Tous les candidats,1798,,,,,,,,,38,15,38,48,3_Autres formations,23238,13481.0,6523.0


##2021

In [None]:
files["parcoursup_2021"].rename({"Session" : "year",
                                 "Statut de l’établissement de la filière de formation (public, privé…)" : "school_status",
                                 "Code UAI de l'établissement" : "school_UAI",
                                 "Établissement" : "school_name",
                                 "Code départemental de l’établissement" : "department",
                                 "Département de l’établissement" : "department_name",
                                 "Région de l’établissement" : "region_name",
                                 "Sélectivité" : "is_selective",
                                 "Académie de l’établissement" : "city_name",
                                 "Commune de l’établissement" : "municipality_name",
                                 "Filière de formation très agrégée" : "super_path",
                                 "Filière de formation" : "path",
                                 "LIB_FOR_VOE_INS" : "super_path_detailed",
                                 "detail_forma2" : "recruitment_group",
                                 "Filière de formation détaillée" : "sub_path_detailed",
                                 "Filière de formation détaillée bis" : "sub_path",
                                 "Filière de formation très détaillée" : "sub_sub_path",
                                 "Lien de la formation sur la plateforme Parcoursup" : "link",
                                 "Coordonnées GPS de la formation" : "GPS_coordinates",
                                 "Capacité de l’établissement par formation" : "capacity",
                                 "Effectif total des candidats pour une formation" : "nb_applicants",
                                 "Dont effectif des candidates pour une formation" : "nb_applicants_female",
                                 "Effectif total des candidats en phase principale" : "nb_applicants_main_round",
                                 "Dont effectif des candidats ayant postulé en internat" : "nb_applicants_main_round_with_residence",
                                 "Effectif des candidats néo bacheliers généraux en phase principale" : "nb_applicants_main_round_general_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers généraux en phase principale" : "nb_applicants_main_round_general_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers technologiques en phase principale" : "nb_applicants_main_round_technical_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers technologiques en phase principale" : "nb_applicants_main_round_technical_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers professionnels en phase principale" : "nb_applicants_main_round_professional_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers professionnels en phase principale" : "nb_applicants_main_round_professional_diploma_scholarship",
                                 "Effectif des autres candidats en phase principale" : "nb_applicants_main_round_other",
                                 "Effectif total des candidats en phase complémentaire" : "nb_applicants_complementary_round",
                                 "Effectif des candidats néo bacheliers généraux en phase complémentaire" : "nb_applicants_complementary_round_general_diploma",
                                 "Effectif des candidats néo bacheliers technologique en phase complémentaire" : "nb_applicants_complementary_round_technical_diploma",
                                 "Effectif des candidats néo bacheliers professionnels en phase complémentaire" : "nb_applicants_complementary_round_professional_diploma",
                                 "Effectifs des autres candidats en phase complémentaire" : "nb_applicants_complementary_round_other",
                                 "Effectif total des candidats classés par l’établissement en phase principale" : "nb_ranked_main_round",
                                 "Effectif des candidats classés par l’établissement en phase complémentaire" : "nb_ranked_complementary_round",
                                 "Effectif des candidats classés par l’établissement en internat (CPGE)" : "nb_ranked_CPGE_with_residence",
                                 "Effectif des candidats classés par l’établissement hors internat (CPGE)" : "nb_ranked_CPGE_without_residence",
                                 "Effectif des candidats néo bacheliers généraux classés par l’établissement" : "nb_ranked_general_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers généraux classés par l’établissement" : "nb_ranked_general_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers technologiques classés par l’établissement" : "nb_ranked_technical_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers technologiques classés par l’établissement" : "nb_ranked_technical_diploma_scholarship",
                                 "Effectif des candidats néo bacheliers professionnels classés par l’établissement" : "nb_ranked_professional_diploma",
                                 "Dont effectif des candidats boursiers néo bacheliers professionnels classés par l’établissement" : "nb_ranked_professional_diploma_scholarship",
                                 "Effectif des autres candidats classés par l’établissement" : "nb_ranked_other",
                                 "Effectif total des candidats ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered",
                                 "Rang du dernier appelé" : "rank_last_offered",
                                 "Effectif total des candidats ayant accepté la proposition de l’établissement (admis)" : "nb_admitted",
                                 "Dont effectif des candidates admises" : "nb_admitted_female",
                                 "Effectif des admis en phase principale" : "nb_admitted_main_round",
                                 "Effectif des admis en phase complémentaire" : "nb_admitted_complementary_round",
                                 "Dont effectif des admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale" : "nb_admitted_offered_beginning_main_round",
                                 "Dont effectif des admis ayant reçu leur proposition d’admission avant le baccalauréat" : "nb_admitted_offered_before_diploma",
                                 "Dont effectif des admis ayant reçu leur proposition d’admission avant la fin de la procédure principale" : "nb_admitted_offered_before_end_main_round",
                                 "Dont effectif des admis en internat" : "nb_admitted_with_residence",
                                 "Dont effectif des admis boursiers néo bacheliers" : "nb_admitted_diploma_scholarship",
                                 "Effectif des admis néo bacheliers" : "nb_admitted_diploma",
                                 "Effectif des admis néo bacheliers généraux" : "nb_admitted_general_diploma",
                                 "Effectif des admis néo bacheliers technologiques" : "nb_admitted_technical_diploma",
                                 "Effectif des admis néo bacheliers professionnels" : "nb_admitted_professional_diploma",
                                 "Effectif des autres candidats admis" : "nb_admitted_other",
                                 "Dont effectif des admis néo bacheliers sans information sur la mention au bac" : "nb_admitted_diploma_unknown_grade",
                                 "Dont effectif des admis néo bacheliers sans mention au bac" : "nb_admitted_diploma_10_12",
                                 "Dont effectif des admis néo bacheliers avec mention Assez Bien au bac" : "nb_admitted_diploma_12_14",
                                 "Dont effectif des admis néo bacheliers avec mention Bien au bac" : "nb_admitted_diploma_14_16",
                                 "Dont effectif des admis néo bacheliers avec mention Très Bien au bac" : "nb_admitted_diploma_16_20",
                                 "Dont effectif des admis néo bacheliers avec mention Très Bien avec félicitations au bac" : "nb_admitted_diploma_18_20",
                                 "Effectif des admis néo bacheliers généraux ayant eu une mention au bac" : "nb_admitted_general_diploma_12_20",
                                 "Effectif des admis néo bacheliers technologiques ayant eu une mention au bac" : "nb_admitted_technical_diploma_12_20",
                                 "Effectif des admis néo bacheliers professionnels ayant eu une mention au bac" : "nb_admitted_professional_diploma_12_20",
                                 "Dont effectif des admis issus du même établissement (BTS/CPGE)" : "nb_admitted_BTS_CPGE_diploma_same_school",
                                 "Dont effectif des admises issues du même établissement (BTS/CPGE)" : "nb_admitted_BTS_CPGE_diploma_same_school_female",
                                 "Dont effectif des admis issus de la même académie" : "nb_admitted_diploma_same_city",
                                 "Dont effectif des admis issus de la même académie (Paris/Créteil/Versailles réunies)" : "nb_admitted_diploma_same_city_with_one_paris_area",
                                 "% d’admis ayant reçu leur proposition d’admission à l'ouverture de la procédure principale" : "pct_admitted_offered_beginning_main_round_among_admitted",
                                 "% d’admis ayant reçu leur proposition d’admission avant le baccalauréat" : "pct_admitted_offered_before_diploma_among_admitted",
                                 "% d’admis ayant reçu leur proposition d’admission avant la fin de la procédure principale" : "pct_admitted_offered_before_end_main_round_among_admitted",
                                 "% d’admis dont filles" : "pct_admitted_female_among_admitted",
                                 "% d’admis néo bacheliers issus de la même académie" : "pct_admitted_diploma_same_city_among_admitted_diploma",
                                 "% d’admis néo bacheliers issus de la même académie (Paris/Créteil/Versailles réunies)" : "pct_admitted_diploma_same_city_with_one_paris_area_among_admitted_diploma",
                                 "% d’admis néo bacheliers issus du même établissement (BTS/CPGE)" : "pct_admitted_BTS_CPGE_diploma_same_school_among_admitted_diploma",
                                 "% d’admis néo bacheliers boursiers" : "pct_admitted_diploma_scholarship_among_admitted_diploma",
                                 "% d’admis néo bacheliers" : "pct_admitted_diploma_among_admitted",
                                 "% d’admis néo bacheliers sans information sur la mention au bac" : "pct_admitted_diploma_unknown_grade_among_admitted_diploma",
                                 "% d’admis néo bacheliers sans mention au bac" : "pct_admitted_diploma_10_12_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Assez Bien au bac" : "pct_admitted_diploma_12_14_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Bien au bac" : "pct_admitted_diploma_14_16_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Très Bien au bac" : "pct_admitted_diploma_16_20_among_admitted_diploma",
                                 "% d’admis néo bacheliers avec mention Très Bien avec félicitations au bac" : "pct_admitted_diploma_18_20_among_admitted_diploma",
                                 "% d’admis néo bacheliers généraux" : "pct_admitted_general_diploma_among_admitted_diploma",
                                 "Dont % d’admis avec mention (BG)" : "pct_admitted_general_diploma_12_20_among_admitted_general_diploma",
                                 "% d’admis néo bacheliers technologiques" : "pct_admitted_technical_diploma_among_admitted_diploma",
                                 "Dont % d’admis avec mention (BT)" : "pct_admitted_technical_diploma_12_20_among_admitted_technical_diploma",
                                 "% d’admis néo bacheliers professionnels" : "pct_admitted_professional_diploma_among_admitted_diploma",
                                 "Dont % d’admis avec mention (BP)" : "pct_admitted_professional_diploma_12_20_among_admitted_technical_diploma",
                                 "Effectif des candidats en terminale générale ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_general_diploma",
                                 "Dont effectif des candidats boursiers en terminale générale ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_general_diploma_scholarship",
                                 "Effectif des candidats en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_technical_diploma",
                                 "Dont effectif des candidats boursiers en terminale technologique ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_technical_diploma_scholarship",
                                 "Effectif des candidats en terminale professionnelle ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_professional_diploma",
                                 "Dont effectif des candidats boursiers en terminale générale professionnelle ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_professional_diploma_scholarship",
                                 "Effectif des autres candidats ayant reçu une proposition d’admission de la part de l’établissement" : "nb_offered_other",
                                 "Regroupement 1 effectué par les formations pour les classements" : "group_1_for_rankings",
                                 "Rang du dernier appelé du groupe 1" : "rank_last_offered_group_1",
                                 "Regroupement 2 effectué par les formations pour les classements" : "group_2_for_rankings",
                                 "Rang du dernier appelé du groupe 2" : "rank_last_offered_group_2",
                                 "Regroupement 3 effectué par les formations pour les classements" : "group_3_for_rankings",
                                 "Rang du dernier appelé du groupe 3" : "rank_last_offered_group_3",
                                 "list_com" : "is_list_offered_shared",
                                 #access_rate = rank_last_offered / nb_ranked, where nb_ranked = nb_ranked_main_round + nb_ranked_complementary_round
                                 "Taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le nombre vœux PP)" : "access_rate",
                                 #access_rate_professional_diploma = rank_last_offered_professional_diploma_among_applicants_professional_diploma / nb_ranked_professional_diploma
                                 "Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation" : "access_rate_professional_diploma",
                                #access_rate_general = rank_last_offered_professional_diploma_among_applicants_general_diploma / nb_ranked_general_diploma
                                 "Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation" : "access_rate_general_diploma",
                                 #access_rate_technical = rank_last_offered_technical_diploma_among_applicants_technical_diploma / nb_ranked_technical_diploma
                                 "Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation" : "access_rate_technical_diploma",
                                 "tri" : "category_school",
                                 "COD_AFF_FORM" : "id_formation",
                                 "etablissement_id_paysage" : "school_landscape_id",
                                 "composante_id_paysage" : "faculty_landscape_id"
                                 },
                                axis = 1,
                                inplace = True)

files["parcoursup_2021"] = files["parcoursup_2021"].convert_dtypes()

In [None]:
files_birth["births_2003"] = files_birth["births_2003"].astype({"department": str})
files["parcoursup_2021"] = files["parcoursup_2021"].merge(files_birth["births_2003"], on = "department", how = "left")

In [None]:
files["parcoursup_2021"].head()

Unnamed: 0,year,school_status,school_UAI,school_name,department,department_name,region_name,city_name,municipality_name,is_selective,super_path,sub_path_detailed,path,sub_path,sub_sub_path,GPS_coordinates,capacity,nb_applicants,nb_applicants_female,nb_applicants_main_round,nb_applicants_main_round_with_residence,nb_applicants_main_round_general_diploma,nb_applicants_main_round_general_diploma_scholarship,nb_applicants_main_round_technical_diploma,nb_applicants_main_round_technical_diploma_scholarship,nb_applicants_main_round_professional_diploma,nb_applicants_main_round_professional_diploma_scholarship,nb_applicants_main_round_other,nb_applicants_complementary_round,nb_applicants_complementary_round_general_diploma,nb_applicants_complementary_round_technical_diploma,nb_applicants_complementary_round_professional_diploma,nb_applicants_complementary_round_other,nb_ranked_main_round,nb_ranked_complementary_round,nb_ranked_CPGE_with_residence,nb_ranked_CPGE_without_residence,nb_ranked_general_diploma,nb_ranked_general_diploma_scholarship,nb_ranked_technical_diploma,...,pct_admitted_diploma_among_admitted,pct_admitted_diploma_unknown_grade_among_admitted_diploma,pct_admitted_diploma_10_12_among_admitted_diploma,pct_admitted_diploma_12_14_among_admitted_diploma,pct_admitted_diploma_14_16_among_admitted_diploma,pct_admitted_diploma_16_20_among_admitted_diploma,pct_admitted_diploma_18_20_among_admitted_diploma,pct_admitted_general_diploma_among_admitted_diploma,pct_admitted_general_diploma_12_20_among_admitted_general_diploma,pct_admitted_technical_diploma_among_admitted_diploma,pct_admitted_technical_diploma_12_20_among_admitted_technical_diploma,pct_admitted_professional_diploma_among_admitted_diploma,pct_admitted_professional_diploma_12_20_among_admitted_technical_diploma,nb_offered_general_diploma,nb_offered_general_diploma_scholarship,nb_offered_technical_diploma,nb_offered_technical_diploma_scholarship,nb_offered_professional_diploma,nb_offered_professional_diploma_scholarship,nb_offered_other,group_1_for_rankings,rank_last_offered_group_1,group_2_for_rankings,rank_last_offered_group_2,group_3_for_rankings,rank_last_offered_group_3,is_list_offered_shared,access_rate,category_school,id_formation,super_path_detailed,recruitment_group,link,access_rate_general_diploma,access_rate_technical_diploma,access_rate_professional_diploma,school_landscape_id,faculty_landscape_id,nb_18_years_old_department,nb_18_years_old_department_female
0,2021,Privé sous contrat d'association,0740092Y,Lycée Sainte Famille,74,Haute-Savoie,Auvergne-Rhône-Alpes,Grenoble,La Roche-sur-Foron,formation sélective,Autre formation,Lycée Sainte Famille - Diplôme de Comptabilité...,DCG,Diplôme de Comptabilité et de Gestion,,"46.076,6.30165",24,141,63,114,,38,7,39,8,1,0,36,27,8,3,1,15,78,14,,,32,6,34,...,84.1875,6.299805,18.796875,37.5,31.296875,6.3,0.0,43.796875,25.0,56.296875,50.0,0.0,0.0,29,8,25,4,0,0,17,Tous les candidats,76,,,,,Liste d'appel propre à cette formation,67,3_Autres formations,8884,Diplôme de Comptabilité et de Gestion,,https://dossier.parcoursup.fr/Candidat/carte?g...,53,47,0,,,9647.0,4751.0
1,2021,Privé sous contrat d'association,0740100G,Lycée SAINT JOSEPH,74,Haute-Savoie,Auvergne-Rhône-Alpes,Grenoble,Thonon-les-Bains,formation sélective,BTS,Lycée SAINT JOSEPH - BTS - Services - Analyses...,BTS - Services,Analyses de biologie médicale,,"46.3759,6.48431",14,374,295,374,,110,17,118,29,19,5,127,0,0,0,0,0,126,0,,,51,6,46,...,93.296875,0.0,28.597656,50.0,21.398438,0.0,0.0,57.09375,42.898438,42.898438,28.597656,0.0,0.0,26,3,21,5,1,0,11,Tous les candidats sauf les Bac professionnels,93,Bacheliers professionnels toutes séries,1.0,,,Liste d'appel propre à cette formation,25,2_Lycées,8887,BTS - Services - Analyses de biologie médicale,,https://dossier.parcoursup.fr/Candidat/carte?g...,60,40,0,,,9647.0,4751.0
2,2021,Privé sous contrat d'association,0740283F,ISETA de Poisy,74,Haute-Savoie,Auvergne-Rhône-Alpes,Grenoble,Poisy,formation sélective,BTS,"ISETA de Poisy - BTS - Agricole - Analyse, con...",BTS - Agricole,"Analyse, conduite et stratégie de l'entreprise...",,"45.9257,6.07",32,125,51,122,,8,0,50,5,37,5,27,3,1,0,1,1,95,2,,,8,0,48,...,92.890625,0.0,30.796875,30.796875,38.5,0.0,0.0,15.398438,15.398438,69.1875,46.195312,15.398438,7.699219,7,0,45,4,33,4,5,Tous les candidats sauf les Bac technologiques...,11,Bacheliers professionnels toutes séries,34.0,Bacheliers technologiques toutes séries,49.0,Liste d'appel propre à cette formation,77,2_Lycées,8890,"BTS - Agricole - Analyse, conduite et stratégi...",,https://dossier.parcoursup.fr/Candidat/carte?g...,21,64,14,,,9647.0,4751.0
3,2021,Privé sous contrat d'association,0740283F,ISETA de Poisy,74,Haute-Savoie,Auvergne-Rhône-Alpes,Grenoble,Poisy,formation sélective,BTS,ISETA de Poisy - BTS - Agricole - Aquaculture,BTS - Agricole,Aquaculture,,"45.9257,6.07",30,163,32,163,,37,1,33,0,40,11,53,0,0,0,0,0,133,0,,,36,1,33,...,78.09375,8.0,32.0,40.0,20.0,0.0,0.0,40.0,12.0,32.0,24.0,28.0,24.0,28,1,23,0,31,9,18,Tous les candidats sauf les Bac technologiques...,49,Bacheliers professionnels toutes séries,42.0,Bacheliers technologiques toutes séries,36.0,Liste d'appel propre à cette formation,78,2_Lycées,8892,BTS - Agricole - Aquaculture,,https://dossier.parcoursup.fr/Candidat/carte?g...,47,31,22,,,9647.0,4751.0
4,2021,Privé sous contrat d'association,0741101V,Lycée Les Bressis,74,Haute-Savoie,Auvergne-Rhône-Alpes,Grenoble,Annecy,formation sélective,BTS,Lycée Les Bressis - BTS - Services - Comptabil...,BTS - Services,Comptabilité et gestion,,"45.8929,6.10059",18,174,87,159,,20,4,60,14,38,10,41,15,0,2,8,5,159,7,,,20,4,60,...,72.6875,12.5,62.5,12.5,0.0,12.5,0.0,25.0,0.0,25.0,0.0,50.0,25.0,19,3,47,11,28,10,20,Tous les candidats sauf les Bac technologiques...,30,Bacheliers professionnels toutes séries,39.0,Bacheliers technologiques toutes séries,72.0,Liste d'appel propre à cette formation,89,2_Lycées,8898,BTS - Services - Comptabilité et gestion,,https://dossier.parcoursup.fr/Candidat/carte?g...,36,18,45,,,9647.0,4751.0


#Creation of the final dataframe

## Outer merge

In [None]:
parcoursup_data_outer = pd.concat(files, axis = 0, ignore_index = True)

In [None]:
parcoursup_data_outer.head()

Unnamed: 0,year,school_status,school_UAI,school_name,department,department_name,region_name,city_name,super_path,path,recruitment_group,sub_path,sub_sub_path,link,GPS_coordinates,capacity,nb_applicants,nb_applicants_female,nb_applicants_main_round,nb_applicants_main_round_with_residence,nb_applicants_main_round_general_diploma,nb_applicants_main_round_general_diploma_scholarship,nb_applicants_main_round_technical_diploma,nb_applicants_main_round_technical_diploma_scholarship,nb_applicants_main_round_professional_diploma,nb_applicants_main_round_professional_diploma_scholarship,nb_applicants_main_round_other,nb_applicants_complementary_round,nb_applicants_complementary_round_general_diploma,nb_applicants_complementary_round_technical_diploma,nb_applicants_complementary_round_professional_diploma,nb_applicants_complementary_round_other,nb_ranked_main_round,nb_ranked_complementary_round,nb_ranked_CPGE_with_residence,nb_ranked_CPGE_without_residence,nb_ranked_general_diploma,nb_ranked_general_diploma_scholarship,nb_ranked_technical_diploma,nb_ranked_technical_diploma_scholarship,...,pct_admitted_general_diploma_among_admitted_diploma,pct_admitted_general_diploma_12_20_among_admitted_general_diploma,pct_admitted_technical_diploma_among_admitted_diploma,pct_admitted_technical_diploma_12_20_among_admitted_technical_diploma,pct_admitted_professional_diploma_among_admitted_diploma,pct_admitted_professional_diploma_12_20_among_admitted_technical_diploma,category_school,nb_18_years_old_department,nb_18_years_old_department_female,is_selective,sub_path_detailed,nb_offered_general_diploma,nb_offered_general_diploma_scholarship,nb_offered_technical_diploma,nb_offered_technical_diploma_scholarship,nb_offered_professional_diploma,nb_offered_professional_diploma_scholarship,nb_offered_other,group_1_for_rankings,rank_last_offered_group_1,group_2_for_rankings,rank_last_offered_group_2,group_3_for_rankings,rank_last_offered_group_3,group_4_for_rankings,rank_last_offered_group_4,group_5_for_rankings,rank_last_offered_group_5,access_rate,access_rate_professional_diploma,access_rate_general_diploma,access_rate_technical_diploma,id_formation,municipality_name,nb_admitted_diploma_18_20,pct_admitted_diploma_18_20_among_admitted_diploma,is_list_offered_shared,super_path_detailed,school_landscape_id,faculty_landscape_id
0,2019,Public,0333269Z,La Prépa des INP - Groupe INP - Bordeaux,33,Gironde,Nouvelle-Aquitaine,Bordeaux,Autre formation,Formations d'ingénieurs,La Prépa des INP - Groupe INP,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"44.8014,-0.6112",70,3706,1370,3706,,3706,312,0,0,0,0,0,0,0,0,0,0,2503,0,,,2503,182,0,0,...,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,16851.0,8125.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
1,2019,Public,0382881A,Polytech Grenoble,38,Isère,Auvergne-Rhône-Alpes,Grenoble,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"45.1914,5.7672",116,7851,1920,7851,,7167,546,1,0,0,0,683,0,0,0,0,0,5228,0,,,4892,276,0,0,...,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,13787.0,6688.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2,2019,Public,0492226D,ISTIA - Polytech Angers,49,Maine-et-Loire,Pays de la Loire,Nantes,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"47.4809,-0.5928",91,5085,1271,5085,,4609,352,1,0,0,0,475,0,0,0,0,0,3260,0,,,3035,176,0,0,...,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,11340.0,5565.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
3,2019,Public,0540130Y,Polytech Nancy,54,Meurthe-et-Moselle,Grand Est,Nancy-Metz,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"48.6599,6.1882",131,5993,1359,5993,,5452,418,0,0,0,0,541,0,0,0,0,0,3945,0,,,3667,205,0,0,...,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,9369.0,4605.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
4,2019,Public,0542307P,ENSGSI Nancy - Groupe INP,54,Meurthe-et-Moselle,Grand Est,Nancy-Metz,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"48.695,6.1936",43,3708,900,3708,,3281,254,0,0,0,0,427,0,0,0,0,0,2361,0,,,2146,113,0,0,...,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,9369.0,4605.0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,


In [None]:
parcoursup_data_outer.to_csv(dir_final + 'parcoursup_outer.csv')

## Inner merge

In [None]:
parcoursup_data_inner = pd.concat(files, axis = 0, join = 'inner', ignore_index = True)

In [None]:
parcoursup_data_inner.head()

Unnamed: 0,year,school_status,school_UAI,school_name,department,department_name,region_name,city_name,super_path,path,recruitment_group,sub_path,sub_sub_path,link,GPS_coordinates,capacity,nb_applicants,nb_applicants_female,nb_applicants_main_round,nb_applicants_main_round_with_residence,nb_applicants_main_round_general_diploma,nb_applicants_main_round_general_diploma_scholarship,nb_applicants_main_round_technical_diploma,nb_applicants_main_round_technical_diploma_scholarship,nb_applicants_main_round_professional_diploma,nb_applicants_main_round_professional_diploma_scholarship,nb_applicants_main_round_other,nb_applicants_complementary_round,nb_applicants_complementary_round_general_diploma,nb_applicants_complementary_round_technical_diploma,nb_applicants_complementary_round_professional_diploma,nb_applicants_complementary_round_other,nb_ranked_main_round,nb_ranked_complementary_round,nb_ranked_CPGE_with_residence,nb_ranked_CPGE_without_residence,nb_ranked_general_diploma,nb_ranked_general_diploma_scholarship,nb_ranked_technical_diploma,nb_ranked_technical_diploma_scholarship,...,nb_admitted_diploma,nb_admitted_general_diploma,nb_admitted_technical_diploma,nb_admitted_professional_diploma,nb_admitted_other,nb_admitted_diploma_unknown_grade,nb_admitted_diploma_10_12,nb_admitted_diploma_12_14,nb_admitted_diploma_14_16,nb_admitted_diploma_16_20,nb_admitted_general_diploma_12_20,nb_admitted_technical_diploma_12_20,nb_admitted_professional_diploma_12_20,nb_admitted_BTS_CPGE_diploma_same_school,nb_admitted_BTS_CPGE_diploma_same_school_female,nb_admitted_diploma_same_city,nb_admitted_diploma_same_city_with_one_paris_area,pct_admitted_offered_beginning_main_round_among_admitted,pct_admitted_offered_before_diploma_among_admitted,pct_admitted_offered_before_end_main_round_among_admitted,pct_admitted_female_among_admitted,pct_admitted_diploma_same_city_among_admitted_diploma,pct_admitted_diploma_same_city_with_one_paris_area_among_admitted_diploma,pct_admitted_BTS_CPGE_diploma_same_school_among_admitted_diploma,pct_admitted_diploma_scholarship_among_admitted_diploma,pct_admitted_diploma_among_admitted,pct_admitted_diploma_unknown_grade_among_admitted_diploma,pct_admitted_diploma_10_12_among_admitted_diploma,pct_admitted_diploma_12_14_among_admitted_diploma,pct_admitted_diploma_14_16_among_admitted_diploma,pct_admitted_diploma_16_20_among_admitted_diploma,pct_admitted_general_diploma_among_admitted_diploma,pct_admitted_general_diploma_12_20_among_admitted_general_diploma,pct_admitted_technical_diploma_among_admitted_diploma,pct_admitted_technical_diploma_12_20_among_admitted_technical_diploma,pct_admitted_professional_diploma_among_admitted_diploma,pct_admitted_professional_diploma_12_20_among_admitted_technical_diploma,category_school,nb_18_years_old_department,nb_18_years_old_department_female
0,2019,Public,0333269Z,La Prépa des INP - Groupe INP - Bordeaux,33,Gironde,Nouvelle-Aquitaine,Bordeaux,Autre formation,Formations d'ingénieurs,La Prépa des INP - Groupe INP,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"44.8014,-0.6112",70,3706,1370,3706,,3706,312,0,0,0,0,0,0,0,0,0,0,2503,0,,,2503,182,0,0,...,75,75,0,0,0,2,0,2,24,47,73,0,0,,,31,31,72.0,100.0,100.0,58.664062,41.328125,41.328125,,18.664062,100.0,2.666504,0.0,2.666504,32.0,62.664062,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,16851.0,8125.0
1,2019,Public,0382881A,Polytech Grenoble,38,Isère,Auvergne-Rhône-Alpes,Grenoble,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"45.1914,5.7672",116,7851,1920,7851,,7167,546,1,0,0,0,683,0,0,0,0,0,5228,0,,,4892,276,0,0,...,121,121,0,0,7,0,1,34,55,31,120,0,0,,,75,75,95.3125,99.21875,100.0,25.0,61.976562,61.976562,,9.916016,94.53125,0.0,0.826416,28.097656,45.453125,25.617188,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,13787.0,6688.0
2,2019,Public,0492226D,ISTIA - Polytech Angers,49,Maine-et-Loire,Pays de la Loire,Nantes,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"47.4809,-0.5928",91,5085,1271,5085,,4609,352,1,0,0,0,475,0,0,0,0,0,3260,0,,,3035,176,0,0,...,243,243,0,0,5,0,17,90,112,24,226,0,0,,,133,133,98.387097,99.596774,99.596774,21.773438,54.726562,54.726562,,9.464844,97.96875,0.0,6.995117,37.03125,46.085938,9.875,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,11340.0,5565.0
3,2019,Public,0540130Y,Polytech Nancy,54,Meurthe-et-Moselle,Grand Est,Nancy-Metz,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"48.6599,6.1882",131,5993,1359,5993,,5452,418,0,0,0,0,541,0,0,0,0,0,3945,0,,,3667,205,0,0,...,125,125,0,0,7,0,4,46,56,19,121,0,0,,,83,83,71.212121,90.909091,98.484848,15.150391,66.390625,66.390625,,10.398438,94.6875,0.0,3.199707,36.796875,44.796875,15.199219,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,9369.0,4605.0
4,2019,Public,0542307P,ENSGSI Nancy - Groupe INP,54,Meurthe-et-Moselle,Grand Est,Nancy-Metz,Autre formation,Formations d'ingénieurs,Concours Geipi Polytech,bac S,,https://dossier.parcoursup.fr/Candidat/carte?g...,"48.695,6.1936",43,3708,900,3708,,3281,254,0,0,0,0,427,0,0,0,0,0,2361,0,,,2146,113,0,0,...,37,37,0,0,4,0,1,8,20,8,36,0,0,,,30,30,65.853659,90.243902,97.560976,36.578125,81.078125,81.078125,,13.511719,90.234375,0.0,2.702637,21.621094,54.046875,21.621094,100.0,0.0,0.0,0.0,0.0,0.0,3_Autres formations,9369.0,4605.0


In [None]:
parcoursup_data_inner.to_csv(dir_final + 'parcoursup_inner.csv')