In [1]:
import pandas as pd

# Analyse de données relatives à la plateforme Parcoursup

## I) Introduction

**1) Description et origne des datasets.**

Tout d'abord qu'est ce que **Parcoursup** ?

Parcoursup est la plateforme **nationale** de préinscription en première année de l’enseignement supérieur en France. \
Cette dernière permet aux étudiants (de nationalité française et résidant en France ou non) entrant ou se réorientant en première année d'études supérieures de formuler leurs voeux pour différentes formations offertes par les établissements d'enseignement supérieur français du monde entier. \
Cela en passant par l'intermédiaire d'une plateforme Web: **https://www.parcoursup.gouv.fr/**

Cette plateforme appartenant au gouvernement français et les démarches s'effectuant exclusivement en ligne, il a été possible pour ce dernier de récolter de nombreuses données quant à Parcoursup. Celles-ci sont ainsi mises à disposition librement par le gouvernement sur le site open data du **ministère de l'enseignement supérieur et de la recherche:** \
**https://data.enseignementsup-recherche.gouv.fr/pages/explorer/?sort=modified&refine.keyword=parcoursup** *(1)*

Parmis ces datasets nous en exploiterons principalement deux types: 
1. **Les Voeux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements** pour les années allant de 2018 à 2023 tout deux inclus:  **https://github.com/Clwrnd/DataAnalyticsProject/tree/main/DataSet_Voeux_RepEtablissement**
2. **Les propositions d'admission dans l'enseignement supérieur des élèves de terminale diplômés du baccalauréat général selon leurs enseignements de spécialité** pour les années 2021 et 2022: **https://github.com/Clwrnd/DataAnalyticsProject/tree/main/DataSet_VoeuxParSpe**

On trouvera ci-joint les documents et liens utiles à la compréhension et lecture des différents datasets:

1. Pour le premier type, on pourra se référer au lien *(1)* en choisissant l'année souhaitée et en se rendant dans la rubrique "information". On a de plus pour chaque année une méthodologie détaillé ici: **https://github.com/Clwrnd/DataAnalyticsProject/tree/main/DataSet_Voeux_RepEtablissement/Methodologie**
2. Pour le deuxième type: **https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-parcoursup-enseignements-de-specialite-bacheliers-generaux-2/information/**.  Et pour une méthodologie plus détaillé: **https://github.com/Clwrnd/DataAnalyticsProject/blob/main/DataSet_VoeuxParSpe/m%C3%A9thodo_OD_EDS_21_22.pdf**

**2) Informations notables sur les datasets**

Ici sont évoquées les informations notables des documents et liens précédents qui pourront éventuellement être nécéssaires à une bonne analyse des données. En gardant à l'esprit qu'il soit possible que cette liste ne soit pas exhaustive et qu'au besoin il faudra se réferer aux documents précédents. \
Pour le **premier type** de datasets, on peut relever comme informations importantes:

1. **Aucun** de ces datasets ne prend en compte les formation en **apprentissage**. Il sera ainsi donc impossible de tirer quelconque conclusion à ce propos.
2. Pour l'année 2018, le terme "endo-recrutement (CPGE,BTS)" fait référence au libélé: "Le nombre de candidats admis en BTS ou en CPGE et issus de leur lycée" pour les années suivantes et pour le nom de colonne correspondante de la même année. Ce libélé explicitant le précédent.
3. Tout les établissements d'enseignement supérieur français n'effectue pas leurs recrutements sur Parcoursup. Ces derniers pouvant être plus ou moins nombreux selon le domaine. Il est important de garder cela à l'esprit avant d'effectuer quelconque conclusion.
4. Certains voeux se composent de sous-voeux représentant une formation dans un établissement précis. (Exemple: Voeux -> INSA, Sous-voeux -> INSA Strasbourg).
5. La somme des admis par phase peut être inférieur au total du nombre d’admis à cause des candidats admis hors phases.
6. En 2020, ont été ajouté les données cartographiques et deux nouveaux indicateurs *(voir document méthodologie 2020)*.
7. En 2021, la mention "très bien" a été détaillé grâce à "avec/sans félicitation du jury". D'autres changements ont aussi été effectué sur les groupes d'appelés *(voir document méthodologie 2021)*.
8. Les deux indicateurs ajoutés en 2020 ne prennent en compte uniquement que les étudiants scolarisés en France ou de nationalité européenne. De plus, le mode de calcul de ces indicateurs diffèrent entre 2020/2021 et 2022/2023. Il est spécifié qu'il est **impossible** de recalculer ces indicateurs avec les données open data.

Pour le **deuxième type** de dataset: 

1. Les enseignements "Arts" et "Littérature" se décline en plusieurs sous-enseignements plus spécifique.
2. La somme des candidats ayant confirmé un voeu dans chaque formation ne correspond pas au total des candidats car un candidat est donc compté autant de fois qu'il a fait de voeux dans des formations différentes. De même pour les propositions d'admissions. En revanche, les candidats ne peuvent accepter qu'une seule proposition d'admission. Donc dans la colonne "Nb de candidats bacheliers ayant accepté une proposition d'admission", on peut faire la somme des candidats pour chaque formation.

**3) Objectifs**

Les points et objectifs précis seront précsiés tout au long de l'avancement de l'analyse mais on peut cependant déjà donner un point de vue global de ces derniers:

1. Vérification de faits dont la véracité à déjà été prouvée ou dont la véracité est considérée à juste titre comme logique et naturelle
2. Tentatives d'extraction de lien de corrélation dans le but d'essayer de tirer de nouvelles conclusions
3. Tentative de mise au point d'un modèle prédictif permettant de donner les chances d'acceptations dans une certaine formation en fonction de différents facteurs.

## II) Analyse

**1) Préliminaires: Nettoyage des données et analyse explorative**

In [2]:
# Création de tous les DatasFrames
#Type 1:
dvre2023_df = pd.read_csv("DataSet_Voeux_RepEtablissement/fr-esr-parcoursup_2023.csv",encoding="utf8",sep=";")
dvre2022_df = pd.read_csv("DataSet_Voeux_RepEtablissement/fr-esr-parcoursup_2022.csv",encoding="utf8",sep=";")
dvre2021_df = pd.read_csv("DataSet_Voeux_RepEtablissement/fr-esr-parcoursup_2021.csv",encoding="utf8",sep=";")
dvre2020_df = pd.read_csv("DataSet_Voeux_RepEtablissement/fr-esr-parcoursup_2020.csv",encoding="utf8",sep=";")
dvre2019_df = pd.read_csv("DataSet_Voeux_RepEtablissement/fr-esr-parcoursup_2019.csv",encoding="utf8",sep=";")
dvre2018_df = pd.read_csv("DataSet_Voeux_RepEtablissement/fr-esr-parcoursup_2018.csv",encoding="utf8",sep=";")


#Type 2:
dvps_df = pd.read_csv("DataSet_VoeuxParSpe/fr-esr-parcoursup-enseignements-de-specialite-bacheliers-generaux-2.csv",encoding="utf8",sep=";")

**a)** Commençons par éxaminer les éventuelles différences au niveau de la structure des dataframes de type 1.

In [3]:
#Nombre de colonnes dans les différents datasets
print (len(dvre2023_df.columns),len(dvre2022_df.columns),len(dvre2021_df.columns),  
       len(dvre2020_df.columns),len(dvre2019_df.columns),len(dvre2018_df.columns))

118 118 118 115 92 85


In [4]:
#Différences au niveau des libéllés de colonnes les années 2023,2022,2021
print ( set(dvre2023_df.columns) ^ set(dvre2022_df.columns) )
print ( set (dvre2022_df.columns) ^ set(dvre2021_df.columns) )

set()
{'Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation', 'Part des terminales technologiques qui étaient en position de recevoir une proposition en phase principale', 'Part des terminales générales qui étaient en position de recevoir une proposition en phase principale', 'Taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le nombre vœux PP)', 'Taux d’accès', 'Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation', 'COD_AFF_FORM', 'Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation', 'Part des terminales professionnelles qui étaient en position de recevoir une proposition en phase principale', 'cod_aff_form'}


On constate que pour ces années on a exactement la même structure, entre 2022 et 2021 seuls les noms des colonnes diffèrent mais elles représentent cependant les **mêmes données** (en gardant en tête les remarques faites au sujet de ces indicateurs dans le point I.2). On peut ainsi renommer les colonnes de l'années 2021 pour faciliter l'analyse.

In [5]:
dvre2021_df = dvre2021_df.rename(columns={'Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation': 
                                          'Part des terminales professionnelles qui étaient en position de recevoir une proposition en phase principale'
                                          ,'Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation':
                                          'Part des terminales technologiques qui étaient en position de recevoir une proposition en phase principale',
                                         'Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation':
                                          'Part des terminales générales qui étaient en position de recevoir une proposition en phase principale',
                                          'COD_AFF_FORM':'cod_aff_form',
                                     'Taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le nombre vœux PP)':
                                         'Taux d’accès'                                       
                                         })

Examinons maintant les colonnes manquantes des autres années:

In [6]:
print( set(dvre2021_df.columns) - set(dvre2020_df.columns) )
print( set(dvre2020_df.columns) - set(dvre2019_df.columns) )
print( set(dvre2019_df.columns) - set(dvre2018_df.columns) )

{'composante_id_paysage', 'Taux d’accès', 'Commune de l’établissement', 'Part des terminales technologiques qui étaient en position de recevoir une proposition en phase principale', 'list_com', 'Dont % d’admis avec mention (BP)', 'Filière de formation.1', 'Dont % d’admis avec mention (BG)', 'Dont effectif des admis néo bacheliers avec mention Très Bien avec félicitations au bac', 'Filière de formation détaillée bis', "Concours communs et banque d'épreuves", 'etablissement_id_paysage', 'Dont % d’admis avec mention (BT)', 'Part des terminales générales qui étaient en position de recevoir une proposition en phase principale', '% d’admis néo bacheliers avec mention Très Bien avec félicitations au bac', 'Part des terminales professionnelles qui étaient en position de recevoir une proposition en phase principale', 'cod_aff_form'}
{'Regroupement 5 effectué par les formations pour les classements', 'Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation', 'Regroupeme

On remarque que certains indicateurs manquants sont ceux mentionnés en introduction (cela est donc cohérent), d'autres sont des affinages de certains indicateurs. Au vu de leurs grandes similarités structurelles, il n'est pas insensée de vouloir et de pouvoir effectuer des comparaisons et analyses communes entres ces datasets. Il faudra cependant prendre ces différences de structure en compte lors de l'analyse. 

**Cette première phase préliminaire nous permet de voir quelles indicateurs pourront être examinés sur quelles périodes de temps**

**b)** Examinons maintenant les données un peu plus en détails et essayont de faire un "tri" parmis ces-dernirèes.

In [7]:
#Aperçu des colonnes (Type 1)
#On affiche uniquement les colonnes du dataframes de 2023 car ce-dernier est le plus complets et reprend les colonnes des précédents
dvre2023_df.columns.to_list()

['Session',
 'Statut de l’établissement de la filière de formation (public, privé…)',
 "Code UAI de l'établissement",
 'Établissement',
 'Code départemental de l’établissement',
 'Département de l’établissement',
 'Région de l’établissement',
 'Académie de l’établissement',
 'Commune de l’établissement',
 'Filière de formation',
 'Sélectivité',
 'Filière de formation très agrégée',
 'Filière de formation détaillée',
 'Filière de formation.1',
 'Filière de formation détaillée bis',
 'Filière de formation très détaillée',
 'Coordonnées GPS de la formation',
 'Capacité de l’établissement par formation',
 'Effectif total des candidats pour une formation',
 'Dont effectif des candidates pour une formation',
 'Effectif total des candidats en phase principale',
 'Dont effectif des candidats ayant postulé en internat',
 'Effectif des candidats néo bacheliers généraux en phase principale',
 'Dont effectif des candidats boursiers néo bacheliers généraux en phase principale',
 'Effectif des candi

In [16]:
#Aperçu des colonnes (Type 2)
dvps_df.columns.to_list()

['Année du Baccalauréat',
 'Enseignements de spécialité',
 'Formation',
 'Nombre de candidats bacheliers ayant confirmé au moins un vœu',
 "Nombre de candidats bacheliers ayant reçu au moins une proposition d'admission",
 "Nombre de candidats bacheliers ayant accepté une proposition d'admission"]

Observons maintenant si certaines variables contiennent un nombre élevé de valeur nulle.

In [27]:
#From "main_study"
def perc_null (df): 
    return(df.isnull().sum() * 100 / len(df)).round(2)

In [28]:
nullpercl = perc_null(dvre2023_df)
with pd.option_context('display.max_rows', None): 
    display(nullpercl)

Session                                                                                                                                              0.00
Statut de l’établissement de la filière de formation (public, privé…)                                                                                0.00
Code UAI de l'établissement                                                                                                                          0.00
Établissement                                                                                                                                        0.00
Code départemental de l’établissement                                                                                                                0.00
Département de l’établissement                                                                                                                       0.00
Région de l’établissement                                                   