In [1]:
import pandas as pd

# Analyse de données relative à la plateforme Parcoursup

## Introduction

**1) Description et orignes des datasets.**

Tout d'abord qu'est ce que **Parcoursup** ?

Parcoursup est la plateforme **nationale** de préinscription en première année de l’enseignement supérieur en France. \
Cette dernière permet aux étudiants (de nationalité française et résidant en France ou non) entrant ou se réorientant en première années d'études supérieur de formuler leurs voeux pour différentes formations offertes par les établissements d'enseignements supérieur français du monde entier. \
Cela en passant par l'intermédiaire d'une plateforme Web: **https://www.parcoursup.gouv.fr/**

Cette plateforme appartenant au gouvernement français et les démarches s'effectuant exclusivement en ligne, il a été possible pour ce dernier de récolter de nombreuses données quant à Parcoursup. Celles-ci sont ainsi mises à disposition librement par le gouvernement sur le site open data du **ministère de l'enseignement supérieur et de la recherche:** \
**https://data.enseignementsup-recherche.gouv.fr/pages/explorer/?sort=modified&refine.keyword=parcoursup** *(1)*

Parmis ces datasets nous en exploiterons principalement deux types: 
1. **Les Voeux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements** pour les années allant de 2018 à 2023 tout deux inclus:  **https://github.com/Clwrnd/DataAnalyticsProject/tree/main/DataSet_Voeux_RepEtablissement**
2. **Les propositions d'admission dans l'enseignement supérieur des élèves de terminale diplômés du baccalauréat général selon leurs enseignements de spécialité** pour les années 2021 et 2022: **https://github.com/Clwrnd/DataAnalyticsProject/tree/main/DataSet_VoeuxParSpe**

On trouvera ci-joint les documents et lien utiles à la compréhension et lectures des différents datasets:

1. Pour le premier type, on pourra se référer au lien *(1)* en choisissant l'année souhaitée et en se rendant dans la rubrique "informations". On a de plus pour chaque année une méthodologie détaillé ici: **https://github.com/Clwrnd/DataAnalyticsProject/tree/main/DataSet_Voeux_RepEtablissement/Methodologie**
2. Pour le deuxième type: **https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-parcoursup-enseignements-de-specialite-bacheliers-generaux-2/information/**.  Et pour une méthodologie plus détaillé: **https://github.com/Clwrnd/DataAnalyticsProject/blob/main/DataSet_VoeuxParSpe/m%C3%A9thodo_OD_EDS_21_22.pdf**

**2) Informations notables sur les datasets**

Ici sont évoquées les informations notables des documents et liens précédents qui pourront éventuellement être nécéssaires à une bonne analyse des données. En gardant à l'esprit qu'il soit possible que cette liste ne soit pas exhaustive et qu'au besoin il faudra se réferer aux documents précédents. \
Pour le **premier type** de datasets, on peut relever comme informations importantes:

1. **Aucun** de ces datasets ne prend en compte les formation en **apprentissage**. Il sera ainsi donc impossible de tirer quelconque conclusion à ce propos.
2. Pour l'année 2018, le terme "endo-recrutement (CPGE,BTS)" fait référence au libélé "Le nombre de candidats admis en BTS ou en CPGE et issus de leur lycée" pour les années suivantes et pour le nom de colonne correspondante de la même année. Ce libélé explicitant le précédent.
3. Tout les établissements d'enseignements supérieur français n'effectue pas leurs recrutements sur Parcoursup. Ces derniers pouvant être plus ou moins nombreux selon le domaine. Il est important de garder cela à l'esprit avant d'effectuer quelconque conclusion.
4. Certains voeux se composent de sous-voeux représentant une formation dans un établissement précis. (Exemple: Voeux: -> INSA, Sous-voeux -> INSA Strasbourg).
5. La somme des admis par phase peut être inférieur au total du nombre d’admis à cause des candidats admis hors phases.
6. En 2020, ont été ajouté les données cartographiques et deux nouveaux indicateurs *(voir document méthodologie 2020)*.
7. En 2021, la mention "très bien" a été détaillé grâce à "avec/sans félicitation du jury". D'autres changements ont aussi été effectué sur les groupes d'appelés *(voir document méthodologie 2021)*.
8. Les deux indicateurs ajoutés en 2020 ne prend en compte uniquement que les étudiants scolarisés en France ou de nationalité européenne. De plus, le mode de calcul de ses indicateurs différent entre 2020/2021 et 2022/2023. Il est spécifié qu'il est **impossible** de recalculer ces indicateurs avec les données open data.

Pour le **deuxième type** de dataset: 

1. Les enseignements "Arts" et "Littérature" se décline en plusieurs sous-enseignements plus spécifique.
2. La somme des candidats ayant confirmé un voeu dans chaque formation ne correspond pas au total des candidats car un candidat est donc compté autant de fois qu'il a fait de voeux dans des formations différentes. De même pour les propositions d'admissions.

**3) Objectifs**

Les points et objectifs précis seront précsiés tout au long de l'avancement de l'analyse mais on peut cependant déjà donner un point de vue global de ces derniers:

1. Vérification de faits dont la véracité à déjà été prouvée ou dont la véracité est considérée à juste titre comme logique et naturelle
2. Tentatives d'extraction de lien de corrélation dans le but d'essayer de tirer de nouvelles conclusions
3. Tentative de mise au point d'un modèle prédictif permettant de donner les chances d'acceptations dans une certaine formation en fonction de différents facteurs.

## Analyse

**1) Analyse explorative**

In [27]:
vpe2023 = pd.read_csv(f"DataSet_Voeux_RepEtablissement/fr-esr-parcoursup2023.csv",encoding="utf8",sep=";")
columns= vpe2023.columns.tolist()
columns

['Session',
 'Statut de l’établissement de la filière de formation (public, privé…)',
 "Code UAI de l'établissement",
 'Établissement',
 'Code départemental de l’établissement',
 'Département de l’établissement',
 'Région de l’établissement',
 'Académie de l’établissement',
 'Commune de l’établissement',
 'Filière de formation',
 'Sélectivité',
 'Filière de formation très agrégée',
 'Filière de formation détaillée',
 'Filière de formation.1',
 'Filière de formation détaillée bis',
 'Filière de formation très détaillée',
 'Coordonnées GPS de la formation',
 'Capacité de l’établissement par formation',
 'Effectif total des candidats pour une formation',
 'Dont effectif des candidates pour une formation',
 'Effectif total des candidats en phase principale',
 'Dont effectif des candidats ayant postulé en internat',
 'Effectif des candidats néo bacheliers généraux en phase principale',
 'Dont effectif des candidats boursiers néo bacheliers généraux en phase principale',
 'Effectif des candi