# Études statistiques sur Parcoursup

![](https://upload.wikimedia.org/wikipedia/fr/thumb/d/dc/Logo_parcoursup.svg/langfr-1920px-Logo_parcoursup.svg.png)
Dans ce TP, nous allons explorer les données en libre accès issues de Parcoursup sur [https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-parcoursup](https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-parcoursup).  
Commençons par charger les données en utilisant le module pandas (particulièrement adapté en *data science*) en exécutant la case suivante (ce qui peut prendre quelques minutes) :

In [1]:
import pandas as pd

url = "https://data.enseignementsup-recherche.gouv.fr/explore/dataset/fr-esr-parcoursup/download/?format=csv&timezone=Europe/Berlin&lang=fr&use_labels_for_header=true&csv_separator=%3B" # Lien du dataset

df = pd.read_csv(url, sep=";").iloc[:, [110, 3, 5, 7, 8, 9, 17, 45, 82, 83, 84, 85, 101, 107, 113, 114, 115]]
df = df.rename(columns={"% d’admis néo bacheliers sans mention au bac": "Sans mention", "% d’admis néo bacheliers avec mention Assez Bien au bac": "Mention Assez Bien", "% d’admis néo bacheliers avec mention Bien au bac": "Mention Bien", "% d’admis néo bacheliers avec mention Très Bien au bac": "Mention Très Bien", "Rang du dernier appelé du groupe 1": "Rang dernier appelé", "Taux d’accès des candidats ayant postulé à la formation (ratio entre le dernier appelé et le nombre vœux PP)": "Taux d'accès", "LIB_FOR_VOE_INS": "Filière", "Effectif total des candidats ayant accepté la proposition de l’établissement (admis)": "Effectif"})

`df` est un *dataframe* : un tableau de données. Voici un aperçu de `df` :

In [2]:
df

Unnamed: 0,Filière,Établissement,Département de l’établissement,Académie de l’établissement,Commune de l’établissement,Sélectivité,Effectif total des candidats pour une formation,Effectif,Sans mention,Mention Assez Bien,Mention Bien,Mention Très Bien,Rang dernier appelé,Taux d'accès,Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation
0,Diplôme de Comptabilité et de Gestion,Lycée Sainte Famille,Haute-Savoie,Grenoble,La Roche-sur-Foron,formation sélective,141,19,18.796875,37.500000,31.296875,6.3,76.0,67.0,53.0,47.0,0.0
1,BTS - Services - Analyses de biologie médicale,Lycée SAINT JOSEPH,Haute-Savoie,Grenoble,Thonon-les-Bains,formation sélective,374,15,28.597656,50.000000,21.398438,0.0,93.0,25.0,60.0,40.0,0.0
2,"BTS - Agricole - Analyse, conduite et stratégi...",ISETA de Poisy,Haute-Savoie,Grenoble,Poisy,formation sélective,125,14,30.796875,30.796875,38.500000,0.0,11.0,77.0,21.0,64.0,14.0
3,BTS - Agricole - Aquaculture,ISETA de Poisy,Haute-Savoie,Grenoble,Poisy,formation sélective,163,32,32.000000,40.000000,20.000000,0.0,49.0,78.0,47.0,31.0,22.0
4,BTS - Services - Comptabilité et gestion,Lycée Les Bressis,Haute-Savoie,Grenoble,Annecy,formation sélective,174,11,62.500000,12.500000,0.000000,12.5,30.0,89.0,36.0,18.0,45.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13391,"Licence - Langues, littératures & civilisation...",Aix Marseille Université - Site d'Aix-en-Provence,Bouches-du-Rhône,Aix-Marseille,Aix-en-Provence,formation non sélective,148,18,14.298828,35.695312,35.695312,14.3,113.0,80.0,94.0,0.0,6.0
13392,"Licence - Langues, littératures & civilisation...",Université Sorbonne Nouvelle Paris 3,Paris,Paris,Paris 5e Arrondissement,formation non sélective,105,8,25.000000,50.000000,25.000000,0.0,52.0,50.0,75.0,25.0,0.0
13393,BTS - Production - Métiers du géomètre-topogra...,Lycée des Métiers Léonard de Vinci,Gironde,Bordeaux,Blanquefort,formation sélective,497,21,40.000000,55.000000,5.000000,0.0,78.0,42.0,33.0,19.0,48.0
13394,"Licence - Langues, littératures & civilisation...",Université Sorbonne Nouvelle Paris 3,Paris,Paris,Paris 5e Arrondissement,formation non sélective,449,50,5.099609,43.593750,33.296875,15.4,248.0,55.0,94.0,4.0,2.0


Chaque ligne correspond à une formation (13396 au total) et chaque colonne à un attribut. Par exemple, la première ligne correspond au lycée Sainte Famille	à Grenoble.  
`df.columns` est une liste contenant les noms des colonnes. Par exemple la première colonne est :

In [3]:
df.columns[0]

'Filière'

**Exercice** : Afficher le nom de chaque colonne avec une boucle `for`.

## Formation sélective ou non 

Une des colonnes de `df` est `"Sélectivité"` et indique si une formation est sélective ou pas (c'est-à-dire si les élèves sont sélectionnés suivant leur dossier) :

In [4]:
df["Sélectivité"] # liste des sélectivités ("formation sélective" "formation non sélective")

0            formation sélective
1            formation sélective
2            formation sélective
3            formation sélective
4            formation sélective
                  ...           
13391    formation non sélective
13392    formation non sélective
13393        formation sélective
13394    formation non sélective
13395    formation non sélective
Name: Sélectivité, Length: 13396, dtype: object

In [5]:
df["Sélectivité"][0] # indique la sélectivité de la 1ère formation

'formation sélective'

**Exercice** : Calculer le pourcentage de formations sélectives.

# Lycée Fénelon Sainte-Marie

Pour chercher des valeurs, on peut utiliser `query`. Par exemple, l'instruction suivante permet de récupérer toutes les MP2I de France :

In [6]:
df.query("Filière == 'CPGE - MP2I'")

Unnamed: 0,Filière,Établissement,Département de l’établissement,Académie de l’établissement,Commune de l’établissement,Sélectivité,Effectif total des candidats pour une formation,Effectif,Sans mention,Mention Assez Bien,Mention Bien,Mention Très Bien,Rang dernier appelé,Taux d'accès,Dont taux d’accès des candidats ayant un bac général ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac technologique ayant postulé à la formation,Dont taux d’accès des candidats ayant un bac professionnel ayant postulé à la formation
2297,CPGE - MP2I,Lycée Paul Valery,Paris,Paris,Paris 12e Arrondissement,formation sélective,1705,49,2.099609,36.195312,44.695312,14.9,767.0,45.0,98.0,2.0,0.0
2338,CPGE - MP2I,Lycée Victor Hugo,Doubs,Besancon,Besançon,formation sélective,750,42,0.0,23.796875,42.898438,26.2,401.0,53.0,100.0,0.0,0.0
2340,CPGE - MP2I,Lycée Faidherbe,Nord,Lille,Lille,formation sélective,1309,47,0.0,0.0,17.398438,58.7,297.0,23.0,100.0,0.0,0.0
2341,CPGE - MP2I,Lycée Henri Wallon,Nord,Lille,Valenciennes,formation sélective,679,24,0.0,8.298828,54.195312,33.3,250.0,37.0,100.0,0.0,0.0
2342,CPGE - MP2I,Lycée Fénelon Sainte-Marie,Paris,Paris,Paris 8e Arrondissement,formation sélective,1384,43,0.0,2.299805,55.796875,41.9,366.0,26.0,100.0,0.0,0.0
2343,CPGE - MP2I,Lycée Pierre De Fermat,Haute-Garonne,Toulouse,Toulouse,formation sélective,2234,48,0.0,0.0,2.099609,68.1,285.0,13.0,100.0,0.0,0.0
5332,CPGE - MP2I,Lycée Charles Coeffin,Guadeloupe,Guadeloupe,Baie-Mahault,formation sélective,160,20,17.597656,35.296875,35.296875,11.8,107.0,74.0,100.0,0.0,0.0
5333,CPGE - MP2I,Lycée Colbert,Nord,Lille,Tourcoing,formation sélective,433,18,0.0,15.398438,53.796875,23.1,238.0,55.0,100.0,0.0,0.0
5334,CPGE - MP2I,Lycée du Parc,Rhône,Lyon,Lyon 6e Arrondissement,formation sélective,2551,46,0.0,0.0,0.0,62.2,344.0,13.0,100.0,0.0,0.0
5372,CPGE - MP2I,Lycée Carnot,Côte-d'or,Dijon,Dijon,formation sélective,1233,46,0.0,13.0,67.390625,17.4,483.0,41.0,100.0,0.0,0.0


**Exercice** : Quelles sont les MP2I avec le plus/le moins d'élèves ?

**Exercice** : En utilisant `df.query` de façon similaire à ci-dessus, chercher toutes les formations correpondants à l'établissement "Lycée Fénelon Sainte-Marie". Quelle est la filière du lycée avec le plus de mentions TB ?

## Effectif

`df["Effectif"]` donne l'effectif (nombre d'élèves) de chaque formation. Par exemple, pour obtenir l'effectif de la première formation :

In [7]:
df["Effectif"][0]

19

**Exercice** : Quel est l'effectif moyen d'une formation en France ?

**Exercice** : Calculer l'effectif maximum et minimum d'une formation en France. Quels sont les noms des filières correspondantes ?

## Filières en CPGE

On peut tester si une chaîne de caractère contient un mot en utilisant `in` :

In [8]:
"mat" in "informatique"

True

In [9]:
"math" in "informatique"

False

**Exercice** : Quel est le nombre de CPGE en France ? Et pour chaque filière de CPGE (MPSI, PCSI, MP2I, BCPST...) ?

## Pourcentage de mentions Très Bien

**Exercice** : Combien y a t-il eu de mentions TB en France ?  
*Indice* : Il faut multiplier chaque pourcentage de mentions TB par l'effectif de la formation, puis prendre la somme.

# À vous de jouer !

Chercher d'autres statistiques sur les données : pourcentage de bacheliers technologiques dans le supérieur, filière de CPGE la plus sélective...  
Vous pouvez aussi explorer d'autres données sur https://data.enseignementsup-recherche.gouv.fr.