<h1> TD : Utilisation de Pandas</h1>
<h2>Analyse du jeu de données : "Parcours et réussite des bachelières et bacheliers inscrits pour la première fois en licence" </h2>
<div>
<p>Ce jeu de données a été obtenu à la page suivante :<br>
<a href="https://www.data.gouv.fr/datasets/parcours-et-reussite-des-bachelieres-et-bacheliers-inscrits-pour-la-premiere-fois-en-licence-donnees-consolidees/" target = "_blank">https://www.data.gouv.fr/datasets/parcours-et-reussite-des-bachelieres-et-bacheliers-inscrits-pour-la-premiere-fois-en-licence-donnees-consolidees/</a>
</p>
</div>

<hr>
<h2 style="color:#6422C7; line-height: 40px; font-weight: bold;"> Travail préliminaire </h2>

<h3 style="color:#2232C7; line-height: 35px; font-weight: bold;"> Importation des bibliothèques </h3>

<div class="alert alert-block alert-warning">
On commence par importer les bibliothèques que l'on va utiliser.
</div>

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

<h3 style="color:#2232C7; line-height: 35px; font-weight: bold;"> Importation des données </h3>

<div class="alert alert-block alert-warning">
    <p>On peut maintenant importer le jeu de données sur lequel on va travailler.</p>
</div>

<div class="alert alert-block alert-info">
    <p>Importez le fichier "fr-esr-parcours-et-reussite-des-bacheliers-en-licence.csv".</p>
    <p><strong>Attention</strong>, il faut préciser que le séparateur est le point-virgule : « ; », et non la virgule « , ».</p>
</div>

<h3 style="color:#2232C7; line-height: 35px; font-weight: bold;"> Découverte des données </h3>

<div class="alert alert-block alert-info">
Affichez les dimensions du dataframe.
</div>

<div class="alert alert-block alert-info">
Affichez les 5 premières lignes.
</div>

<div class="alert alert-block alert-info">
    Affichez les informations générales concernant les colonnes.
</div>

<hr>
<h2 style="color:#6422C7; line-height: 40px; font-weight: bold;"> Nettoyage des données </h2>

<h3 style="color:#2232C7; line-height: 35px; font-weight: bold;"> Suppression des données inutiles pour l'analyse </h3>

<div class="alert alert-block alert-warning">
    <p>D'après les titres des colonnes, le jeu de données contient deux types d'informations : 
        <ul>
            <li>colonnes 14 à 22 : des statistiques sur le passage de la L1 à la L2 </li>
            <li>colonnes 23 à 28 : des statistiques sur l'obtention de la licence (i.e. la validation de la L3).</li> 
        </ul>
    </p>
    <p>Ici, on ne va s'intéresser qu'aux statistiques de passage de la L1 à la L2.</p>
</div>

<div class="alert alert-block alert-info">
    Supprimez les 5 dernières colonnes qui ne sont pas utiles pour notre analyse.
</div>

<div class="alert alert-block alert-info">
    Affichez de nouveau les informations générales concernant les colonnes pour vérifier que la suppression a bien eu lieu.
</div>

<h3 style="color:#2232C7; line-height: 35px; font-weight: bold;"> Suppression des données redondantes </h3>

<div class="alert alert-block alert-warning">
    <p>Les titres des colonnes suggèrent que :
        <ul>
            <li> Les six premières colonnes indiquent la filière de chaque ligne.</li>
            <li> La filière est divisée en "Grande discipline", puis en "Discipline", puis en "Secteur disciplinaire".</li>
            <li> Chacun de ces trois niveaux est représenté par un identifiant (une chaîne de caractères ou un entier) et un intitulé.</li>
        </ul>
    Pour vérifier qu'on comprend bien l'organisation des données, nous allons vérifier que chaque identifiant est associé à une seule catégorie.</p>
</div>

<div class="alert alert-block alert-info">
<i>Remarque : d'après les informations affichées précédemment, doit-on se méfier des données manquantes pour ces six colonnes ?</i>
</div>

<div class="alert alert-block alert-danger">
    <p>Réponse : </p>
</div>

<div class="alert alert-block alert-info">
    <u>1. analyse des colonnes "Id Grande discipline" et "Grande discipline" : </u><br>
     Pour vérifier que chaque "Id Grande discipline" est associé à une seule "Grande discipline" (et vice-versa), affichez le nombre de valeurs différentes présentes pour les colonnes "Id Grande discipline" et "Grande discipline", ainsi que pour les couples ("Id Grande discipline", "Grande discipline").<br>
</div>

<div class="alert alert-block alert-info">
    <u>2. analyse des colonnes "Id Discipline" et "Discipline" : </u><br>
     Procédez comme précedemment.
</div>

<div class="alert alert-block alert-info">
    <u>3. analyse des colonnes "Id Secteur disciplinaire" et "Secteur disciplinaire" : </u><br>
     Procédez comme précedemment.
</div>

<div class="alert alert-block alert-info">
    Affichez les 6 premières colonnes en les triant d'abord par "Id Grande discipline", puis par "Id Discipline" et enfin par "Id Secteur disciplinaire".
</div>

<div class="alert alert-block alert-warning">
    <p>Chaque niveau de filière est représenté par un identifiant et un intitulé. Cela génère de la redondance d'informations que nous allons éliminer. Cependant, afin de garder toute l'information, nous allons créer des dictionnaires qui associent les identifiants aux intitulés.</p>
</div>

<div class="alert alert-block alert-info">
    <p> Écrivez une fonction "make_dict" qui prend en paramètre le nom de deux colonnes d'un dataframe, et renvoie un dictionnaire des éléments de la première vers ceux de la seconde.</p>
    <p>Utilisez cette fonction pour créer un dictionnaire associant chacune des colonnes "Id Grande discipline", "Id Discipline" et "Id Secteur disciplinaire" respectivement aux colonnes "Grande discipline", "Discipline" et "Secteur disciplinaire". Affichez-les afin de les vérifier.</p>
    <p><strong>Aide</strong> : consultez la documentation des fonctions "drop_duplicates", "set_index" et "to_dict".</p>
</div>

<div class="alert alert-block alert-warning">
    <p>Maintenant que l'on peut retrouver les intitulés des différents niveaux de filière à partir de leurs identifiants, on peut enlever les colonnes correspondantes dans le dataframe, pour limiter la taille de données à traiter.</p>
</div>

<div class="alert alert-block alert-info">
    <p>Supprimez les colonnes contenant les intitulés des grandes disciplines, disciplines, et sections disciplinaires. Afficher la liste des colonnes pour vérifier la suppression.</p>
</div>

<div class="alert alert-block alert-info">
    <p>De manière similaire, créez les dictionnaires suivants : 
    <ul>
        <li> "Id Série ou type de Bac" -> "Série ou type de Bac" </li>
        <li> "Id Âge au bac" -> "Âge au bac" </li>
        <li> "Id Sexe" -> "Sexe" </li>
        <li> "Id Mention au Bac" -> "Mention au Bac" </li>
    </ul>
    Une fois ces dictionnaires créés, supprimez les colonnes avec les intitulés.</p>
</div>

<h3 style="color:#2232C7; line-height: 35px; font-weight: bold;"> Traitement des données manquantes </h3>

<div class="alert alert-info">
    Affichez les 10 premières lignes du dataframe.
</div>

<div class="alert alert-block alert-warning">
    <p>On observe qu'il y a une ligne pour laquelle il n'y a pas de données. Cette ligne correspond aux hommes ayant passé un bac professionnel avec mention bien qui se sont inscrit en chimie : sans doute il n'y a eu aucun élève dans ce cas en 2014, d'où l'absence de données.</p>
</div>

<div class="alert alert-info">
   <p>Remplacez tous les NaN par des 0.0. Affichez de nouveau les 10 premières lignes du dataframe pour vérifier que le remplacement a bin été fait.</p>
</div>

<h3 style="color:#2232C7; line-height: 35px; font-weight: bold;"> Suppression des données inutiles </h3>

<div class="alert alert-block alert-info">
    Que contient la colonne "Année de cohorte des données sur le passage entre L1 et L2" ? 
    À votre avis, pourquoi seule la valeur "2014" apparaît ?
</div>

<div class="alert alert-block alert-danger">
    <p>Réponse : </p>
</div>

<div class="alert alert-info">
    Comme cette colonne n'est pas informative, supprimez-la.
</div>

<div class="alert alert-info">
    <p>Donnez le nombre d'étudiants qui suivent des études de santé. (Id Secteur disciplinaire = 7).</p>
</div>

<div class="alert alert-block alert-warning">
    <p>On observe qu'il y en a très peu. On peut imaginer, sans certitude, que cela est dû au changement de la filière de médecine, qui fait l'objet de statistiques séparées. Les quelques lignes restantes doivent être un reliquat, ou des erreurs d'inscription.</p>
</div>

<div class="alert alert-info">
    <p>Supprimez toutes les lignes correspondantes à ces étudiants.</p>
</div>

<div class="alert alert-block alert-warning">
    <p>Nous en avons fini avec le nettoyage du dataframe, nous allons pouvoir commencer à travailler avec les données !</p>
</div>

<hr>
<h2 style="color:#6422C7; line-height: 40px; font-weight: bold;"> Analyse du dataframe </h2>

<h3 style="color:#2232C7; line-height: 35px; font-weight: bold;"> Taille de la cohorte </h3>

<div class="alert alert-info">
    Combien d'élèves sont présent·e·s dans l'échantillon que nous avons ?
</div>

<h3 style="color:#2232C7; line-height: 35px; font-weight: bold;"> Influence de la mention sur la validation de L1 </h3>

<div class="alert alert-block alert-info">
    <p>Trouvez le nombre de passage en L2 en 1 an, le nombre de redoublement en L1 et le nombre de passage en L2 en 2 ans pour chaque mention.</p>
    <p>Gardez le résultat dans une variable <em>statistiques_par_mention</em>.</p>
</div>

<div class="alert alert-block alert-warning">
    <p>On va maintenant regarder si la filière d'origine (= série du bac) des élèves a une influence sur la validation de la L1 (en 1 an et en 2 ans confondus), en fonction de la filière universitaire (= la grande discipline) suivie à l'université. Ces données vont être représentées dans un tableau à double entrée.</p>
    <p>Dans un premier temps, réfléchissez <em>à la sortie que vous voulez obtenir</em> : 
        <ul>
            <li>quelles données souhaitez-vous représenter en colonne et en ligne ?</li>
            <li>comment pouvez-vous calculer les données présentes dans le tableau ?</li>
    </p>
</div>

<div class="alert alert-danger">
    On veut obtenir un tableau à double entrée avec, en ligne, la filière universitaire et, en colonne, la filière d'origine. Les données présentes seront le taux de passage en L2 pou chaque couple (filière universitaire, filère d'origine).
</div>

<div class="alert alert-info">
    <p>Dans un second temps, réfléchissez à comment y parvenir et codez votre solution.</p>
    <p>Gardez le résultat dans une variable <em>statistiques_par_filiere</em>.</p>
</div>

<div class="alert alert-info">
    <p>Modifiez le résultat pour que, dans le tableau, les idenfitiants des grandes disciplines et celui des séries du bac soient remplacés par les intitulés correspondants (utilisez les dictionnaires précédemment créés).</p>
</div>

In [None]:
df_statistiques_par_filiere.rename(index = gd_disc_dict, inplace = True)
df_statistiques_par_filiere.rename(columns = serie_dict, inplace = True)
df_statistiques_par_filiere