# Notebook de préparation des données de résultats en vue de la fusion avec les inscriptions

**Contexte**

Notre étude porte sur :

### *l’analyse de l'impact des dernières réformes du baccalauréat au Sénégal sur le taux de réussite au Bac et l’insertion universitaire*.

Dans ce cadre, les données de résultats de l’UCAD sont essentielles pour suivre le parcours des étudiants inscrits et évaluer leur réussite. Toutefois, les réformes ciblées portant principalement sur la création de nouvelles séries au baccalauréat ne sont pas directement reflétées dans les données de résultats, car ces dernières ne contiennent ni l’année d’obtention du Bac, ni la série du Bac des étudiants.

Il s’est donc avéré nécessaire de créer un DataFrame combinant les données d’inscription et les résultats, en se basant sur leur clé primaire **le numéro d’étudiant**. Cette fusion permet d’obtenir un ensemble de données enrichi, intégrant les variables clés comme l’année et la série du Bac, indispensables à notre analyse.

### Importation des packages nécessaires 

In [1]:
import warnings
warnings.filterwarnings('ignore') # ignore warnings from sklearn

In [2]:
import pandas as pd # pour la manipulation de données
import os # pour les opérations sur les chemins de fichiers
from tqdm import tqdm # Affichage de barres de progression 

### Importation des Données

In [3]:
data = pd.read_csv("resultat_ucad.csv", sep=';', encoding='latin-1') # les données sont séparées par des points-virgules et encodées en latin-1
print("✅ Chargement des données réussi.")

✅ Chargement des données réussi.


### Code du tableau en Latex 

In [4]:
"""
df_head = data[["NUMERO", "ANNEE UNIVERSITAIRE", "CREDIT", "SESSION", "MENTION", "MOYENNE ANNUELLE", "RESULTAT"]].head() # Afficher les 5 premières lignes du dataframe

# Exportation en format latex
latex_table = df_head.to_latex(index=False, caption="Table des Résultats (Colonnes les plus importants)", label="tab:resultat")  # Convertir en format LaTeX sans index et sans échapper les caractères spéciaux

print(latex_table)  # Afficher la table LaTeX
"""

'\ndf_head = data[["NUMERO", "ANNEE UNIVERSITAIRE", "CREDIT", "SESSION", "MENTION", "MOYENNE ANNUELLE", "RESULTAT"]].head() # Afficher les 5 premières lignes du dataframe\n\n# Exportation en format latex\nlatex_table = df_head.to_latex(index=False, caption="Table des Résultats (Colonnes les plus importants)", label="tab:resultat")  # Convertir en format LaTeX sans index et sans échapper les caractères spéciaux\n\nprint(latex_table)  # Afficher la table LaTeX\n'

## Nettoyage et Préparation des données

In [5]:
print("Informations général du DataFrame :")
print("--------------------------------------------------")
data.info()

Informations général du DataFrame :
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 753828 entries, 0 to 753827
Data columns (total 27 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   NUMERO                      753828 non-null  object 
 1   NOM                         753828 non-null  object 
 2   PRENOM                      753828 non-null  object 
 3   SEXE                        753828 non-null  object 
 4   NATIONALITE                 753828 non-null  object 
 5   ANNEE UNIVERSITAIRE         753828 non-null  object 
 6   EMAILE INSTITUTIONEL        746210 non-null  object 
 7   EMAIL PERSONNEL             721253 non-null  object 
 8   PORTABLE                    746901 non-null  object 
 9   FORMATION                   753828 non-null  object 
 10  TYPE FORMATION              753697 non-null  object 
 11  DEPARTEMENT                 753697 non-null

### Visualisation des années universitaires présentent

In [6]:
print("les années universitaires disponibles :")
data['ANNEE UNIVERSITAIRE'].unique()

les années universitaires disponibles :


array(['2021-2022', '2022-2023', '2017-2018', '2018-2019', '2019-2020',
       '2020-2021', '2014-2015', '2015-2016', '2016-2017', '2012-2013',
       '2013-2014', '2023-2024', '2010-2011', 'Institut', '2011-2012',
       '1990-1991', '1994-1995', '1991-1992'], dtype=object)

On remarque la presence d'une **erreur** en effet ***Institut*** n'est pas une année universitaire au Sénégal

#### Les lignes avec ```"ANNEE UNIVERSITAIRE" = "Institut"```

In [8]:
data[data['ANNEE UNIVERSITAIRE']=="Institut"]

Unnamed: 0,NUMERO,NOM,PRENOM,SEXE,NATIONALITE,ANNEE UNIVERSITAIRE,EMAILE INSTITUTIONEL,EMAIL PERSONNEL,PORTABLE,FORMATION,...,NIVEAU EQUIVALENCE LMD PED,NIVEAU LMD PED,NIVEAU_LMD_ET_NON_LMD PED,CREDIT,NIVEAU,SESSION,MENTION,MOYENNE ANNUELLE,RESULTAT,RESULTAT APP EVALUATION
1372,des risques,Initiale,Institut de la gouvernance territoriale,IGT,IGT,Institut,Diplôme de Master,Master 1 en Gouvernance territoriale et politi...,M1,M1,...,0,,,,,,,,,
16120,des risques,Initiale,Institut de la gouvernance territoriale,IGT,IGT,Institut,Diplôme de Master,Master 1 en Gouvernance territoriale et politi...,M1,M1,...,0,,,,,,,,,
17681,des risques,Initiale,Institut de la gouvernance territoriale,IGT,IGT,Institut,Diplôme de Master,Master 1 en Gouvernance territoriale et politi...,M1,M1,...,0,,,,,,,,,
21714,des risques,Initiale,Institut de la gouvernance territoriale,IGT,IGT,Institut,Diplôme de Master,Master 1 en Gouvernance territoriale et politi...,M1,M1,...,0,,,,,,,,,
25374,des risques,Initiale,Institut de la gouvernance territoriale,IGT,IGT,Institut,Diplôme de Master,Master 1 en Gouvernance territoriale et politi...,M1,M1,...,0,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
738585,des risques,Initiale,Institut de la gouvernance territoriale,IGT,IGT,Institut,Diplôme de Master,Master 1 en Gouvernance territoriale et politi...,M1,M1,...,0,,,,,,,,,
743728,des risques,Initiale,Institut de la gouvernance territoriale,IGT,IGT,Institut,Diplôme de Master,Master 1 en Gouvernance territoriale et politi...,M1,M1,...,0,,,,,,,,,
745219,des risques,Initiale,Institut de la gouvernance territoriale,IGT,IGT,Institut,Diplôme de Master,Master 1 en Gouvernance territoriale et politi...,M1,M1,...,0,,,,,,,,,
749102,des risques,Initiale,Institut de la gouvernance territoriale,IGT,IGT,Institut,Diplôme de Master,Master 1 en Gouvernance territoriale et politi...,M1,M1,...,0,,,,,,,,,


### Observation :

A premier vue on remarque qu'il y a une décalage vers la gauche et que normalement *"Institut"* est une valeur de la variable  **"TYPE FORMATION"**

L'erreur est présente dans **131** lignes dans nos données

#### Nouveau dataFram sans ```"ANNEE UNIVERSITAIRE" = "Institut"```

In [9]:
data_drop = data.drop(data[data['ANNEE UNIVERSITAIRE']=="Institut"].index)

data_drop.reset_index(drop=True, inplace=True)# Réinitialiser l’index après suppression

# Les categories dans ANNEE UNIVERSITAIRE
print("Les catégories dans ANNEE UNIVERSITAIRE après suppression de 'Institut':")
print("==========================")

print(data_drop['ANNEE UNIVERSITAIRE'].unique())
print("==========================")

print("Nombre de lignes restants:", len(data_drop))

Les catégories dans ANNEE UNIVERSITAIRE après suppression de 'Institut':
['2021-2022' '2022-2023' '2017-2018' '2018-2019' '2019-2020' '2020-2021'
 '2014-2015' '2015-2016' '2016-2017' '2012-2013' '2013-2014' '2023-2024'
 '2010-2011' '2011-2012' '1990-1991' '1994-1995' '1991-1992']
Nombre de lignes restants: 753697


#### Visualisation des données avec  ``"ANNEE UNIVERSITAIRE" = ['1990-1991', '1994-1995', '1991-1992']``

In [10]:
year_1990_1996 = ['1990-1991', '1994-1995', '1991-1992']

lignes_1990_1996 = data_drop[data_drop['ANNEE UNIVERSITAIRE'].isin(year_1990_1996)] 

display(lignes_1990_1996) 

Unnamed: 0,NUMERO,NOM,PRENOM,SEXE,NATIONALITE,ANNEE UNIVERSITAIRE,EMAILE INSTITUTIONEL,EMAIL PERSONNEL,PORTABLE,FORMATION,...,NIVEAU EQUIVALENCE LMD PED,NIVEAU LMD PED,NIVEAU_LMD_ET_NON_LMD PED,CREDIT,NIVEAU,SESSION,MENTION,MOYENNE ANNUELLE,RESULTAT,RESULTAT APP EVALUATION
287516,199700UUP,BARRY,Mamadou,M,Sénégalaise,1990-1991,mamadou37.barry@ucad.edu.sn,mansabadiou1@hotmail.com,5240656.0,Licence Mathématiques,...,L3,L3,L3,,3.0,Deuxième Session,,13.0,A obtenu le diplôme,0.0
334065,199700IJG,DIENG,Bamba Dethielaw,M,Sénégalaise,1994-1995,bambadethielaw.dieng@ucad.edu.sn,,,Non précisée,...,D,D,6A,,6.0,Deuxième Session,,,A obtenu le diplôme,0.0
534792,199700UUP,BARRY,Mamadou,M,Sénégalaise,1991-1992,mamadou37.barry@ucad.edu.sn,mansabadiou1@hotmail.com,5240656.0,Non précisée,...,M1,M1,4A,,4.0,Deuxième Session,,117.0,A obtenu le diplôme,0.0
618042,199700UUP,BARRY,Mamadou,M,Sénégalaise,1994-1995,mamadou37.barry@ucad.edu.sn,mansabadiou1@hotmail.com,5240656.0,Non précisée,...,D,D,6A,,6.0,Deuxième Session,,12.0,A obtenu le diplôme,0.0


In [12]:
print("Nombre de ligne suprimés :",len(data_drop[data_drop['ANNEE UNIVERSITAIRE'].isin(year_1990_1996)]))

# Supprimer les lignes contenant les années 90
data_drop = data_drop[~data_drop['ANNEE UNIVERSITAIRE'].isin(year_1990_1996)] 

# Réinitialiser l’index après suppression
data_drop.reset_index(drop=True, inplace=True)

# Les categories dans ANNEE UNIVERSITAIRE
print("Les catégories dans ANNEE UNIVERSITAIRE après suppression de ['1990-1991' '1994-1995' '1991-1992'] :")
print("==========================")

print(data_drop['ANNEE UNIVERSITAIRE'].unique())
print("==========================")

print("Nombre de lignes restants:", len(data_drop))

Nombre de ligne suprimés : 4
Les catégories dans ANNEE UNIVERSITAIRE après suppression de ['1990-1991' '1994-1995' '1991-1992'] :
['2021-2022' '2022-2023' '2017-2018' '2018-2019' '2019-2020' '2020-2021'
 '2014-2015' '2015-2016' '2016-2017' '2012-2013' '2013-2014' '2023-2024'
 '2010-2011' '2011-2012']
Nombre de lignes restants: 753693


#### Téléchargement du fichier pour la fusion 

In [None]:
# data_drop.to_csv('/content/drive/MyDrive/Memoire_Bac/resultat_ucad_clen.csv', index=False, encoding='utf-8')