# Notebook de préparation des données et fusion des données des Inscrits et des Résultats de UCAD

**Contexte**

Notre étude porte sur :

### *l’analyse de l'impact des dernières réformes du baccalauréat au Sénégal sur le taux de réussite au Bac et l’insertion universitaire*.

Afin d’étudier les cohortes d’étudiants impactés par les dernières réformes du baccalauréat, il est nécessaire d’avoir une vue sur leur réussite à l’UCAD (à travers les données de résultats). Cependant, comme ces données ne contiennent ni l’année d’obtention du Bac, ni la série obtenue, il est indispensable de les fusionner avec les données d’inscription, qui, elles, contiennent ces informations. La fusion se fait à l’aide de la clé commune : **le numéro d’étudiant** 

## Importation des packages nécessaires 

In [84]:
import warnings
warnings.filterwarnings('ignore') # ignore warnings from sklearn

In [85]:
import pandas as pd # pour la manipulation de données
import os # pour les opérations sur les chemins de fichiers
from tqdm import tqdm # Affichage de barres de progression

## Importation des Données

### Données des Inscrits

In [86]:
file_path = os.path.join(os.getcwd(), "C:/Users/HP/Desktop/mon_stage_senegal/code/data/Etudiants_2001_2024") # Chemin vers le dossier contenant les fichiers CSV
file = os.listdir(file_path) # Liste des fichiers dans le dossier
print("liste des fichiers csv des inscrits à l'UCAD par année :")
for f in file:
    print(f)

liste des fichiers csv des inscrits à l'UCAD par année :
Liste_globale_des_etudiants_tous_les_champs20012002.csv
Liste_globale_des_etudiants_tous_les_champs20022003.csv
Liste_globale_des_etudiants_tous_les_champs20032004.csv
Liste_globale_des_etudiants_tous_les_champs20042005.csv
Liste_globale_des_etudiants_tous_les_champs20052006.csv
Liste_globale_des_etudiants_tous_les_champs20062007.csv
Liste_globale_des_etudiants_tous_les_champs20072008.csv
Liste_globale_des_etudiants_tous_les_champs20082009.csv
Liste_globale_des_etudiants_tous_les_champs20092010.csv
Liste_globale_des_etudiants_tous_les_champs20102011.csv
Liste_globale_des_etudiants_tous_les_champs20112012.csv
Liste_globale_des_etudiants_tous_les_champs20122013.csv
Liste_globale_des_etudiants_tous_les_champs20132014.csv
Liste_globale_des_etudiants_tous_les_champs20142015.csv
Liste_globale_des_etudiants_tous_les_champs20152016.csv
Liste_globale_des_etudiants_tous_les_champs20162017.csv
Liste_globale_des_etudiants_tous_les_champs2017

### Importation des données des Inscrits de 2011 à 2024 pour la Fusion

#### Remarque :

Comme les données de résultats commencent à partir de l’année universitaire 2010-2011, la fusion ne prendra en compte que les inscriptions à partir de 2011, correspondant à cette année universitaire.

In [87]:


# Liste complète des fichiers à importer
file_names = [

    "Liste_globale_des_etudiants_tous_les_champs20102011.csv",
    "Liste_globale_des_etudiants_tous_les_champs20112012.csv",
    "Liste_globale_des_etudiants_tous_les_champs20122013.csv",
    "Liste_globale_des_etudiants_tous_les_champs20132014.csv",
    "Liste_globale_des_etudiants_tous_les_champs20142015.csv",
    "Liste_globale_des_etudiants_tous_les_champs20152016.csv",
    "Liste_globale_des_etudiants_tous_les_champs20162017.csv",
    "Liste_globale_des_etudiants_tous_les_champs20172018.csv",
    "Liste_globale_des_etudiants_tous_les_champs20182019.csv",
    "Liste_globale_des_etudiants_tous_les_champs20192020.csv",
    "Liste_globale_des_etudiants_tous_les_champs20202021.csv",
    "Liste_globale_des_etudiants_tous_les_champs20212022.csv",
    "Liste_globale_des_etudiants_tous_les_champs20222023.csv",
    "Liste_globale_des_etudiants_tous_les_champs20232024.csv"
]

data = {}
success_files = []
failed_files = []

file_path = "C:/Users/HP/Desktop/mon_stage_senegal/code/data/Etudiants_2001_2024"

pbr = tqdm(file_names, desc="Importation des fichiers CSV")
for fname in pbr:
    full_path = os.path.join(file_path, fname)
    try:
        df = pd.read_csv(full_path, sep=";", encoding='latin-1')
        data[fname] = df
        success_files.append(fname)
        pbr.set_postfix_str(f"{fname} chargé ✅")
    except Exception as e:
        failed_files.append((fname, str(e)))
        print(f"❌ Erreur inconnue avec {fname} : {e}")

# Résumé
if success_files:
    print(f"\n✅ Fichiers chargés avec succès ({len(success_files)}):")
    print(", ".join(success_files))

if failed_files:
    print(f"\n❌ Fichiers en erreur ({len(failed_files)}):")
    for fname, err in failed_files:
        print(f"  - {fname} : {err}")


Importation des fichiers CSV: 100%|██████████| 14/14 [00:06<00:00,  2.07it/s, Liste_globale_des_etudiants_tous_les_champs20232024.csv chargé ✅]


✅ Fichiers chargés avec succès (14):
Liste_globale_des_etudiants_tous_les_champs20102011.csv, Liste_globale_des_etudiants_tous_les_champs20112012.csv, Liste_globale_des_etudiants_tous_les_champs20122013.csv, Liste_globale_des_etudiants_tous_les_champs20132014.csv, Liste_globale_des_etudiants_tous_les_champs20142015.csv, Liste_globale_des_etudiants_tous_les_champs20152016.csv, Liste_globale_des_etudiants_tous_les_champs20162017.csv, Liste_globale_des_etudiants_tous_les_champs20172018.csv, Liste_globale_des_etudiants_tous_les_champs20182019.csv, Liste_globale_des_etudiants_tous_les_champs20192020.csv, Liste_globale_des_etudiants_tous_les_champs20202021.csv, Liste_globale_des_etudiants_tous_les_champs20212022.csv, Liste_globale_des_etudiants_tous_les_champs20222023.csv, Liste_globale_des_etudiants_tous_les_champs20232024.csv





In [88]:
print(data.keys())  # Affiche les noms des fichiers chargés

dict_keys(['Liste_globale_des_etudiants_tous_les_champs20102011.csv', 'Liste_globale_des_etudiants_tous_les_champs20112012.csv', 'Liste_globale_des_etudiants_tous_les_champs20122013.csv', 'Liste_globale_des_etudiants_tous_les_champs20132014.csv', 'Liste_globale_des_etudiants_tous_les_champs20142015.csv', 'Liste_globale_des_etudiants_tous_les_champs20152016.csv', 'Liste_globale_des_etudiants_tous_les_champs20162017.csv', 'Liste_globale_des_etudiants_tous_les_champs20172018.csv', 'Liste_globale_des_etudiants_tous_les_champs20182019.csv', 'Liste_globale_des_etudiants_tous_les_champs20192020.csv', 'Liste_globale_des_etudiants_tous_les_champs20202021.csv', 'Liste_globale_des_etudiants_tous_les_champs20212022.csv', 'Liste_globale_des_etudiants_tous_les_champs20222023.csv', 'Liste_globale_des_etudiants_tous_les_champs20232024.csv'])


### Vérification de l’homogénéité des colonnes dans tous les fichiers

In [89]:
colonnes_reference = set(data["Liste_globale_des_etudiants_tous_les_champs20112012.csv"].columns)  
colonnes_identiques = True  # Drapeau pour suivre l'état

for year, df in data.items(): # Parcours des années et vérification des colonnes
    colonnes_actuelles = set(df.columns) # Colonnes actuelles du fichier
    if colonnes_actuelles != colonnes_reference: # Si les colonnes ne correspondent pas
        print(f"⚠️ Les colonnes de {year}.csv sont différentes de celles de 2006.csv")  
        print(f"Colonnes manquantes dans {year}.csv :", colonnes_reference - colonnes_actuelles)
        print(f"Colonnes supplémentaires dans {year}.csv :", colonnes_actuelles - colonnes_reference)
        colonnes_identiques = False 

if colonnes_identiques:
    print("✅ Toutes les colonnes sont identiques dans tous les fichiers.")


✅ Toutes les colonnes sont identiques dans tous les fichiers.


### Données des Résultats

In [90]:
df_resultat = pd.read_csv("C:/Users/HP/Downloads/resultat_ucad_clen.csv", sep=None, engine='python')
print("✅ Importation du fichier resultat_ucad_clen.csv réussie.")

✅ Importation du fichier resultat_ucad_clen.csv réussie.


## Nettoyage et Préparation des données

### Données des Inscrits 

In [91]:
print("Informations sur le DataFrame de 2011 (Tous les fichiers ont les mêmes colonnes) :")
print("--------------------------------------------------")
data['Liste_globale_des_etudiants_tous_les_champs20112012.csv'].info()

Informations sur le DataFrame de 2011 (Tous les fichiers ont les mêmes colonnes) :
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 73950 entries, 0 to 73949
Data columns (total 32 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   NUMERO                   73950 non-null  object 
 1   NUMERO_TABLE             0 non-null      float64
 2   INE                      39057 non-null  object 
 3   NUMERO_IDENTITIFICATION  73950 non-null  object 
 4   NOM                      73950 non-null  object 
 5   PRENOM                   73950 non-null  object 
 6   DATE_DE_NAISSANCE        73950 non-null  object 
 7   LIEU_DE_NAISSANCE        73875 non-null  object 
 8   MAIL_INSTITUTIONNEL      45040 non-null  object 
 9   SEXE                     73950 non-null  object 
 10  MENTION_BACC             73176 non-null  object 
 11  ANNEE_BACC               73553 non-null  float64
 

### Creation du DataFram regroupant tous les années

In [92]:
all_data = pd.concat(data.values(), ignore_index=True) # Concatène tous les DataFrames en un seul

print("Affichage du DataFrame combiné:")

all_data[["NUMERO", "MENTION_BACC", "ANNEE_BACC", "SERIE_BACC", "ETABLISSMENT_CODE", "ANNEE_INSCRIPTION"]]

Affichage du DataFrame combiné:


Unnamed: 0,NUMERO,MENTION_BACC,ANNEE_BACC,SERIE_BACC,ETABLISSMENT_CODE,ANNEE_INSCRIPTION
0,.19950018H,PA,1990.0,,FASTEF,2011
1,.199700AUY,PA,1995.0,D,FMPO,2011
2,.199900QF3,PA,1999.0,L2,FASTEF,2011
3,.199900RLX,PA,1999.0,S2,FMPO,2011
4,.199900RMH,PA,1999.0,S2,FMPO,2011
...,...,...,...,...,...,...
1141115,.20230BQJP,PA,2023.0,L'1,FLSH,2024
1141116,.20230BREG,PA,2023.0,S1,FST,2024
1141117,.20230BXVL,BI,2023.0,S2,FMPO,2024
1141118,.20230BT8N,PA,2023.0,L2,FSJP,2024


In [93]:
print("Informations général du DataFrame :")
print("--------------------------------------------------")
all_data.info()

Informations général du DataFrame :
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1141120 entries, 0 to 1141119
Data columns (total 32 columns):
 #   Column                   Non-Null Count    Dtype  
---  ------                   --------------    -----  
 0   NUMERO                   1141120 non-null  object 
 1   NUMERO_TABLE             116181 non-null   float64
 2   INE                      959252 non-null   object 
 3   NUMERO_IDENTITIFICATION  1141120 non-null  object 
 4   NOM                      1141120 non-null  object 
 5   PRENOM                   1141120 non-null  object 
 6   DATE_DE_NAISSANCE        1141120 non-null  object 
 7   LIEU_DE_NAISSANCE        1140879 non-null  object 
 8   MAIL_INSTITUTIONNEL      1056572 non-null  object 
 9   SEXE                     1141120 non-null  object 
 10  MENTION_BACC             1134817 non-null  object 
 11  ANNEE_BACC               1136174 non-null  float64
 12  PAYS_DE_NAI

#### DataFrame avec seulement les variables les plus importants

In [94]:
# Creation du data frame avec les colonnes importants

list_col_to_drop = ['NUMERO_TABLE',  'NUMERO_IDENTITIFICATION' , 'LIEU_DE_NAISSANCE',
                    'MAIL_INSTITUTIONNEL', 'PAYS_DE_NAISSANCE', 'REGION_DE_NAISSANCE', 'ETABLISSEMENT', 'SIGLE_NIVEAU_SECTION',
                    'COHORTE', 'NIVEAU', 'DATE_INSCRIPTION', 'NIVEAU LMD', 'ETAT_INSCRIPTION']
df_inscrit = all_data.drop(columns=list_col_to_drop)
print("✅ Sélection des colonnes importantes dans df_inscrit.")

print("--------------------------------------------------")
print("Informations général du DataFrame :")
print("--------------------------------------------------")
df_inscrit.info()

✅ Sélection des colonnes importantes dans df_inscrit.
--------------------------------------------------
Informations général du DataFrame :
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1141120 entries, 0 to 1141119
Data columns (total 19 columns):
 #   Column                 Non-Null Count    Dtype  
---  ------                 --------------    -----  
 0   NUMERO                 1141120 non-null  object 
 1   INE                    959252 non-null   object 
 2   NOM                    1141120 non-null  object 
 3   PRENOM                 1141120 non-null  object 
 4   DATE_DE_NAISSANCE      1141120 non-null  object 
 5   SEXE                   1141120 non-null  object 
 6   MENTION_BACC           1134817 non-null  object 
 7   ANNEE_BACC             1136174 non-null  float64
 8   NATIONALITE            1141120 non-null  object 
 9   SERIE_BACC             1109114 non-null  object 
 10  ETABLISSMENT_CODE      1141120 non-null  o

### Données des Résultats

In [95]:
print("Informations général du DataFrame :")
print("--------------------------------------------------")
df_resultat.info()

Informations général du DataFrame :
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 753693 entries, 0 to 753692
Data columns (total 28 columns):
 #   Column                      Non-Null Count   Dtype  
---  ------                      --------------   -----  
 0   NUMERO                      753693 non-null  object 
 1   NOM                         753693 non-null  object 
 2   PRENOM                      753693 non-null  object 
 3   SEXE                        753693 non-null  object 
 4   NATIONALITE                 753693 non-null  object 
 5   ANNEE UNIVERSITAIRE         753693 non-null  object 
 6   EMAILE INSTITUTIONEL        746075 non-null  object 
 7   EMAIL PERSONNEL             721080 non-null  object 
 8   PORTABLE                    746712 non-null  object 
 9   FORMATION                   753638 non-null  object 
 10  TYPE FORMATION              753507 non-null  object 
 11  DEPARTEMENT                 753507 non-null

#### DataFrame avec seulement les variables les plus importants

#### Remarque :

La plus part des colonnes sont déjà dans le DataFrame des Inscrits donc on les intégrés pas dans le DataFrame des résultats pour la fusion car ils seront en doublons 

In [96]:
df_resultat = df_resultat[['NUMERO', 'ANNEE UNIVERSITAIRE', 'RESULTAT']]
print("✅ Sélection des colonnes importantes dans df_resultat.")
print("--------------------------------------------------")

print("Informations général du DataFrame :")
print("--------------------------------------------------")
df_resultat.info()

✅ Sélection des colonnes importantes dans df_resultat.
--------------------------------------------------
Informations général du DataFrame :
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 753693 entries, 0 to 753692
Data columns (total 3 columns):
 #   Column               Non-Null Count   Dtype 
---  ------               --------------   ----- 
 0   NUMERO               753693 non-null  object
 1   ANNEE UNIVERSITAIRE  753693 non-null  object
 2   RESULTAT             753505 non-null  object
dtypes: object(3)
memory usage: 17.3+ MB


#### Correction de la syntaxe pour l’homogénéité

In [97]:
df_inscrit.rename(columns={'ANNEE_UNIVERSITAIRE': 'ANNEE UNIVERSITAIRE'}, inplace=True) # Renommer la colonne pour correspondre à df_resultat
df_inscrit['NUMERO'] = df_inscrit['NUMERO'].str.replace(r'^\.', '', regex=True) # Supprimer le point au début
print("✅ Renommage de la colonne ANNEE_UNIVERSITAIRE et suppression du point au début de NUMERO dans df_inscrit.")

✅ Renommage de la colonne ANNEE_UNIVERSITAIRE et suppression du point au début de NUMERO dans df_inscrit.


## Fusion des deux datas frame

### Remarque :

Comme les données couvrent plusieurs années, les variables ***NUMERO*** et ***ANNEE UNIVERSITAIRE*** constituent ensemble la clé primaire pour la fusion.

In [98]:
df_final = pd.merge(df_inscrit, # 
                    df_resultat, # 
                    on=['NUMERO', 'ANNEE UNIVERSITAIRE'], # 
                    how='inner' 
                    )
print("✅ Fusion des DataFrames df_inscrit et df_resultat réussie.")

✅ Fusion des DataFrames df_inscrit et df_resultat réussie.


In [99]:
print("Informations général du DataFrame :")
print("--------------------------------------------------")
df_final.info()

Informations général du DataFrame :
--------------------------------------------------
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 747580 entries, 0 to 747579
Data columns (total 20 columns):
 #   Column                 Non-Null Count   Dtype  
---  ------                 --------------   -----  
 0   NUMERO                 747580 non-null  object 
 1   INE                    715444 non-null  object 
 2   NOM                    747580 non-null  object 
 3   PRENOM                 747580 non-null  object 
 4   DATE_DE_NAISSANCE      747580 non-null  object 
 5   SEXE                   747580 non-null  object 
 6   MENTION_BACC           747568 non-null  object 
 7   ANNEE_BACC             747568 non-null  float64
 8   NATIONALITE            747580 non-null  object 
 9   SERIE_BACC             738963 non-null  object 
 10  ETABLISSMENT_CODE      747580 non-null  object 
 11  NIVEAU_SECTION         747580 non-null  object 
 12  ANNEE_INSCRIPTION      747580 non-null  int64  
 13  AN

In [100]:
print("les années universitaires disponibles :")
print(df_final['ANNEE UNIVERSITAIRE'].unique())

les années universitaires disponibles :
['2010-2011' '2011-2012' '2012-2013' '2013-2014' '2014-2015' '2015-2016'
 '2016-2017' '2017-2018' '2018-2019' '2019-2020' '2020-2021' '2021-2022'
 '2022-2023' '2023-2024']


In [101]:
df_final

Unnamed: 0,NUMERO,INE,NOM,PRENOM,DATE_DE_NAISSANCE,SEXE,MENTION_BACC,ANNEE_BACC,NATIONALITE,SERIE_BACC,ETABLISSMENT_CODE,NIVEAU_SECTION,ANNEE_INSCRIPTION,ANNEE UNIVERSITAIRE,TYPE_FORMATION,CODE_NIVEAU,NIVEAU LMD ET NON LMD,SYSTEME,DEPARTEMENT FORMATION,RESULTAT
0,2005023MB,,BA,Aminata Mame Arete,14/06/1982,F,PA,2005.0,Sénégalaise,S2,FASEG,Maîtrise de Sciences Economiques option Analys...,2011,2010-2011,I,4,4A,Classique,Economie,A obtenu le diplôme
1,200602EXK,,FALL,El Hadji Malick,30/07/1985,M,PA,2006.0,Sénégalaise,S2,FASEG,Maîtrise de Sciences Economiques option Analys...,2011,2010-2011,I,4,4A,Classique,Economie,A obtenu le diplôme
2,200602FFL,,TINE,Hortence Ndélla,17/07/1987,F,PA,2006.0,Sénégalaise,S2,FASEG,Maîtrise de Sciences Economiques option Gestio...,2011,2010-2011,I,4,4A,Classique,Gestion,A obtenu le diplôme
3,200602IEV,,TRAORE,Amy,14/09/1986,F,PA,2006.0,Sénégalaise,G,FASEG,Maîtrise de Sciences Economiques option Gestio...,2011,2010-2011,I,4,4A,Classique,Gestion,A obtenu le diplôme
4,200602QRW,,NDIAYE,Moussa,13/05/1984,M,PA,2006.0,Sénégalaise,S2,FASEG,Maîtrise de Sciences Economiques option Analys...,2011,2010-2011,I,4,4A,Classique,Economie,A obtenu le diplôme
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
747575,201909BCN,N00244320191,TOP,Aliou,10/04/2000,M,PA,2019.0,Sénégalaise,L2,CESTI,Diplôme Spécialisé en Journalisme et Communica...,2024,2023-2024,I,3,3A,Classique,Journalisme,A obtenu le diplôme
747576,20220B1EG,N06526820221,SAMB,Abdou Khoudoss,11/04/2001,M,PA,2022.0,Sénégalaise,L'1,FLSH,Licence 2 Anglais,2024,2023-2024,I,2,L2,LMD,Anglais,Passe
747577,20230C3YC,N00247320231,THIAW,Mademba,01/01/2004,M,PA,2023.0,Sénégalaise,L2,FLSH,Licence 1 Géographie,2024,2023-2024,I,1,L1,LMD,Géographie,Passe
747578,20220B7BT,N06534020221,SENGHOR,Idrissa,04/09/2001,M,PA,2022.0,Sénégalaise,L'1,FLSH,Licence 2 Allemand,2024,2023-2024,I,2,L2,LMD,Allemand,Passe


### Télécharge de data finale pour notre étude

In [102]:
df_final.to_csv("base_fianle.csv", index=False)