<br>

<div align="right" style="font-family: Arial, sans-serif; font-size: 14px; color: #333;">
    <strong>Réalisé par :</strong> ADUAYOM MESSAN Daniel  
</div>
<div align="right" style="font-family: Arial, sans-serif; font-size: 14px; color: #333;">
    <strong>Date :</strong> Octobre 2024
</div>

<br><br>

<div align="center">
    <span style="font-family: Georgia, serif; font-size: 30px; color: darkgreen;">
        PROJET DE DATA ANALYTICS
    </span>
</div>

<div align="center">
    <span style="font-family: Georgia, serif; font-size: 24px; color: #cc0000;">
        Analyse Factorielle Discriminante des Universités Françaises
    </span>
</div>

<hr style="border: 2px solid #75DFC1;">

<center>
    <h1 style="color: #444;">Étude des Similarités entre Universités</h1>
</center>

<hr style="border: 2px solid #75DFC1;">

> Ce projet s’inscrit dans une démarche d’analyse exploratoire de données sur l’insertion professionnelle des diplômés de Master en France. À travers une **Analyse Factorielle Discriminante (AFD)**, il vise à :
>
> - Comprendre les **facteurs influençant l’insertion professionnelle** selon les établissements,
> - Identifier des **profils d’universités similaires**,
> - Fournir des **indicateurs utiles aux étudiants, aux décideurs et aux établissements eux-mêmes**.
>
> L’étude repose sur des données fournies par le Ministère de l’Enseignement Supérieur (MENESR), récoltées 30 mois après l’obtention des diplômes.

<br><br>


In [9]:
# Import necessary libraries
import pandas as pd
from IPython.display import display #to display DataFrames in Jupyter notebooks
import numpy as np #for numerical operations

<br/>
<hr style="border-width:2px;border-color:#75DFC1">
<center><h1>Présentation de la Base de Données</h1></center>
<hr style="border-width:2px;border-color:#75DFC1">

<p style="font-family: 'Arial', sans-serif; font-size: 14px;">
    Cette base de données provient d'une enquête nationale menée par le Ministère de l’Enseignement Supérieur sur l’insertion professionnelle des diplômés de Master. Elle couvre près de 60 000 diplômés interrogés 30 mois après l’obtention de leur diplôme. Les données permettent d’analyser les performances d’insertion par université et fournissent de nombreux indicateurs socio-économiques.
</p>

<ul style="font-family: 'Arial', sans-serif; font-size: 14px;">
    <li><strong>taux_dinsertion :</strong> Pourcentage de diplômés en emploi parmi ceux présents sur le marché du travail.</li>
    <li><strong>salaire_net_median_des_emplois_a_temps_plein :</strong> Salaire mensuel net médian des diplômés en emploi à temps plein.</li>
    <li><strong>emplois_stables :</strong> Part des emplois à durée indéterminée ou statut de fonctionnaire.</li>
    <li><strong>emplois_cadre_ou_professions_intermediaires :</strong> Part des emplois de niveau cadre ou intermédiaire.</li>
    <li><strong>femmes :</strong> Pourcentage de femmes parmi les diplômés.</li>
    <li><strong>de_diplomes_boursiers :</strong> Part des diplômés ayant bénéficié d’une bourse durant leurs études.</li>
    <li><strong>emplois_exterieurs_a_la_region_de_luniversite :</strong> Part des diplômés travaillant hors de leur région universitaire.</li>
    <li><strong>taux_de_chomage_regional :</strong> Taux de chômage dans la région de l’université (source INSEE).</li>
    <li><strong>salaire_net_mensuel_median_regional :</strong> Salaire médian régional des jeunes cadres ou professions intermédiaires.</li>
    <li><strong>nombre_de_reponses :</strong> Nombre total de diplômés ayant répondu à l’enquête pour chaque université.</li>
    <li><strong>taux_de_reponse :</strong> Pourcentage de répondants à l’enquête pour chaque établissement.</li>
</ul>

<p style="font-family: 'Arial', sans-serif; font-size: 14px;">
    Ces indicateurs permettent une analyse comparative des universités françaises selon leurs résultats en matière d’insertion professionnelle. Cette base offre ainsi une opportunité précieuse pour explorer les proximités et différences entre établissements, et guider étudiants, chercheurs ou décideurs.
</p>


In [8]:
# Define the file path
file_path = 'Data/fr-esr-insertion_professionnelle-master.csv'

# Read the CSV file
# Note: The separator is set to ";" as per the original code
data = pd.read_csv(file_path,sep=";")

# Display the first few rows of the DataFrame
print("Aperçu de notre base de données")
display(data.head())

# dtype of the DataFrame
print("Type de données de notre base de données")
display(data.dtypes)


Aperçu de notre base de données


Unnamed: 0,annee,diplome,numero_de_l_etablissement,etablissement,etablissementactuel,code_de_l_academie,academie,code_du_domaine,domaine,code_de_la_discipline,...,taux_de_chomage_regional,salaire_net_mensuel_median_regional,emplois_cadre,emplois_exterieurs_a_la_region_de_luniversite,femmes,salaire_net_mensuel_regional_1er_quartile,salaire_net_mensuel_regional_3eme_quartile,cle_etab,cle_disc,id_paysage
0,2017,MASTER LMD,0751719L,Paris 3 - Sorbonne Nouvelle,,A01,Paris,LLA,"Lettres, langues, arts",disc06,...,7.1,2120,46,35,89,1620,2620,Paris 3 - Sorbonne Nouvelle_18,disc06_18,8k883
1,2017,MASTER LMD,0751719L,Paris 3 - Sorbonne Nouvelle,,A01,Paris,LLA,"Lettres, langues, arts",disc06,...,7.1,2120,57,35,89,1620,2620,Paris 3 - Sorbonne Nouvelle_30,disc06_30,8k883
2,2017,MASTER ENS,0755890V,Sorbonne Université,,A01,Paris,MEEF,Masters enseignement,disc18,...,7.1,2120,96,6,86,1620,2620,Sorbonne Université_30,disc18_30,bxPQe
3,2017,MASTER LMD,0755890V,Sorbonne Université,,A01,Paris,DEG,"Droit, économie et gestion",disc01,...,7.1,2120,ns,ns,ns,1620,2620,Sorbonne Université_30,disc01_30,bxPQe
4,2017,MASTER LMD,0755890V,Sorbonne Université,,A01,Paris,STS,"Sciences, technologies et santé",disc16,...,7.1,2120,93,15,9,1620,2620,Sorbonne Université_18,disc16_18,bxPQe


Type de données de notre base de données


annee                                              int64
diplome                                           object
numero_de_l_etablissement                         object
etablissement                                     object
etablissementactuel                               object
code_de_l_academie                                object
academie                                          object
code_du_domaine                                   object
domaine                                           object
code_de_la_discipline                             object
discipline                                        object
situation                                         object
remarque                                          object
nombre_de_reponses                               float64
taux_de_reponse                                   object
poids_de_la_discipline                            object
taux_dinsertion                                   object
taux_d_emploi                  

In [12]:
# list of variables continues
# Note: The original code had a typo in the variable name 'taux_dinsertion' (missing underscore)
variables_continues = [
    'taux_de_reponse', 'poids_de_la_discipline', 'taux_dinsertion',
    'emplois_cadre_ou_professions_intermediaires', 'emplois_stables',
    'emplois_a_temps_plein', 'salaire_brut_annuel_estime', 'taux_de_chomage_regional'
]
# Check for missing values in the DataFrame
for col in variables_continues:
    data[col] = pd.to_numeric(data[col], errors='coerce')  # convert to numeric, coercing errors to NaN

# select only that we need
colonnes_used = ['diplome', 'etablissement', 'discipline', 'situation'] + variables_continues
data = data[colonnes_used]
# Describe the DataFrame to get summary statistics
# Note: The describe() method provides summary statistics for numerical columns by default
print("Statistique descriptive")
display(data.describe())

# dimension of the DataFrame
print("Dimensions de notre base de données")
display((data.shape))



Statistique descriptive


Unnamed: 0,taux_de_reponse,poids_de_la_discipline,taux_dinsertion,emplois_cadre_ou_professions_intermediaires,emplois_stables,emplois_a_temps_plein,salaire_brut_annuel_estime,taux_de_chomage_regional
count,19268.0,18765.0,10856.0,9816.0,9935.0,9869.0,8442.0,19136.0
mean,71.720262,18.367226,89.815494,87.272107,70.363664,92.566116,29874.034589,8.740782
std,13.875942,23.357322,6.665734,10.588858,16.161273,8.969819,3974.184381,1.996428
min,0.0,0.0,6.0,3.0,12.0,37.0,20000.0,5.7
25%,64.0,4.0,86.0,82.0,59.0,90.0,26800.0,7.4
50%,73.0,9.0,91.0,90.0,72.0,96.0,29600.0,8.6
75%,81.0,22.0,95.0,95.0,83.0,98.0,32400.0,9.5
max,100.0,100.0,100.0,100.0,100.0,100.0,49100.0,20.1


Dimensions de notre base de données


(19603, 12)

In [None]:
# Créer des catégories basées sur les quartiles
for col in variables_continues:
    data[f'{col}_categorie'] = pd.qcut(data[col], q=4, labels=['Q1', 'Q2', 'Q3', 'Q4'])

# Sélectionner les colonnes catégorielles et les nouvelles catégories
colonnes_categorielles = ['diplome', 'etablissement', 'discipline', 'situation'] + [f'{col}_categorie' for col in variables_continues]
data_categorise = data[colonnes_categorielles]

# Afficher un aperçu des données catégorisées
display(data_categorise.head())