# Projet Statistiques - Baptiste Gautier
### Maé Louis, NadiaMedjdoub, MaximeEneau et Karim Ameur

## Consignes :
#### L’objectif du projet est d’expliquer la colonne du Taux d’insertion.
#### Vous pouvez pour cela  poser un modèle explicatif, faire des tests statistique..nts)

In [20]:
# Chargement du dataset

import pandas as pd

def load_data(path: str) -> pd.DataFrame:
    """
    Load data from a CSV file with pandas.
    
    Parameters
    ----------
    path : str
        The path to the CSV file.
    
    Returns
    -------
    pd.DataFrame
        The data loaded from the CSV file.
    """
    return pd.read_csv(path, delimiter=";")

# Utilisation de la fonction
data = load_data("fr-esr-insertion_professionnelle-master_donnees_nationales.csv")

In [None]:
from IPython.display import Markdown, display

def display_summary():
    summary = """
# Projet Statistiques : Analyse du Taux d'Insertion

## Sommaire

### Étape 1 : Analyse des données
- Chargement des données avec Pandas
- Exploration des variables et compréhension des données
- Identification des variables explicatives potentielles

### Étape 2 : Exploration et visualisation
- Création de graphiques descriptifs (histogrammes, boxplots, scatter plots)
- Analyse des relations entre les variables explicatives et le taux d'insertion
- Vérification des distributions et identification des anomalies ou valeurs extrêmes

### Étape 3 : Modélisation
- Construction d'un modèle explicatif (régression linéaire simple ou multiple)
- Validation des hypothèses du modèle (normalité des résidus, multicolinéarité, etc.)
- Évaluation des performances du modèle (R², R² ajusté, p-valeurs, etc.)

### Étape 4 : Travail complémentaire
- Propositions d'analyses avancées :
  - Ajout de variables catégoriques et techniques de one-hot encoding
  - Test de modèles alternatifs (GLM, régression logistique, etc.)
  - Analyse des interactions entre variables
- Évaluation et interprétation des résultats avancés

---
    """
    display(Markdown(summary))

# Appeler la fonction pour afficher le sommaire
display_summary()

## I. Présentation du dataset

### A) Description générale

In [30]:
# 1. Description du dataset
print("**Description du dataset : Taux d'insertion des étudiants diplômés du supérieur**")
print("Ce fichier contient des données sur les taux d'insertion professionnelle des diplômés. "
      "Chaque ligne représente une discipline ou un niveau d'étude, avec des informations "
      "sur le taux d'insertion à différentes périodes après l'obtention du diplôme.")

# 2. Aperçu des données
print("\n**Aperçu des données (5 premières lignes)**")
print(data.head())

# Dimensions du dataset
print("\n**Dimensions du dataset :**")
print(f"Nombre de lignes : {data.shape[0]}")
print(f"Nombre de colonnes : {data.shape[1]}")

# 3. Types de données
print("\n**Types de données :**")
print(data.dtypes)

# 4. Résumé statistique
print("\n**Résumé statistique des colonnes numériques :**")
print(data.describe())

**Description du dataset : Taux d'insertion des étudiants diplômés du supérieur**
Ce fichier contient des données sur les taux d'insertion professionnelle des diplômés. Chaque ligne représente une discipline ou un niveau d'étude, avec des informations sur le taux d'insertion à différentes périodes après l'obtention du diplôme.

**Aperçu des données (5 premières lignes)**
   Année     Diplôme                 situation   Genre  \
0   2014  MASTER LMD  30 mois après le diplôme  femmes   
1   2016  MASTER LMD  18 mois après le diplôme  hommes   
2   2012  MASTER LMD  30 mois après le diplôme  hommes   
3   2012  MASTER LMD  30 mois après le diplôme  femmes   
4   2012  MASTER LMD  18 mois après le diplôme  hommes   

                                         Disciplines Code du domaine  \
0  Droit, économie et gestion>Autres formations j...             DEG   
1  Droit, économie et gestion>Autres formations j...             DEG   
2  Droit, économie et gestion>Autres formations j...         

### B) Préparation et Nettoyage des Données

In [28]:
# Afficher la liste complète des colonnes
print("**Liste des colonnes disponibles dans le dataset :**")
columns = data.columns.tolist()
for i, col in enumerate(columns, 1):
    print(f"{i}. {col}")

# Taux d'insertion = COLONNE 13

**Liste des colonnes disponibles dans le dataset :**
1. Année
2. Diplôme
3. situation
4. Genre
5. Disciplines
6. Code du domaine
7. Domaine
8. Code de la discipline
9. Discipline
10. Code du secteur disciplinaire
11. Secteur disciplinaire
12. Nombre de réponses
13. Taux d’insertion
14. Taux d'emploi
15. Taux d'emploi salarié en France
16. Part des emplois de niveau cadre ou profession intermédiaire
17. Part des emplois de niveau cadre
18. % emplois extérieurs à la région de l’université
19. Part des emplois stables
20. Part des emplois à temps plein
21. Salaire net mensuel médian des emplois à temps plein
22. Salaire brut annuel estimé
23. Premier quartile des salaires nets mensuels des emplois à temps plein
24. Dernier quartile des salaires nets mensuels des emplois à temps plein
25. Part des diplômés boursiers dans la discipline
26. Part des femmes
27. Taux de chômage national
28. Salaire net mensuel médian national
29. Code du secteur disciplinaire SISE
30. Salaire net mensuel natio

In [41]:
# Identifier les valeurs manquantes
print("**Résumé des valeurs manquantes avant traitement :**")
missing_values = data.isnull().sum()
print(missing_values[missing_values > 0])

# Traitement des valeurs manquantes
# 1. Remplacement des valeurs manquantes dans les colonnes numériques par la médiane
num_cols = data.select_dtypes(include=["float64", "int64"]).columns
for col in num_cols:
    if data[col].isnull().sum() > 0:
        median_value = data[col].median()
        # Utilisation de l'affectation explicite pour éviter l'avertissement
        data[col] = data[col].fillna(median_value)
        print(f"Valeurs manquantes dans '{col}' remplacées par la médiane : {median_value}")

# 2. Remplacement des valeurs manquantes dans les colonnes catégoriques par le mode
cat_cols = data.select_dtypes(include=["object"]).columns
for col in cat_cols:
    if data[col].isnull().sum() > 0:
        mode_value = data[col].mode()[0]
        # Utilisation de l'affectation explicite pour éviter l'avertissement
        data[col] = data[col].fillna(mode_value)
        print(f"Valeurs manquantes dans '{col}' remplacées par le mode : {mode_value}")

# Vérification après traitement
print("\n**Résumé des valeurs manquantes après traitement :**")
print(data.isnull().sum())


**Résumé des valeurs manquantes avant traitement :**
Series([], dtype: int64)

**Résumé des valeurs manquantes après traitement :**
Année                                                              0
Diplôme                                                            0
situation                                                          0
Genre                                                              0
Disciplines                                                        0
                                                                  ..
Personnel de catégorie B de la fonction publique                   0
Emploi de niveau intermédiaire : technicien, agent de maîtrise…    0
Personnel de catégorie C de la fonction publique                   0
Manœuvre, ouvrier                                                  0
Employé de bureau, de commerce, personnel de service               0
Length: 77, dtype: int64


## II. Analyse des données

In [87]:
# Importation des bibliothèques nécessaires

import statsmodels.api as sm
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import shapiro
from statsmodels.stats.diagnostic import het_goldfeldquandt
from statsmodels.stats.stattools import durbin_watson
sns


<module 'seaborn' from 'C:\\Users\\Maxime\\anaconda3\\Lib\\site-packages\\seaborn\\__init__.py'>

### A) Construction du modèle de régression linéaire

In [89]:
# Définition de la classe HypothesisCheckerComputer
class HypothesisCheckerComputer:
    @staticmethod
    def fit_ols(X, y):
        X = sm.add_constant(X)  # Adds the intercept term without altering column names
        return sm.OLS(y, X).fit()

    def __init__(self, X, y, model=None):
        self.X = X
        self.y = y
        if model is None:
            self.model = self.fit_ols(X=X, y=y)
        else:
            self.model = model
        self.residuals = self.model.resid

    def check_linearity(self) -> bool:
        return self.model.rsquared > 0

    def check_residuals_homoscedasticity(self) -> bool:
        _, p_value, _ = het_goldfeldquandt(self.residuals, self.X)
        return p_value > 0.05

    def check_residuals_normality(self) -> bool:
        _, p_value = shapiro(self.residuals)
        return p_value > 0.05

    def check_residuals_autocorrelation(self) -> bool:
        dw_stat = durbin_watson(self.residuals)
        return 1.5 < dw_stat < 2.5

    def check_no_colinearity(self) -> bool:
        correlation_matrix = np.corrcoef(self.X, rowvar=False)
        if isinstance(correlation_matrix, float):  # Single column case
            return True
        coef_to_check = correlation_matrix[np.triu_indices_from(correlation_matrix, k=1)]
        return all(abs(corr) < 0.8 for corr in coef_to_check)

# Définition de la classe HypothesisChecker
class HypothesisChecker:
    def __init__(self, X, y, model):
        self.hypothesis_checker = HypothesisCheckerComputer(X, y, model)

    def get_check_report(self):
        return {
            "Linearity": self.hypothesis_checker.check_linearity(),
            "Normality of residuals": self.hypothesis_checker.check_residuals_normality(),
            "Homoscedasticity of residuals": self.hypothesis_checker.check_residuals_homoscedasticity(),
            "No autocorrelation of residuals": self.hypothesis_checker.check_residuals_autocorrelation(),
            "No multicolinearity": self.hypothesis_checker.check_no_colinearity(),
        }


#### Quelques visualisations :

In [None]:
from IPython.display import Markdown, display
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# Charger le dataset
file_path = "fr-esr-insertion_professionnelle-master_donnees_nationales.csv"
data = pd.read_csv(file_path, delimiter=";")

# Convertir la colonne 'Taux d’insertion' en numérique
if 'Taux d’insertion' in data.columns:
    data["Taux d’insertion"] = pd.to_numeric(data["Taux d’insertion"], errors="coerce")

# Analyse des corrélations
correlation_matrix = data.corr(numeric_only=True)
insertion_corr = correlation_matrix["Taux d’insertion"].sort_values(ascending=False)

# Sélectionner les variables les plus corrélées
variables_to_plot = [
    "Année",
    "Salaire net mensuel médian national",
    "Nombre de réponses",
    "Salaire net mensuel national 3ème quartile",
    "Taux de chômage national",
]

# Afficher les corrélations principales
print("Top 5 des corrélations positives avec le Taux d’insertion")
print(insertion_corr.head(5))
print("\nTop 5 des corrélations négatives avec le Taux d’insertion")
print(insertion_corr.tail(5))

# Visualiser les relations
for var in variables_to_plot:
    if var in data.columns:
        plt.figure(figsize=(8, 5))
        sns.scatterplot(data=data, x=var, y="Taux d’insertion")
        plt.title(f"Relation entre {var} et le Taux d'Insertion")
        plt.xlabel(var)
        plt.ylabel("Taux d'insertion")
        plt.grid()
        plt.show()

# Conclusions basées sur l'analyse :
# 1. Une relation légèrement positive existe entre l'année et le taux d'insertion, indiquant une amélioration progressive au fil du temps.
# 2. Les salaires nets mensuels médians (nationalement ou par quartile supérieur) sont faiblement corrélés positivement avec le taux d'insertion.
# 3. Le taux de chômage national a une corrélation négative significative avec le taux d'insertion, suggérant que des taux de chômage bas favorisent une meilleure insertion professionnelle.
# 4. Le nombre de réponses, bien qu'étant une mesure du volume de données pour certaines disciplines, montre une faible corrélation positive.
# Ces observations peuvent guider la sélection des variables explicatives dans la construction du modèle explicatif à venir.


#### Construction du modèle explicatif

In [None]:
import statsmodels.api as sm
from statsmodels.stats.diagnostic import het_goldfeldquandt
from statsmodels.stats.stattools import durbin_watson
from scipy.stats import shapiro

# Variables explicatives sélectionnées
variables_to_use = [
    "Année",
    "Salaire net mensuel médian national",
    "Taux de chômage national",
    "Nombre de réponses",
]

# Préparer les données pour le modèle
X = data[variables_to_use].dropna()
y = data.loc[X.index, "Taux d’insertion"]
X = sm.add_constant(X)  # Ajouter une constante pour l'intercept

# Construire le modèle de régression linéaire
model = sm.OLS(y, X).fit()

# Résultats du modèle
print(model.summary())

# Valider les hypothèses du modèle
residuals = model.resid

# 1. Normalité des résidus
shapiro_test = shapiro(residuals)
print("\nTest de Shapiro-Wilk pour la normalité des résidus :")
print(f"Statistique = {shapiro_test.statistic:.4f}, p-valeur = {shapiro_test.pvalue:.4f}")

# 2. Homoscédasticité
het_test = het_goldfeldquandt(residuals, X)
print("\nTest de Goldfeld-Quandt pour l'homoscédasticité :")
print(f"Statistique = {het_test[0]:.4f}, p-valeur = {het_test[1]:.4f}")

# 3. Autocorrélation
dw_stat = durbin_watson(residuals)
print("\nStatistique de Durbin-Watson pour l'autocorrélation des résidus :")
print(f"Durbin-Watson = {dw_stat:.4f}")

# Visualisation des résidus
plt.figure(figsize=(8, 5))
sns.histplot(residuals, kde=True)
plt.title("Distribution des résidus")
plt.xlabel("Résidus")
plt.ylabel("Fréquence")
plt.grid()
plt.show()

plt.figure(figsize=(8, 5))
sns.scatterplot(x=model.fittedvalues, y=residuals)
plt.axhline(0, color='red', linestyle='--')
plt.title("Résidus vs Valeurs ajustées")
plt.xlabel("Valeurs ajustées")
plt.ylabel("Résidus")
plt.grid()
plt.show()

# Conclusion
# Le modèle de régression linéaire explique le taux d'insertion en fonction des variables sélectionnées.
# Les résultats incluent les coefficients, les p-valeurs et l'évaluation des hypothèses.
# Des ajustements supplémentaires peuvent être nécessaires en fonction des tests d'hypothèses.


#### Travail complémentaire

In [None]:
# Ajouter des interactions entre les variables
if set(variables_to_use).issubset(data.columns):
    data['Interaction_Année_Salaire'] = data['Année'] * data['Salaire net mensuel médian national']
    data['Interaction_Année_Chômage'] = data['Année'] * data['Taux de chômage national']

# Préparer les données pour le modèle avec interactions
interaction_vars = variables_to_use + ['Interaction_Année_Salaire', 'Interaction_Année_Chômage']
X = data[interaction_vars].dropna()
y = data.loc[X.index, "Taux d’insertion"]
X = sm.add_constant(X)  # Ajouter une constante pour l'intercept

# Construire le modèle de régression linéaire avec interactions
interaction_model = sm.OLS(y, X).fit()

# Résultats du modèle avec interactions
print(interaction_model.summary())

# Comparaison avec le modèle initial (sans interactions)
print("\nComparaison des modèles :")
print("R² initial :", interaction_model.rsquared)
print("R² ajusté initial :", interaction_model.rsquared_adj)

# Visualisation des résidus pour le modèle avec interactions
interaction_residuals = interaction_model.resid
plt.figure(figsize=(8, 5))
sns.histplot(interaction_residuals, kde=True)
plt.title("Distribution des résidus (modèle avec interactions)")
plt.xlabel("Résidus")
plt.ylabel("Fréquence")
plt.grid()
plt.show()

plt.figure(figsize=(8, 5))
sns.scatterplot(x=interaction_model.fittedvalues, y=interaction_residuals)
plt.axhline(0, color='red', linestyle='--')
plt.title("Résidus vs Valeurs ajustées (modèle avec interactions)")
plt.xlabel("Valeurs ajustées")
plt.ylabel("Résidus")
plt.grid()
plt.show()

# Conclusion
# Le modèle avec interactions ajoute des termes produits entre variables explicatives importantes.
# Les performances du modèle (R² et R² ajusté) peuvent être comparées avec celles du modèle précédent.
# Cette étape permet d'explorer si les interactions améliorent significativement l'explication du taux d'insertion.


### B) Construction du modèle de régression logistique