## **MINI-PROJET 1 :** Prédiction du risque d'abandon scolaire

### **Consignes**

1. **Prétraitement des données :** gérer les variables catégorielles, vérifier les valeurs manquantes, explorer la distribution des variables.


2. **Exploration des corrélations** et visualisation des données (PCA ?).


3. **Choix d’un ou plusieurs modèles de classification** parmi ceux étudiés (KNN, arbre de décision, régression logistique, KMeans).


4. **Évaluation des performances :** utilisez accuracy, recall, precision, f1-score et matrice de confusion.


5. **Recherche des meilleurs hyperparamètres** avec GridSearch et validation croisée.


6. **Analyse critique des résultats :**
- Quels modèles fonctionnent le mieux ? Pourquoi ?
- Quelles sont les limites du modèle ? Des données ?
- Quelle interprétation peut-on faire des métriques obtenues ?
- Que signifie une bonne ou mauvaise précision dans ce contexte ?


**Attention : la partie interprétation comptera pour 50% de la note finale.** Il ne s’agit pas uniquement d’écrire du code mais de démontrer votre compréhension du problème.

### **1. Prétraitement des données**

In [8]:
import pandas

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.tree import DecisionTreeClassifier

data_df = pandas.read_csv("Dataset_Abandon_Scolaire.csv")

data_df

Unnamed: 0,Age,Sexe,Taux_presence,Nombre_retards,Note_moyenne,Situation_familiale,Abandon
0,21,Femme,89.585023,2,15.826896,Enfants à charge,0
1,20,Homme,70.713068,3,12.829358,Célibataire,0
2,22,Femme,82.122963,1,13.086319,Enfants à charge,0
3,24,Homme,87.408859,3,14.992032,Célibataire,0
4,20,Homme,86.470676,3,12.671649,Marié,0
...,...,...,...,...,...,...,...
1995,23,Femme,81.800974,3,12.496245,Marié,0
1996,20,Homme,84.082873,4,13.125663,Célibataire,0
1997,19,Femme,87.114146,1,13.841282,Célibataire,0
1998,20,Femme,83.799064,3,12.061256,Célibataire,0


Gestion des variables catégorielles :

In [11]:
categorial_features = ["Sexe", "Situation_familiale"]
numeric_features = ["Age", "Taux_presence", "Nombre_retards", "Note_moyenne", "Abandon"]

preprocessor = ColumnTransformer(
    transformers=[('cat', OneHotEncoder(handle_unknown='ignore'), categorial_features)],
    remainder='passthrough'
)

pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor),
    ('classifier', DecisionTreeClassifier())
])

Vérification des valeurs manquantes :

In [5]:
data_df.apply(lambda x: x=="?", axis=0).sum()

Age                    0
Sexe                   0
Taux_presence          0
Nombre_retards         0
Note_moyenne           0
Situation_familiale    0
Abandon                0
dtype: int64

Il n'y a pas de valeurs manquantes dans le jeu de données.

Nombre de personnes en situation d'abandon scolaire :

In [6]:
data_df[["Abandon"]].value_counts()

Abandon
0          1832
1           168
Name: count, dtype: int64

On remarque que sur 2000 personnes, 168 (soit 8,4%) sont en situation d'abandon scolaire.

### **2. Exploration des corrélations**