# Modélisation du taux de réussite et de la mention

Ce notebook est consacré à la **modélisation du taux de mention au baccalauréat**. Les données exploitées proviennent du notebook exploratoire `01_exploratoires.ipynb`, où elles ont été nettoyées, enrichies et mises à disposition pour l’analyse statistique et la modélisation.

In [None]:
# Le dataset final

data_final = pd.read_csv("data/data_final.csv")

print("Les variables sont :" )
print(data_final.columns)

## Variables retenues pour la modélisation :

### Sur les Lycées

In [None]:
lycee_cols =["d_lycee", "s_lycee" ]

### Sur les bibliothèques
`n_biblio_x_y` : nombre de bibliothèques, situées **entre x et y m** du lycée  avec $x<y$

In [None]:
biblio_cols = ["n_biblio_0_50", "n_biblio_50_150", "n_biblio_150_300", "n_biblio_300_500", "n_biblio_500_1000"]

data_final["n_biblio_0_50"] = data_final["n_biblio_50m"]
data_final["n_biblio_50_150"] = data_final["n_biblio_150m"] - data_final["n_biblio_50m"]
data_final["n_biblio_150_300"] = data_final["n_biblio_300m"] - data_final["n_biblio_150m"]
data_final["n_biblio_300_500"] = data_final["n_biblio_500m"] - data_final["n_biblio_300m"]
data_final["n_biblio_500_1000"] = data_final["n_biblio_1000m"] - data_final["n_biblio_500m"]

### Sur l'ips (Indice de Position Sociale)

In [None]:
ips = ["ips"]

### La cible

In [None]:
cible = "mention"

## Modélisation

In [1]:
import sys
import os
module_path = os.path.abspath(os.path.join('..', 'src'))
if module_path not in sys.path:
    sys.path.append(module_path)

In [10]:
# importation de la classe (pipeline) :
from classe_modelisation import ModeleStatistique

### Description de la classe

In [9]:
print(ModeleStatistique.__doc__)


Présentation générale
--------------------

Ce module implémente une classe Python dédiée à la modélisation statistique flexible,
inspirée des travaux de Lino Galiana et Alexandre Dore. 
Cette approche, structurée, reproductible et centrée sur les bonnes pratiques
en science des données, sert de fil conducteur à l’ensemble du travail.

Objectifs
---------
- Préparer et transformer les données
- Sélectionner les variables pertinentes
- Estimer le modèle (OLS, Lasso, Ridge)
- Valider statistiquement et diagnostiquer les résidus

Pour plus de détails, consulter :
- https://pythonds.linogaliana.fr
- https://doi.org/10.5281/zenodo.8229676

Méthodes principales
-------------------

1. Initialisation (__init__)
------------------------
Crée la structure de base du modèle, prend en entrée :
- la base de données,
- les ensembles de variables explicatives,
- la variable cible.
Pose les fondations du pipeline de modélisation.

2. Prétraitement des variables (preprocessing_features)
-------------