![student studying](https://images.unsplash.com/photo-1434030216411-0b793f4b4173?ixlib=rb-1.2.1&ixid=MnwxMjA3fDB8MHxwaG90by1wYWdlfHx8fGVufDB8fHx8&auto=format&fit=crop&w=1470&q=80)

Photo by [Green Chameleon](https://unsplash.com/@craftedbygc?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText) on [Unsplash](https://unsplash.com/s/photos/study?utm_source=unsplash&utm_medium=referral&utm_content=creditCopyText)
# Modélisation des résultats aux examens de 3ème trimestre
---
## Modification des conditions d'entrainement
Nous avons pu évaluer la précision du modèle de Machine Learning en lui fournissant l'ensemble des données, notamment les notes obtenues au 2ème trimestre qui sont un prédicteur très fort des résultats au 3ème trimestre.

Il serait intéressant de voir quelle serait la précision que l'on pourrait obtenir si nous cherchions à faire la prédiction plus tôt dans l'année (donc sans la valeur "G2").

---

## Import des librairies et du jeu de données

Comme précédemment, nous importons les librairies Pandas et Scikit-learn et le jeu de données précédent :

```
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

df = pd.read_csv("./student-3-prepared.csv")
```

In [1]:
# Insère ton code ci-dessous et exécute la cellule
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

df = pd.read_csv("./student-3-prepared.csv")

Maintenant que les librairies et le jeu de données sont importés, nous allons pouvoir lancer l'entrainement en reprenant le code que nous avons utilisé dans le notebook précédent.

Comme il s'agit un processus "stochastique" (dont les résultats varient "au hasard" en fonction de la manière dont le jeu de données initial est scindé), le score du modèle va varier à chaque itération.

**Pour avoir une meilleure idée de la performance moyenne d'un modèle, nous allons répéter l'entrainement 10 fois avec des combinaisons X_train, X_test, y_train et y_test différentes.**

Pour cela, nous allons utiliser une boucle grâce à l'instruction "for" qui se structure ainsi :

```
for i in range(10):

    instructions
    ...
    ...
```
=> Cette boucle va exécuter les instructions qu'elle contient en faisant varier à chaque fois la valeur de "i" dans "range(10)" (donc tous les entiers de 0 à 9).

---

Nous allons également modifier la ligne du précédent notebook :
```
X = df.drop(["G3"], axis=1)
```
En ajoutant, "G2" dans la liste des colonnes à supprimer (= drop)
```
X = df.drop(["G2", "G3"], axis=1)
```

Le bloc de code devient donc :

```
total = 0

for i in range (10):

    X = df.drop(["G2", "G3"], axis=1)
    y = df["G3"]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=20)

    reg_lin = LinearRegression(normalize=True)
    reg_lin.fit(X_train, y_train)

    score = reg_lin.score(X_test, y_test)
    
    print(f"Essai {i} : {score:.2f}")
    
    total += score

print(f"\nMoyenne : {total/10:.2f}")
```

In [2]:
total = 0

for i in range (10):

    X = df.drop(["G2", "G3"], axis=1)
    y = df["G3"]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=20)

    reg_lin = LinearRegression(normalize=True)
    reg_lin.fit(X_train, y_train)

    score = reg_lin.score(X_test, y_test)
    
    print(f"Essai {i} : {score:.2f}")
    
    total += score

print(f"\nMoyenne : {total/10:.2f}")

Essai 0 : 0.84
Essai 1 : 0.47
Essai 2 : 0.65
Essai 3 : 0.82
Essai 4 : 0.73
Essai 5 : 0.80
Essai 6 : 0.20
Essai 7 : 0.75
Essai 8 : 0.51
Essai 9 : 0.70

Moyenne : 0.65


Nous pouvons remarquer que nous avons adapté le code pour créer une variable "total".

* Elle est initiée avec une valeur 0 avant la boucle (total = 0)
* A chaque itération de la boucle, nous ajoutons le score à la variable "total" (total += score)
* Et après les 10 itérations, nous calculons la moyenne en divisant le total par 10

*Note : nous utilisons "**print(f"{...:2f}")**" pour limiter les résultats à 2 chiffres après la virgule. Si nous enlevons ":.2f", les résultats affichés seront plus précis avec plus d'une quinzaine de chiffres après la virgule ! (tu peux essayer !)*

---
Recommençons l'entrainement de modèles en supprimant les informations G1 et G2 :

```
total = 0

for i in range (10):

    X = df.drop(["G1", "G2", "G3"], axis=1)
    y = df["G3"]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=20)

    reg_lin = LinearRegression(normalize=True)
    reg_lin.fit(X_train, y_train)

    score = reg_lin.score(X_test, y_test)
    
    print(f"Essai {i} : {score:.2f}")
    
    total += score

print(f"\nMoyenne : {total/10:.2f}")
```

In [3]:
total = 0

for i in range (10):

    X = df.drop(["G1", "G2", "G3"], axis=1)
    y = df["G3"]

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=20)

    reg_lin = LinearRegression(normalize=True)
    reg_lin.fit(X_train, y_train)

    score = reg_lin.score(X_test, y_test)
    
    print(f"Essai {i} : {score:.2f}")
    
    total += score

print(f"\nMoyenne : {total/10:.2f}")

Essai 0 : 0.44
Essai 1 : 0.27
Essai 2 : -0.22
Essai 3 : 0.07
Essai 4 : -0.08
Essai 5 : 0.10
Essai 6 : 0.19
Essai 7 : -0.24
Essai 8 : 0.06
Essai 9 : 0.21

Moyenne : 0.08


Cette fois-ci, nous constatons que les résultats s'effondrent et sont proches de 0 !

Est-ce que cela veut dire que tout es perdu si nous n'avons pas accès aux résultats du 1er et 2ème trimestres ?

En fait, nous pourrions utiliser d'autres modèles qui sont plus sophistiqués et qui arriveraient probablement à atteindre une meilleure performance, même sans "G1" et "G2".

---

## Résultats avec un modèle de type "Gradient Boosted Regressor"

Essayons avec un modèle de type "Gradient Boosted Regressor". Il s'agit d'un des modèles les plus utilisés actuellement (2021) qui repose sur des ensembles d'arbes de décisions.

Voici les résultats qu'il est capable d'atteindre dans les mêmes conditions que la régression linéaire (entrainement sur 95% des valeurs) :

* **Score sans G2 : 86%**
* **Score sans G2 et G1 : 37%**

Nous pouvons en profiter pour examiner quelles sont les variables qui seront alors les plus déterminantes dans chacun des cas :

![GBT_Scores_and_coef.png](./images/GBT_Scores_and_coef.png)