![enter image description here](https://information.tv5monde.com/sites/info.tv5monde.com/files/styles/large/public/assets/images/BAC_PHILO.jpg?itok=zPeNND0g)
# Modélisation des résultats aux examens de 3ème trimestre
---
## Introduction
Le jeu de données original est fourni par "University of California" ; il est disponible [ici](https://archive.ics.uci.edu/ml/datasets/student+performance).

Il a été adapté pour répondre aux contraintes de découverte du Machine Learning sur une durée de quelques heures seulement.

<ins>Voici la description des différentes colonnes du jeu de données<ins> :

* **sex** - student's sex (binary: "F" - female or "M" - male)
* **age** - student's age (numeric)
* **Pstatus** - parent's cohabitation status (binary: "T" - living together or "A" - apart)
* **Medu** - mother's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
* **Fedu** - father's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
* **traveltime** - home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)
* **studytime** - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
* **failures** - number of past class failures (numeric: n if 1<=n<3, else 4)
* **schoolsup** - extra educational support (binary: yes or no)
* **famsup** - family educational support (binary: yes or no)
* **paid** - extra paid classes within the course subject (Math or Portuguese) (binary: yes or no)
* **activities** - extra-curricular activities (binary: yes or no)
* **nursery** - attended nursery school (binary: yes or no)
* **higher** - wants to take higher education (binary: yes or no)
* **internet** - Internet access at home (binary: yes or no)
* **romantic** - with a romantic relationship (binary: yes or no)
* **famrel** - quality of family relationships (numeric: from 1 - very bad to 5 - excellent)
* **freetime** - free time after school (numeric: from 1 - very low to 5 - very high)
* **goout** - going out with friends (numeric: from 1 - very low to 5 - very high)
* **Dalc** - workday alcohol consumption (numeric: from 1 - very low to 5 - very high)
* **Walc** - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)
* health - current health status (numeric: from 1 - very bad to 5 - very good)
* **absences** - number of school absences (numeric: from 0 to 93)
* **G1** - first period grade (numeric: from 0 to 20)
* **G2** - second period grade (numeric: from 0 to 20)
* **G3** - final grade (numeric: from 0 to 20, output target)

### L'objectif de notre étude va être d'explorer ce jeu de données et de définir avec quelle précision nous pouvons prédire le score au troisième trimestre (G3) d'un(e) étudiant(e) en nous basant sur toutes les informations que nous possédons sur lui/elle.

---

## Import du jeu de données

Il convient avant toute chose d'importer le jeu de données dans la mémoire de Python. Pour cela, nous allons utiliser une librairie (c'est un sous-programme spécialisé dans certaines tâches) : **Pandas**.

Il faut donc exécuter la commande suivante

```
import pandas as pd
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule
# (Touches "Shift" et "Entrée" simultanément)


*Note: Nous pouvons remarquer qu'au lieu d'utiliser simplement "**import pandas**", nous avons ajouté "**as pd**" à la fin de l'instruction. Cela veut dire qu'au lieu de toujours appeler les fonctions de la librairie en indiquant "**pandas.fonction**", nous pourrons aller plus vite en codant "**pd.fonction**".*


Nous allons maintenant vérifier que l'importation s'est bien déroulée en regardant quelle est la version de la librairie Pandas utilisée.

```
print(pandas.__version__)
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Le jeu de données que nous allons utiliser est au format CSV (Comma Separated Values = Valeurs Séparées par des virgules).

Pandas possède justement une fonction qui lui permet de lire ce type de fichier et de le convertir en tableau.

Le code à exécuter est le suivant :

```
df = pd.read_csv("./fichier.csv")
df
```

* **df** => sera le nom du jeu de données, c'est l'abréviation de "DataFrame"
* **pd.read_csv** => indique à Python que nous souhaitons utiliser la fonction "read_csv" de Pandas (= pd)
* **"./fichier.csv"** => indique le chemin pour accéder au fichier
* En écrivant "**df**" une seconde fois, nous demandons à Python d'afficher le résultat de l'opération

In [None]:
# Insère ton code ci-dessous et exécute la cellule
# Attention : il faut remplacer "fichier.csv" par le véritable nom du fichier : student-1-start.csv


Nous pouvons remarquer plusieurs choses :
* Il y a tellement de colonnes à afficher que nous ne pouvons pas tout voir sur le tableau, certaines colonnes sont masquées et remplacées par "..." au milieu du tableau
* Pandas indique les dimensions du tableau "395 rows × 26 columns", soit 395 étudiants et 26 caractéristiques.

---
## Exploration du jeu de données
Nous pouvons vérifier que toutes les colonnes sont bien importées en demandant à Python les informations sur le DataFrame :

```
df.info()
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Nous pouvons remarquer :
* que les 26 colonnes sont bien présentes (index de 0 à 25)
* que le tableau utilise ~81KB de mémoire
* que les colonnes correspondent soit à des nombres entiers (int64) ou des chaines de caractères (string)
---
###  Sélection de lignes et colonnes
Il est possible de ne pas afficher l'intégralité du tableau mais uniquement certaines valeurs ou colonnes.

Commençons avec un exemple simple : 1 seule colonne ("G3") qui correspond à notre de l'examen du 3ème trimestre

```
print(df["G3"])
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Note : nous pouvons remarquer que Pandas ne nous donne que les 5 premières valeurs et les 5 dernières.

---
Nous allons lui demander de nous afficher les 30 premières lignes en utilisant la fonction "iloc" (= **i**nteger **loc**ation). Cela veut dire que nous demandons l'affichage des lignes dont les index (= n° de lignes) vont de 0 à 30 :

```
print(df["G3"].iloc[0:30])
```

Note: la borne supérieure est exclue par défaut par la fonction "iloc" donc nous n'obtiendrons en fait que les valeurs d'index de 0 à 29 ... ce qui fait bien 30 lignes néanmoins !

In [None]:
# Insère ton code ci-dessous et exécute la cellule


---
Faisons la même chose en partant de la 100ème ligne :

```
print(df["G3"].iloc[100:129])
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Nous pouvons en sélectionner plusieurs colonnes ; nous allons passer les noms sous forme de liste.

Rappel : une liste s'écrit ainsi :

```
["element1", "element2", "element3", etc. ]
```

Nous allons donc passer une liste de 3 colonnes (G1, G2 et G3) :

```
print(df[["G1", "G2", "G3"]])
```
/!\ aux doubles crochets :
* les crochets extérieurs servent à indiquer que nous souhaitons afficher une ou plusieurs colonnes dans "df" : df[...]
* les crochets intérieurs délimitent la liste : [ ..., ..., ...]

In [None]:
# Insère ton code ci-dessous et exécute la cellule


La librairie Pandas permet également d'obtenir très rapidement des statistiques sur les colonnes numériques : nombre de valeurs, moyenne (=mean), écart-type (=std), minimum et maximum.

Pour obtenir ces informations, il faut exécuter la fonction suivante :

```
df.describe()
```

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Il nous a été signalé que des erreurs de saisie se sont peut-être glissées dans le jeu de données, notamment sur la 1ère colonne : "age". 🤔

Comme nous n'avons pas le temps de regarder toutes les 395 valeurs une-à-une, il faut que nous utilisions les statistiques !

Examine bien celles de la colonne "age". Trouves-tu des éléments intrigants ? (il y en a 2 à trouver !)

**Lorsque tu penses avoir identifié ces problèmes, valide-les avec ton référent avant de passer à la suite.**


----
## Affichage graphique

Si tu as identifié les problèmes dans la colonne "age", tu comprends qu'il pourrait être intéressant de produire un graphique qui présente la distribution des âges dans la colonne du même nom.

Nous pouvons faire cela en utilisant une autre librairie "**Matplotlib**" qui est destinée aux représentations graphiques :

```
import matplotlib.pyplot as plt
plt.hist(df["age"]);
plt.xlabel("Age des étudiants")  
plt.ylabel("Nombre d'étudiants")
```

* La 1ère ligne importe la librairie avec un alias (= plt)
* Le 2ème ligne indique que nous souhaitons utiliser la fonction "**hist**" (= histogramme) sur la colonne "age" du DataFrame (**df["age"]**)
* Les 3ème et 4ème lignes ajoute des légendes aux axes du graphique

In [None]:
# Insère ton code ci-dessous et exécute la cellule


Si tu es arrivé(e) jusqu'ici, félicitations 🙌
Tu as découvert l'objet de ton étude, tu as importé le jeu de données et identifié un problème de valeurs dans la colonne âge qu'il faudra corriger !

[En route pour le notebook suivant !](./student-notebook-2-correct.ipynb)