# Projet Python : Machine Learning

## Le contexte :
Vous êtes un data scientist pour un client (fictif ou non) et vous devez présenter une analyse de données complètes, de la spécification des besoins, élaboration d’une problématique pertinente ainsi qu’une mise en oeuvre technique respectant les conditions ci-dessous.

## Le livrable :
- Jupyter notebook ou une application Streamlit 
- le travail devra être déposé sur un gist/git (le lien devra être publique et actif jusqu’à la fin de la scolarité de l’étudiant) et devra être envoyé par mail ou messagerie Slack

## Contraintes :
- Data avec minimum 10 colonnes 
- Un maximum de commentaires dans le code
- Texte type Markdown après chaque graphique/tableau (ex: description textuelle des features après chargement)
- Tous les graphiques doivent être lisible (taille du graphique, infos représenté), si diagramme pas lisible, en faire une version filtrée dessous
- Exposer concrètement votre problématique / question à définir : quel est le but de votre modèle et à quelle situation métier peut il correspondre ?

## Partie 1 : Analyse graphique des données (EDA) :
- Diagrammes de répartition des données (type gaussienne sur les données)
- Vérification du nombre de données, si plusieurs données sont peu représentés (<5%) alors regrouper dans une seule et même catégorie, 1 pie chart avant/apres
- Nettoyage des données manquantes, encodage (OneHot, dictionnaire ou Sklearn Encoder)
- Boites à moustache avec données extrêmes
- Heatmap + observations sur les corrélations

## Partie 2: Model Building :
- Choisir 1 algorithmes et faire varier ses paramètres (ex: max_depth, n_estimators,….)
- Faire une veille (300 mots minimum) sur votre algorithme et expliquer le choix de vos paramètres 
- Affichage des metrics classique (precision, r2, confusion matrix, accuracy…)
- Sélection du meilleur paramétrage (si pas le temps expliquer votre approche)
- Le model est-il en overfitting/underfitting/OK ?

## Partie 3: Features Importance :
- Affichage sous forme de barplot (si classification sinon afficher les coefficients de votre regression et commentez)
- Commentaire pertinents / hypothèse que vous pouvez formuler à partir de votre analyse

## Partie 4: Model Réexécution avec les features sélectionnés :
- Affichage des metrics standard et commentaire sur la pertinence

## Import

On commence par importer les librairies qui seront utilisées pendant ce projet

In [6]:
## Librairies générales
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Composants sklearn
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder

print('libs loaded')

libs loaded


## Initialisation

### Thème seaborn

In [3]:
sns.set_theme()

### Le dataset

In [35]:
ds = pd.read_csv("./../data/student-por.csv")
ds

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,famrel,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3
0,GP,F,18,U,GT3,A,4,4,at_home,teacher,...,4,3,4,1,1,3,4,0,11,11
1,GP,F,17,U,GT3,T,1,1,at_home,other,...,5,3,3,1,1,3,2,9,11,11
2,GP,F,15,U,LE3,T,1,1,at_home,other,...,4,3,2,2,3,3,6,12,13,12
3,GP,F,15,U,GT3,T,4,2,health,services,...,3,2,2,1,1,5,0,14,14,14
4,GP,F,16,U,GT3,T,3,3,other,other,...,4,3,2,1,2,5,0,11,13,13
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
644,MS,F,19,R,GT3,T,2,3,services,other,...,5,4,2,1,2,5,4,10,11,10
645,MS,F,18,U,LE3,T,3,1,teacher,services,...,4,3,4,1,1,1,4,15,15,16
646,MS,F,18,U,GT3,T,1,1,other,other,...,1,1,1,1,1,5,6,11,12,9
647,MS,M,17,U,LE3,T,3,1,services,services,...,2,4,5,3,4,2,6,10,10,10


## Expression du sujet

### Description du jeu de données

On observe ici un jeu de données fournissant des informations sur des étudiants comprenant entre autre:
- L'école dans laquelle ils sont parmis 2
- Le sexe
- L'éducation et le travail des parents
- Les absences
- La note sur 20 par trimestre

### Problématique

#### *Peut-on prédire les notes d'un élèves à partir des informations venant d'un formulaire ?*

## Partie 1 : Analyse graphique des données (EDA)

*Cette partie est déjà traitée dans le projet d'analyse de data visualisation dont la conslusion est qu'il semblerait que plusieurs paramètres affectent la note d'un élève. Il est donc cohérent de maintenant chercher à savoir s'il est possible à partir de ces paramètres de prédire la note de l'élève*

### Nettoyage des données manquantes

In [8]:
ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 649 entries, 0 to 648
Data columns (total 33 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   school      649 non-null    object
 1   sex         649 non-null    object
 2   age         649 non-null    int64 
 3   address     649 non-null    object
 4   famsize     649 non-null    object
 5   Pstatus     649 non-null    object
 6   Medu        649 non-null    int64 
 7   Fedu        649 non-null    int64 
 8   Mjob        649 non-null    object
 9   Fjob        649 non-null    object
 10  reason      649 non-null    object
 11  guardian    649 non-null    object
 12  traveltime  649 non-null    int64 
 13  studytime   649 non-null    int64 
 14  failures    649 non-null    int64 
 15  schoolsup   649 non-null    object
 16  famsup      649 non-null    object
 17  paid        649 non-null    object
 18  activities  649 non-null    object
 19  nursery     649 non-null    object
 20  higher    

Toutes les colonnes possèdent le même nombre de lignes. Il ne manque donc pas de données dans le dataset.

### Encodage des données

En observant le résultat du `ds.info()` au-dessus on observe que certaines colonnes sont des *object* et donc des chaînes de caractères. Or, notre algorithme a besoin de recevoir des valeurs de type *int*, *float* ou *boolean*.
Nous allons donc devoir encoder ces valeurs afin de les rendre exploitables par notre algorithme. Pour cela nous allons utiliser le `LabelEncoder` de `sklearn` et les tranformer en données utilisables.
Les paramètres que nous allons encoder sont tous ceux dont le *dtype* est *object* donc :
- school
- sex
- address
- famsize
- Pstatus
- Mjob
- Pjob
- reason
- guardian
- schoolsup
- famsup
- paid
- activities
- nursery
- higher
- internet
- romantic

In [36]:
le_school = LabelEncoder()
ds["school"] = le_school.fit_transform(ds["school"])

le_sex = LabelEncoder()
ds["sex"] = le_sex.fit_transform(ds["sex"])

le_address = LabelEncoder()
ds["address"] = le_address.fit_transform(ds["address"])

le_famsize = LabelEncoder()
ds["famsize"] = le_famsize.fit_transform(ds["famsize"])

le_Pstatus = LabelEncoder()
ds["Pstatus"] = le_Pstatus.fit_transform(ds["Pstatus"])

le_Mjob = LabelEncoder()
ds["Mjob"] = le_Mjob.fit_transform(ds["Mjob"])

le_Fjob = LabelEncoder()
ds["Fjob"] = le_Fjob.fit_transform(ds["Fjob"])

le_reason = LabelEncoder()
ds["reason"] = le_reason.fit_transform(ds["reason"])

le_guardian = LabelEncoder()
ds["guardian"] = le_guardian.fit_transform(ds["guardian"])

le_schoolsup = LabelEncoder()
ds["schoolsup"] = le_schoolsup.fit_transform(ds["schoolsup"])

le_famsup = LabelEncoder()
ds["famsup"] = le_famsup.fit_transform(ds["famsup"])

le_paid = LabelEncoder()
ds["paid"] = le_paid.fit_transform(ds["paid"])

le_activities = LabelEncoder()
ds["activities"] = le_activities.fit_transform(ds["activities"])

le_nursery = LabelEncoder()
ds["nursery"] = le_nursery.fit_transform(ds["nursery"])

le_higher = LabelEncoder()
ds["higher"] = le_higher.fit_transform(ds["higher"])

le_internet = LabelEncoder()
ds["internet"] = le_internet.fit_transform(ds["internet"])

le_romantic = LabelEncoder()
ds["romantic"] = le_romantic.fit_transform(ds["romantic"])

In [32]:
ds.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 649 entries, 0 to 648
Data columns (total 33 columns):
 #   Column      Non-Null Count  Dtype
---  ------      --------------  -----
 0   school      649 non-null    int64
 1   sex         649 non-null    int64
 2   age         649 non-null    int64
 3   address     649 non-null    int64
 4   famsize     649 non-null    int64
 5   Pstatus     649 non-null    int64
 6   Medu        649 non-null    int64
 7   Fedu        649 non-null    int64
 8   Mjob        649 non-null    int64
 9   Fjob        649 non-null    int32
 10  reason      649 non-null    int32
 11  guardian    649 non-null    int32
 12  traveltime  649 non-null    int64
 13  studytime   649 non-null    int64
 14  failures    649 non-null    int64
 15  schoolsup   649 non-null    int32
 16  famsup      649 non-null    int32
 17  paid        649 non-null    int32
 18  activities  649 non-null    int32
 19  nursery     649 non-null    int32
 20  higher      649 non-null    int3

Toutes les données sont maintenant des *int* et peuvent donc être traitées.

### Préparation des données

Comme vu dans le projet précédent les notes entre les trimestres semblent fortement similaires. Nous expliquions cela par le fait que l'élève ne change pas d'un trimestre à l'autre. Ainsi, pour ce projet où nous tentons de vérifier la prédictabilité de ces notes, nous en utiliserons la moyenne des 3 trimestres.

In [37]:
ds["meanGrade"] = (ds["G1"] + ds["G2"] + ds["G3"]) / 3
ds

Unnamed: 0,school,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,...,freetime,goout,Dalc,Walc,health,absences,G1,G2,G3,meanGrade
0,0,0,18,1,0,0,4,4,0,4,...,3,4,1,1,3,4,0,11,11,7.333333
1,0,0,17,1,0,1,1,1,0,2,...,3,3,1,1,3,2,9,11,11,10.333333
2,0,0,15,1,1,1,1,1,0,2,...,3,2,2,3,3,6,12,13,12,12.333333
3,0,0,15,1,0,1,4,2,1,3,...,2,2,1,1,5,0,14,14,14,14.000000
4,0,0,16,1,0,1,3,3,2,2,...,3,2,1,2,5,0,11,13,13,12.333333
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
644,1,0,19,0,0,1,2,3,3,2,...,4,2,1,2,5,4,10,11,10,10.333333
645,1,0,18,1,1,1,3,1,4,3,...,3,4,1,1,1,4,15,15,16,15.333333
646,1,0,18,1,0,1,1,1,2,2,...,1,1,1,1,5,6,11,12,9,10.666667
647,1,1,17,1,1,1,3,1,3,3,...,4,5,3,4,2,6,10,10,10,10.000000


Nous allons maintenant préparer la liste des colonnes qui seront conservées pour la prédiction

In [39]:
columns = ["school", "sex", "age", "address", "famsize", "Pstatus", "Medu", "Fedu", "Mjob", "Fjob", "reason", "guardian", "traveltime", "studytime", 
           "failures", "schoolsup", "famsup", "paid", "activities", "nursery", "higher", "internet", "romantic", "famrel", "freetime", "goout", "Dalc", "Walc", "health", "absences", "meanGrade"]

## Partie 2.a : Model Building (LinearRegression)

### Veille

*Pour consulter la veille allez lire [ce fichier](https://github.com/MorcilloA/Rendus_Python/tree/master/ML/projet/veille_LinearRegression.pdf)*

## Partie 2.b : Model Building (RandomForestRegressor)

### Veille