# TP1 Machine learning - Apprentissage Supervisé

## Projet : plan d’aide à la réussite

### Contexte de réalisation
1. Format: individuel
2. Datasets: on a à notre disposition une source de données data_etudiants.csv

### Objectif
Ce projet a pour but d’évaluer votre compétence dans le développement et l’utilisation d’une approche supervisée.

### Description du projet
Le collège a récemment développé un plan d’action pour améliorer le taux de réussite des étudiants. Pour cela, il est proposé la mise en place d’une formule d’aide à la réussite. Pour cela, il leur a été conseillé de mettre en place une stratégie pour prédire le succès ou l’échec d’un étudiant en se basant sur des données spécifiques.

Étant donné que le plan d’aide à la réussite nécessite des ressources, il est aussi demandé d’évaluer la pertinence des moyens d’aide à la réussite. Le but de ce projet est de modéliser les facteurs qui prédisent le potentiel qu’un étudiant va réussir l’examen final de diplomation.

### Démarche
L’objectif est de développer un modèle qui va prédire le likelihood qu’un étudiant va réussir son cursus. Ceci nous permettra d’établir s’il y’a un besoin d’établir un plan d’aide à la réussite ou pas.

Le modèle doit être développé sur un sous-ensemble de données qui vous sera fourni. Le modèle sera ensuite testé sur un sous-ensemble de données qui sera caché à l’algorithme d’apprentissage. De ce fait, on testera la qualité du modèle sur des données qui ne font pas partie de l’ensemble d’apprentissage.

### Facteurs d’évaluation
Trois facteurs seront utilisés, à savoir le Score F1, la taille de l’échantillon d’apprentissage et les ressources nécessaires pour l’apprentissage.

<u>Score F1</u> : donne le sommaire des positives et négatives corrects sur l’ensemble des cas. Cela nous donne une mesure sur la différentiation du modèle, passage vs echec
    
<u>Taille de l’échantillon d’apprentissage</u> : De préférence, on devra avoir un échantillon de petite taille au lieu d’un plus grand échantillon pour des considérations de logistique ou autre. De manière générale, quelle est la taille nécessaire pour que le modèle puisse être utilisé pour une prédiction adéquate.
    
<u>Ressource de calcul</u> : quelles sont les ressources nécessaires pour faire une prédiction adéquate? On parle ici du temps de traitement et de la mémoire nécessaire pour arriver au résultat demandé.
    
Tout autre métrique que vous pensez être approprié pour ce problème pourra être utilisé et évalué

### Langage et libraries à utiliser
* Python 2.7 ou 3.5/Anaconda
* Numpy
* Sci-kit learn (Sklearn)
* Pandas
* Matplotlib
Pour ceux qui seraient intéressés par une implémentation avec R, le TP peut être réalisé en utilisant R et les packages appropriés

### Dataset et template
Dans le répertoire assets_tp1, vous avez :
* README_lisezmoi.txt– description des attributs du dataset
* data_etudiants.csv – données sur les performances des étudiants

### Livrable
1. Identifier les étudiants qui ont besoin d’un plan d’aide à la réussite. Est-ce que l’on est dans un cas de classification? Expliquer.
2. Exploration des données :
  1. déterminer les statistiques suivantes : nombre d’étudiants, nombre d’étudiants qui ont réussi, nombre d’étudiants en échec, taux de graduation, autres statistiques que vous pensez être intéressantes pour ce projet.
3. Préparation des données :
  1. Identifier les features/prédicteurs et la colonne cible
  2. Effectuer un prétraitement sur les colonnes featured
  3. Partager les données en training et test
4. Modèle d’apprentissage et test évaluation

# Dataset à utiliser pour le TP1: supervised learning

## Dataset
Attributs de data_etudiants.csv:

* school - student's school (binary: "GP" or "MS")
* sex - student's sex (binary: "F" - female or "M" - male)
* age - student's age (numeric: from 15 to 22)
* address - student's home address type (binary: "U" - urban or "R" - rural)
* famsize - family size (binary: "LE3" - less or equal to 3 or "GT3" - greater than 3)
* Pstatus - parent's cohabitation status (binary: "T" - living together or "A" - apart)
* Medu - mother's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
* Fedu - father's education (numeric: 0 - none,  1 - primary education (4th grade), 2 – 5th to 9th grade, 3 – secondary education or 4 – higher education)
* Mjob - mother's job (nominal: "teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
* Fjob - father's job (nominal: "teacher", "health" care related, civil "services" (e.g. administrative or police), "at_home" or "other")
* reason - reason to choose this school (nominal: close to "home", school "reputation", "course" preference or "other")
* guardian - student's guardian (nominal: "mother", "father" or "other")
* traveltime - home to school travel time (numeric: 1 - <15 min., 2 - 15 to 30 min., 3 - 30 min. to 1 hour, or 4 - >1 hour)
* studytime - weekly study time (numeric: 1 - <2 hours, 2 - 2 to 5 hours, 3 - 5 to 10 hours, or 4 - >10 hours)
* failures - number of past class failures (numeric: n if 1<=n<3, else 4)
* schoolsup - extra educational support (binary: yes or no)
* famsup - family educational support (binary: yes or no)
* paid - extra paid classes within the course subject (Math or Portuguese) (binary: yes or no)
* activities - extra-curricular activities (binary: yes or no)
* nursery - attended nursery school (binary: yes or no)
* higher - wants to take higher education (binary: yes or no)
* internet - Internet access at home (binary: yes or no)
* romantic - with a romantic relationship (binary: yes or no)
* famrel - quality of family relationships (numeric: from 1 - very bad to 5 - excellent)
* freetime - free time after school (numeric: from 1 - very low to 5 - very high)
* goout - going out with friends (numeric: from 1 - very low to 5 - very high)
* Dalc - workday alcohol consumption (numeric: from 1 - very low to 5 - very high)
* Walc - weekend alcohol consumption (numeric: from 1 - very low to 5 - very high)
* health - current health status (numeric: from 1 - very bad to 5 - very good)
* absences - number of school absences (numeric: from 0 to 93)
* passed - did the student pass the final exam (binary: yes or no)

## Developpement

In [6]:
#import packages
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

from sklearn import neighbors, datasets, metrics
from sklearn.metrics import confusion_matrix 
from sklearn.cross_validation import train_test_split

In [8]:
# charger les donnees
#charger le fichier en remplacant les ? par NA
data = pd.read_csv("data_etudiants.csv")
#data represente les données du dataset incluant la cible
print data.shape
#data[:5]
#data.iloc[:5,:10]
data.iloc[:5,1:20]
#data.iloc[:5,20:]
#data.describe()



(395, 31)


Unnamed: 0,sex,age,address,famsize,Pstatus,Medu,Fedu,Mjob,Fjob,reason,guardian,traveltime,studytime,failures,schoolsup,famsup,paid,activities,nursery
0,F,18,U,GT3,A,4,4,at_home,teacher,course,mother,2,2,0,yes,no,no,no,yes
1,F,17,U,GT3,T,1,1,at_home,other,course,father,1,2,0,no,yes,no,no,no
2,F,15,U,LE3,T,1,1,at_home,other,other,mother,1,2,3,yes,no,yes,no,yes
3,F,15,U,GT3,T,4,2,health,services,home,mother,1,3,0,no,yes,yes,yes,yes
4,F,16,U,GT3,T,3,3,other,other,home,father,1,2,0,no,yes,yes,no,yes
