# <center>TP : Arbres de décision</center>
<center>Prédiction des performances académiques d'un étudiant et interprétation</center>

*Objectifs* : 
    - Mettre en oeuvre les méthodes relatives aux arbres de décision introduites en cours afin de prédire le
    résultat à un examen final du cursus de licence. 
    - Interpréter ces résultats pour discuter de l'équité du système éducatif considéré.

Dans cette séance, les librairies suivantes seront utilisées : installez-les si nécessaire et chargez-les. Il sera utile de consulter l'aide de R pour comprendre à quoi correspondent les paramètres et les attributs d'une fonction donnée.

In [1]:
library('rpart')
library('rpart.plot')
library('randomForest')
library('gbm')
library('nnet')

randomForest 4.6-14

Type rfNews() to see new features/changes/bug fixes.

Loaded gbm 2.1.5



## Table des matières

<p><div class="lev1"><a href="#Jeu-de-données-:-présentation-et-analyse"><span class="toc-item-num">1 - </span>Jeu de données : présentation et analyse</a></div>
<div class="lev1"><a href="#Arbre-de-décision"><span class="toc-item-num">2 - </span>Arbre de décision</a></div>
<div class="lev2"><a href="#Construction-de-l'arbre"><span class="toc-item-num">2.1 - </span>Construction de l'arbre</a></div>
<div class="lev2"><a href="#Elagage"><span class="toc-item-num">2.2 - </span>Elagage</a></div>
<div class="lev2"><a href="#Exploitation-des-résultats"><span class="toc-item-num">2.3 - </span>Exploitation des résultats</a></div>
<div class="lev1"><a href="#Amélioration-de-la-prédiction"><span class="toc-item-num">3 - </span>Amélioration de la prédiction</a></div>
<div class="lev2"><a href="#Bagging-(Bootstrap-AGGregatING)"><span class="toc-item-num">3.1 - </span>Bagging (Bootstrap AGGregatING)</a></div>
<div class="lev2"><a href="#Forêts-aléatoires"><span class="toc-item-num">3.2 - </span>Forêts aléatoires</a></div>
<div class="lev2"><a href="#Boosting"><span class="toc-item-num">3.3 - </span>Boosting</a></div>
<div class="lev1"><a href="#Comparaison"><span class="toc-item-num">4 - </span>Comparison</a></div>
<div class="lev2"><a href="#Interprétation"><span class="toc-item-num">5 - </span>Interprétation</a></div>
<div class="lev2"><a href="#Références"><span class="toc-item-num"> </span>Références</a></div>

## Jeu de données : présentation et analyse

Cette séance est inspirée des articles <a name="ref-1"/>[(Hussain et al., 2018)](#hussain) et <a name="mcdaniel"/>[(McDaniel, 2018)](#cite-calicoww2:2) et le jeu de données original est disponible sur [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/Student+Academics+Performance). Le jeu de données étudié durant cette séance contient $300$ observations de $21$ prédicteurs présentés dans le tableau ci-dessous. Il s'agit de données concernant des étudiants indiens en fin de troisième année de licence (pour faciliter l'interprétation, nous transposons le système d'éducation indien en un équivalent français, avec les inexactitudes que cela peut induire).

|Nom  |Description|Valeurs|
|-----|-----------|-------|
|GE   |Gender  | Male (M)/ Female (F)|
|CST  |Caste  | General/SC/ST/OBC/MOBC|
|TNP  |Class X Percentage | $[0,1]$ |
|TWP  |Class XII Percentage |$[0,1]$ |
|IAP  |Internal Assess Percentage |$[0,1]$ |
|ARR  |Previous failed test |Yes (Y)/No (N) |
|MS   |Marital Status            | Married / Unmarried |
|LS   |Live in Town or Village              |Town (T)/Village (V)|
|AS   |Admission Category |Free/Paid|
|FMI  |Family Monthly Income (in Rupee)|$[0,+\infty[$|
|FS   |Family Size                     |$\mathbb{N}$|
|FQ   |Father Qualification              |Illiterate (Il)/Under Class X (UM)/10/12/Degree/PG|
|MQ   |Mother Qualification               |Illiterate (Il)/Under Class X (UM)/10/12/Degree/PG|
|FO   |Father Occupation               |Service/Business/Retired/Farmer/Other|
|MO   |Mother Occupation               |Service/Business/Retired/Housewife/Other|
|NF   |Number of Friends | $\mathbb{N}$|
|SH   |Study Hours |$[0,6]$ (h)|
|SS   |Student School Attended at Class X level | Govt./Private|
|ME   |Medium|English(Eng.)/Assamese(Asm.)/Hindi(Hin.)/Bengali(Ben.)|
|TT   |Home to College Travel Time|$[0,2]$ (h)|
|ATD  |Class Attendance Percentage|$[0,1]$|

Détails :
- `CST` : 'General' désigne les castes qui ne sont pas discriminées. Les $4$ autres désignations (SC:Schelule Caste; ST:Schedule Tribe; OBC:Other Backward Class; MOBC:Minorities and Other Backward Class) recouvrent des classes sociales souvent victimes de discrimination. Par exemple, 'SC' inclut les Dalits, aussi appelés intouchables.
- `TNP` et `TWP` : le 'class X exam' est un certificat général de fin d’études secondaires dans le système scolaire indien; pour simplifier, on pourra considérer qu'il est équivalent au brevet des collèges en France. Le 'class XII exam' est un certificat général de fin d’études secondaires supérieures, on pourra considérer qu'il est équivalent au baccalauréat en France. La valeur associée, renormalisée, désigne le pourcentage de bonnes réponse à ces examens. Voir [ici](https://en.wikipedia.org/wiki/Higher_Secondary_School_Certificate) pour plus de détails. 
- `IAP` : on pourra considérer cette variable comme la note de contrôle continu obtenue durant la licence.
- `ARR` : 'Yes' signifie que l'étudiant doit passer des rattrapages.
- `FQ` : '10' (resp. 12) désigne la validation de l'examen de class X (resp. XII); 'Degree' un niveau licence ou équivalent et 'PG'un niveau master ou plus.
- `ME` : le médium est la langue utilisée pour l'instruction et les examens.

La variable à prédire, ou réponse, notée `ESP` est le 'End Semester Percentage' qui est le résultat obtenu à l'examen final pour l'obtention du diplôme de licence. `ESP` prend $2$ valeurs : 
- 'Pass' lorsque l'étudiant obtient un score de plus de 50%
- 'Fail' lorsque l'étudiant obtient un score de moins de 50%

Les données sont directement séparées en Train.csv pour l'apprentissage et Test.csv pour la validation.

><u>Tâche 1</u> : Importer et visualiser les données : y a-t-il des données manquantes ? aberrantes ? inutiles ? Quelle est la taille de l'ensemble d'apprentissage ? de l'ensemble de test ? Est-ce que cela est cohérent ?
>Quelles sont les données :
>- quantitatives ? 
>- qualitatives ordonnées ? 
>- qualitatives non-ordonnées ? 
>
>La tâche de prédiction relève-t-elle de la régression ou de la classification ?

In [1]:
#insert code

><u>Réponse</u> : 

## Arbre de décision


### Construction de l'arbre

><u>Tâche 2</u> : Sur l'ensemble d'apprentissage, déterminer l’arbre de décision permettant de prédire la catégorie à partir des variables explicatives en utilisant la fonction `rpart` avec les paramètres par défault (voir [ici](https://stat.ethz.ch/R-manual/R-patched/library/rpart/html/rpart.html)) :
- quel critère est minimisé lors d'une coupe ? 
- combien y a-t-il au minimum d'observations dans chaque feuille ?
- à quoi correspond le paramètre `cp` dans `rpart.control`?
>
>Afficher l'arbre à l'aide de la fonction `rpart.plot`. On considère le nœud terminal (la feuille) $n^o 3$ :
- Quelle est la prédiction effectuée ?
- Avec quelle probabilité ?
- Sur combien d’observations ?

In [2]:
X_train=???
y_train=???
X_test=???
y_test=???

fit <- rpart(???,data=???)
rpart.plot(,??,extra=1)

><u>Réponse</u> : 

En classification, on rappelle que la qualité du modèle est mesurée via la précision :
$$precision(y,\hat{y})=\frac{1}{n}\sum_{i=1}^n 1_{y_i=\hat{y}_i}$$
où $n$ est la taille de l'ensemble de test, $\hat{y}_{i}$ la valeur prédite du $i^{ème}$ individu et $y_i$ sa vraie valeur. Le taux d'erreur est donné par $1-precision(y,\hat{y})$.

><u>Tâche 3</u> : Evaluer la qualité du modèle sur les ensembles d'entraînement et de test. Afficher la matrice de confusion et le taux d'erreur de classification pour chacun des ensembles.

In [3]:
#insert code

><u>Tâche 4</u> (optionelle): Sur l'ensemble d'apprentissage, pour les deux critères (indice de Gini et entropie), construire un arbre maximal avec (idéalement) une observation par feuille, un arbre avec au plus $m=10$ observations par feuilles et au plus $m=20$ observations par feuilles. Calculer le taux d'erreur pour chaque cas. Empiriquement, pour ce jeu de données, quel critère de coupe est préférable ?

In [4]:
#insert code

><u>Réponse</u> : 

### Elagage

La qualité de prédiction de l'arbre varie avec le nombre d'observations par feuille.

Nous allons dans cette partie chercher de manière plus systématique le meilleur sous-arbre en terme de prédiction. 

Pour ce faire, nous appliquons la méthode vue en cours, qui consiste, à partir de l'arbre maximal  (voir aussi [ici](http://mlwiki.org/index.php/Cost-Complexity_Pruning)):
<ol>
<li> Sélectionner une suite de sous-arbres emboîtés et la pénalité $\alpha$ correspondante via la méthode de <i>cost complexity pruning</i>.</li>
<li> Sélectionner le 'meilleur' sous-arbre en effectuant une validation croisée sur les pénalités $\alpha$.</li>
</ol>

><u>Tâche 5</u> : la méthode `rpart` de R effectue déjà directement les deux points ci-dessus. Les valeurs sont stockées dans l'attribut `cptable` de l'objet arbre fourni. Pour visualiser ces $\alpha$ et l'erreur correspondante en validation croisée, utiliser la fonction `plotcp`. Donner la valeur $\alpha$ correspondant au meilleur sous-arbre.

In [5]:
fit.max <- rpart(???,data=???,control = rpart.control(cp=???, minsplit = ???,minbucket =???))
plotcp(???)

><u>Réponse</u> : On prend $\alpha=???$

###  Exploitation des résultats

><u>Tâche 6</u> : L'élagage a permi de sélectionner le meilleur sous-arbre. Construire cet arbre à l'aide de la fonction `prune`. Quel est le taux d'erreur de classification de cet arbre sur l'ensemble de test ? Afficher la matrice de confusion. Quel est le nombre de mal classés par l’arbre dans l’échantillon ? Visualiser cet arbre. Quelles sont les trois variables les plus importantes pour la détermination de la catégorie ?
>
> On considère une nouvelle observation (F,OBS,0.38,0.45,0.49,Y,Unmarried,V,Paid,5720,1,10,Um,Others,Housewife,20,	3,Govt,Asm,1,0.78) : prédire le résultat de cet étudiant à l'examen.

In [6]:
tree<-prune(???,cp=???)
#insert code

><u>Réponse</u> : 

><u>Tâche 7</u> (facultatif) : Observer comment les résultats précédents sont impactés (en particulier dans les tâches 6 et 7) si l'on change les échantillons d'entraînement et de test. Comment expliquer ces résultats ?

In [7]:
#insert code

><u>Réponse</u> : 

## Amélioration de la prédiction

Nous allons maintenant mettre en place les méthodes de réduction de la variance introduites en cours afin d'améliorer la prédiction.

### Bagging (Bootstrap AGGregatING)


><u>Tâche 8</u> : Rappeler quelle est la différence entre Bagging et Forêt aléatoire. Effectuer une prédiction en utilisant la méthode de Bagging (fonction `randomForest` se trouvant dans la librairie du même nom). Tracer le taux d'erreur sur l'ensemble de test en fonction du nombre d'arbres utilisés. Tracer sur le même graphe le taux d'erreur 'out-of-bag'.

In [8]:
#error_rate<-c()
#error_rate_oo<-c()
#p=???
#Ntrees=c(1,10,30,50,100,200,250,300,400,500,1000,5000)
#for(i in Ntrees){
#    fit.rf <- randomForest(???, data=???,xtest=???,ytest=???,ntree=??? ,mtry=???, importance=TRUE)
#    cm<-fit.rf$confusion
#    error_rate_oo<-c(error_rate_oo,???)
#    confMat<-fit.rf$test$confusion
#    error_rate<-c(error_rate,???)
#}
#print(error_rate)
#plot(Ntrees,error_rate,type='l',col='blue',lwd=2,ylim=c(min(error_rate)-0.1,max(error_rate)+0.1),ylab="Error rate",xlab="Number of Trees")
#points(Ntrees,error_rate_oo,type='l',col='red',lwd=2)
#legend("topright", legend=c("error rate","OOB error"),lty = c(1,1),col=c("blue","red"))

><u>Tâche 9</u> : Déterminer quelles sont les variables les plus importantes en utilisant l'attribut `importance` et/ou la fonction `varImpPlot`.

In [9]:
#fit.rf<-???
#fit.rf$???
#varImpPlot(???)

### Forêts aléatoires

><u>Tâche 10</u> : Effectuer une prédiction en utilisant les forêts aléatoires. Pour différents nombres de variables explicatives échantillonnées $m=\sqrt{p}$, $m=p/2$ où $p$ est le nombre total de variables explicatives ($p=21$), tracer le taux d'erreur sur l'ensemble de test en fonction du nombre d'arbres utilisés. Tracer sur le même graphe le taux d'erreur 'out-of-bag'
 

In [10]:
#error_rate<-c()
#error_rate_oo<-c()
#p=???
#Ntrees=c(1,30,50,100,150,200,300,500,1000,5000)
#for( m in c(sqrt(p),p/2)){
#    for(i in Ntrees){
#        fit.rf <- randomForest(???, data=???,xtest=???,ytest=???,ntree=??? ,mtry=???,maxnodes=30, importance=TRUE)
#        cm<-fit.rf$confusion
#        error_rate_oo<-c(error_rate_oo,???)
#        confMat<-fit.rf$test$confusion
#        error_rate<-c(error_rate,???)
#    }
#}
#l=length(Ntrees)
#plot(Ntrees,error_rate[(1:l)],type='l',col='blue',lwd=2,ylim=c(min(error_rate)-0.1,max(error_rate)+0.1),ylab="Error rate",xlab="Number of Trees")
#points(Ntrees,error_rate_oo[(1:l)],type='l',col='blue',lty=2,lwd=2)
#points(Ntrees,error_rate[((1+l):(2*l))],type='l',col='red',lwd=2,ylab="Error rate",xlab="Number of Trees")
#points(Ntrees,error_rate_oo[((1+l):(2*l))],type='l',col='red',lty=2,lwd=2)
#legend("topright", legend=c("m=sqrt(p)","m=sqrt(p),OOB","m=p/2","m=p/2,OOB"),lty = c(1,2,1,2),col=c("blue","blue","red","red"))

><u>Tâche 11</u> : Déterminer quelles sont les variables les plus importantes en utilisant l'attribut `importance` et/ou la fonction `varImpPlot` pour la méthode de forêt aléatoire la plus performante.

In [11]:
#insert code

### Boosting

><u>Tâche 12</u> : En utilisant la méthode de boosting, via la fonction `gbm` du package du même nom, contruire une séquence de $5000$ arbres. Calculer le taux d'erreur sur l'ensemble de test. Tracer le taux d'erreur en fonction du nombre d'arbres.

In [19]:
Train$ESP<-(Train$ESP=='Pass')

In [13]:
#error_rate3<-c()
#error_rate1<-c()
#fit3.boost<-gbm(???,data=???,n.trees=5000,interaction.depth = 3)
#fit1.boost<-gbm(???,data=???,n.trees=5000,interaction.depth = 1)
#for (i in c(1,100,500,1000,5000)){
#    pred3.boost <- predict(???, newdata = ???, n.trees =???, type="response")
#    labels = (pred3.boost>=0.5)
#    cm = table(y_test, labels)
#    error_rate3<-c(error_rate3,???)
#}
#for (i in c(1,100,500,1000,5000)){
#    pred1.boost <- predict(???, newdata = ???, n.trees =???, type="response")
#    labels = (pred1.boost>=0.5)
#    cm = table(y_test, labels)
#    error_rate1<-c(error_rate1,???)
#}
#plot(c(1,100,500,1000,5000),error_rate3,type='l',col='blue',lwd=2,ylim=c(0,1),ylab="Error rate",xlab="Number of Trees")
#lines(c(1,100,500,1000,5000),error_rate1,type='l',col='red')

><u>Tâche 13</u> : Utiliser la fonction `summary` pour identifier les variables d'importance.

In [14]:
#summary(???, n.trees = ???)

## Comparaison

Dans cette dernière partie, on applique une autre méthode de classification à notre jeu de données à titre de comparaison avec les méthodes par arbres en général. On se tourne vers une méthode qui est également adaptée, c'est-à-dire qui est capable de traiter des variables quantitatives et qualitatives non-ordonnées. On choisit la régression logistique multinomiale `multinom` fournie par la librairie `nnet` de R. 

><u>Tâche 14</u> : Effectuer une régression logistique multinomiale sur le jeu de données et déterminer son taux d'erreur sur l'ensemble de test.

In [37]:
#fit.glm<-multinom(ESP~.,Train)
#pred<-predict(fit.glm,X_test,type='class')
#cm = table(y_test, pred)
#error_rate<-1-sum(diag(cm))/sum(cm)
#print(error_rate)
#summary(fit.glm)

# weights:  40 (39 variable)
initial  value 155.958116 
iter  10 value 84.299601
iter  20 value 69.217007
iter  30 value 67.585373
iter  40 value 67.548972
iter  50 value 67.535012
iter  60 value 67.534324
final  value 67.534262 
converged
[1] 0.2133333


Call:
multinom(formula = ESP ~ ., data = Train)

Coefficients:
                   Values    Std. Err.
(Intercept) -1.750987e+02 1.883954e-02
GEM          2.287231e-01 1.054828e-02
CSTMOBC      9.272503e-01 4.597993e-03
CSTOBC       1.057380e+00 6.395380e-03
CSTSC        1.092455e+00 1.626194e-03
CSTST        1.512531e+00 2.257949e-03
TNP          8.576651e+00 8.283566e-03
TWP          7.744732e+00 9.713205e-03
IAP          8.405076e+00 1.170233e-02
ARRY        -2.695302e+00 1.585433e-02
MSUnmarried  1.617570e+02 1.883954e-02
LSV          1.734313e-01 1.960400e-02
ASPaid       4.916285e-01 1.418752e-03
FMI         -1.899105e-05 3.009895e-05
FS           9.120762e-02 6.494524e-02
FQ12         1.958665e+00 3.718318e-03
FQDegree     2.396967e+00 5.113485e-04
FQIl         6.560962e-01 2.904885e-03
FQPg        -8.154531e-01 5.987380e-05
FQUm         1.356272e-01 1.112195e-02
MQ12        -1.379345e+00 1.935796e-03
MQDegree     4.144674e+01 0.000000e+00
MQIl        -4.572316e-01 3.578931e-03
M

## Interprétation

Discuter la performance des méthodes testées.

Identifier les facteurs de réussite d'un étudiant. En particulier, discuter l'impact des facteurs socio-économiques tels que le sexe, la classe sociale, le revenu et des facteurs éducatifs (école privée ou publique, langue d'enseignement).

## Références 

<a name="mcdaniel"/> McDaniel, T. (2018) _Using Random Forests to Describe Equity in Higher Education: A Critical Quantitative Analysis of Utah’s Postsecondary Pipelines, Butler Journal of Undergraduate Research: Vol. 4 , Article 10_.

<a name="hussain"/> Hussain, S., Dahan, N. A., Ba-Alwib, F. M., & Ribata, N . (2018) _Educational data mining and analysis of students’ academic performance using WEKA. Indonesian Journal of Electrical Engineering and Computer Science, 9(2), 447-459._.