-
Notifications
You must be signed in to change notification settings - Fork 0
/
02_cart.R
133 lines (114 loc) · 4.53 KB
/
02_cart.R
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
#' # 2 Arbres CART
#'
#' ## 2.4 Le package `rpart`
#'
## ----cartTreeDef, fig.cap="Arbre de classification obtenu avec les valeurs par défaut de `rpart()`, données `spam`.", fig.width=8.5, fig.height=6----
library(rpart)
treeDef <- rpart(type ~ ., data = spamApp)
print(treeDef, digits = 2)
plot(treeDef)
text(treeDef, xpd = TRUE)
#'
## ----cartTreeMaxCode, fig.show='hide', results='hide'----
set.seed(601334)
treeMax <- rpart(type ~ ., data = spamApp, minsplit = 2, cp = 0)
plot(treeMax)
treeMax$cptable
#'
## ----cartplotCp, fig.cap="Erreurs estimées par validation croisée de la suite des sous-arbres élagués de l'arbre maximal, données `spam`."----
plotcp(treeMax)
#'
## ----cartTreeOpt, fig.width=8.5, fig.height=7, fig.cap="Arbre élagué optimal, données `spam`."----
cpOpt <- treeMax$cptable[ which.min(treeMax$cptable[, 4]), 1 ]
treeOpt <- prune(treeMax, cp = cpOpt)
plot(treeOpt)
text(treeOpt, xpd = TRUE, cex = 0.8)
#'
## ----cartTree1SE, fig.width=8.5, fig.height=7, fig.cap="Arbre élagué \"1-SE rule\", données `spam`."----
thres1SE <- sum(treeMax$cptable[ which.min(treeMax$cptable[, 4]), 4:5])
cp1SE <- treeMax$cptable[ min(which(treeMax$cptable[, 4] <= thres1SE)), 1]
tree1SE <- prune(treeMax, cp = cp1SE)
plot(tree1SE)
text(tree1SE, xpd = TRUE, cex = 0.8)
#'
## ----cartErrorsMax-------------------------------------
errTestTreeMax <- mean(predict(treeMax, spamTest, type = "class") !=
spamTest$type)
errEmpTreeMax <- mean(predict(treeMax, spamApp, type = "class") !=
spamApp$type)
#'
#' ## 2.5 Découpes concurrentes et de substitution
#'
#' ### 2.5.2 Découpes de substitution
#'
## ----cartTreeStump-------------------------------------
treeStump <- rpart(type ~ ., data = spamApp, maxdepth = 1)
summary(treeStump)
#'
#' ### 2.5.3 Interprétabilité
#'
## ----cartVarImp, fig.width=8, fig.cap="Importance des variables au sens de CART pour l'arbre maximal, données `spam`."----
par(mar=c(7, 3, 1, 1) + 0.1)
barplot(treeMax$variable.importance, las = 2, cex.names = 0.8)
#'
#' ## 2.6 Exemples
#'
#' ### 2.6.1 Prédire la concentration d’ozone
#'
## ----cartOzoneLoad-------------------------------------
library("rpart")
data("Ozone", package = "mlbench")
#'
## ----cartOzoneTreeDef, fig.width=8.5, fig.height=6, fig.cap="Arbre par défaut, données `Ozone`."----
OzTreeDef <- rpart(V4 ~ ., data = Ozone)
print(OzTreeDef, digits = 3)
plot(OzTreeDef)
text(OzTreeDef, xpd = TRUE, cex = 0.9)
#'
## ----cartOzoneTreeMax----------------------------------
set.seed(727325)
OzTreeMax <- rpart(V4 ~ ., data = Ozone, minsplit = 2, cp = 0)
#'
## ----cartOzoneTreePlotcp, fig.cap="Erreurs estimées par validation croisée de la suite des sous-arbres élagués de l'arbre maximal, données `Ozone`."----
plotcp(OzTreeMax)
#'
## ----cartOzoneTreeOpt, fig.cap="Arbre élagué optimal, données `Ozone`."----
OzIndcpOpt <- which.min(OzTreeMax$cptable[, 4])
OzcpOpt <- OzTreeMax$cptable[OzIndcpOpt, 1]
OzTreeOpt <- prune(OzTreeMax, cp = OzcpOpt)
plot(OzTreeOpt)
text(OzTreeOpt, xpd = TRUE)
#'
#' ### 2.6.2 Analyser des données génomiques
#'
## ----cartVac18Load-------------------------------------
library(rpart)
data("vac18", package = "mixOmics")
VAC18 <- data.frame(vac18$genes, "stimu" = vac18$stimulation)
#'
## ----cartVac18TreeDef, fig.cap="Arbre par défaut obtenu avec `rpart()` sur les données `Vac18`."----
VacTreeDef <- rpart(stimu ~ ., data = VAC18)
print(VacTreeDef)
plot(VacTreeDef)
text(VacTreeDef, use.n = TRUE, xpd = TRUE)
#'
## ----cartVac18TreeMax, fig.cap="Arbre maximal sur les données `Vac18`."----
set.seed(788182)
VacTreeMax <- rpart(stimu ~ ., data = VAC18, minsplit = 2, cp = 0)
plot(VacTreeMax)
text(VacTreeMax, use.n = TRUE, xpd = TRUE)
## ----cartVac18TreeMaxLoo, fig.cap="Erreurs estimées par validation croisée *leave-one-out* de la suite des sous-arbres élagués de l'arbre maximal, données `Vac18`."----
set.seed(413745)
VacTreeMaxLoo <- rpart(stimu ~ ., data = VAC18, minsplit = 2, cp = 0, xval = nrow(VAC18))
#'
## ----cartVac18TreePlotcp, fig.cap="Erreurs estimées par validation croisée *10-folds* (à gauche) et leave-one-out (à droite) de la suite des sous-arbres élagués de l'arbre maximal, données `Vac18`."----
par(mfrow=c(1,2))
plotcp(VacTreeMax)
plotcp(VacTreeMaxLoo)
#'
## ----cartVac18TreeOpt, fig.cap="Arbre élagué optimal, données `Vac18`."----
VacIndcpOpt <- which.min(VacTreeMaxLoo$cptable[, 4])
VaccpOpt <- VacTreeMaxLoo$cptable[VacIndcpOpt, 1]
VacTreeOpt <- prune(VacTreeMaxLoo, cp = VaccpOpt)
plot(VacTreeOpt)
text(VacTreeOpt, use.n = TRUE, xpd = TRUE)