# Decision Trees - Entscheidungsbäume

# Decision Trees (Entscheidungsbäume)  und Random Forest

Zuerst einige Packages laden:

In [None]:
if (!require("rpart")) install.packages("rpart")
if (!require("rpart.plot")) install.packages("rpart.plot")
if (!require("rattle")) install.packages("rattle")
if (!require("caret")) install.packages("caret")
if (!require("randomForest")) install.packages("randomForest")

Wir wollen zuerst das Beispiel aus dem Skript "Tennis" nachvollziehen. Dazu laden wir den Datensatz und 
geben mit *str* die Struktur des Datensatzes aus:

In [None]:
tennis <- read.csv("tennis.csv", sep=";")

In [None]:
str(tennis)

Wir geben die ersten 6 Zeilen aus dem Datensatz aus:

In [None]:
head(tennis)

Es sind zu wenig Daten, um den Datensatz noch in ein Trainings- und Testdatensatz aufzuteilen. Hier geht es erst Mal um das Erstellen eines Modells, also eines Decision Trees. Dieses Modell wird nun erstellt:

In [None]:
model.tennis <- rpart(TennisGespielt~., data=tennis, control=rpart.control(minbucket = 1, minsplit = 1))

Nun plotten wir den Baum:

In [None]:
rpart.plot(model.tennis)

Etwas hübschere Plots mit fancyRpartPlot aus dem Package "rattle":

In [None]:
fancyRpartPlot(model.tennis, palettes=c("Spectral"))

# Weiteres Beispiel: IRIS-Datensatz

Nun ein etwas umfangreicheres Beispiel: Wir verwenden den Datensatz IRIS mit immerhin 150 Zeilen (Beobachtungen). Wir laden den Datensatz (wird standardmäßig mit R mitgeliefert) und geben die Struktur des Datensatzes sowie die ersten 6 Zeilen aus:

In [None]:
data(iris)
str(iris)
head(iris)

Nun teilen wir den Datensatz in Trainings- und Testdaten auf. Wir verwenden hierfür die Funktion *createDataPartition* aus dem Package *caret*. 70% der Daten kommen in den Trainings-, 30% in den Testdatensatz:

In [None]:
set.seed(42)
index <- createDataPartition(iris$Species, p=0.7, list=F)
train <- iris[index, ]
test  <- iris[-index, ]

Nun erstellen wir wieder das Modell mit der Funktion *rpart*:

In [None]:
model <- rpart(Species~., data=train)

Wir geben mit *rpart.plot* den Baum aus:

In [None]:
rpart.plot(model)

Wie gut ist  unser Modell? Um das festzustellen, erstellen wir basierend auf dem soeben erstellten Modell eine Vorhersage, gespeichert in *pred*:

In [None]:
pred <- predict(model, test, type="class")

Mit Hilfe der Funktion *confusionMatrix* aus dem *caret* - Package erhalten wir viele Informationen über die Qualität unseres Modells, u.a. die sog. Accuracy:

In [None]:
confusionMatrix(pred, test$Species)

Die Accuracy beträgt immerhin ca. 91%!

# k-Fold-Cross-Validation

Nun wenden wir noch die k-Fold-Cross-Validation an, um unser Modell besser zu testen. Mit Hilfe der Funktion *createFolds* erstellen wir insgesamt 10 Trainings- bzw. Testdatensätze (k=10). Diese Mengen sind jeweils disjunkt.

In [None]:
folds <- createFolds(train$Species, k=10, returnTrain = T)

Wir erstellen nun einen leeren Vektor *accuracies*, in dem die Accuracies für alle 10 Folds gespeichert werden. In einer Schleife erstellen wir für alle Folds ein Modell, ermitteln die Vorhersagen (*pred*) und ermitteln die Accuracy-Werte:

In [None]:
# Vektor für Accuracies
accuracies <- numeric()

# Berechne für jeden Fold ein Modell und ermittle die Accuracy
ctrl <- rpart.control(minsplit = 1)
for(f in folds){
  model <- rpart(Species~., data=train[f,], control=ctrl)
  pred <- predict(model, test, type="class")
  cm <- confusionMatrix(test$Species, pred)
  accuracies <- c(accuracies, cm$overall["Accuracy"])
}

Wir geben die 10 Accuracy-Werte aus und berechnen damit noch den Mittelwert mit *mean* sowie die Varianz mit *var*. Wir stellen fest, dass das Modell sehr stabil ist:

In [None]:
# berechne Mittelwert und Varianz aus den Accuracies
print(accuracies)
mean(accuracies)
var(accuracies)

# Random Forest

Schließlich erstellen wir noch einen Random Forest. Wir erstellen 500 Bäume!

In [None]:
model <- randomForest(Species~., data=train, ntree=500)

Mit *plot* erhalten wir Informationen über unser Modell in grafisch aufbereitet Form (das Plotten von 500 Bäumen macht nicht wirklich einen Sinn!). Wir stellen fest, dass sich ab ca. 50 Bäumen der Fehler (Error) nicht mehr ändert. Somit hätten 50 Bäume auch gereicht - zumindest für die vorliegenden Daten.

In [None]:
plot(model)
legend("top", colnames(model$err.rate),col=1:4,cex=0.8,fill=1:4)

Schließlich wollen wir auch mit unserem Random Forest noch die Qualtiät bestimmen. Wie vorher ermitteln wir Vorhersagen (*pred*) und erstellen eine ConfusionMatrix:

In [None]:
pred <- predict(model, test, type="class")

confusionMatrix(pred, test$Species)