# Naive Bayes Klassifikator

Wir laden das Package *e1071*, das u.a. Funktionen für den Naive Bayes Klassifikator zur Verfügung stellt. Außerdem laden wir noch die üblichen Pakete *ggplot2*, *caret* und *dplyr*.

In [None]:
if(!require("e1071")) install.packages("e1071")
if(!require("ggplot2")) install.packages("ggplot2")
if(!require("dplyr")) install.packages("dplyr")
if(!require("caret")) install.packages("caret")

Wir laden die Daten in ein Dataframe: Zuckergehalt und Gewicht von Äpfeln und Birnen:

In [None]:
obst <- read.csv2("obst.csv")

# Die Obstsorte ist kategorial!
obst$Obstsorte <- as.factor(obst$Obstsorte)

In [None]:
obst

Wir plotten die Daten (Scatterplot). Die Obstsorte bestimmt die Farbe der Punkte:

In [None]:
obst %>% ggplot(aes(Gewicht, Zuckergehalt, color=Obstsorte)) + geom_point(size=3)

Wir erstellen das Modell mit Hilfe des Naive Bayes Klassifikators:

In [None]:
model <- naiveBayes(Obstsorte~Zuckergehalt+Gewicht, obst)

Wir geben Infos zum Modell aus:

In [None]:
model

Nun wollen wir zwei unbekannte Stücke Obst klassifizieren.

In [None]:
# Erstelle 2 unbekannte Sorten
neueSorte1 <- data.frame(Zuckergehalt=52.5, Gewicht=125)
neueSorte2 <- data.frame(Zuckergehalt=55.0, Gewicht=145)

# Vorhersage mit der predict-Methode
predict(model, neueSorte1, type = "class")
predict(model, neueSorte2, type = "class")

## Beispiel mit IRIS

Wir wenden den Naive Bayes Klassifikator nun auf den Datensatz *IRIS* an. Wie üblich splitten wir in einen Trainings- und Testdatensatz auf und überprüfen die Qualität unseres Modells mit Hilfe der Accuracy.

In [None]:
index <- createDataPartition(iris$Species, p=0.8, list=F)
train <- iris[index,]
test <- iris[-index,]


model <- naiveBayes(train$Species~., data=train)

pred <- predict(model, newdata=test, type="class")

confusionMatrix(pred,test$Species)$overall["Accuracy"]

## Beispiel 3: Datensatz *mtcars*: Vorhersage des Motortyps (V-Motor oder Seriell)

In einem weiteren Beispiel ertellen wir ein Naive-Bayes-Modell anhand des Datensatzes *mtcars*. Wir wollen den Motortyp vorhersagen. Wir verwenden zudem die Methode k-Fold-Cross-Validation mit 5 Folds. Für jeden Fold ermitteln wir die Accuracy und geben anschließend die Stanardabweichung der Accuracies aus.

In [None]:
mtcars$vs <- factor(mtcars$vs)


# k-Fold-Cross-Validation mit 5 Folds
set.seed(23)
folds <- createFolds(mtcars$vs, k=5, returnTrain=TRUE)

# Erstelle für jeden Fold ein Modell, berechne die Accuracy und
# speichere diese im Vektor accuracies

# Leerer Vektor für numerische Daten
accuracies <- numeric()


for(f in folds){
  train <- mtcars[f, ]
  test  <- mtcars[-f, ]
  model <- naiveBayes(vs~cyl + hp + wt + qsec, data=train)
  pred  <- predict(model, test, type="class")
  accuracies <- c(accuracies, confusionMatrix(pred, test$vs)$overall["Accuracy"])

}

# Gib die Accuracies aus und berechne Standardabweichung
accuracies
sd(accuracies)