# k-Nearest-Neighbors

In [None]:
if(!require("ggplot2")) install.packages("ggplot2")
if(!require("dplyr")) install.packages("dplyr")
if(!require("caret")) install.packages("caret")

## Beispiel 1

Wir klassifizieren Kunden bzgl. Alter und Interesse. Auch hier werden wir wieder einen Trainigs- und Testdatensatz erstellen und anhand der Funktion *confusionMatrix* die Qualität unseres Modells ermitteln. Das Modell erstellen wir mit Hilfe der Funktion *knn3*:

In [None]:

daten <- read.csv("classification.csv")
head(daten)
str(daten)

# Feature success in Factor umwandeln
daten$success <- as.factor(daten$success)
str(daten)

# Plot mit allen Daten
daten %>% ggplot(aes(interest, age, color=success)) +
  geom_point(size=2)


# Aufteilen in Trainings- und Testdaten
index <- createDataPartition(daten$success, p=.8, list=F)

train <- daten[index, ]
test  <- daten[-index, ]

# Modell erstellen
model <- knn3(success~., data=train, k=5)

# Vorhersage
pred <- predict(model, test, type="class")

confusionMatrix(pred, test$success)

## Bestimmung von k

Der Hyperparameter k kann auf unterschiedliche Arten bestimmt werden. Wir greifen hier auf die praktiche Funktion *train* im *caret*-Package zurück:

In [None]:
grid <- expand.grid(k=seq(3,50, by=2)) #k's defnieren

model2 <- train(success~., data=train,
                method="knn",
                tuneGrid=grid)

model2
plot(model2)

# Weitere Möglichkeiten: k-Cross-Validation und Standardisierung der Werte

control <- trainControl(method="cv", number=10)

model3 <- train(success~., data=train,
                method="knn",
                preProcess="scale",
                tuneGrid=grid)

model3


In [None]:
plot(model3)

## Beispiel 2

Das nachfolgende Beispiel erstellt ein Modell für die Vorhersage von Brustkrebs anhand verschiedener Merkmale. Die Daten sind reale Daten einer US-amerikanischen Klinik.

In [None]:
#################################################################
# Vorhersage Brustkrebs
# Datenquelle: https://archive.ics.uci.edu/ml/
# Datadicionary:
# 1) ID number 
# 2) Diagnosis (M = malignant, B = benign) 
# 3-32) 
#
# Ten real-valued features are computed for each cell nucleus: 
  
# a) radius (mean of distances from center to points on the perimeter) 
# b) texture (standard deviation of gray-scale values) 
# c) perimeter 
# d) area 
# e) smoothness (local variation in radius lengths) 
# f) compactness (perimeter^2 / area - 1.0) 
# g) concavity (severity of concave portions of the contour) 
# h) concave points (number of concave portions of the contour) 
# i) symmetry 
# j) fractal dimension ("coastline approximation" - 1)


wbcd <- read.csv("wisc_bc_data.csv", stringsAsFactors = F, header = T)
head(wbcd)

# ID-Spalte entfernen
wbcd <- wbcd[c(-1,-2)]

table(wbcd$diagnoses)

wbcd$diagnoses <- factor(wbcd$diagnoses, levels=c("B", "M"),
                                                     labels=c("Benign", "Malignant"))
table(wbcd$diagnoses)
str(wbcd)

wbcd[,2:11] <- scale(wbcd[,2:11])

head(wbcd)

library(caret)
library(e1071)
index <- createDataPartition(wbcd$diagnoses, p=.8, list=F)
train <- wbcd[index,]
test  <- wbcd[-index, ]

model <- knn3(diagnoses~., data=train, k=11)

pred <- predict(model, test, type="class")

confusionMatrix(pred, test$diagnoses, positive="Malignant")
