# Agglomeratives Hierarchisches Linkage Average Clustering

In [None]:
if(!require("ggplot2")) install.packags("ggplot2")
if(!require("dplyr")) install.packages("dplyr")
if(!require("dendextend")) install.packages("dendextend")
if(!require("ggdendro")) install.packages("ggdendro")
if(!require("factoextra")) install.packages("factoextra")
if(!require("cluster")) install.packages("cluster")
if(!require("NbClust")) install.packages("NbClust")
if(!require("tidyverse")) install.packages("tidyverse")

## Einführendes Beispiel

Wir erstellen ein Dataframe mit einigen Zahlen (Merkmale der Objekte).

In [None]:
Merkmal1 <- c(20,9,8,22,9,19)
Merkmal2 <- c(48,34,30,50,31,48)

daten <- data.frame(Merkmal1, Merkmal2)

Wichtig ist, die Daten zu standardisieren bzw. zu normalisieren. Hier normalisieren wir mit Hilfe der Methode *scale*:

In [None]:
daten.std <- scale(daten)

daten.std

Anschließend erstellen wir eine Distanzmatrix mit Hilfe der Funktion *dist*:

In [None]:
daten.dist <- dist(daten.std)
daten.dist

Nun können wir Clustern. Wir verwenden die Methode *hclust*:

In [None]:
model <- hclust(daten.dist, method="average")

Wir zeichnen das Dendrogramm:

In [None]:
plot(model)  #Dendrogramm zeichnen

## Beispiel mit mtcars

In [None]:
daten.cars <- data.frame(Gewicht=mtcars$wt, Verbrauch=mtcars$mpg)
row.names(daten.cars) <- row.names(mtcars)

daten.scaled <- scale(daten.cars)
daten.dist <- dist(daten.scaled)
daten.clust <- hclust(daten.dist, method="average")

d1 <- color_branches(daten.clust, k=4) %>%
  set("branches_lwd", 4) %>% set("nodes_pch", 19) %>%
  set("labels_cex", 0.8)

plot(d1, main="Dendrogramm für Autos")


## Beispiel mit Fahrzeugdaten

Um nochmals zu verdeutlichen, dass hier nicht-gelabelte Daten zusammengefasst (geclustert) werden, erstellen wir Beispieldaten mit Fahrzeugen. Der Algorithmus *weiß* aber nicht, ob es sich um Fahrräder, Autos oder sonstige Fahrzeuge handelt. Die Objekte werden anhand ihrer  Eigenschaften geclustert!

In [None]:
# Daten aus CSV-Datei einlesen 
Fahrzeuge <- read.csv("Fahrzeuge.csv", header = T, sep=";", stringsAsFactors = F, dec = ",")

# Struktur des Datensatzes
str(Fahrzeuge)

# Daten aufbereiten
daten <- Fahrzeuge[, 2:6]
daten$Kraftstoff <- as.factor(daten$Kraftstoff)
daten$Kraftstoff <- as.numeric(daten$Kraftstoff)
daten$Leistung <- as.numeric(daten$Leistung)

# Spalte "Typ" wird zu Zeilennamen (fließt nicht in das Modell ein!)
daten <- daten %>% remove_rownames %>% column_to_rownames(var="Typ")

# Skalieren / Standardisieren der Daten
daten <- scale(daten)

# Distanztabelle erstellen
d <- dist(daten)

# Clustering durchführen
clust <- hclust(d, method="average")

# Dendrogramm zeichnen
plot(clust)


## Beispiel: Clustern von Tieren bzgl. Schlafzeit (msleep)

In [None]:
# Auf NAs prüfen
colSums(is.na(msleep))

#Erstelle neuen Dataframe ohne NAs
tiere_ <- msleep %>% select (name,vore,sleep_total) %>% filter(!is.na(vore) & !is.na(sleep_total))
tiere <- data.frame(row.names=tiere_$name, Gruppe=as.numeric(factor(tiere_$vore)), Schlafzeit=tiere_$sleep_total)
tiere

#Normalisieren der Werte
tierestd <- scale(tiere)

#Distanzmatrix erstellen
tieredist <- dist(tierestd, method = "euclidian")

#Modell erstellen
model <- hclust(tieredist, method = "average")

#Dendrogramm zeichnen
ggdendrogram(model, rotate = TRUE)






In [None]:
#Vergleich Mensch und "African Giant Pouched Rat" (Gambische Riesenhamsterratte):
tiere %>% filter(row.names(tiere) %in% c("African giant pouched rat", "Human"))

#Weitere Spezialisierung: Wir nehmen das Gewicht des Gehirns (brainwt) hinzu
tiere_ <- msleep %>% select (name,vore,sleep_total,brainwt) %>% filter(!is.na(vore) & !is.na(sleep_total) & !is.na(brainwt))
tiere  <- data.frame(row.names=tiere_$name, Gruppe=as.numeric(factor(tiere_$vore)), 
                     Schlafzeit=tiere_$sleep_total, GewichtGehirn=tiere_$brainwt)
tiere

#Werte normalisieren
tierestd <- scale(tiere)

#Distanzmatrix erstellen
tieredist <- dist(tierestd, method = "euclidian")

#Modell erstellen
model <- hclust(tieredist, method = "average")

In [None]:
#Dendrogramm zeichnen
ggdendrogram(model, rotate = TRUE)