# Agglomeratives Hierarchisches Linkage Average Clustering

## Einführendes Beispiel
Wir erstellen ein Pandas Dataframe mit einigen Zahlen (Merkmale der Objekte).

In [None]:
import pandas as pd

df = pd.DataFrame({"Merkmal1": [20,9,8,22,9,19],
                   "Merkmal2": [48,34,30,50,31,48]},
                 index = ["Objekt1", "Objekt2","Objekt3", "Objekt4","Objekt5", "Objekt6"])

df

Wichtig ist, die Daten zu standardisieren bzw. zu normalisieren. Hier normalisieren wir mit Hilfe der Methode *zscore*:

In [None]:
from scipy.stats import zscore
df_std = zscore(df)
df_std

Nun clustern wir die Daten mit derr Funktion *linkage*

In [None]:
from scipy.cluster.hierarchy import linkage
df_dend = linkage(df_std, "average")
df_dend

Schließlich können wir die Hierarchie plotten.

In [None]:
%matplotlib inline
from scipy.cluster.hierarchy import dendrogram
__=dendrogram(df_dend, labels = df.index)

## Beispiel mit dem Datensatz cars

In [None]:
import pandas as pd

url = "https://raw.githubusercontent.com/troescherw/datasets/master/cars.csv"
cars = pd.read_csv(url, delimiter=";", usecols=[0,1,6], index_col=0)
cars.head()

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
from scipy.stats import zscore
from scipy.cluster.hierarchy import linkage, dendrogram
cars_std =zscore(cars)
cars_dend = linkage(cars_std, "average")


__ = dendrogram(cars_dend, labels=cars.index, orientation="right")
plt.title("Dendrogramm für Autos")
plt.show()


## Weiteres Beispiel mit Fahrzeugdaten
Um nochmals zu verdeutlichen, dass hier nicht-gelabelte Daten zusammengefasst (geclustert) werden, erstellen wir Beispieldaten mit Fahrzeugen. Der Algorithmus *weiß* aber nicht, ob es sich um Fahrräder, Autos oder sonstige Fahrzeuge handelt. Die Objekte werden anhand ihrer  Eigenschaften geclustert!

In [None]:
import pandas as pd
from scipy.cluster.hierarchy import linkage, dendrogram
from scipy.stats import zscore
from sklearn import preprocessing
import numpy as np

url = "https://raw.githubusercontent.com/troescherw/datasets/master/Fahrzeuge.csv"
fahrzeuge = pd.read_csv(url, delimiter=";", index_col=5)
fahrzeuge

In [None]:
df = fahrzeuge.iloc[:, 1:5]
df

In [None]:
df = pd.get_dummies(df)
df.head()

In [None]:
df= zscore(df)
df_dend = linkage(df, "average")
plt.rcParams['figure.figsize'] = [15, 15]
__=dendrogram(df_dend, labels=fahrzeuge.index, orientation="right")

-------
## Dendrogramm mit dem IRIS-Datensatz
Erstellen wir noch ein Dendrogramm mit dem IRIS-Datensatz:

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
from scipy.cluster.hierarchy import linkage, dendrogram
from scipy.stats import zscore
from sklearn import preprocessing
import numpy as np

url = "https://raw.githubusercontent.com/troescherw/datasets/master/iris.csv"
df = pd.read_csv(url, delimiter=";", index_col=4, usecols=[0,1,2,3,4])
df_scaled = zscore(df)
iris_dend = linkage(df_scaled, "average")

plt.rcParams['figure.figsize'] = [15, 15]
__=dendrogram(iris_dend, labels=df.index, orientation="right")

plt.show()

Auch hier stellen wir wieder fest, dass sich die Species Setosa deutlich von den anderen beiden Spezies unterscheidet!