# Vorlesung: Clustering eines Diagramm-Typs

In [108]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
from matplotlib import cm

from scipy.cluster.hierarchy import dendrogram, linkage

from scipy.cluster.hierarchy import cophenet
from scipy.spatial.distance import pdist
from sklearn import decomposition

from medDiaJson import diaTypeGrid, diaTypeDescr
from IPython.display import HTML

In [109]:
np.set_printoptions(formatter={'float':lambda x: format(x,'.2f')})

In [110]:
%matplotlib notebook

## Beschreibung der Sammlung

Diese Vorlesung bezieht sich auf eine Sammlung mittelalterlicher Diagramme mit dem thematischen Fokus auf der Bewegung von Planeten. Jedes Diagramm wurde gescannt und in Unterkategorien eingeordnet. Jeder Diagramm-Typ wurde dann auf das vorhanden-sein oder fehlen von spezifischen Merkmalen untersucht. So entstand eine Datenbank mit Kategorien für Diagramm-Typ, Diagramm-Attributen, usw. Auf diese Datenbank können wir über Github zugreifen. 

In [111]:
url = 'https://raw.githubusercontent.com/computational-humanities/topoi/master/projects/medievaldiagrams/data/diaattr.json'
url2 = 'https://raw.githubusercontent.com/computational-humanities/topoi/master/projects/medievaldiagrams/data/MedievalDiagrams_DB.json'
diagrams = pd.read_json(url)
diagrams.head()

Unnamed: 0,altID,author,biblio,diaAttr,diaID,diaTyp,diaURL,foliopage,manID,manURL,textID,textURL,year
0,Plin4,Plinius,"Vaticano BAV, Ross. 247","[{'M2.21': 1, 'M2.4': 0, 'M2.15': 0, 'M2.11': ...",MAPD0668,2,Dl_1&pn=396&dw=1858&dh=901&ww=0.8926&wh=0.6552...,200v,DL(1),Dl_1&pn=1,DL(1)_A,,IX
1,Plin41,Plinius,"Vaticano BAV, Ross. 247","[{'M3.37': 0, 'M3.18': 1, 'M3.33': 0, 'M3.26':...",MAPD0670,3,Dl_1&pn=395&dw=1858&dh=901&ww=0.9617&wh=0.7723...,200r,DL(1),Dl_1&pn=1,DL(1)_A,,IX
2,Plin67,Plinius,"Vaticano BAV, Ross. 247","[{'M4.3': '?', 'M4.8': 1, 'M4.1': 0, 'M4.6': 0...",MAPD0698,4,Dl_1&pn=414&dw=1858&dh=901&ww=0.9085&wh=0.6452...,209v,DL(1),Dl_1&pn=1,DL(1)_A,,IX
3,Plin82,Plinius,"Vaticano BAV, Ross. 247","[{'M6.15': '?', 'M6.9': 0, 'M6.1': 1, 'M6.20':...",MAPD0714,6,Dl_1&pn=393&dw=1858&dh=901&ww=0.8255&wh=0.62&w...,199r,DL(1),Dl_1&pn=1,DL(1)_A,,IX
4,Plin6,Plinius,"Paris BN, 11130","[{'M2.21': 1, 'M2.4': 1, 'M2.15': 0, 'M2.11': ...",MAPD0690,2,Jk_2&pn=1&dw=1858&dh=901&ww=1&wh=1&wx=0&wy=0,74v,JK(2),Jk_2&pn=1,JK(2)_A,,XII


## Erzeugen der Datenpunkte

Wir reduzieren die Datenbank auf den Diagramm-Typ des Authors Martianus Capella mit der größten Verteilung in den Manuskripten. 

In [112]:
dfList = []

dfCapella = diagrams[(diagrams['author']=='Capella') & (diagrams['diaTyp']==22)]

for diag in set(dfCapella['diaID'].values):
    dfTemp = dfCapella[dfCapella['diaID']==diag].reset_index(drop=True)
    dfTemp2 = pd.DataFrame(dfTemp['diaAttr'].iloc[0])
    dfTemp2['diaID'] = diag
    dfTemp2['date'] = dfTemp['year'] 
    dfTemp2.replace(['?'],[0],inplace=True)
    dfList.append(dfTemp2) 

In [113]:
dfAttr = pd.concat(dfList).reset_index(drop=True)
dfAttr.head()

Unnamed: 0,M22.1,M22.2,M22.3,M22.4,M22.5,M22.6,diaID,date
0,1,0,1,0,0,0,MAPD0408,XII(3/4)
1,0,0,0,0,1,0,MAPD0351,IX
2,0,0,0,0,0,0,MAPD0400,XII
3,1,0,1,0,0,0,MAPD0399,IX
4,1,0,1,1,0,0,MAPD0398,IX


Wir erhalten eine binäre Matrix (eins und null Einträge), indem wir die Spalten für Diagramm-ID und Datum fallen lassen und den Befehl `dataframe.values` anwenden. Jedes Diagramm wird dann durch eine Zeile der Matrix über seine vorhandenen und nicht vorhandenen Merkmale beschrieben. 

In [88]:
X = dfAttr.drop(['diaID','date'],1).values.astype(int)
X

array([[1, 0, 1, 0, 0, 0],
       [0, 0, 0, 0, 1, 0],
       [0, 0, 0, 0, 0, 0],
       [1, 0, 1, 0, 0, 0],
       [1, 0, 1, 1, 0, 0],
       [0, 0, 0, 0, 1, 1],
       [0, 0, 0, 0, 0, 0],
       [0, 1, 0, 0, 1, 0],
       [0, 0, 1, 1, 0, 1],
       [0, 0, 0, 0, 0, 0],
       [1, 0, 1, 1, 0, 0],
       [0, 1, 0, 0, 1, 0],
       [0, 1, 0, 0, 1, 0],
       [1, 0, 1, 0, 0, 0]])

Die Matrix, welche unsere Datenpunkte beschreibt, hat die Dimension X = (Zeilen) x (Spalten) = 14 x 7. Wir haben also für unsere 14 Datenpunkte je 7 Merkmale. Um diese Punktmenge im 2D darstellen zu können, wenden wir eine Transformation an. Diese Transformation wird [hier](http://scikit-learn.org/stable/modules/generated/sklearn.decomposition.TruncatedSVD.html#sklearn.decomposition.TruncatedSVD) beschrieben. 

In [89]:
X_pca = decomposition.TruncatedSVD(n_components=2).fit_transform(X)

In [90]:
fig = plt.figure(figsize=(12,4))
plt.scatter(*X_pca.T);

<IPython.core.display.Javascript object>

### Beschreibung des Diagramm-Typs

Die Erklärung des Diagramm-Typs erhält man aus der Datenbank über den Befehl

In [115]:
print(diaTypeDescr(22))

Circumsolar Intersecting (Circumsolar intersecting)
An arrangement with Venus and Mercury on intersecting circles around the Sun. In this type of diagram Venus usually appears on the outermost circle in the pattern, producing the resultant planetary sequence from the Moon outward: Mercury -- Venus - Sun -- Mercury -- Venus. The two intersecting circles are usually about the same size, although the circle of Venus may be significantly larger than that of Mercury. The Sun may appear either on an arc or on its full circle. The earth may or may not appear as the body around which the Sun revolves. This diagram may or may not include further planetary circles or the zodiacal circle. The diagram is not connected to any other planetary diagram in the way that the elements of the "Three versions" are connected. See description and text for "Three versions" (above).


## Berechnen der Entfernungs-Matrix

Für die Cluster-Analyse wird nun für alle Datenpunkte der Abstand zueinander berechnet. Hierbei nutzen wir die `linkage` Routine aus dem scipy-Paket. Nun kommt es auf die Methode und die Metrik an, wie genau der Abstand zweier Datenpunkte berechnet wird. 

Die Methode beschreibt sozusagen, an welchen Orten zweier Cluster das Maßband zur Abstandmessung angelegt wird. Zum Beispiel können einfach die jenigen Punkte der Cluster ausgewählt werden, die am nächsten Liegen (`single`) oder auch die am weitesten entfernten (`complete`). Auch üblich ist es, den Schwerpunkt aller Punkte eines Clusters zu nehmen (`average`).

Da unsere Beschreibungs-Vektoren der Diagramme binär sind, bietet sich eine Metrik für binäre Zahlen an. Ein prominentes Beispiel ist der Hamming-Abstand `h(u,v)`. Er beschreibt, an wie vielen Stellen sich zwei gleichlange Vektoren **`u`** und **`v`** unterscheiden. So ist zum Beispiel der Abstand von **u**=(1,1,0,0,1) zu **v**=(1,1,1,0,1), `h(u,v)`=1/5, weil sich die beiden Vektoren nur an der dritten Stelle unterscheiden. Dieser Abstand kann auch auf Wörter angewendet werden, so ist zum Beispiel h(Baum,Haus)=2/4=0.5, da sich B und H und m und s unterscheiden.

Für den Diagramm-Typ 30 haben wir 14 Diagramme in unserer Datenpunkt-Matrix. 

In [91]:
len(X)

14

Um aus allen einzelnen Diagrammen einen Gesamt-Cluster zu bilden, brauchen wir also (N-1)=13 Schritte , in denen zwei Diagramme oder Cluster zu einem neuen Cluster zusammengefasst werden. 

Wir wenden nun den Hamming-Abstand mit der Schwerpunkt-Methode an, um eine Cluster-Analyse durchzuführen.

In [92]:
Z = linkage(X, method='average', metric='hamming')
len(Z)

13

Als ein erster Test für die Qualität der Cluster-Bildung können wir die `cophnet`Funktion benutzen, [hier](https://en.wikipedia.org/wiki/Cophenetic_correlation) erklärt. Sie beschreibt, wie gut die hierachische Cluster-Bildung die ursprünglichen Entfernungen der Datenpunkte erhält. Werte nahe von eins bedeuten eine hohe Ähnlichkeit.

In [93]:
c, coph_dists = cophenet(Z, pdist(X))
c

0.89817346175337676

### Einzelne Schritte der Cluster-Bildung

In der Matrix Z stehen nun alle (N-1)=13 Einträge der Cluster-Bildung, die nötig waren, um am Ende einen einzigen Cluster zu erhalten. 

In den ersten Schritten des Algorithmus werden Diagramme mit Abstand Null zu größeren Clustern zusammen gefasst. Da einige Diagramme den selben Abstand Null haben, also genau die selben Merkmanle haben, ist die Reihenfolge des Zusammenfassens in Z zufällig. 

Durch den Aufruf `Z[0,:]` erhält man den ersten Schritt der Cluster-Bildung. Die ersten beiden Einträge bezeichnen die Diagramme, die zusammengefasst wurden. Der dritte Eintrag enthält die Entfernung der beiden Diagramme zueinander und der letzte, vierte, Eintrag beschreint die Größe des neu entstandenen Clusters. Die neu entstandenen Cluster werden mit N+1,N+2 usw durchnummeriert. Steht also in einem Eintrag in Z, dass zum Beispiel Diagram 0 mit 14 zusammengefasst wurden, handelt es sich bei dem Eintrag 14 um einen Cluster.

In den ersten sieben Schritten werden nur Diagramme bzw Cluster mit Abstand Null zusammengefasst.

In [94]:
print(Z[0,:])
print(Z[1,:])
print(Z[2,:])
print(Z[3,:])

[0.00 3.00 0.00 2.00]
[13.00 14.00 0.00 3.00]
[4.00 10.00 0.00 2.00]
[2.00 6.00 0.00 2.00]


Erst im achten Schritt wird ein einzelnes Diagramm mit einem neuen Cluster zusammengefasst, der einen Hamming-Abstand von 0.17 hat.

In [96]:
Z[7,:]

array([15.00, 16.00, 0.17, 5.00])

## Dendrogramm

Der gesamte Prozess der Cluster-Bildung lässt sich am besten mittels eines Dendrogramms (Baum-Diagram) darstellen. Hier ist der entstandene Gesamt-Cluster die Wurzel eines Baumes, der sich in immer mehr Zweige (Cluster) verzweigt, bis er schließlich nur noch die einzelnen Diagramme als Blätter enthält. Die y-Achse beschreibt den Hamming-Abstand, während auf der x-Achse die einzelnen Diagramme abgetragen sind.

Da einzelne Diagramme schon bei einem Abstand von Null zusammengefasst werden, sind nicht alle Blätter des Baumes bei einem Diagramm Index. So sind ja zum Beispiel in den ersten zwei Schritten schon drei Diagramme in einem Cluster zusammengefasst worden. Daher ist die rote Linie etwas neben dem Index 0. Auch Diagramme 4 und 6 wurden bei Abstand Null zusammengefasst. Daher ist die dunkel blaue Linie genau zwischen den beiden Indices.

In [97]:
fig,ax = plt.subplots(1,1,figsize=(10, 4),sharey=True,sharex=True)

fig.set_label('Hierarchische Cluster-Analyse')
fig.set_tight_layout(True)
plt.xlabel('Diagramm Index')
plt.ylabel('Hamming-Ähnlichkeit')
dendrogram(
    Z,
    leaf_font_size=8.,  # font size for the x axis labels
    ax=ax
);


<IPython.core.display.Javascript object>

### Anzeigen der Diagramme zwei Indices

Um die Cluster-Bildung nachvollziehen zu können, können mit folgender Funktion zwei Bilder von Diagrammen über ihren Index abgerufen werden.

In [98]:
def idx2image(dataframe, index1,index2):
    diaID1 = dfAttr['diaID'].iloc[index1]
    diaID2 = dfAttr['diaID'].iloc[index2]
    url_start = 'http://repository.edition-topoi.org/digilib/digilib.html?fn=/MAPD/ReposMAPD/EastwoodCollection/'
    url_end1 = dataframe[dataframe['diaID']==diaID1].reset_index(drop=True)['diaURL'][0]
    url_end2 = dataframe[dataframe['diaID']==diaID2].reset_index(drop=True)['diaURL'][0]
    return HTML('<iframe src=' + url_start + url_end1 + ' + width=400 height=400></iframe><iframe src=' + url_start + url_end2 + ' + width=400 height=400></iframe>')

In [99]:
idx2image(diagrams, 7,11)

## Cut-Off wählen

Die Cluster-Analyse dient ja im allgemeinen dazu, Struktur in ungeordneten Daten zu erkennen. Daher ist es nicht sinnvoll, den resultierenden Gesamt-Cluster zu untersuchen. Er enthält keine Strukturinformationen mehr. Wir müssen daher einen Cut-Off für den Cluster-Prozess wählen. Dieser muss so gewählt werden, dass weder zu viele noch zu wenige Cluster entstehen. Im obigen Dendrogramm bietet sich ein Cutt-Off bei einem Hamming-Abstand von 0.35 an. Dadurch erhalten wir drei Cluster, die wir in unserer Projektion einfärben können.

In [100]:
from scipy.cluster.hierarchy import fcluster
max_d = 0.35
clusters = fcluster(Z, max_d, criterion='distance')
clusters

array([2, 1, 1, 2, 2, 1, 1, 1, 3, 1, 2, 1, 1, 2], dtype=int32)

In [101]:
fig = plt.figure(figsize=(12,4))
plt.scatter(*X_pca.T, c=clusters, cmap='hot');

<IPython.core.display.Javascript object>

## Diagramme nach Clustern-Zugehörigkeit markieren 

Für unseren Dataframe können wir eine neue Spalte mit der Cluster-ID erzeugen und so eine Einordnung der Diagramme erhalten.

In [102]:
dfAttr['clustID'] = clusters

In [103]:
dfAttr.sort_values('clustID')

Unnamed: 0,M22.1,M22.2,M22.3,M22.4,M22.5,M22.6,diaID,date,clustID
1,0,0,0,0,1,0,MAPD0351,IX,1
2,0,0,0,0,0,0,MAPD0400,XII,1
5,0,0,0,0,1,1,MAPD0401,XII,1
6,0,0,0,0,0,0,MAPD0405,IX(m),1
7,0,1,0,0,1,0,MAPD0406,XII(ex),1
9,0,0,0,0,0,0,MAPD0404,XII(2/2),1
11,0,1,0,0,1,0,MAPD0407,XII,1
12,0,1,0,0,1,0,MAPD0345,XI,1
0,1,0,1,0,0,0,MAPD0408,XII(3/4),2
3,1,0,1,0,0,0,MAPD0399,IX,2


Eine interessante Beobachtung zeigt sich bei dem Vergleich mit den Jahreszahlen. Cluster 1 enthält Diagramme des Jahres XII, Cluster 2 enthält hauptsächlich Diagramme des Jahres XV, und Cluster 3 enthält überwiegend Diagramme aus dem Jahr IX. Hier könnte eine weitergehende Analyse ansetzen.

In [104]:
idx2image(diagrams,0,3)

## Visuelle Kontrolle

Um die Einordnung in die Cluster weiter nach vollziehen zu können, bietet es sich an, die Diagramme selbst anzuschauen. Hierfür können wir die Funktion diaTypGrid aus einer Hilfsbibliothek für die mittelalterlichen Diagramme nutzen. Sie zeigt alle Diagramme eines Typs als Grid, mit Angaben zu Text und Manuscript ID. Über den Link gelangt man zur Digilib Ansicht, die auch eine Gesamt-Ansicht der Seite erlaubt, auf der das Diagramm abgebildet ist. 

In [84]:
diaTypeGrid(diagrams,'Capella',22)

Diagrams of type 22 from author Capella,Unnamed: 1,Unnamed: 2
,,
"MAPD0345, text ID: LK(1)_B, Man.ID: LK(1)","MAPD0397, text ID: AY(3)_A, Man.ID: AY(3)","MAPD0402, text ID: BN(3)_A, Man.ID: BN(3)"
,,
"MAPD0398, text ID: BA(2)_A, Man.ID: BA(2)","MAPD0399, text ID: BA(3)_A, Man.ID: BA(3)","MAPD0400, text ID: BJ(4)_A, Man.ID: BJ(4)"
,,
"MAPD0401, text ID: BN(1)_A, Man.ID: BN(1)","MAPD0404, text ID: JG(4)_A, Man.ID: JG(4)","MAPD0405, text ID: LH(2)_A, Man.ID: LH(2)"
,,
"MAPD0406, text ID: NK(1)_A, Man.ID: NK(1)","MAPD0407, text ID: NQ(2)_A, Man.ID: NQ(2)","MAPD0351, text ID: RB(2)_A, Man.ID: RB(2)"
,,
"MAPD0408, text ID: Z(2)1_A, Man.ID: Z(2)1","MAPD0409, text ID: Z(4)1_A, Man.ID: Z(4)1",


# Grundlagen der Merkmals-Bestimmung

Für die Merkmals-Klassifizierung wurde ein Programm für einen etwas älteren Datensatz geschrieben. Die Suche anch dem Diagramm-Typ erfolgt über den Namen des Typs: "Ultra Triginta", und liefert eine ausführliche Beschreibung der Klassifizierung. Dieses Programm findet sich unter http://www.ancient-astronomy.org/webapplications/domenico/SliderDigilib.html