# Vorlesung: Von Ähnlichkeiten zu Kopierbeziehungen

In [1]:
import pandas as pd
import numpy as np
import requests

from medDiaJson import diaAttrCheck
from IPython.display import HTML

## Beschreibung der Attribute

Diese Vorlesung bezieht sich auf eine Sammlung mittelalterlicher Diagramme mit dem thematischen Fokus auf der Bewegung von Planeten. Jedes Diagramm wurde gescannt und in Unterkategorien eingeordnet. Jeder Diagramm-Typ wurde dann auf das vorhanden-sein oder fehlen von spezifischen Merkmalen untersucht. So entstand eine Datenbank mit Kategorien für Diagramm-Typ, Diagramm-Attributen, usw. Auf diese Datenbank können wir über Github zugreifen. 

In [2]:
url = 'https://raw.githubusercontent.com/computational-humanities/topoi/master/projects/medievaldiagrams/data/diaattr.json'
diagrams = pd.read_json(url)

Um zusätzlich die Beschreibung der Merkmale und der Diagramm Typen zu erhalten, laden wir eine weitere Datenbank, welche diese enthält.

In [3]:
url2 = 'https://raw.githubusercontent.com/computational-humanities/topoi/master/projects/medievaldiagrams/data/MedievalDiagrams_DB.json'
res = requests.get(url2)
data = res.json()

In [4]:
dfAttrDescr = pd.DataFrame(data['instances']['attributes'])
dfAttrDescr.head()

Unnamed: 0,AttributeID,AttributeText,AttributeURL
0,M1.1,gleiche Anzahl von Schriftzügen an denselben P...,http://repository.edition-topoi.org/digilib/di...
1,M1.2,Schriftzüge longitudo/latitudo an den gleichen...,http://repository.edition-topoi.org/digilib/di...
2,M1.3,kreuzförmiger Anfang der Mond- und Venusbahn,http://repository.edition-topoi.org/digilib/di...
3,M1.4,waagerechte Position,http://repository.edition-topoi.org/digilib/di...
4,M1.5,"""Schneekristall"" - Sternform der Planeten",http://repository.edition-topoi.org/digilib/di...


In [5]:
dfTypDescr = pd.DataFrame(data['instances']['diaTyp'])
dfTypDescr.head()

Unnamed: 0,diaDescription,diaName,diaTyp,diagramURL
0,The rectangular presentation of latitudes occu...,Latitudes Rectangular (Höhen-Diagramm (Rechteck)),1.0,/Mq_27&wx=0.0336&wy=0.3027&ww=0.4897&wh=0.5887
1,The circular presentation of planetary latitud...,Latitudes Circular (Höhen-Diagramm (Kreis)),2.0,/Ej_138&wx=.1089&wy=0.7155&ww=0.3618&wh=0.2149
2,A diagram for planetary absides is the only pl...,Apsides (Apsidendiagram (normal)),3.0,/Rb_313&wx=.527&wy=00.0849&ww=0.3547&wh=0.4644
3,The Plinian diagram for planetary order is ext...,Planetary Order Circular (Planetenordnung-Diag...,4.0,/Mp_2189&wx=.4793&wy=0.1503&ww=0.4192&wh=0.596
4,The Plinian diagram for planetary order that a...,Planetary Order List (Planetenordnung-Diagramm...,5.0,/Ej_138&wx=.1089&wy=0.7155&ww=0.3618&wh=0.2149


## Welche Typen von Diagrammen finden sich bei Martianus Capella?

Wir reduzieren die Datenbank auf den Authors Martianus Capella und lassen uns alle möglichen Diagramm Typen anzeigen.

In [6]:
dfCapella = diagrams[(diagrams['author']=='Capella')]
dfCapella['diaTyp'].unique()

array([22.0, 20.0, 21.0, 19.0, 25.0, 26.0, 28.0, 29.0, 30.0, 18.0, 23.0,
       24.0, 27.0, 31.0, 0.0, ''], dtype=object)

Wir finden Diagramm Typen von 18 bis 31. Klassifizierungen mit 0 oder '' sind noch weiter zu untersuchen.

## Anwendung auf einen Diagramm Typ

Wir betrachten nun die Merkmale für den Typ 22. Die Beschreibung des Typs selbst finden wir auf folgende Weise

In [7]:
dfDesc22 = dfTypDescr[dfTypDescr['diaTyp'] == 22]
print(dfDesc22['diaName'].values[0])
print()
print(dfDesc22['diaDescription'].values[0])

Circumsolar Intersecting (Circumsolar intersecting)

An arrangement with Venus and Mercury on intersecting circles around the Sun. In this type of diagram Venus usually appears on the outermost circle in the pattern, producing the resultant planetary sequence from the Moon outward: Mercury -- Venus - Sun -- Mercury -- Venus. The two intersecting circles are usually about the same size, although the circle of Venus may be significantly larger than that of Mercury. The Sun may appear either on an arc or on its full circle. The earth may or may not appear as the body around which the Sun revolves. This diagram may or may not include further planetary circles or the zodiacal circle. The diagram is not connected to any other planetary diagram in the way that the elements of the "Three versions" are connected. See description and text for "Three versions" (above).


Für die Attribute Beschreibungen nutzen wir den Attribute Dataframe.

In [8]:
dfAttr22 = dfAttrDescr[dfAttrDescr['AttributeID'].str[1:3] == '22']
for i in dfAttr22.index:
    print(dfAttr22['AttributeID'][i])
    print(dfAttr22['AttributeText'][i])

M22.1
das Diagramm besteht aus zwei Kreisen und einer Geraden in der Mitte der Schnittfläche
M22.2
die Anordnung der Himmelskörper, sowie der drei Kreise ist etwa identisch zu Cape42_43
M22.3
Sol ist nicht als Himmelskörper dargetellt
M22.4
es sind überhaupt keine Himmelskörper dargestellt
M22.5
Sol liegt auf voll abgebildeter Kreisbahn
M22.6
das Diagramm ist in ein größeres mit Tierkreiszeichen integriert


Die Beschreibung der Attribute bezieht sich zum Teil auf ältere Bezeichnungen für die Diagramme. Für das Übersetzen der Namen exisitert die Spalte "altID".

In [9]:
(diagrams[diagrams['altID'] == 'Cape42']['diaID']).iloc[0]

'MAPD0406'

Einen reduzierten Dataframe erhalten wir wie gehabt. Zusätzlich erweiteren wir den Dataframe mit den Werten der Attribute, und entfernen Diagramme mit unklarer Klassifizierung ('?').

In [10]:
dfCapella22 = diagrams[(diagrams['author']=='Capella') & (diagrams['diaTyp']==22)].reset_index(drop=True)
dfAttr = pd.DataFrame(dict(dfCapella22['diaAttr'].apply(lambda row: row[0]))).transpose()
dfCapellaAttr = dfCapella22.join(dfAttr)
dfCapellaAttr = dfCapellaAttr[dfCapellaAttr['M22.1'] != '?']
dfCapellaAttr.head()

Unnamed: 0,altID,author,biblio,diaAttr,diaID,diaTyp,diaURL,foliopage,manID,manURL,textID,textURL,year,M22.1,M22.2,M22.3,M22.4,M22.5,M22.6
0,Cape149,Capella,"Leiden UB, Ms BPL 64","[{'M22.6': 0, 'M22.5': 1, 'M22.2': 1, 'M22.1':...",MAPD0345,22,Lk_1&pn=92&dw=1858&dh=901&ww=0.7615&wh=0.3906&...,46v,LK(1),Lk_1&pn=1,LK(1)_B,,XI,0,1,0,0,1,0
1,Cape34,Capella,"Vaticano BAV, Ms Regin. lat. 1987","[{'M22.6': 0, 'M22.5': 0, 'M22.2': 0, 'M22.1':...",MAPD0397,22,Ay_3&pn=122&dw=1858&dh=901&ww=0.062&wh=0.1081&...,128r,AY(3),Ay_3&pn=1,AY(3)_A,,IX(ex),1,0,1,1,0,0
2,Cape39,Capella,"Erfurt StB, Ms Amplon. Q.351","[{'M22.6': 1, 'M22.5': 0, 'M22.2': 0, 'M22.1':...",MAPD0402,22,Bn_3&pn=15&dw=1858&dh=901&ww=0.1803&wh=0.2756&...,13v,BN(3),Bn_3&pn=1,BN(3)_A,,XII,0,0,1,1,0,1
3,Cape35,Capella,"Leiden UB, BPL, 88","[{'M22.6': 0, 'M22.5': 0, 'M22.2': 0, 'M22.1':...",MAPD0398,22,Ba_2&pn=323&dw=1858&dh=901&ww=0.1131&wh=0.1007...,162v,BA(2),Ba_2&pn=1,BA(2)_A,,IX,1,0,1,1,0,0
4,Cape36,Capella,"Leiden UB, BPL, 87","[{'M22.6': 0, 'M22.5': 0, 'M22.2': 0, 'M22.1':...",MAPD0399,22,Ba_3&pn=126&dw=1858&dh=901&ww=0.1108&wh=0.2035...,124v,BA(3),Ba_3&pn=1,BA(3)_A,,IX,1,0,1,0,0,0


Zum Überprüfen der vorhandenen Attribute, können wir eine Grid-Darstellung nutzen. Neben dem Namen des Diagramms, sind die Attribute verzeichnet. Schwebt der Maus-Zeiger über einer Attributes-Nummer erscheint die Beschreibung.

In [11]:
diaAttrCheck(dfCapellaAttr,'Capella',22)

Diagrams of type 22 from author Capella,Unnamed: 1,Unnamed: 2
,,
"MAPD0345, Attr:M22.3: 0, M22.5: 1, M22.1: 0, M22.6: 0, M22.2: 1, M22.4: 0","MAPD0397, Attr:M22.3: 1, M22.5: 0, M22.1: 1, M22.6: 0, M22.2: 0, M22.4: 1","MAPD0402, Attr:M22.3: 1, M22.5: 0, M22.1: 0, M22.6: 1, M22.2: 0, M22.4: 1"
,,
"MAPD0398, Attr:M22.3: 1, M22.5: 0, M22.1: 1, M22.6: 0, M22.2: 0, M22.4: 1","MAPD0399, Attr:M22.3: 1, M22.5: 0, M22.1: 1, M22.6: 0, M22.2: 0, M22.4: 0","MAPD0401, Attr:M22.3: 0, M22.5: 1, M22.1: 0, M22.6: 1, M22.2: 0, M22.4: 0"
,,
"MAPD0405, Attr:M22.3: 0, M22.5: 0, M22.1: 0, M22.6: 0, M22.2: 0, M22.4: 0","MAPD0406, Attr:M22.3: 0, M22.5: 1, M22.1: 0, M22.6: 0, M22.2: 1, M22.4: 0","MAPD0407, Attr:M22.3: 0, M22.5: 1, M22.1: 0, M22.6: 0, M22.2: 1, M22.4: 0"
,,
"MAPD0351, Attr:M22.3: 0, M22.5: 1, M22.1: 0, M22.6: 0, M22.2: 0, M22.4: 0","MAPD0408, Attr:M22.3: 1, M22.5: 0, M22.1: 1, M22.6: 0, M22.2: 0, M22.4: 0","MAPD0409, Attr:M22.3: 1, M22.5: 0, M22.1: 1, M22.6: 0, M22.2: 0, M22.4: 0"


# Untersuchung besonders ähnlicher Diagramme

Im obigen Grid der Diagramme des Typs 22 finden sich drei besonders ähnliche Abbildungen. Die Diagramme MAPD 345, 406 und 407 werden nun näher untersucht. 

Zum Darstellen der Diagramme neben einander nutzen wir folgende Funktion, die auf die Datenbank der edition-topoi zugreift.

In [12]:
def idx2image(dataframe, diaList):
    url_start = 'http://repository.edition-topoi.org/digilib/digilib.html?fn=/MAPD/ReposMAPD/EastwoodCollection/'
    url_end = []
    for dia in diaList:
        urlTemp= dataframe[dataframe['diaID']==dia]['diaURL'].iloc[0]
        url_end.append(urlTemp)
    res = ''.join(['<iframe src={}{} width=400 height=400></iframe>'.format(url_start,url) for url in url_end])
    return HTML(res)

In [13]:
idx2image(dfCapella22,['MAPD0345','MAPD0406','MAPD0407'])

# Kopierbeziehungen von Diagrammen

## Kopierbeziehungen

Drei mögliche Szenarien treten für die Kopierbeziehungen zwischen zwei Diagrammen A und B auf. A kann eine Kopie von B sein, oder B eine Kopie von A, wenn beide Diagramme eine direkte Verwandschaftsbeziehung haben. Natürlich könnten auch beide Diagramme von einer gemeinsamen Vorlage C kopiert worden sein, die z.B. verloren gegangen ist.

Zum Festlegen einer Kopierbeziehung nutzen wir die Merkmale der Diagramme. Bei einem Kopiervorgang will ein Kopist alle Merkmale einer Vorlage übernehmen.  Durch Fehler können zufällig Merkmale verloren gehen. Es ist aber eher unwahrscheinlich, dass ein Kopist Merkmale hinzufügt, die in einer Vorlage nicht vorhanden waren. 

Diese Kopierbeziehungen können durch eine einfache Anweisung kodiert werden. Wir vergleichen alle Stellen eines Beschreibungsvektors für ein Diagramm A mit einem anderen Diagramm B. Ist in A ein Merkmal vorhanden, aber in B nicht (1->0), weißen wir diesem Kopiervorgang eine Wahrscheinlichkeit von 0.9 zu. Das heißt es ist wahrscheinlich zufällige Fehler zu machen. Ist in A hingegen ein Merkmal nicht vorhanden, in B aber schon (0->1), ordnen wir diesem Vorgang die Wahrscheinlichkeit 0.1 zu, wie oben argumentiert. 

Mit der Funktion zip(u,v) können wir die Merkmalsvektoren zweier Diagramme verknüpfen. Gleiche Stellen des Vektors werden zu einem Tupel, einer nicht veränderbaren Gruppe, zusammengefasst. Für jedem Eintrag des Tupels prüfen wir, ob der Eintrag von A größer, kleiner oder gleich dem Eintrag von B ist. Aus der so entstanden Vergleichsliste für alle Stellen des Merkmalsvektors bilden wir dann das Produkt, welches die Gesamtwahrscheinlichkeit der Kopierbeziehung beschreibt. 

In [14]:
def kopierbeziehung(u,v):
    war = np.product([0.1 if i[0] < i[1] else 0.9 if i[0] > i[1] else 1 for i in zip(u,v)])
    return war

Für zwei hypothetische Diagramme A und B haben wir folgende Merkmale verzeichnet.

In [15]:
A = [1,1,1,1,1]
B = [1,1,0,0,0]

Nun testen wir, welche Kopierfolge wahrscheinlicher ist.

In [16]:
kopierbeziehung(A,B)

0.72900000000000009

In [17]:
kopierbeziehung(B,A)

0.0010000000000000002

Wie zuvor festgelegt, ist ein Verlust zweier Merkmale deutlich wahrscheinlicher, als das Hinzufügen. Daher ist B wahrscheinlich eine Kopie von A. 

Das Testen der dritten Hypothese ist mit den vorhandenen Merkmalen nicht einfach möglich. Eventuell müssen wir neue Merkmale hinzufügen.

## Neues Attribut anlegen

Soll für einen bestehenden Diagramm-Typ ein neues Merkmal hinzugefügt werden, so kann dies erstmal mit einem Dataframe protokolliert werden. 
Die Beschreibung des Attributes erfolgt analog zu den bestehenden.

Das Merkmal 'M22.7' beschreibt: TEXT HIER

In einem ersten Bearbeitungsschritt wurde eine Liste erstellt, welches Diagramm das neue Merkmal besitzt und welches nicht. Diese Liste wird in ein dictionary geschrieben, dass die Neuerungen kodiert.  

In [18]:
mapDict = {a:b for a,b in zip(dfCapellaAttr['diaID'],[1,0,0,1,1,0,0,0,1,0,1,0])}

Mit Hilfe dieses Mappings schreiben wir nun in jede Zeile die aktuallisierte Attributs-Beschreibung.

In [19]:
for x in range(len(dfCapellaAttr['diaAttr'])):
    dc = dfCapellaAttr['diaAttr'].iloc[x][0]
    dc['M22.7'] = mapDict[dfCapellaAttr['diaID'].iloc[x]]
    dfCapellaAttr['diaAttr'].iloc[x] = [dc]

Wir überprüfen, ob die neuen Merkmale übernommen wurden.

In [20]:
dfCapellaAttr['diaAttr'].iloc[0]

[{'M22.1': 0,
  'M22.2': 1,
  'M22.3': 0,
  'M22.4': 0,
  'M22.5': 1,
  'M22.6': 0,
  'M22.7': 1}]

Wird anschließend obiges Grid neu ausgeführt, so sind die neu hinzugefügten Merkmale verzeichnet. 

## Attribut entfernen

Sollte ein Schlüssel fehlerhaft vergeben worden sein, kann er mit dict.pop() aus dem dictionary entfernt werden (der Befehl gibt den Wert zu dem Schlüssel aus). Das bereinigte dictionary kann dann wieder der diaAttr Spalte zugewiesen werden und im obigen Grid sollte das Merkmal nicht mehr vorhanden sein. 

In [21]:
#for x in range(len(dfCapella22['diaAttr'])):
#    dc = dfCapella22['diaAttr'].iloc[x][0]
#    try:
#        dc.pop('M22.7');
#    except KeyError:
#        raise
#    dfCapella22['diaAttr'].iloc[x] = [dc]

## Merkmale als JSON-Datei dauerhaft abspeichern

Um die bearbeiteten Merkmale in ein JSON zu speichern, nutzen wir 

In [22]:
# Kommentar entfernen um Änderungen zu speichern
#dfCapella22.to_json('./Capella22newAttr.json')

In [23]:
# Geänderte Daten werden mit diesem Befehl eingelesen und überprüft
#with open('./Capella22newAttr.json') as json_data:
#    data = json.load(json_data)
#pd.DataFrame(data).iloc[1,3]