# Skript zum überprüfen logischer Fehler
## Vor einem Import in iDAI.chronontology

*Entwickelt von Lukas Lammers (DCH, Universiität zu Köln) im Projekt FAIR.rdm, teil des DFG-geförderten SPP 2143 "Entangled Africa" - Version 1.0*

### Hintergrund

Dieses Skript untersützt beim Auffinden von Fehlern in Importtabellen in [iDAI.chronontology](https://chronontology.dainst.org/). Es ist Teil des von FAIR.rdm weiterentwickelten Import-Workflows (Schirtt IV). Fehler, die sonst nur während des Imports angezeigt werden würden, sollen hiermit frühzeitig identifiziert und behoben werden können. Außerdem überprüft es die logischen Beziehungen der Perioden untereinander, die während des Imports nicht getestet werden aber bei der Anzeige der Daten im Frontend zu erheblichen Schwierigkeiten führen können.

### Vorraussetzungen

Benötigt wird eine Python-Umgebung sowie die Bibliotheken pandas, requests und json, sowie eine Software zum Ausführend der Codezellen (wie bspw. VS Code).

### Ausführung

Die Zellen dieses Notebooks können der Reihe nach ausgeführt werden. Lediglich die Parameter der ersten Zelle müssen manuell angepasst werden. Wenn eine Zelle "fehlerfrei" ausgibt, kann mit der nächsten fortgefahren werden. Werden Fehler gefunden, folgen entsprechende Meldungen.

Wenn alle Zellen "fehlerfrei" melden, sind die Daten bereit für das Preprocessing.

### Resultat

Das Ergebis ist eine Logdatei aller Fehler, die im Ordner `/csv` gespeichert wird. Sie wird bei jedem Durchlauf überschrieben und hilft dabei, die Fehler der Reihe nach zu bearbeiten.




#### 1. Initialisierung

Hier muss `df_importtable`, `today` und `dataname` angepasst werden.

In [1]:
#Import modules
import pandas as pd
import requests
import json

#Dieses Skript muss im Ordner "chronontology-data" liegen.

#Hier bitte Dateiname der Import-Tabelle angeben:
df_importtable = pd.read_csv('csv/2025/ChronOntology_ReImport_Bestandsabgleich_Korrektur_import_04-11-25.csv')
#Hier bitte das aktuelle Datum angeben:
today = '2025-11-19'
#Hier bitte den Namen der Fuhre angeben, er befindet sich im Anschluss im Dateinamen des Errorlogs:
dataname = 'Logic_Test_Test'

df_importtable = df_importtable.fillna('nd')

errorlog = []

print(df_importtable)

        ChronoID      importID Arabic period names  \
0   Ka5eF09aArCM  spp2143:0541                  nd   
1   fruIyx3Np7oT  spp2143:0516                  nd   
2   1yaBqboeEheT  spp2143:0530                  nd   
3   8VTqqeJErLAI  spp2143:0507                  nd   
4   o7BoBGpbSzg3  spp2143:0522                  nd   
5   ZrU4X2kyAU1h  spp2143:0501                  nd   
6   EiVxvojmhPKY  spp2143:0519                  nd   
7   D27F8K0c3eaV  spp2143:0539                  nd   
8   w8wXLVGSHymX  spp2143:0403                  nd   
9   JqZzCYcLENvF  spp2143:0401                  nd   
10  E6YVUpqePjzT  spp2143:0535                  nd   
11  DtqwKIUG4oG9  spp2143:0523                  nd   
12  tf8eIhWIWGeU  spp2143:0500                  nd   
13  GnYB4ePTcfEs  spp2143:0503                  nd   
14  URGa349U7Zog  spp2143:0502                  nd   
15  hjlmmz0eYN2h  spp2143:0524                  nd   
16  1GVQ7UE7WsS6  spp2143:0528                  nd   
17  9TzoY7cNL4u6  spp2143:05

Dieser Test, ob die Daten korrekt eingelesen wurden, ist optional.

In [2]:
#Einlestest
first_row = df_importtable.iloc[2]
print(first_row)

ChronoID                                                                    1yaBqboeEheT
importID                                                                    spp2143:0530
Arabic period names                                                                   nd
names                                  Besongo-Keramikstilgruppe@de\nBesongo-Ceramic ...
types                                                           material_culture:pottery
provenance                                                                       SPP2143
spatiallyPartOfRegion                                          2773928, 2773930, 1006804
hasCoreArea                                                                      2773973
isNamedAfter                                                                     2774012
isPartOf                                                      spp2143:0534, spp2143:0541
hasPart                                                                               nd
isListedIn           

#### 2. Allgemeine ChronoID-Überprüfung

ChronoIDs werden durch den Import vergeben und müssen in der Konkordanzdatei vorhanden sein. Dies kann nur auf Perioden zutreffen, die bereits im System angelegt wurden und mit dem aktuellen Import geändert werden.

In [3]:
df_konkordanz = pd.read_csv('csv/Konkordanz.csv')
#print(df_konkordanz)
all_chrono_ids = df_konkordanz['chronontologyID'].tolist()
print(all_chrono_ids)

def check_chronoid(row):
    if row['ChronoID'] != 'nd':
        if row['ChronoID'] in all_chrono_ids:
            error = "fehlerfrei"
            return error
        else:
            error = f"{row['importID']}: ChronoID ist unbekannt."
            return error
    else:
        pass

for index, row in df_importtable.iterrows():
    if row['ChronoID'] != 'nd':
        error = check_chronoid(row)
        if error != "fehlerfrei":
            errorlog.append(error)

print(check_chronoid(first_row))
print(errorlog)

['bQSb6gORbFsf', 'yZtUvvGuxECD', 'Imi3R1kMPXeW', 'Pku7VyUyBK1E', 'FcoYzAfcfWmv', 'jcvKMLbDmTJe', 'HsP1KdRAbheU', 'bRUv3uV5l1II', 'dD9tZrp4idML', 'mkYxO2hCMq0b', 'JZOvBHpnWRy9', 'NOaGEArfuoUE', 'zSgBfcmu2tfg', 'TsItxwcR0zv8', 'U6EN4LtKrB34', 'mglqT3fcRinm', 'T6JxWcUSTCwH', 'NmbG5XxbPjwu', 'ZoQ4Mvt22hnR', 'TZXAtfL1YYSV', 'RAeMlkOSNaFx', 'UB9GdZLkJ4Xz', 'l7cQQAoN7knv', 'kOthZxnbYQQQ', 'IorJuxdSjFQC', 'XSqFooh6OunZ', 'CTZrU0v1UII8', '207natYqV27m', 'jo0r5sLXUHML', 'xsfTz34sQV4G', 'DBrvMjXOwsuK', 'GSFG9dfrIGxV', '4AmKHywiD8z9', 'n3Gr4nHTzlc4', '3uS7zsPex1hh', 'DbYDLoX2k5Yg', 'KmgS8FhpSKEM', 'sdxcA3ivo7BT', 'LTktpz8a4ijx', 'MjnXu6vlmnQJ', 'slKGPx6LWg4r', 'ArlKbd4Go0Mq', 'KVTz42HBnCSQ', 'aJ3sAQShc8iw', 'rXtMERM8dWU1', 'EYVE9wgRx5gP', 'COZhINOAstYU', 'gKWm6d02X44s', 'zB7oErBicOPd', 'ItTO6ztiLIa7', 'A5QFGYLnT5YL', 'e7DX5eAIubkx', 'Tse7PT4VtHnH', 'kabwywZn5Fpc', '9wAtaZNbtkS2', 'IK3xAqQpx8sK', 'b6keC5AAbAKY', 'g7yVIpOVlkO6', 'ibkCWnG1IDoz', 'c86KDLIAlZ4f', 'RUGHtEGIbq8L', 'VfsOkQO6bjfG', 'EXG0su

#### 3. Allgemeine ImportID-Überprüfung. 

ImportIDs müssen eindeutig sein.

In [4]:
import_id_list = df_importtable['importID'].tolist()
print(import_id_list)

#Kombination von ImportIDs und ChronoIDs in einer Liste für späteren Abgleich
all_ids_list = import_id_list + all_chrono_ids

def check_import_id(list_of_ids):
    import_id_set = set(import_id_list)
    if len(import_id_set) == len(list_of_ids):
        error = "fehlerfrei"
        return error
    else:
        error = "Fehler: ImportIDs mehrfach vergeben."
        return error

errorlog.append(check_import_id(import_id_list))
print(errorlog)

['spp2143:0541', 'spp2143:0516', 'spp2143:0530', 'spp2143:0507', 'spp2143:0522', 'spp2143:0501', 'spp2143:0519', 'spp2143:0539', 'spp2143:0403', 'spp2143:0401', 'spp2143:0535', 'spp2143:0523', 'spp2143:0500', 'spp2143:0503', 'spp2143:0502', 'spp2143:0524', 'spp2143:0528', 'spp2143:0531', 'spp2143:0525', 'spp2143:0504', 'spp2143:0527', 'spp2143:0511', 'spp2143:0537', 'spp2143:0508', 'spp2143:0529', 'spp2143:0540', 'spp2143:0513', 'spp2143:0533', 'spp2143:0532', 'spp2143:0536', 'spp2143:0400', 'spp2143:0402', 'spp2143:0538', 'spp2143:0517', 'spp2143:0534', 'spp2143:0505', 'spp2143:0526']
['fehlerfrei']


#### 4. Überprüfung der Names

Jede Zelle muss ein @ enthalten.

In [5]:
def check_names(row):
    if '@' in row['names']:
        return "fehlerfrei"
    else:
        error = f"{row['importID']}: Name enthält keinen Sprachverweis."
        return error

for index, row in df_importtable.iterrows():
    error = check_names(row)
    if error != "fehlerfrei":
        errorlog.append(error)

print(check_names(first_row))
print(errorlog)

fehlerfrei
['fehlerfrei']


#### 5. Überprüfung der types

Die Zellen dürfen keine Leerzeichen enthalten.

In [6]:
main_types = ['not_specified','geological','political','cultural','material_culture']
subtypes =['age','eon','epoch','era','period','supereon','architecture','art','ceramic','decorative_arts','fine_arts','glass','glass_vessels','glyptic','lacquer','metal_bowls','metal_ware','painting','photography','porcelain','pottery','printmaking','rock_art','sculpture','stone_tools','textile','wall_painting']

def check_types(row):
    #Überprüfe Leerzeichen
    if ' ' in row['types']:
        error = f"{row['importID']}: Type enthält Leerzeichen."
        return error
    else:
        #Überprüfe Typenzuordnung
        if ":" in row['types']:
            maintype = row['types'].split(':')[0]
            subtype = row['types'].split(':')[1]
            if maintype not in main_types:
                error = f"{row['importID']}: Haupt-Type {maintype} ist ungültig."
                return error
            elif subtype not in subtypes:
                error = f"{row['importID']}: Sub-Type {subtype} ist ungültig."
                return error
            else:
                error = "fehlerfrei"
                return error
        else:
            maintype = row['types']
            if maintype not in main_types:
                error = f"{row['importID']}: Haupt-Type {maintype} ist ungültig."
                return error
            else:
                error = "fehlerfrei"
                return error

for index, row in df_importtable.iterrows():
    error = check_types(row)
    if error != "fehlerfrei":
        errorlog.append(error)

print(check_types(first_row))
print(errorlog)

fehlerfrei
['fehlerfrei']


#### 6. Überprüfung der Gazetteer-IDs

Der folgende Code überprüft, ob unter den angegeben Gazetteer-Ids Datensätze im iDAI.gazetteer existieren. Da hierbei die API des iDAI.gazetteer abgefragt wird, kann der Vorgang etwas dauern.

In [7]:
#testid = "2353208"

def check_gazetteer_id(gazetteer_id):
    url = f"https://gazetteer.dainst.org/place/{gazetteer_id}"
    response = requests.get(url)
    if response.status_code == 200:
        error = "fehlerfrei"
        return error
    else:
        error = f"{gazetteer_id}: ID im Gazetteer nicht gefunden."
        return error

for index, row in df_importtable.iterrows():
    if row['spatiallyPartOfRegion'] != 'nd':
        entry = str(row['spatiallyPartOfRegion'])
        if "," in entry:
            ids = entry.split(", ")
            for id in ids:
                if " " in id:
                    error = f"{row['importID']}: spatiallyPartOfRegion Leerzeichen in Gaz.-ID {id}"
                    errorlog.append(error)
                else:
                    errorlog.append(check_gazetteer_id(id))
        else:
            errorlog.append(check_gazetteer_id(entry))

for index, row in df_importtable.iterrows():
    if row['hasCoreArea'] != 'nd':
        entry = str(row['hasCoreArea'])
        if "," in entry:
            ids = entry.split(", ")
            for id in ids:
                if " " in id:
                    error = f"{row['importID']}: hasCoreArea Leerzeichen in Gaz.-ID {id}"
                    errorlog.append(error)
                else:
                    errorlog.append(check_gazetteer_id(id))
        else:
            errorlog.append(check_gazetteer_id(entry))

for index, row in df_importtable.iterrows():
    if row['isNamedAfter'] != 'nd':
        entry = str(row['isNamedAfter'])
        if "," in entry:
            ids = entry.split(", ")
            for id in ids:
                if " " in id:
                    error = f"{row['importID']}: isNamedAfter Leerzeichen in Gaz.-ID {id}"
                    errorlog.append(error)
                else:
                    errorlog.append(check_gazetteer_id(id))
        else:
            errorlog.append(check_gazetteer_id(entry))

#print(check_gazetteer_id(testid))

errorlog = set(errorlog)
errorlog = list(errorlog)

print(errorlog)

['fehlerfrei']


#### 7. Überprüfung von Schreibfehlern in den Relations

Die nächste Zelle sucht nach verstreuten Leerzeichen und Großbuchstaben, die durch die Autoformatierung in Tabellenkalkulationssoftware häufig auftreten.

In [8]:
#Check for white spaces and uppercase in ID lists
def check_whitespace_and_case(df_importtable, column_name):
    errors = []
    
    for index, row in df_importtable.iterrows():
        cell_value = row[column_name]
        
        if pd.isna(cell_value) or cell_value == 'nd':
            continue
            
        cell_str = str(cell_value)
        
        # Zähle Kommas und Leerzeichen
        num_commas = cell_str.count(',')
        num_spaces = cell_str.count(' ')
        
        # Bei korrekter Formatierung: Anzahl Leerzeichen = Anzahl Kommas
        # (weil ", " das Trennzeichen ist)
        if num_spaces != num_commas:
            import_id = row['importID']
            errors.append(f"Fehler: Falsche Anzahl Leerzeichen in {column_name} bei {import_id} ('{cell_str}').")
        
        # Prüfe auf Großbuchstaben in IDs mit ':'
        # Splitte bei Komma und trimme
        ids = [id.strip() for id in cell_str.split(',')]
        for id in ids:
            if ':' in id:
                id_lower = id.lower()
                if id != id_lower:
                    import_id = row['importID']
                    errors.append(f"Fehler: Großbuchstabe in ID '{id}' bei {import_id}.")
    
    return errors if errors else "fehlerfrei"

# Check all columns and collect errors
result = check_whitespace_and_case(df_importtable, 'isPartOf')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'hasPart')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'isListedIn')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'lists')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'fallsWithin')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'contains')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'isFollowedBy')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'follows')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'isSenseOf')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'hasSense')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'sameAs')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'isSimilarTo')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

result = check_whitespace_and_case(df_importtable, 'differsInDefinitionFrom')
if isinstance(result, list):
    errorlog.extend(result)
elif result != "fehlerfrei":
    errorlog.append(result)

print(errorlog)

['fehlerfrei', "Fehler: Falsche Anzahl Leerzeichen in isPartOf bei spp2143:0532 (' spp2143:0536, spp2143:0541').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0516 (' spp2143:0517').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0522 (' spp2143:0523').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0501 (' spp2143:0503').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0519 (' spp2143:0520').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0502 (' spp2143:0503').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0524 (' spp2143:0525').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0513 (' spp2143:0512').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0533 (' spp2143:0526').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0532 (' spp2143:0531').", "Fehler: Großbuchstabe in ID 'Spp2143:0500' bei spp2143:0501.", "Fehler: Gr

#### 8. Relationstest I

Diese Funktionen überprüfen Mehrfachbeziehungen zu gleichen Perioden.

In [9]:
def split_ids(relation_string):
    if "," in relation_string:
        ids = relation_string.split(", ")
        return ids
    else:
        ids = [relation_string]
        return ids

def unique_relation(row):
    relation_list = []
    if row['isPartOf'] != 'nd':
        relation_list.extend(split_ids(row['isPartOf']))
    if row['hasPart'] != 'nd':
        relation_list.extend(split_ids(row['hasPart']))
    if row['isListedIn'] != 'nd':
        relation_list.extend(split_ids(row['isListedIn']))
    if row['lists'] != 'nd':
        relation_list.extend(split_ids(row['lists']))
    if row['fallsWithin'] != 'nd':
        relation_list.extend(split_ids(row['fallsWithin']))
    if row['contains'] != 'nd':
        relation_list.extend(split_ids(row['contains']))
    if row['isFollowedBy'] != 'nd':
        relation_list.extend(split_ids(row['isFollowedBy']))
    if row['follows'] != 'nd':
        relation_list.extend(split_ids(row['follows']))
    if row['isSenseOf'] != 'nd':
        relation_list.extend(split_ids(row['isSenseOf']))
    if row['hasSense'] != 'nd':
        relation_list.extend(split_ids(row['hasSense']))
    if row['sameAs'] != 'nd':
        relation_list.extend(split_ids(row['sameAs']))
    if row['isSimilarTo'] != 'nd':
        relation_list.extend(split_ids(row['isSimilarTo']))
    if row['differsInDefinitionFrom'] != 'nd':
        relation_list.extend(split_ids(row['differsInDefinitionFrom']))
    
    relation_set = set(relation_list)
    if len(relation_set) == len(relation_list):
        error = "fehlerfrei"
        return error
    else:
        error = f"{row['importID']}: Mehrfachbeziehungen zu gleichen Perioden."
        return error
    
print(unique_relation(first_row))

for index, row in df_importtable.iterrows():
    error = unique_relation(row)
    if error != "fehlerfrei":
        errorlog.append(error)

print(errorlog)

spp2143:0530: Mehrfachbeziehungen zu gleichen Perioden.
['fehlerfrei', "Fehler: Falsche Anzahl Leerzeichen in isPartOf bei spp2143:0532 (' spp2143:0536, spp2143:0541').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0516 (' spp2143:0517').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0522 (' spp2143:0523').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0501 (' spp2143:0503').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0519 (' spp2143:0520').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0502 (' spp2143:0503').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0524 (' spp2143:0525').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0513 (' spp2143:0512').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0533 (' spp2143:0526').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0532 (' spp2143:0531').", "Fehler: Großbuchst

#### 9. Relationstest II

Die nächsten drei Zellen bereiten Funktonionen vor, mit denen die einzlenen Relationstypen überprüft werden.

In [10]:
#Diese Funktion konvertiert die Zelleninhalte in Listen, um sie später überprüfen zu können.
def cell_to_list(row, column_name):
    if row[column_name] != 'nd':
        data = row[column_name].replace(' ', '')
        return data.split(',')
    else:
        return []
    
print(cell_to_list(first_row, 'fallsWithin'))

[]


In [11]:
#Diese Funktion extrahiert Start- und Enddaten einer Periode aus der Tabelle.
print(first_row['timeStandardized'])

def extract_startdate_from_table(row):
    date = row['timeStandardized']
    date = date.replace(' ', '')
    date = date.replace('[', '')
    date = date.replace(']', '')
    if date[0] == ';':
        startdate = None
    else:
        date = date.split(';')[0]
        if "/" in date:
            date = date.split('/')
            a = int(date[0])
            b = int(date[1])
            if a < b:
                startdate = a
            else:
                startdate = b
        else:
            startdate = int(date)
    return startdate

def extract_enddate_from_table(row):
    date = row['timeStandardized']
    date = date.replace(' ', '')
    date = date.replace('[', '')
    date = date.replace(']', '')
    if date[-1] == ';':
        enddate = None
    else:
        date = date.split(';')[1]
        if "/" in date:
            date = date.split('/')
            a = int(date[0])
            b = int(date[1])
            if a > b:
                enddate = a
            else:
                enddate = b
        else:
            enddate = int(date)
    return enddate

print(extract_startdate_from_table(first_row))
print(extract_enddate_from_table(first_row))

[1300;1600]
1300
1600


In [None]:
#Diese Funktionen extrahieren Start- und Enddaten einer Periode über die API.

def extract_startdate_from_api(chronoID):
    url = f"https://chronontology.dainst.org/data/period/{chronoID}"
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        #Check for timespan
        if 'hasTimespan' in data['resource']:
            timespan = data['resource']['hasTimespan'][0]
            if 'begin' in timespan:
                startdate = timespan['begin']
                if 'at' in startdate:
                    startdate = startdate['at']
                    if startdate == 'not specified':
                        startdate = None
                    else:
                        startdate = int(startdate)
                elif 'notBefore' in startdate:
                    startdate = startdate['notBefore']
                    if startdate == 'not specified':
                        startdate = None
                    else:
                        startdate = int(startdate)
                else:
                    startdate = None
            else:
                startdate = None
        else:
            startdate = None
    else:
        startdate = None
    return startdate

def extract_enddate_from_api(chronoID):
    url = f"https://chronontology.dainst.org/data/period/{chronoID}"
    response = requests.get(url)
    if response.status_code == 200:
        data = response.json()
        if 'hasTimespan' in data['resource']:
            timespan = data['resource']['hasTimespan'][0]
            if 'end' in timespan:
                enddate = timespan['end']
                if 'at' in enddate:
                    enddate = enddate['at']
                    if enddate == 'not specified':
                        enddate = None
                    else:
                        enddate = int(enddate)
                elif 'notAfter' in enddate:
                    enddate = enddate['notAfter']
                    if enddate == 'not specified':
                        enddate = None
                    else:
                        enddate = int(enddate)
                else:
                    enddate = None
            else:
                enddate = None
        else:
            enddate = None
    else:
        enddate = None
    return enddate

print(extract_startdate_from_api(first_row))
print(extract_enddate_from_api(first_row))
         

None
None


In [13]:
def check_ispartof(row):
    current_chrono_id = row['ChronoID']
    current_import_id = row['importID']
    #Check if relation is defined
    if row['isPartOf'] != 'nd':
        is_part_of_list = cell_to_list(row, 'isPartOf')
        for id in is_part_of_list:
            #get the row where id is present in ChronoID oder importID
            matching_row = df_importtable[(df_importtable['ChronoID'] == id) | (df_importtable['importID'] == id)]
            
            # Check if matching_row is empty
            if matching_row.empty:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    enddate_period = extract_enddate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    enddate_matching = extract_enddate_from_api(id)
                    if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                        if startdate_period < startdate_matching:
                            error = f"{row['importID']}: isPartOf Anfangszeit ({startdate_period}) vor der von {id} ({startdate_matching})."
                            return error
                        elif enddate_period > enddate_matching:
                            error = f"{row['importID']}: isPartOf Endzeit übertrifft die von {id}."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: isPartOf enthält die unbekannte ID: {id}."
                    return error
            
            #print(matching_row)
            other_ids = []
            other_ids.append(matching_row['isListedIn'].tolist())
            other_ids.append(matching_row['lists'].tolist())
            other_ids.append(matching_row['fallsWithin'].tolist())
            other_ids.append(matching_row['contains'].tolist())
            other_ids.append(matching_row['isFollowedBy'].tolist())
            other_ids.append(matching_row['follows'].tolist())
            #Check if id is in incorrect relations
            if id in other_ids:
                error = f"{row['importID']}: isPartOf enthält eine ID, die in {matching_row['importID']} anders definiert ist."
                return error
            #If not, check if dates are logical
            elif id in matching_row['hasPart'].tolist():
                startdate_period = extract_startdate_from_table(row)
                enddate_period = extract_enddate_from_table(row)
                startdate_matching = extract_startdate_from_table(matching_row.iloc[0])
                enddate_matching = extract_enddate_from_table(matching_row.iloc[0])
                if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                    if startdate_period < startdate_matching:
                        error = f"{row['importID']}: isPartOf Anfangszeit ({startdate_period}) vor der von {id} ({startdate_matching})."
                        return error
                    elif enddate_period > enddate_matching:
                        error = f"{row['importID']}: isPartOf Endzeit übertrifft die von {id}."
                        return error
                    else:
                        error = "fehlerfrei"
                        return error
                else:
                    error = "fehlerfrei"
                    return error
            else:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    enddate_period = extract_enddate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    enddate_matching = extract_enddate_from_api(id)
                    if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                        if startdate_period < startdate_matching:
                            error = f"{row['importID']}: isPartOf Anfangszeit ({startdate_period}) vor der von {id} ({startdate_matching})."
                            return error
                        elif enddate_period > enddate_matching:
                            error = f"{row['importID']}: isPartOf Endzeit übertrifft die von {id}."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: isPartOf enthält die unbekannte ID: {id}."
                    return error
    else:
        error = "fehlerfrei"
        return error
    
for index, row in df_importtable.iterrows():
    error = check_ispartof(row)
    if error != "fehlerfrei":
        errorlog.append(error)


print(errorlog)


['fehlerfrei', "Fehler: Falsche Anzahl Leerzeichen in isPartOf bei spp2143:0532 (' spp2143:0536, spp2143:0541').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0516 (' spp2143:0517').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0522 (' spp2143:0523').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0501 (' spp2143:0503').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0519 (' spp2143:0520').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0502 (' spp2143:0503').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0524 (' spp2143:0525').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0513 (' spp2143:0512').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0533 (' spp2143:0526').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0532 (' spp2143:0531').", "Fehler: Großbuchstabe in ID 'Spp2143:0500' bei spp2143:0501.", "Fehler: Gr

In [14]:
def check_haspart(row):
    current_chrono_id = row['ChronoID']
    current_import_id = row['importID']
    #Check if relation is defined
    if row['hasPart'] != 'nd':
        is_part_of_list = cell_to_list(row, 'hasPart')
        for id in is_part_of_list:
            #get the row where id is present in ChronoID oder importID
            matching_row = df_importtable[(df_importtable['ChronoID'] == id) | (df_importtable['importID'] == id)]
            
            # Check if matching_row is empty
            if matching_row.empty:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    enddate_period = extract_enddate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    enddate_matching = extract_enddate_from_api(id)
                    if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                        if startdate_period > startdate_matching:
                            error = f"{row['importID']}: hasPart Anfangszeit ({startdate_period}) nach der von {id} ({startdate_matching})."
                            return error
                        elif enddate_period < enddate_matching:
                            error = f"{row['importID']}: hasPart Endzeit unterschreitet die von {id}."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: hasPart enthält die unbekannte ID: {id}."
                    return error
            
            #print(matching_row)
            other_ids = []
            other_ids.append(matching_row['isListedIn'].tolist())
            other_ids.append(matching_row['lists'].tolist())
            other_ids.append(matching_row['fallsWithin'].tolist())
            other_ids.append(matching_row['contains'].tolist())
            other_ids.append(matching_row['isFollowedBy'].tolist())
            other_ids.append(matching_row['follows'].tolist())
            if id in other_ids:
                error = f"{row['importID']}: hasPart enthält eine ID, die in {matching_row['importID']} anders definiert ist."
                return error
            elif id in matching_row['isPartOf'].tolist():
                #error = "fehlerfrei"
                startdate_period = extract_startdate_from_table(row)
                enddate_period = extract_enddate_from_table(row)
                startdate_matching = extract_startdate_from_table(matching_row.iloc[0])
                enddate_matching = extract_enddate_from_table(matching_row.iloc[0])
                if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                    if startdate_period > startdate_matching:
                        error = f"{row['importID']}: hasPart Anfangszeit ({startdate_period}) nach der von {id} ({startdate_matching})."
                        return error
                    elif enddate_period < enddate_matching:
                        error = f"{row['importID']}: hasPart Endzeit unterschreitet die von {id}."
                        return error
                    else:
                        error = "fehlerfrei"
                        return error
                else:
                    error = "fehlerfrei"
                    return error
            else:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    enddate_period = extract_enddate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    enddate_matching = extract_enddate_from_api(id)
                    if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                        if startdate_period > startdate_matching:
                            error = f"{row['importID']}: hasPart Anfangszeit ({startdate_period}) nach der von {id} ({startdate_matching})."
                            return error
                        elif enddate_period < enddate_matching:
                            error = f"{row['importID']}: hasPart Endzeit unterschreitet die von {id}."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: hasPart enthält die unbekannte ID: {id}."
                    return error
    else:
        return "fehlerfrei"


In [15]:
def check_islistedin(row):
    current_chrono_id = row['ChronoID']
    current_import_id = row['importID']
    #Check if relation is defined
    if row['isListedIn'] != 'nd':
        is_listed_in_list = cell_to_list(row, 'isListedIn')
        for id in is_listed_in_list:
            #get the row where id is present in ChronoID oder importID
            matching_row = df_importtable[(df_importtable['ChronoID'] == id) | (df_importtable['importID'] == id)]
            
            # Check if matching_row is empty
            if matching_row.empty:
                if id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: isListedIn enthält die unbekannte ID: {id}."
                    return error
            
            #print(matching_row)
            other_ids = []
            other_ids.append(matching_row['isPartOf'].tolist())
            other_ids.append(matching_row['hasPart'].tolist())
            other_ids.append(matching_row['fallsWithin'].tolist())
            other_ids.append(matching_row['contains'].tolist())
            other_ids.append(matching_row['isFollowedBy'].tolist())
            other_ids.append(matching_row['follows'].tolist())
            if id in other_ids:
                error = f"{row['importID']}: isListedIn enthält eine ID, die in {matching_row['importID']} anders definiert ist."
                return error
            elif id in matching_row['lists'].tolist():
                error = "fehlerfrei"
                return error
            else:
                if id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                elif current_chrono_id not in cell_to_list(matching_row.iloc[0], 'lists') and current_import_id not in cell_to_list(matching_row.iloc[0], 'lists'):
                    error = f"{row['importID']}: Warnung: isListedIn/lists in {id} nicht rekursiv eingetragen."
                    return error
                else:
                    error = "fehlerfrei"
                    return error
    else:
        return "fehlerfrei"


In [16]:
def check_lists(row):
    current_chrono_id = row['ChronoID']
    current_import_id = row['importID']
    #Check if relation is defined
    if row['lists'] != 'nd':
        lists_list = cell_to_list(row, 'lists')
        for id in lists_list:
            #get the row where id is present in ChronoID oder importID
            matching_row = df_importtable[(df_importtable['ChronoID'] == id) | (df_importtable['importID'] == id)]
            
            # Check if matching_row is empty
            if matching_row.empty:
                if id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: lists enthält die unbekannte ID: {id}."
                    return error
            
            #print(matching_row)
            other_ids = []
            other_ids.append(matching_row['isPartOf'].tolist())
            other_ids.append(matching_row['hasPart'].tolist())
            other_ids.append(matching_row['fallsWithin'].tolist())
            other_ids.append(matching_row['contains'].tolist())
            other_ids.append(matching_row['isFollowedBy'].tolist())
            other_ids.append(matching_row['follows'].tolist())
            if id in other_ids:
                error = f"{row['importID']}: lists enthält eine ID, die in {matching_row['importID']} anders definiert ist."
                return error
            elif id in matching_row['isListedIn'].tolist():
                error = "fehlerfrei"
                return error
            else:
                if id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                elif current_chrono_id not in cell_to_list(matching_row.iloc[0], 'isListedIn') and current_import_id not in cell_to_list(matching_row.iloc[0], 'isListedIn'):
                    error = f"{row['importID']}: Warnung: isListedIn/lists in {id} nicht rekursiv eingetragen."
                    return error
                else:
                    error = "fehlerfrei"
                    return error
    else:
        return "fehlerfrei"


In [17]:
def check_fallswithin(row):
    current_chrono_id = row['ChronoID']
    current_import_id = row['importID']
    #Check if relation is defined
    if row['fallsWithin'] != 'nd':
        falls_within_list = cell_to_list(row, 'fallsWithin')
        for id in falls_within_list:
            #get the row where id is present in ChronoID oder importID
            matching_row = df_importtable[(df_importtable['ChronoID'] == id) | (df_importtable['importID'] == id)]
            
            # Check if matching_row is empty
            if matching_row.empty:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    enddate_period = extract_enddate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    enddate_matching = extract_enddate_from_api(id)
                    if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                        if startdate_period < startdate_matching:
                            error = f"{row['importID']}: fallsWithin Anfangszeit ({startdate_period}) vor der von {id} ({startdate_matching})."
                            return error
                        elif enddate_period > enddate_matching:
                            error = f"{row['importID']}: fallsWithin Endzeit übertrifft die von {id}."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: fallsWithin enthält die unbekannte ID: {id}."
                    return error
            
            #print(matching_row)
            other_ids = []
            other_ids.append(matching_row['isPartOf'].tolist())
            other_ids.append(matching_row['hasPart'].tolist())
            other_ids.append(matching_row['isListedIn'].tolist())
            other_ids.append(matching_row['lists'].tolist())
            other_ids.append(matching_row['isFollowedBy'].tolist())
            other_ids.append(matching_row['follows'].tolist())
            if id in other_ids:
                error = f"{row['importID']}: fallsWithin enthält eine ID, die in {matching_row['importID']} anders definiert ist."
                return error
            elif id in matching_row['contains'].tolist():
                #error = "fehlerfrei"
                startdate_period = extract_startdate_from_table(row)
                enddate_period = extract_enddate_from_table(row)
                startdate_matching = extract_startdate_from_table(matching_row.iloc[0])
                enddate_matching = extract_enddate_from_table(matching_row.iloc[0])
                if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                    if startdate_period < startdate_matching:
                        error = f"{row['importID']}: fallsWithin Anfangszeit ({startdate_period}) vor der von {id} ({startdate_matching})."
                        return error
                    elif enddate_period > enddate_matching:
                        error = f"{row['importID']}: fallsWithin Endzeit übertrifft die von {id}."
                        return error
                    else:
                        error = "fehlerfrei"
                        return error
                else:
                    error = "fehlerfrei"
                    return error
            else:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    enddate_period = extract_enddate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    enddate_matching = extract_enddate_from_api(id)
                    if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                        if startdate_period < startdate_matching:
                            error = f"{row['importID']}: fallsWithin Anfangszeit ({startdate_period}) vor der von {id} ({startdate_matching})."
                            return error
                        elif enddate_period > enddate_matching:
                            error = f"{row['importID']}: fallsWithin Endzeit übertrifft die von {id}."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: fallsWithin enthält die unbekannte ID: {id}."
                    return error
    else:
        return "fehlerfrei"


In [18]:
def check_contains(row):
    current_chrono_id = row['ChronoID']
    current_import_id = row['importID']
    #Check if relation is defined
    if row['contains'] != 'nd':
        contains_list = cell_to_list(row, 'contains')
        for id in contains_list:
            #get the row where id is present in ChronoID oder importID
            matching_row = df_importtable[(df_importtable['ChronoID'] == id) | (df_importtable['importID'] == id)]
            
            # Check if matching_row is empty
            if matching_row.empty:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    enddate_period = extract_enddate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    enddate_matching = extract_enddate_from_api(id)
                    if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                        if startdate_period > startdate_matching:
                            error = f"{row['importID']}: contains Anfangszeit ({startdate_period}) nach der von {id} ({startdate_matching})."
                            return error
                        elif enddate_period < enddate_matching:
                            error = f"{row['importID']}: contains Endzeit unterschreitet die von {id}."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: contains enthält die unbekannte ID: {id}."
                    return error
            
            #print(matching_row)
            other_ids = []
            other_ids.append(matching_row['isPartOf'].tolist())
            other_ids.append(matching_row['hasPart'].tolist())
            other_ids.append(matching_row['isListedIn'].tolist())
            other_ids.append(matching_row['lists'].tolist())
            other_ids.append(matching_row['fallsWithin'].tolist())
            other_ids.append(matching_row['isFollowedBy'].tolist())
            if id in other_ids:
                error = f"{row['importID']}: contains enthält eine ID, die in {matching_row['importID']} anders definiert ist."
                return error
            elif id in matching_row['fallsWithin'].tolist():
                #error = "fehlerfrei"
                startdate_period = extract_startdate_from_table(row)
                enddate_period = extract_enddate_from_table(row)
                startdate_matching = extract_startdate_from_table(matching_row.iloc[0])
                enddate_matching = extract_enddate_from_table(matching_row.iloc[0])
                if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                    if startdate_period > startdate_matching:
                        error = f"{row['importID']}: contains Anfangszeit ({startdate_period}) nach der von {id} ({startdate_matching})."
                        return error
                    elif enddate_period < enddate_matching:
                        error = f"{row['importID']}: contains Endzeit unterschreitet die von {id}."
                        return error
                    else:
                        error = "fehlerfrei"
                        return error
                else:
                    error = "fehlerfrei"
                    return error
            else:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    enddate_period = extract_enddate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    enddate_matching = extract_enddate_from_api(id)
                    if startdate_period and enddate_period and startdate_matching and enddate_matching != None:
                        if startdate_period > startdate_matching:
                            error = f"{row['importID']}: contains Anfangszeit ({startdate_period}) nach der von {id} ({startdate_matching})."
                            return error
                        elif enddate_period < enddate_matching:
                            error = f"{row['importID']}: contains Endzeit unterschreitet die von {id}."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: contains enthält die unbekannte ID: {id}."
                    return error
    else:
        return "fehlerfrei"


In [19]:
def check_isfollowedby(row):
    current_chrono_id = row['ChronoID']
    current_import_id = row['importID']
    #Check if relation is defined
    if row['isFollowedBy'] != 'nd':
        is_followed_by_list = cell_to_list(row, 'isFollowedBy')
        for id in is_followed_by_list:
            #get the row where id is present in ChronoID oder importID
            matching_row = df_importtable[(df_importtable['ChronoID'] == id) | (df_importtable['importID'] == id)]
            
            # Check if matching_row is empty
            if matching_row.empty:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    if startdate_period and startdate_matching != None:
                        if startdate_period > startdate_matching:
                            error = f"{row['importID']}: isFollowedBy Anfangszeit ({startdate_period}) nach der von {id} ({startdate_matching})."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: isFollowedBy enthält die unbekannte ID: {id}."
                    return error
            
            #print(matching_row)
            other_ids = []
            other_ids.append(matching_row['isPartOf'].tolist())
            other_ids.append(matching_row['hasPart'].tolist())
            other_ids.append(matching_row['isListedIn'].tolist())
            other_ids.append(matching_row['lists'].tolist())
            other_ids.append(matching_row['fallsWithin'].tolist())
            other_ids.append(matching_row['contains'].tolist())
            if id in other_ids:
                error = f"{row['importID']}: isFollowedBy enthält eine ID, die in {matching_row['importID']} anders definiert ist."
                return error
            elif id in matching_row['follows'].tolist():
                #error = "fehlerfrei"
                startdate_period = extract_startdate_from_table(row)
                startdate_matching = extract_startdate_from_table(matching_row.iloc[0])
                if startdate_period and startdate_matching != None:
                    if startdate_period > startdate_matching:
                        error = f"{row['importID']}: isFollowedBy Anfangszeit ({startdate_period}) nach der von {id} ({startdate_matching})."
                        return error
                    else:
                        error = "fehlerfrei"
                        return error
                else:
                    error = "fehlerfrei"
                    return error
            else:
                if current_chrono_id not in cell_to_list(matching_row.iloc[0], 'follows') and current_import_id not in cell_to_list(matching_row.iloc[0], 'follows'):
                    error = f"{row['importID']}: Warnung: isFollowedBy/follows in {id} nicht rekursiv eingetragen."
                    return error
                else:
                    error = "fehlerfrei"
                    return error
    else:
        return "fehlerfrei"

print(check_isfollowedby(first_row))

spp2143:0530: isFollowedBy enthält die unbekannte ID: spp2143:0514.


In [20]:
def check_follows(row):
    current_chrono_id = row['ChronoID']
    current_import_id = row['importID']
    #Check if relation is defined
    if row['follows'] != 'nd':
        follows_list = cell_to_list(row, 'follows')
        for id in follows_list:
            #get the row where id is present in ChronoID oder importID
            matching_row = df_importtable[(df_importtable['ChronoID'] == id) | (df_importtable['importID'] == id)]
            
            # Check if matching_row is empty
            if matching_row.empty:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    if startdate_period and startdate_matching != None:
                        if startdate_period < startdate_matching:
                            error = f"{row['importID']}: follows Anfangszeit ({startdate_period}) vor der von {id} ({startdate_matching})."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif id in all_ids_list:
                    error = "fehlerfrei"
                    return error
                else:
                    error = f"{row['importID']}: follows enthält die unbekannte ID: {id}."
                    return error
            
            #print(matching_row)
            other_ids = []
            other_ids.append(matching_row['isPartOf'].tolist())
            other_ids.append(matching_row['hasPart'].tolist())
            other_ids.append(matching_row['isListedIn'].tolist())
            other_ids.append(matching_row['lists'].tolist())
            other_ids.append(matching_row['fallsWithin'].tolist())
            other_ids.append(matching_row['contains'].tolist())
            if id in other_ids:
                error = f"{row['importID']}: follows enthält eine ID, die in {matching_row['importID']} anders definiert ist."
                return error
            elif id in matching_row['isFollowedBy'].tolist():
                #error = "fehlerfrei"
                startdate_period = extract_startdate_from_table(row)
                startdate_matching = extract_startdate_from_table(matching_row.iloc[0])
                if startdate_period and startdate_matching != None:
                    if startdate_period < startdate_matching:
                        error = f"{row['importID']}: follows Anfangszeit ({startdate_period}) vor der von {id} ({startdate_matching})."
                        return error
                    else:
                        error = "fehlerfrei"
                        return error
                else:
                    error = "fehlerfrei"
                    return error
            else:
                if id in all_chrono_ids:
                    #error = "fehlerfrei"
                    startdate_period = extract_startdate_from_api(row)
                    startdate_matching = extract_startdate_from_api(id)
                    if startdate_period and startdate_matching != None:
                        if startdate_period < startdate_matching:
                            error = f"{row['importID']}: follows Anfangszeit ({startdate_period}) vor der von {id} ({startdate_matching})."
                            return error
                        else:
                            error = "fehlerfrei"
                            return error
                    else:
                        error = "fehlerfrei"
                        return error
                elif current_chrono_id not in cell_to_list(matching_row.iloc[0], 'isFollowedBy') and current_import_id not in cell_to_list(matching_row.iloc[0], 'isFollowedBy'):
                    error = f"{row['importID']}: Warnung: isFollowedBy/follows in {id} nicht rekursiv eingetragen."
                    return error
                else:
                    if id in all_ids_list:
                        error = "fehlerfrei"
                        return error
                    else:
                        error = f"{row['importID']}: follows enthält die unbekannte ID: {id}."
                        return error
    else:
        return "fehlerfrei"
    
print(check_follows(first_row))

spp2143:0530: follows enthält die unbekannte ID: spp2143:0512.


In [21]:
#Loop zum Überprüfen der Beziehungen

x = len(df_importtable)

for index, row in df_importtable.iterrows():
    print(f"Überprüfe Zeile {index + 1} von {x}...")
    error = check_ispartof(row)
    if error != "fehlerfrei":
        errorlog.append(error)
    error = check_haspart(row)
    if error != "fehlerfrei":
        errorlog.append(error)
    error = check_islistedin(row)
    if error != "fehlerfrei":
        errorlog.append(error)
    error = check_lists(row)
    if error != "fehlerfrei":
        errorlog.append(error)
    error = check_fallswithin(row)
    if error != "fehlerfrei":
        errorlog.append(error)
    error = check_contains(row)
    if error != "fehlerfrei":
        errorlog.append(error)
    error = check_isfollowedby(row)
    if error != "fehlerfrei":
        errorlog.append(error)
    error = check_follows(row)
    if error != "fehlerfrei":
        errorlog.append(error)

Überprüfe Zeile 1 von 37...
Überprüfe Zeile 2 von 37...
Überprüfe Zeile 3 von 37...
Überprüfe Zeile 4 von 37...
Überprüfe Zeile 5 von 37...
Überprüfe Zeile 6 von 37...
Überprüfe Zeile 7 von 37...
Überprüfe Zeile 8 von 37...
Überprüfe Zeile 9 von 37...
Überprüfe Zeile 10 von 37...
Überprüfe Zeile 11 von 37...
Überprüfe Zeile 12 von 37...
Überprüfe Zeile 13 von 37...
Überprüfe Zeile 14 von 37...
Überprüfe Zeile 15 von 37...
Überprüfe Zeile 16 von 37...
Überprüfe Zeile 17 von 37...
Überprüfe Zeile 18 von 37...
Überprüfe Zeile 19 von 37...
Überprüfe Zeile 20 von 37...
Überprüfe Zeile 21 von 37...
Überprüfe Zeile 22 von 37...
Überprüfe Zeile 23 von 37...
Überprüfe Zeile 24 von 37...
Überprüfe Zeile 25 von 37...
Überprüfe Zeile 26 von 37...
Überprüfe Zeile 27 von 37...
Überprüfe Zeile 28 von 37...
Überprüfe Zeile 29 von 37...
Überprüfe Zeile 30 von 37...
Überprüfe Zeile 31 von 37...
Überprüfe Zeile 32 von 37...
Überprüfe Zeile 33 von 37...
Überprüfe Zeile 34 von 37...
Überprüfe Zeile 35 von 

#### 10. Abschluss des Tests

Gibt die letzte Codezelle "Alle Beziehungen sind fehlerfrei." aus, sind die Daten wahrscheinilch in Ordnung und das Preprocessing kann beginnen.

Wenn Fehler gefunden wurden, wird eine Liste im `csv`-Ordner erzeugt. Damit können die einzelnen Fehler der Reihe nach korrigiert werden. Es empfiehlt sich, dieses Skript danach erneut auszuführen.

In [22]:
#print(len(errorlog))

errorlog = [e for e in errorlog if e not in ("fehlerfrei", None, "")]

#print(len(errorlog))
print(errorlog)

if len(errorlog) == 0:
    print("Alle Beziehungen sind fehlerfrei.")
else:
    #Save Errorlof to csv with the columns 'error' and an empty 'comment' column
    df_errorlog = pd.DataFrame(errorlog, columns=['error'])
    df_errorlog['comment'] = ''
    df_errorlog.to_csv(f'csv/errorlog_{dataname}_{today}.csv', index=False)
    print("Fehler wurden im Errorlog gespeichert. Bitte Fehler beheben und dieses Skript im Anschluss erneut ausführen.")

["Fehler: Falsche Anzahl Leerzeichen in isPartOf bei spp2143:0532 (' spp2143:0536, spp2143:0541').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0516 (' spp2143:0517').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0522 (' spp2143:0523').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0501 (' spp2143:0503').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0519 (' spp2143:0520').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0502 (' spp2143:0503').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0524 (' spp2143:0525').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0513 (' spp2143:0512').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0533 (' spp2143:0526').", "Fehler: Falsche Anzahl Leerzeichen in isFollowedBy bei spp2143:0532 (' spp2143:0531').", "Fehler: Großbuchstabe in ID 'Spp2143:0500' bei spp2143:0501.", "Fehler: Großbuchstabe in