In [566]:
import pandas as pd
import numpy as np
import os
import re
import rdflib
from rdflib import Graph, Namespace, URIRef, BNode, Literal, RDF
from datetime import datetime

In [587]:
owl = Namespace("http://www.w3.org/2002/07/owl#")
rdf = Namespace("http://www.w3.org/1999/02/22-rdf-syntax-ns#")
rdfs = Namespace("http://www.w3.org/2000/01/rdf-schema#")
wgs84_pos = Namespace("http://www.w3.org/2003/01/geo/wgs84_pos#")
edm = Namespace("http://www.europeana.eu/schemas/edm/")
dc = Namespace("http://purl.org/dc/elements/1.1/")
dct = Namespace("http://purl.org/dc/terms/")
nvt = Namespace("http://lod.iti-germany.de/resource/")
nvto = Namespace("http://lod.iti-germany.de/schema/nvto/")

pr_graph = Graph(identifier="http://lod.iti-germany.de/contexts/productions")
ev_graph = Graph(identifier="http://lod.iti-germany.de/contexts/events")
vid_graph = Graph(identifier="http://lod.iti-germany.de/contexts/videos")
text_graph = Graph(identifier="http://lod.iti-germany.de/contexts/texts")
img_graph = Graph(identifier="http://lod.iti-germany.de/contexts/images")
aud_graph = Graph(identifier="http://lod.iti-germany.de/contexts/audio")
person_graph = Graph(identifier="http://lod.iti-germany.de/contexts/persons")
group_graph = Graph(identifier="http://lod.iti-germany.de/contexts/groups")
loc_graph = Graph(identifier="http://lod.iti-germany.de/contexts/locations")
city_graph = Graph(identifier="http://lod.iti-germany.de/contexts/cities")
country_graph = Graph(identifier="http://lod.iti-germany.de/contexts/countries")
col_graph = Graph(identifier="http://lod.iti-germany.de/contexts/collections")
series_graph = Graph(identifier="http://lod.iti-germany.de/contexts/series")
concept_graph = Graph(identifier="http://lod.iti-germany.de/contexts/concepts")

In [518]:
xl = pd.ExcelFile('./NVT_Metadatentabelle_MASTER.xlsm') ## load Excel File to display sheet_names

In [519]:
xl.sheet_names  ## display sheet_names

['Produktionen',
 'Ereignisse',
 'Objekte VIDEOS',
 'Objekte TEXT',
 'Objekte BILD',
 'Objekte AUDIO',
 '||_Personen',
 '||_Gruppen_Ensembles',
 '||_Veranstaltungsort',
 '||_Städte',
 '||_Länder',
 'Sammlungen',
 'Serie',
 'TYPEN und GLOSSARE',
 'Fragen und Dok',
 'TODOs',
 'Legende',
 'Unterobjekt Beispiele',
 'Übersicht']

In [520]:
def merge_columns(df, col1, col2, result=None):
    ## noch ein bisschen sauberer wäre gut, zeilenumbruch nach beschreibung vllt und personennamen in richtiger schreibweise
    if result == "season":
        col3 = "Spielzeit"
        df.loc[df[col1].notna() & df[col2].notna(), col3] = "season_" + df["ID"] + "_" + df[col1].apply(str).str[:4] + "_" + pr_clean[col2].apply(str).str[:4]
        df.loc[df[col1].notna() & df[col2].isna(), col3] = "season_" + df["ID"] + "_" + df[col1].apply(str).str[:4]
        df.loc[df[col1].isna() & df[col2].notna(), col3] = "season_" + df["ID"] + "_" + df[col2].apply(str).str[:4]
        return df
    elif result == "description":
        col3 = "Beschreibung_Quelle"
        df.loc[df[col1].notna() & df[col2].notna(), col3] = "Beschreibung: " + pr_clean[col1] + " Quelle: " + pr_clean[col2]
        df.loc[df[col1].notna() & df[col2].isna(), col3] = "Beschreibung: " + pr_clean[col1]
        df.loc[df[col1].isna() & df[col2].notna(), col3] = " Quelle: " + pr_clean[col2]
        return df
    elif result == "texts":
        col3 = "Texte_Autoren"
        df[col2] = peoplereplace(df[col2])
        df.loc[df[col1].notna() & df[col2].notna(), col3] = "Text(e): " + pr_clean[col1] + " Autor(en): " + pr_clean[col2]
        df.loc[df[col1].notna() & df[col2].isna(), col3] = "Text(e): " + pr_clean[col1]
        df.loc[df[col1].isna() & df[col2].notna(), col3] = "Autor(en): " + pr_clean[col2]
        return df
    else:
        print("Wrong Keyword, nothing happened")
        return df

In [521]:
def globalcolumnrename(columns):
    None
##   columns = {'Identifier / geeinigter Name':'ID', ## renames columns for future reference
##                                         'Produktionsname / Titel':'PR_Titel',
##                                         'Quelle (Beschreibung)':'Q_Beschreibung',
##                                         'Verwendete Texte':'Verwxendete_Texte',
##                                         'Autor(en) der Texte':'Autoren_Texte',
##                                         'Beteiligte Gruppen / Compagnies':'Beteiligte_Gruppen',
##                                         'Sprecher*in':'SprecherIn',
##                                         'Darsteller allgem.':'Darsteller',
##                                         'Weitere Mitwirkende':'Mitwirkende',
##                                         'Spielzeit / Laufzeit Start':'Spielzeit_Start',
##                                         'Spielzeit / Laufzeit Ende':'Spielzeit_Ende'
##                          } 
##   ## uvm, alle spaltennamen aus allen reitern holen und dann doppelte einträge entfernen 
##   ##(erst sicherstellen, dass nicht manche spaltennamen für verschiedene Bedeutungen genutzt werden)
    

In [522]:
def supersplit(df):
    ## for more convenient str splitting within the columns (expand=false), mainly for splitting all URIs
    df = df.str.split(";", expand = False) 
    return df

In [523]:
def peoplereplace(df):
    ## temporary string beautifier for persons as literal values
    df = df.str.replace("_"," ")
    df = df.str.replace(",", " ")
    df = df.str.replace(";", "; ")
    return df

In [524]:
def refreplace(df):
    ## string converter for URIs
    df = df.str.lower()
    df = df.str.replace("ä", "ae")
    df = df.str.replace("ö","oe")
    df = df.str.replace("ü","ue")
    df = df.str.replace("ß","ss")
    df = df.str.replace("!?,\.", "")
    df = df.str.replace("[^a-zA-Z0-9;]", "_")
    df = df.str.replace("__", "_")
    df = df.str.strip("_")
    return df

In [525]:
def splitreplace(df):
    ## combines refreplace and supersplit in correct order for they are both always used for any columns containing URIs
    df = df.apply(refreplace, axis=1)
    df = df.apply(supersplit, axis=1)
    return df

In [526]:
def columnref(df, sheet=None):
    ## erst Referenzliste mit Index, dann ->
    ## Referenzliste zum splitten und replacen; I=ID R=reference L=literal N=None refreplace für I und R, split für R, erst split dann refreplace
    for idx, i in enumerate(df.columns):
        idxx = str(idx).zfill(2)
        print(idxx, i)
    if sheet == "Produktionen":
        for idx, i in enumerate(df.columns):
            idxx = str(idx).zfill(2)
            if idx == 0:
                print("Referenzliste zum splitten und replacen; I=ID R=reference L=literal N=None\n\nrefreplace für I und R, split für R, erst split dann refreplace\n")
                print(["I", idxx, i])
            elif idx in range(6, 27) or idx in range(31, 35):
                print(["R", idxx, i])
            elif idx in range(2, 6):
                print(["N", idxx])
            else:
                print(["L", idxx, i])

In [527]:
## events = pd.read_excel('./NVT_Metadatentabelle_MASTER.xlsm', sheet_name='Ereignisse')

In [528]:
productions = pd.read_excel('./NVT_Metadatentabelle_MASTER.xlsm', sheet_name='Produktionen', header=1) ## load productions sheet with header in row 1 (row 0 is ignored i think)

In [529]:
pr_clean = (productions[productions['Identifier / geeinigter Name'].str.contains('PR', na=False)] ## drops all rows that don't start with 'PR' or are NaN
           .drop(['Musik (für GEMA)'], axis='columns') ## drops unmodeled column
           .drop([2]) ## drops example row
           .reset_index(drop=True) ## resets index to be continouus
           .rename(columns={'Identifier / geeinigter Name':'ID', ## renames columns for future reference
                                          'Produktionsname / Titel':'PR_Titel',
                                          'Quelle (Beschreibung)':'Q_Beschreibung',
                                          'Verwendete Texte':'Verwendete_Texte',
                                          'Autor(en) der Texte':'Autoren_Texte',
                                          'Beteiligte Gruppen / Compagnies':'Beteiligte_Gruppen',
                                          'Sprecher*in':'SprecherIn',
                                          'Darsteller allgem.':'Darsteller',
                                          'Weitere Mitwirkende':'Mitwirkende',
                                          'Spielzeit / Laufzeit Start':'Spielzeit_Start',
                                          'Spielzeit / Laufzeit Ende':'Spielzeit_Ende'
                           })
           )

In [530]:
pr_clean = merge_columns(pr_clean, "Spielzeit_Start", "Spielzeit_Ende", result = "season")
pr_clean = merge_columns(pr_clean, "Verwendete_Texte", "Autoren_Texte", result = "texts") ## in Zukunft müssten die Autoren mit der Personentabelle abgeglichen werden, am besten trotzdem noch als literal
pr_clean = merge_columns(pr_clean, "Beschreibung", "Q_Beschreibung", result = "description")

In [531]:
## columnref(pr_clean, sheet="Produktionen")

In [532]:
pr_clean.iloc[:, [0]] = splitreplace(pr_clean.iloc[:, [0]])
pr_clean.iloc[:, 6:27] = splitreplace(pr_clean.iloc[:, 6:27])
pr_clean.iloc[:, 31:35] = splitreplace(pr_clean.iloc[:, 31:35])

In [533]:
# pr_clean.to_excel("output_pr_clean.xlsx")

In [590]:
print(pr_graph.serialize(format="turtle"))

b'@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .\n@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .\n@prefix xml: <http://www.w3.org/XML/1998/namespace> .\n@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .\n\n'


In [591]:
pr_graph.bind("nvto", "http://lod.iti-germany.de/schema/nvto/")
pr_graph.bind("nvt", "http://lod.iti-germany.de/resource/")

In [592]:
for i in pr_clean.iloc[:, 0]:
    for j in i:
        pr_graph.add((nvt[str(j)], rdf.type, nvto.PerformingArtsProduction))

In [593]:
with open('results.ttl', 'wb') as f_ttl:
    f_ttl.write(pr_graph.serialize(format="turtle"))