# SRU-Abfrage aus der ZDB zur Ermittlung unikaler Zeitungsbestände

Dieses Notebook zeigt, wie man über die Abfrage der SRU-Schnittstelle der ZDB herausfinden kann, welche Zeitungen die eigene Einrichtung unikal besitzt. Die kleinste Ebene, die abgefragt werden kann, ist die des Jahrgangs, da für die Exemplarebene zu wenige Informationen in der ZDB vorhanden sind. Das bedeutet, dass ein Jahrgang auch dann als unikal angezeigt wird, wenn nur eine einzige Zeitung im eigenen Bestand vorhanden ist.

In [None]:
import requests
import unicodedata
import re
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from lxml import etree
from bs4 import BeautifulSoup as soup

#### SRU-Abfrage

Mit dieser Funktion wird die SRU-Schnittstelle der ZDB abgefragt:

In [None]:
def zdb_sru(query):
    base_url = "http://services.dnb.de/sru/zdb"
    parameter = {"recordSchema" : "MARC21plus-1-xml",
                 "operation" : "searchRetrieve",
                 "version" : "1.1",
                 "maximumRecords" : "100",
                 "query" : query}

    req = requests.get(base_url, params=parameter)
    print(req.url)
    xml = soup(req.content, features="xml")

    records = xml.find_all("record", {"type" : "Bibliographic"})

    if len(records) < 100:
        return records
    else:
        results = 100
        i = 101
        while results == 100:
            parameter.update({"startRecord" : i})
            req = requests.get(base_url, params=parameter)
            xml = soup(req.content, features="lxml")
            new_records = xml.find_all("record", {"type" : "Bibliographic"})
            records = new_records
            i += 100
            results = len(new_records)

    return records

#### Laufzeit ermitteln

Um die Laufzeiten der Zeitungen zu ermitteln, müssen die Angaben aus der ZDB geparset werden. Dazu werden sämtliche vierstelligen Zahlen ermittelt, die mit `18` oder `19` beginnen, um die Jahreszahlen des 19. und 20. Jahrhunderts zu erhalten. Dieses Vorgehen ist nötig, da die Verlaufsangaben in der ZDB von Einrichtung zu Einrichtung unterschiedlich sind. 

Die Jahreszahlen, die zwischen der ersten und der letzten Zahl der Angabe liegen, werden in der Liste `total_runtime` festgehalten.

In [None]:
def laufzeit_parser(laufzeit):    
    if laufzeit == []:
        laufzeit = [""]
        
    runtime_list = laufzeit[0].replace(" ", "")
    runtime_list = list(runtime_list.split(";"))

    total_runtime = []
    for i in runtime_list:
        reg = re.findall(r"1[8-9][0-9]{2}", i)
        

        if len(reg) > 1:
            fill_arr = np.arange(int(reg[0]), int(reg[1])+1, 1)
            for i in fill_arr:
                total_runtime.append(i)
        elif reg:
            total_runtime.append(reg[0])

    #Umwandlung der Jahrgänge in Liste in Integer, Eliminierung von Duplikaten
    bereinigt = list(map(int, total_runtime))     
    bereinigt = list(set(bereinigt))    
    bereinigt.sort()    

    return bereinigt

## ACHTUNG!

Die Funktion `parse_record` taucht in diesem Notebook doppelt auf. Die hier stehende Funktion kann dann ausgeführt werden, wenn ein DataFrame benötigt wird, dass die Listen mit den Zeiträumen des Erscheinungsverlaufs sowie den Zeiträumen des Bestands der jeweiligen Einrichtungen enthält.

Über `if not zeitraum >= 1945:` kann der Zeitraum, in dem die Zeitungen eschienen sein sollen, individuell angepasst werden. In diesem Beispiel reicht er bis 1945 und beinhaltet alle Zeitungen, deren Erscheinungsverlauf bis einschließlich 1945 reicht.

In [None]:
def parse_record(record):
    namespace = {"marc" : "http://www.loc.gov/MARC21/slim"}
    xml = etree.fromstring(unicodedata.normalize("NFC", str(record)))
    
    data_list = []

    zeitraum = xml.xpath("marc:datafield[@tag = '363']/marc:subfield[@code = 'i']", namespaces=namespace)        
    
    try:
        zeitraum = zeitraum[0].text
        zeitraum = int(zeitraum[:4])
    except:
        zeitraum = 0
    
    if not zeitraum >= 1945:    
    
        for i in xml.findall("marc:datafield[@tag='924']", namespaces=namespace):

            #IDN
            idn = xml.xpath("marc:controlfield[@tag = '001']", namespaces=namespace)

            try:
                idn = idn[0].text
            except:
                idn = "N.N."

            #Titel        
            titel = xml.xpath("marc:datafield[@tag = '245']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                titel = titel[0].text
            except:
                titel = "N.N."

            #Erscheinungsort
            ort = xml.xpath("marc:datafield[@tag = '264']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                ort = [angabe.text for angabe in ort]
            except:
                ort = "N.N."

            #Erscheinungsfrequenz
            frequenz = xml.xpath("marc:datafield[@tag = '515']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                frequenz = frequenz[0].text
            except:
                frequenz = "N.N."

            #Erscheinungsverlauf
            verlauf = xml.xpath("marc:datafield[@tag = '362']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                verlauf = verlauf[0].text
            except:
                verlauf = "N.N."

            #Besitzende Einrichtung        
            einrichtung = i.find("marc:subfield[@code='b']", namespaces=namespace)
            einrichtung = einrichtung.text

            #Materialart
            material = xml.xpath("marc:datafield[@tag = '337']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                material = [mat.text for mat in material]
            except:
                material = "N.N."

            #Signatur
            signatur = i.find("marc:subfield[@code = 'g']", namespaces=namespace)

            try:
                signatur = signatur.text
            except:
                signatur = "N.N."

            #Bestand der Einrichtung
            zeit = i.findall("marc:subfield[@code='z']", namespaces=namespace)

            try:
                bestand = [item.text for item in zeit if len(zeit) != 0]

                if bestand == []:
                    zeit1 = i.findall("marc:subfield[@code='q']", namespaces=namespace)
                    zeit2 = i.findall("marc:subfield[@code='v']", namespaces=namespace)

                    bestand1 = [item.text for item in zeit1]
                    bestand2 = [item.text for item in zeit2]

                    bestand = bestand1 + bestand2                    
                    bestand = ["-".join(bestand)]

            except:
                bestand = [""]

            data_list.append([idn, titel, ort, frequenz, verlauf, einrichtung, signatur, bestand, material])
            
    return data_list

## ACHTUNG!

Die Funktion `parse_record`, wie sie hier zu sehen ist, wird für die Visualisierung und die Ermittlung unikaler Jahrgänge benötigt.

Über `if not zeitraum >= 1945:` kann der Zeitraum, in dem die Zeitungen eschienen sein sollen, individuell angepasst werden. In diesem Beispiel reicht er bis 1945 und beinhaltet alle Zeitungen, deren Erscheinungsverlauf bis einschließlich 1945 reicht.

Innerhalb der `for`-Schleife kann über `if jahr >= 1850:` angepasst werden, ab welchem Jahr die Daten für die Visualisierung berücksichtigt werden.

In [None]:
def parse_record(record):
    namespace = {"marc" : "http://www.loc.gov/MARC21/slim"}
    xml = etree.fromstring(unicodedata.normalize("NFC", str(record)))
    
    data_list = []

    zeitraum = xml.xpath("marc:datafield[@tag = '363']/marc:subfield[@code = 'i']", namespaces=namespace)        
    
    try:
        zeitraum = zeitraum[0].text
        zeitraum = int(zeitraum[:4])
    except:
        zeitraum = 0
    
    if not zeitraum >= 1945:    
    
        for i in xml.findall("marc:datafield[@tag='924']", namespaces=namespace):

            #IDN
            idn = xml.xpath("marc:controlfield[@tag = '001']", namespaces=namespace)

            try:
                idn = idn[0].text
            except:
                idn = "N.N."

            #Titel        
            titel = xml.xpath("marc:datafield[@tag = '245']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                titel = titel[0].text
            except:
                titel = "N.N."

            #Erscheinungsort
            ort = xml.xpath("marc:datafield[@tag = '264']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                ort = [angabe.text for angabe in ort]
            except:
                ort = "N.N."

            #Erscheinungsfrequenz
            frequenz = xml.xpath("marc:datafield[@tag = '515']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                frequenz = frequenz[0].text
            except:
                frequenz = "N.N."

            #Erscheinungsverlauf
            verlauf = xml.xpath("marc:datafield[@tag = '362']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                verlauf = verlauf[0].text
            except:
                verlauf = "N.N."

            #Besitzende Einrichtung        
            einrichtung = i.find("marc:subfield[@code='b']", namespaces=namespace)
            einrichtung = einrichtung.text

            #Materialart
            material = xml.xpath("marc:datafield[@tag = '337']/marc:subfield[@code = 'a']", namespaces=namespace)

            try:
                material = [mat.text for mat in material]
            except:
                material = "N.N."

            #Signatur
            signatur = i.find("marc:subfield[@code = 'g']", namespaces=namespace)

            try:
                signatur = signatur.text
            except:
                signatur = "N.N."

            #Bestand der Einrichtung
            zeit = i.findall("marc:subfield[@code='z']", namespaces=namespace)

            try:
                bestand = [item.text for item in zeit if len(zeit) != 0]

                if bestand == []:
                    zeit1 = i.findall("marc:subfield[@code='q']", namespaces=namespace)
                    zeit2 = i.findall("marc:subfield[@code='v']", namespaces=namespace)

                    bestand1 = [item.text for item in zeit1]
                    bestand2 = [item.text for item in zeit2]

                    bestand = bestand1 + bestand2                    
                    bestand = ["-".join(bestand)]

            except:
                bestand = [""]

            laufzeit_liste = laufzeit_parser(bestand)

            for jahr in laufzeit_liste:
                if jahr >= 1850:
                    data_list.append([idn, titel, ort, frequenz, verlauf, einrichtung, signatur, jahr, material])
            
    return data_list

#### Umwandlung in DataFrame

Diese Funktion wandelt die Ergebnisse in ein Pandas DataFrame um. Die hier aufgeführten Spalten müssen den abgefragten Feldern der Funktion `parse_record` entsprechen.

In [None]:
def to_df(ergebnis):
    df_list = []
    columns = ["IDN", "Titel", "Erscheinungsort", "Erscheinungsfrequenz", 
               "Verlauf", "Einrichtung", "Signatur", "Bestand", "Material"]

    for element in ergebnis:    
        df = pd.DataFrame(element, columns=columns)    
        df_list.append(df)

    df_origin = pd.concat(df_list, ignore_index=True)

    return df_origin

#### Abfrage der Daten

Der Code ist darauf aufgelegt, nach Erscheinungsort zu suchen. Dazu wird eine Liste mit den Orten angelegt, die benötigt werden. Das Ergebnis ist eine Liste mit den DataFrames zu den Ergebnissen aller Ortssuchen.

Alternativ kann auch direkt nach einzelnen Titeln gesucht werden. in diesem Fall muss die Funktion `zdb_sru("dok=zeitung and vort={}".format(ort))` angepasst werden und nach `tit` statt nach `vort` gesucht werden.

Die Einschränkung mit `dok=zeitung` ist notwendig, um Zeitschriften und andere Organe, die keine Zeitungen sind, nicht fälschlicherweise in die Suche miteinzubeziehen.


In [None]:
ortsliste = ["Halle", "Wittenberg", "Magdeburg"]
df_liste = []

for ort in ortsliste:
    records = zdb_sru("dok=zeitung and vort={}".format(ort))
    ergebnis = [parse_record(record) for record in records]
    
    if ergebnis:
        df_interim = to_df(ergebnis)
        df_liste.append(df_interim)

#### DataFrame erstellen, Ergebnisse speichern

Hier wird das DataFrame mit allen Ergebnissen erzeugt. 
Durch die Ermittlung der Bestandsverläufe sind die Bestände aller Einrichtungen bei jedem Titel für jeden Jahrgang in einer eigenen Zeile aufgeführt. Zur Verdeutlichung:
|Titel                 |Jahrgang|Einrichtung|
|:---------------------|:------:|----------:|
|Magdeburgische Zeitung|1890    |DE-3       |
|Magdeburgische Zeitung|1891    |DE-3       |
|Magdeburgische Zeitung|1892    |DE-3       |
|Magdeburgische Zeitung|1890    |DE-Ma26    |
|Magdeburgische Zeitung|1891    |DE-Ma26    |
|Magdeburgische Zeitung|1892    |DE-Ma26    |

Das DataFrame kann als Excel-Tabelle oder als CSV gespeichert werden.

In [None]:
main_df = pd.concat(df_liste, ignore_index=True)

#main_df.to_excel("sru_abfrage.xlsx")
#main_df.to_csv("sru_abfrage.csv")

print(main_df)

#### Unikale Bestände finden

Zur Ermittlung der unikalen Bestände werden die Dubletten entfernt. Bei `df_dedup[df_dedup["Einrichtung"] == "DE-3"]` kann das Sigel angepasst werden.

In [None]:
def unikalcheck(df):
        df_dedup = df.drop_duplicates(subset=["Titel", "Bestand"], keep=False)
        
        df_unikal = df_dedup[df_dedup["Einrichtung"] == "DE-3"]
                        
        #df_unikal.to_csv("unikal.csv")
        
        return df_unikal

#### Visualisierung

Mit dieser Funktion kann das Ergebnis visualisiert werden. Auch hier kann in `df[df["Einrichtung"] == "DE-3"]` das Sigel geändert werden.
Unter `a = [x for x in range(1850, 1990,1)]` kann die Zeitspanne, die betrachtet werden soll angepasst werden. 

Die Diagramme können in verschiedenen Formaten gespeichert werden.

In [None]:
def zeitungsplot(df, plot_titel):
    df = df[df["Einrichtung"] == "DE-3"]
    
    jahrgangsplot = df["Bestand"].value_counts()

    a = [x for x in range(1850, 1990,1)]
    b = []
    
    for i in a:
        if i not in jahrgangsplot.index:
            b.append(i)

    filler = pd.Series(0, index=b)
    jahrgangsplot = pd.concat([jahrgangsplot, filler])
    jahrgangsplot = jahrgangsplot.sort_index()
    jahrgangsplot.index = jahrgangsplot.index.astype("int")

    plt.figure(figsize=(13,10)) 
    barplot = jahrgangsplot.plot.bar()

    #Beschriftung der X-Achse in Abständen von fünf Jahren
    for i, j in enumerate(barplot.get_xticklabels()):
        if (i % 5) != 0:        
            j.set_visible(False)

    plt.title(plot_titel)
    plt.xlabel("Jahrgang")
    plt.ylabel("Menge")
    
    #plt.savefig("Plot_Zeitungsbestand.png")
    #plt.savefig("Plot_Zeitungsbestand.pdf") 
    #plt.savefig("Plot_Zeitungsbestand.svg") 
    #plt.savefig("Plot_Zeitungsbestand.tiff")

In [None]:
df_unikal = unikalcheck(main_df)

zeitungsplot(main_df, "Zeitungsbestand (gesamt)")
zeitungsplot(df_unikal, "Zeitungsbestand (unikal)")