# DNBLab Jupyter Notebook Tutorial

## Audioanalyse - Schnittstellenabfrage, Ausgabe und Visualisierungen

Dieses DNBLab-Tutorial beschreibt eine Beispielabfrage zu Audioobjekten über die SRU-Schnittstelle sowie die WAV-Ausgabe und eine Auswahl von Visualisierungen. In der Jupyter Notebook Umgebung kann der dokumentierte Code direkt ausgeführt und angepasst werden. Das Tutorial umfasst die exemplarische Anfrage und Ausgabe der Daten in MARC21-xml zur weiteren Verarbeitung.

Die Daten können über die SRU-Schnittstelle als XML-Antwort in folgenden Formaten ausgeliefert werden: 
* MARC21-xml http://www.loc.gov/standards/marcxml/schema/MARC21slim.xsd
* DNB Casual (oai_dc)	http://www.openarchives.org/OAI/2.0/oai_dc.xsd
* RDF (RDFxml) http://www.w3.org/2000/07/rdf.xsd

## 1. Einrichten der Arbeitsumgebung <a class="anchor" id="Teil1"></a>

Um die Arbeitsumgebung für die folgenden Schritte passend einzurichten, sollten zunächst die benötigten Python-Bibliotheken importiert werden. Für Anfragen über die SRU-Schnittstelle wird BeautifulSoup https://www.crummy.com/software/BeautifulSoup/ und zur Verarbeitung der XML-Daten etree https://docs.python.org/3/library/xml.etree.elementtree.html verwendet. Mit Pandas https://pandas.pydata.org/ können Elemente aus dem MARC21-Format ausgelesen werden.

In [2]:
import requests
from bs4 import BeautifulSoup as soup
import unicodedata
from lxml import etree
import pandas as pd



## 2. SRU-Abfrage mit Ausgabe in MARC21-xml<a class="anchor" id="Teil2"></a>

Die Funktion dnb_sru nimmt den Paramter "query" der SRU-Abfrage entgegen und liefert alle Ergebnisse als eine Liste von records aus.

In [5]:
def dnb_sru(query):
    
    base_url = "https://services.dnb.de/sru/dnb"
    params = {'recordSchema' : 'MARC21-xml',
          'operation': 'searchRetrieve',
          'version': '1.1',
          'maximumRecords': '100',
          'query': query
         }
    r = requests.get(base_url, params=params)
    xml = soup(r.content)
    records = xml.find_all('record', {'type':'Bibliographic'})
    
    if len(records) < 100:
        
        return records
    
    else:
        
        num_results = 100
        i = 101
        while num_results == 100:
            
            params.update({'startRecord': i})
            r = requests.get(base_url, params=params)
            xml = soup(r.content)
            new_records = xml.find_all('record', {'type':'Bibliographic'})
            records+=new_records
            i+=100
            num_results = len(new_records)
            
        return records

## 3. Durchsuchen eines MARC-Feldes<a class="anchor" id="Teil3"></a>

Die Funktion parse_records nimmt als Parameter jeweils ein Record entgegen und sucht über xpath die gewünschte Informationen (in diesem Fall IDN und Titel, Archivlink und Umfang) heraus und liefert diese als dictionary zurück. 

In [6]:
def parse_record(record):
    
    ns = {"marc":"http://www.loc.gov/MARC21/slim"}
    xml = etree.fromstring(unicodedata.normalize("NFC", str(record)))
    
    #idn
    idn = xml.xpath("marc:controlfield[@tag = '001']", namespaces=ns)
    try:
        idn = idn[0].text
    except:
        idn = 'fail'
    
    # titel
    titel = xml.xpath("marc:datafield[@tag = '245']/marc:subfield[@code = 'a']", namespaces=ns)
    
    try:
        titel = titel[0].text
        #umfang = unicodedata.normalize("NFC", titel)
    except:
        titel = "unkown"
        
         # Archivlink
    link = xml.xpath("marc:datafield[@ind1 = ' ']/marc:subfield[@code = 'u']", namespaces=ns)
    
    try:
        link = link[0].text
        #link = unicodedata.normalize("NFC", urn)
    except:
        link = 'fail'
        
         # umfang
    umfang = xml.xpath("marc:datafield[@tag = '300']/marc:subfield[@code = 'a']", namespaces=ns)
    try:
        umfang = umfang[0].text
        #umfang = unicodedata.normalize("NFC", umfang)
    except:
        umfang = 'fail'
        
    meta_dict = {"idn":idn,
                 "titel":titel,
                 "link":link,
                 "umfang":umfang
                               }
    
    return meta_dict

Die verschiedenen Indexbezeichnungen stehen in https://services.dnb.de/sru/dnb?operation=explain&version=1.1 und können mittels CQL z.B. gezielt nach einem Titelstichwort in Kombination mit Standort "online frei verfügbar" abgefragt werden. Auf diese Art kann durch Anpassen des Codes auch nach anderen Begriffen oder Namen in beliebigen MARC-Feldern gesucht werden. 

Neben dem cod=t003 im Abfragebesipiel gibt es weitere Digitalisierungscodes mit freien Audiodateien:

| Code | Beschreibung | Anzeige im Katalog |
| --- | --- | --- |
| cod=m003 | 350 digitalisierte Schellackplatten aus der Spezialsammlung MIZ DDR | <a href="https://portal.dnb.de/opac.htm?method=moveDown&currentResultId=cod%3Dm003%26any&categoryId=onlinefree">Sammlung im Katalog</a>
| cod=m004 | Mehr als 180 digitalisierte Phonographen-Walzen | <a href="https://portal.dnb.de/opac.htm?method=moveDown&currentResultId=cod%3Dm004%26any&categoryId=onlinefree">Sammlung im Katalog</a>
| cod=m005 | 86 digitalisierte Schellackplatten der Kabarett-Kollektion | <a href="https://portal.dnb.de/opac.htm?method=moveDown&currentResultId=cod%3Dm005%26any&categoryId=onlinefree">Sammlung im Katalog</a>

In [22]:
from IPython.display import display 
import ipywidgets as widgets 
from ipywidgets import interact, Layout 

cod = widgets.Text(value = 't003', description='Code: ');display(cod);
tit = widgets.Text(value = 'Fischermädchen', description='Titel: ');display(tit);

print('Wert des Widgets cod ist: ' + str(cod.value))  
print('Wert des Widgets tit ist: ' + str(tit.value)) 

# ... einen Button mit benutzerdefiniertem Layout 
button = widgets.Button(description='Übernehmen!', layout=Layout(width='200px')); 
button.style.button_color = 'lightgreen';display(button); 
# 3.2 Definiere Eventhandler für den Button 
def on_button_clicked(sender): 
    a = int(cod.value); b = int(tit.value); 
# ... und weise ihn dem on_click-Ereignis zu 
button.on_click(on_button_clicked)



Text(value='t003', description='Code: ')

Text(value='Fischermädchen', description='Titel: ')

Wert des Widgets cod ist: t003
Wert des Widgets tit ist: Fischermädchen


Button(description='Übernehmen!', layout=Layout(width='200px'), style=ButtonStyle(button_color='lightgreen'))

ValueError: invalid literal for int() with base 10: 'm005'

ValueError: invalid literal for int() with base 10: 'm005'

In [21]:
records = dnb_sru('tit=str(tit.value) and cod=str(cod.value) and location=onlinefree')
print(len(records), 'Ergebnisse')

SyntaxError: invalid syntax (<ipython-input-21-df3ef6a05a7b>, line 1)

Mit print() werden alle MARC-Felder der gefundenen Datensätze ausgegeben.

In [None]:
print(records)

## 4. Anzeige zur weiteren Bearbeitung <a class="anchor" id="Teil4"></a>

Mit der "Python Data Analysis Library" Pandas für Python werden die Ergebnisse als Dataframe ausgegeben. Die ersten 5 und letzten 5 Zeilen des Dataframes können mit dem Befehl "df = pd.DataFrame() angezeigt werden. Dabei können in ein Set Objekte beliebigen Datentyps gespeichert werden. 

In [None]:
output = [parse_record(record) for record in records]
df = pd.DataFrame(output)
df

## 5. Download der WAV-Datei <a class="anchor" id="Teil5"></a>

Mit der Funktion wget können die Dateien des ermittelten Archivobjekt-Links heruntergeladen und mit unzip im Verzeichnis der aktuellen Jupyter Sitzung gespeichert werden.

In [None]:
import wget

!wget https://d-nb.info/1076785042/34

In [None]:
!unzip 34

## 6. Laden und Abspielen der WAV-Datei <a class="anchor" id="Teil6"></a>

Mit der freien python Bibliothek essentia https://essentia.upf.edu/documentation.html kann die entpackte WAV-Datei geladen und gestreamed werden.

In [13]:
import essentia

# Submodule:
import essentia.standard
import essentia.streaming

# Ausgabe des enthaltenen Standard-Angebots
print(dir(essentia.standard))


['AfterMaxToBeforeMaxEnergyRatio', 'AllPass', 'AudioLoader', 'AudioOnsetsMarker', 'AudioWriter', 'AutoCorrelation', 'BFCC', 'BPF', 'BandPass', 'BandReject', 'BarkBands', 'BeatTrackerDegara', 'BeatTrackerMultiFeature', 'Beatogram', 'BeatsLoudness', 'BinaryOperator', 'BinaryOperatorStream', 'BpmHistogram', 'BpmHistogramDescriptors', 'BpmRubato', 'CartesianToPolar', 'CentralMoments', 'Centroid', 'ChordsDescriptors', 'ChordsDetection', 'ChordsDetectionBeats', 'ChromaCrossSimilarity', 'Chromagram', 'Chromaprinter', 'ClickDetector', 'Clipper', 'ConstantQ', 'CoverSongSimilarity', 'Crest', 'CrossCorrelation', 'CrossSimilarityMatrix', 'CubicSpline', 'DCRemoval', 'DCT', 'Danceability', 'Decrease', 'Derivative', 'DerivativeSFX', 'DiscontinuityDetector', 'Dissonance', 'DistributionShape', 'Duration', 'DynamicComplexity', 'ERBBands', 'EasyLoader', 'EffectiveDuration', 'Energy', 'EnergyBand', 'EnergyBandRatio', 'Entropy', 'Envelope', 'EqloudLoader', 'EqualLoudness', 'Extractor', 'FFT', 'FFTC', 'Fade

In [20]:
# Laden der WAV-Datei
loader = essentia.standard.MonoLoader(filename='1111501032304_00020_00020_01_o.wav')
audio = loader()

RuntimeError: Error while configuring MonoLoader: AudioLoader: Could not open file "1111501032304_00020_00020_01_o.wav", error = No such file or directory

In [None]:
# Abspielen der WAV-Datei - dauert einen Moment
import IPython
IPython.display.Audio('1111501032304_00020_00020_01_o.wav')

## 7. Plotten mit veränderbaren Größen  <a class="anchor" id="Teil7"></a>

Mit den Bibliotheken pylab und matplotlib wird Sekunde 1 bis 2 der geladenen WAV-Datei geplottet.

In [18]:
from IPython.display import display 
import ipywidgets as widgets 
from ipywidgets import interact, Layout 

tb1 = widgets.Text(value = '15', description='Wert 1: ');display(tb1);
tb2 = widgets.Text(value = '6', description='Wert 2: ');display(tb2);

#print('Wert des Widgets tb1 ist: ' + str(tb1.value))  
#print('Wert des Widgets tb2 ist: ' + str(tb2.value)) 

# ... einen Button mit benutzerdefiniertem Layout 
button = widgets.Button(description='Übernehmen!', layout=Layout(width='200px')); 
button.style.button_color = 'lightgreen';display(button); 
# 3.2 Definiere Eventhandler für den Button 
def on_button_clicked(sender): 
    a = int(tb1.value); b = int(tb2.value); 
# ... und weise ihn dem on_click-Ereignis zu 
button.on_click(on_button_clicked)

Text(value='15', description='Wert 1: ')

Text(value='6', description='Wert 2: ')

Button(description='Übernehmen!', layout=Layout(width='200px'), style=ButtonStyle(button_color='lightgreen'))

In [19]:
from pylab import plot, show, figure, imshow
%matplotlib inline
import matplotlib.pyplot as plt
plt.rcParams['figure.figsize'] = (str(tb1.value), str(tb1.value)) # Anpassen der Plot Größen > als der Standardwert

plot(audio[1*44100:2*44100])
plt.title("Visualisierung der 2. Sekunde:")
show() 

NameError: name 'audio' is not defined

## 7. Anzeige von Spektrum, Mel Band Energien und MFCCs <a class="anchor" id="Teil8"></a>

Mit den Bibliotheken pylab und matplotlib wird Sekunde 1 bis 2 der geladenen WAV-Datei geplottet.

Laden des Magnitude Spektrum aus essentia.standard in einem Hann Fenster.

In [None]:
from essentia.standard import *
w = Windowing(type = 'hann')
spectrum = Spectrum()  # FFT() would return the complex FFT, here we just want the magnitude spectrum
mfcc = MFCC()

Anzeige Spektrum, Mel Bans Energien nd MFCCs in einem Hann Fenster. 

In [None]:
frame = audio[6*44100 : 6*44100 + 1024]
spec = spectrum(w(frame))
mfcc_bands, mfcc_coeffs = mfcc(spec)

plot(spec)
plt.title("Das Spektrum eines Fensters:")
show()

plot(mfcc_bands)
plt.title("Mel Band Spektral Energien eines Fensters:")
show()

plot(mfcc_coeffs)
plt.title("Die ersten 13 MFCCs eines Fensters:")
show()