# Themenwolken zu den Fotografien Herbert Tobias'

Im Jahr 2019 digitalisierte die [Berlinische Galerie](https://berlinischegalerie.de/) im Rahmen des Förderprogramms von [digiS](https://www.digis-berlin.de) den fotografischen Nachlass [Herbert Tobias' (1924-1982)](https://de.wikipedia.org/wiki/Herbert_Tobias). Informationen zum Projekt finden sich auf der [entsprechenden digiS-Website](https://www.digis-berlin.de/projektpartner/archiv/projektpartner-2019/#tab-tb_4675047-3).

Die Metadaten der 1491 Digitalisate sind über die [Deutsche Digitale Bibliothek](https://www.deutsche-digitale-bibliothek.de/searchresults?isThumbnailFiltered=true&query=%22Erworben+als+Schenkung+aus+dem+Nachlass+Herbert+Tobias%22) abrufbar (Suche nach `"Erworben als Schenkung aus dem Nachlass Herbert Tobias"`).

![Ergebnisliste auf der DDB](img/ddb_tobias.png)

Im Folgenden werden über die [DDB-API](https://labs.deutsche-digitale-bibliothek.de/app/ddbapi/) die Metadaten heruntergeladen, die Themen ("subjects") extrahiert und als Wortwolke dargestellt.

## Import benötigter Module für den Download über DDB-API

In [None]:
from ddbAPI_helpers import search2API, iterateAPICall # ddbAPI_helpers.py muss aktuell noch im selben Ordner wie das Notebook/Skript liegen

## Download der Metadaten über DDB-API

Für die Nutzung der DDB-API ist ein API-Key nötig.
Dieser lässt sich nach der [Registrierung auf DDB](https://www.deutsche-digitale-bibliothek.de/login?referrer=%2Fuser%2Fapikey) erzeugen.

In [None]:
api_key = "<API KEY>"

Die Funktion `search2API` wandelt die über die Suchmaske generierte URL in einen API-Call für die DDB-API um.
Mit `iterateAPICall` wird der API-Call so oft wiederholt, bis alle Daten heruntergeladen wurden.
Durch `download = True` werden die Quell-Dateien (in diesem Fall [LIDO](https://cidoc.mini.icom.museum/working-groups/lido/lido-overview/lido-schema/)-XML-Dateien, vgl. hierzu die [entsprechende digiS-eLecture](https://www.digis-berlin.de/digis-metadaten-electure/#acc-tb_6czi336-1)) auf den Rechner geladen und können damit später schneller aufgerufen werden.
Mit `targetdir` (optional) wird das Unterverzeichnis genannt, in das die heruntergeladenen Dateien gespeichert werden. Das Verzeichnis wird nötigenfalls angelegt.

In [None]:
apiurl = search2API("https://www.deutsche-digitale-bibliothek.de/searchresults?isThumbnailFiltered=true&query=%22+Erworben+als+Schenkung+aus+dem+Nachlass+Herbert+Tobias%22", api_key)
objects = iterateAPICall(apiurl, api_key, download = True, targetdir = "herbert_tobias")

## Auswertung der LIDO-Dateien

Folgende Schritte haben nichts mehr mit der DDB-API zu tun, sie arbeiten mit den lokal gespeicherten LIDO-Dateien.

### Import der Module für die Auswertung und Visualisierung


In [None]:
from glob import glob
from lxml import etree
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt

In [None]:
# Definition des LIDO-Namespace
NSMAP = { 'lido' : "http://www.lido-schema.org"}

In [None]:
subjectList = []
for i in glob("herbert_tobias/*"):
    tree = etree.parse(i)
    subjects = tree.findall('//lido:subjectSet/lido:displaySubject', NSMAP)
    subjects = [x.text for x in subjects]
    subjectList.extend(subjects)

In [None]:
c = Counter(subjectList)

In [None]:
wc = WordCloud(background_color = "white").fit_words(c)

In [None]:
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.savefig("img/themenwolke_tobias.png", dpi=250)

Das Ergebnis der Auswertung:

![Wortwolke](img/themenwolke_tobias.png)