autorenbibliotheken-filter

Prozess zum Filtern der Exemplare in Autorenbibliotheken, entwickelt im Rahmen des Text+-Kooperationsprojekts DLA Data+

Der Datendienst ermöglicht den gezielten Abruf der Autorenbibliotheken, beispielsweise von Döblin und Kracauer:

Autorenbibliothek Alfred Döblin
- Bestand im Katalog: https://www.dla-marbach.de/find/opac/id/BF00019097/
- Titeldaten: https://dataservice.dla-marbach.de/v1/records?q=item_holding_id_mv:BF00019097
- Exemplare und Provenienzmerkmale: https://dataservice.dla-marbach.de/v1/records?q=holding_id_mv:BF00019097
Autorenbibliothek Siegfried Kracauer
- Bestand im Katalog: https://www.dla-marbach.de/find/opac/id/BF00019677/
- Titeldaten: https://dataservice.dla-marbach.de/v1/records?q=item_holding_id_mv:BF00019677
- Exemplare und Provenienzmerkmale: https://dataservice.dla-marbach.de/v1/records?q=holding_id_mv:BF00019677

Allerdings enthalten diese Daten neben Provenienzexemplaren der Autorenbibliothek auch Exemplare anderer Bestände im DLA. Die Ausgabe der Galgenlieder von Christian Morgenstern im Verlag Bruno Cassirer von 1932 (vgl. Exemplare im Katalog) ist z.B. in fünf Autorenbibliotheken vorhanden. Was im Katalog spannende Schnittmengen sein können, ist bei einer gezielten (statistischen) Auswertung und Visualisierung von Provenienzspuren einer bestimmten Autorenbibliothek unerwünschter Beifang, der verfälscht.

Dieses Repository beinhaltet einen Prozess am Beispiel der Autorenbibliothek von Alfred Döblin, um die Daten nachträglich zu "putzen". Um den Prozess auf andere Autorenbibliotheken anzuwenden, muss nur der Identifier des gewünschten Teilbestands (z.B. BF00019097) im Script ausgetauscht werden.

Fragen beantwortet gerne Felix Lohmeier.

Daten

input beinhaltet einen Download der Autorenbibliothek von Alfred Döblin vom DLA Datendienst im Format CSV
output beinhaltet die gefilterten Daten im Format JSON-Lines

Stand des Datenabzugs: 29.01.2024

Es ist geplant, den Prozess in Kürze zu automatisieren und in diesem Repository regelmäßig aktualisierte Beispieldaten bereitzustellen.

Anpassung für andere Autorenbibliotheken

Repository klonen
In main.sh den Identifier in Download-Links anpasssen (z.B. BF00019097)
Prozess mit GitHub Codespaces, GitHub Actions oder lokal ausführen (siehe unten)

Hinweis: Bei sehr großen Autorenbibliotheken benötigt OpenRefine ggf. mehr Arbeitsspeicher als in der Standardkonfiguration. Das kann beim Aufruf von orcli mit dem Parameter --memory eingestellt werden.

A) GitHub Codespaces

Persönlichen Codespace starten (benötigte Software wird automatisch installiert)
Prozess im Terminal starten
```
orcli run main.sh
```

B) GitHub Actions

Repository klonen
Im Tab "Actions" den vorkonfigurierten Workflow example starten

C) Lokal

OpenRefine und orcli installieren
Prozess starten
```
orcli run main.sh
```

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
.devcontainer		.devcontainer
.github/workflows		.github/workflows
config		config
input		input
output		output
.gitignore		.gitignore
README.md		README.md
main.sh		main.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

autorenbibliotheken-filter

Daten

Anpassung für andere Autorenbibliotheken

A) GitHub Codespaces

B) GitHub Actions

C) Lokal

About

Releases 2

Packages

Languages

dla-marbach/autorenbibliotheken-filter

Folders and files

Latest commit

History

Repository files navigation

autorenbibliotheken-filter

Daten

Anpassung für andere Autorenbibliotheken

A) GitHub Codespaces

B) GitHub Actions

C) Lokal

About

Resources

Stars

Watchers

Forks

Releases 2

Packages 0

Languages

Packages