<a href="https://colab.research.google.com/github/kschmi68/NLP_2024/blob/main/Copy_of_Download_%C3%BCber_API_der_DDB.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Download über API der DDB

Dieses Google Colab Notebook basiert auf den Forschungsdaten-Notebooks der Deutschen Nationalbibliothek, die unter folgendem Link verfügbar sind: https://github.com/Deutsche-Digitale-Bibliothek/ddblabs-summer-school-2024


## Suchindizes der Deutsche Digitale Bibliothek
Die Deutsche Digitale Bibliothek betreibt [Solr](https://solr.apache.org/guide/8_8/searching.html)-Suchindizes, die für die verschiedenen Funktionen der (Sub-) Portale benötigt werden. Das Zeitungsportal benutzt zwei Suchindizes. Eine weiterführende Dokumentation befindet sich hier: https://api.deutsche-digitale-bibliothek.de/#/search/getSolrSearch

- `newspaper`: enthält Informationen über Zeitungstitel
  - Schema: https://dev.fiz-karlsruhe.de/stash/projects/DDB/repos/ddb-backend/browse/Cortex/conf/solr/newspaper/conf/schema.xml
  - Konfiguration: https://dev.fiz-karlsruhe.de/stash/projects/DDB/repos/ddb-backend/browse/Cortex/conf/solr/newspaper/conf/solrconfig.xml
- `newspaper-issues`: enthält die zeitungsbezogenen Metadaten inkl. Volltexte
  - Schema: https://dev.fiz-karlsruhe.de/stash/projects/DDB/repos/ddb-backend/browse/Cortex/conf/solr/newspaper-issues/conf/schema.xml
  - Konfiguration: https://dev.fiz-karlsruhe.de/stash/projects/DDB/repos/ddb-backend/browse/Cortex/conf/solr/newspaper-issues/conf/solrconfig.xml

## Suchindex `newspaper`
Der Suchindex `newspaper` ist ein Suchindex über alle Zeitungstitel der [Zeitschriftendatenbank (ZDB)](https://zdb-katalog.de/). Im Schema des Suchindex (s.o.) sind die Suchfelder (Facetten) dokumentiert. Wenn Zeitungstitel gefunden werden sollen, die im Zeitungsportal verfügbar sind, dann muss nach `hasLoadedIssues:true` (Feld:Wert) gesucht werden.

- https://api.deutsche-digitale-bibliothek.de/2/search/index/newspaper/select?q=hasLoadedIssues:true

Die Suchfelder können beliebig miteinander kombiniert werden. Das geht mit den Operatoren `AND` und `OR`. Möchte man beispielsweise Zeitungen mit „La otra Alemania“ im Titel suchen, die auch im Zeitungsportal verfügbar sind, dann kombiniert man: `hasLoadedIssues:true AND title:"La otra Alemania"`

- [https://api.deutsche-digitale-bibliothek.de/2/search/index/newspaper/select?q=hasLoadedIssues:true AND title:"La otra Alemania"](https://api.deutsche-digitale-bibliothek.de/2/search/index/newspaper/select?q=hasLoadedIssues:true%20AND%20title:"La+otra+Alemania")

### Python-Programmcode

Python-Programmcode in Jupyter Notebooks ermöglicht interaktives Programmieren und sofortige Anzeige von Ergebnissen. Es ist ideal für die Datenanalyse und Visualisierungen. Python-Bibliotheken können in Notebooks nachgenutzt werden und erhöhen so den Funktionsumfang.

Die o. g. Solr-Abfrage kann mit Python ausgeführt werden (Bibliothek [`requests`](https://pypi.org/project/requests/)) und die Antwort von der API mit einem JSON-Parser (`json`) gelesen werden. Eine andere Möglichkeit ist, den Solr-Client [`pysolr`](https://pypi.org/project/pysolr/) zu benutzen. Dieser muss zunächst in der Umgebung mit `pip install -q pysolr` (oder ggf. mit Conda: `conda install conda-forge::pysolr`) installiert werden.

In [None]:
# Python-Bibliothek pysolr installieren
%pip install -q pysolr

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/59.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.1/59.1 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Installing backend dependencies ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for pysolr (pyproject.toml) ... [?25l[?25hdone


### KI-generierter Programmcode

Die Erstellung des Python-Programmcodes ist KI-gestützt möglich. Die folgenden KI-Prompts sind mit ChatGPT (GPT-4o) erfolgreich getestet und liefern (oft 😉) das gewünschte Ergebnis.

<div class="alert alert-block alert-info">
<b>Prompt:</b> Ich möchte in Python mit dem Solr-Client <code>pysolr</code> auf den Endpunkt <code>https://api.deutsche-digitale-bibliothek.de/2/search/index/newspaper</code> zugreifen. Kannst Du mir einen Python-Code erstellen, der im Feld <code>location</code> nach „Buenos Aires“ sucht und auch <code>hasLoadedIssues</code> auf „wahr“ setzt. Gibt bitte <code>id</code>, <code>title</code>, <code>location</code>, <code>frequency</code> und <code>progress</code> für jeden Suchtreffer aus.
</div>

In [None]:
import pysolr

# Solr-Endpunkt-URL
solr_url = 'https://api.deutsche-digitale-bibliothek.de/2/search/index/newspaper'

# Solr-Client initialisieren
solr = pysolr.Solr(solr_url, timeout=10)

# Suchparameter
q = {
    'q': 'title:"Rastatter Tageblatt" AND hasLoadedIssues:true', #Zeitungstitel im Zeitungsportal: https://www.deutsche-digitale-bibliothek.de/newspaper/select/title
    'fl': 'id,title,location,frequency,progress',
    'rows': 10  # Anzahl der zurückzugebenden Ergebnisse
}

# Suche ausführen
results = solr.search(**q)

# Ergebnisse ausgeben
for result in results:
    print(f"ID: {result.get('id', 'N/A')}")
    print(f"Title: {result.get('title', 'N/A')}")
    print(f"Location: {result.get('location', 'N/A')}")
    print(f"Frequency: {result.get('frequency', 'N/A')}")
    print(f"Progress: {result.get('progress', 'N/A')}")
    print("-" * 40)

ID: 3091248-9
Title: ['Rastatter Tageblatt']
Location: ['Rastatt']
Frequency: ['http://id.loc.gov/vocabulary/frequencies/dyl']
Progress: ['139. Jahrgang, Nummer 205 (2. September 1942) [?]-140. Jahrgang, Nummer 100 (30. April 1943) ; damit  Erscheinen eingestellt']
----------------------------------------


## Suchindex `newspaper-issues`

Der Suchindex `newspaper-issues` ist ein weiterer Suchindex des Zeitungsportals. Dieser enthält alle Ausgaben (`type:issue`) einer Zeitung und alle Seiten (`type:page`). Wenn man nur in einem Zeitungstitel suchen möchte, so kann dies über `zdb_id:{ID der Zeitschriftendatenbank}` (für die „La otra Alemania“ ist es `zdb_id:2149754-0`) eingegrenzt werden.

### KI-generierter Programmcode

<div class="alert alert-block alert-info">
<b>Prompt:</b> Schreibe ein Python-Code, der mithilfe der <code>pysolr</code>-Bibliothek eine Suche in einem Solr-Index durchführt und die Ergebnisse in ein Pandas DataFrame überführt. Der Solr-Index ist über die URL <code>https://api.deutsche-digitale-bibliothek.de/2/search/index/newspaper-issues</code> erreichbar. Die Suchabfrage soll nach Dokumenten mit der <code>zdb_id</code> „2149754-0“ und dem <code>type</code> „issue“ suchen und bis zu 1000 Ergebnisse zurückgeben. Anschließend sollen die Ergebnisse in ein Pandas DataFrame überführt und angezeigt werden.
</div>

In [None]:
import pandas as pd

solr_url = 'https://api.deutsche-digitale-bibliothek.de/2/search/index/newspaper-issues'
solr = pysolr.Solr(solr_url, always_commit=True, timeout=100)

q = {
    'q': 'zdb_id:3091248-9 AND type:page AND publication_date:[1942-01-01T00:00:00Z TO 1943-12-31T23:59:59Z] AND plainpagefulltext: erdbeben*',
    'rows': 1000
}

response = solr.search(**q)

# Überführen der Ergebnisse in ein Pandas DataFrame
df = pd.DataFrame(response.docs)

# DataFrame anzeigen
print(df)

                                                   id  pagenumber  \
0   AUB6FPO62MVCCD7PNCJZ3ZFTRULVA3NF-ALTO6951449_D...           2   
1   D2SN75M5SKRTHVIAYR7NYMOQQP3YT2LB-ALTO6951087_D...           2   
2   2I23YEW6TNS7GTIK7PR6QUA42PMXRDBV-ALTO6951561_D...           2   
3   AJRCPEBZAJX74O3LWVRIRZWAIW44CYVR-ALTO6951601_D...           2   
4   3I6RUQKRENRKTVKKB3GCNKCUQGZGTOVC-ALTO6951637_D...           6   
5   LTWX22ASEJWI7UQ56OGKYQOHNTRX6EQB-ALTO6951681_D...           6   
6   L7KAFMAV275IF6RL5VEFRGRVHIBUOMLO-ALTO6951621_D...           2   
7   L7KAFMAV275IF6RL5VEFRGRVHIBUOMLO-ALTO6951623_D...           4   
8   B4BQV7IOGYEBAV2DGGSVVWCBTQH3XKFY-ALTO6951399_D...           4   
9   JTHS6JJDMWCF5A6GG53R25CWXKZHGTWQ-ALTO6951617_D...           2   
10  3OGE6NMZFV6YDBHVPJSPWTY2ZEGY4ZSU-ALTO6951122_D...           1   
11  RXA3UVXJYBLRMZ7M2QKUZJDN6AXI4QQN-ALTO6951423_D...           4   
12  U7AUPHJQK3FN7MDFTT27BJAWX564G34L-ALTO6951495_D...           4   
13  3PPZONPWNWONRHPZWSO7M6VF6J3PZ2

In [None]:
df.to_excel('results.xlsx')

### Erste Datenanalyse

In dem Dataframe können nun Datenanalysen vorgenommen werden. Wir wollen den Publikationszeitraum von der Zeitung „La otra Alemania“ ermitteln.

In [None]:
# Sicherstellen, dass publication_date als Datumswerte formatiert sind
df['publication_date'] = pd.to_datetime(df['publication_date'])

# Frühestes und spätestes Datum ermitteln
earliest_date = df['publication_date'].min()
latest_date = df['publication_date'].max()

# Ergebnisse anzeigen
print(f"Frühestes Veröffentlichungsdatum: {earliest_date}")
print(f"Spätestes Veröffentlichungsdatum: {latest_date}")

Frühestes Veröffentlichungsdatum: 1942-09-02 12:00:00+00:00
Spätestes Veröffentlichungsdatum: 1943-04-30 12:00:00+00:00
