In [None]:
import requests
from matplotlib import pyplot as plt

In [None]:
with open("../apikey.txt", "r") as IN:
    APIKEY = IN.read()

In [None]:
APIKEY

## Wie viele Objekte je Sektor gibt es?

### Liste der Sektoren

In [None]:
headers = {
    'Accept' : 'application/json',
    'Authorization' : f'OAuth oauth_consumer_key="{APIKEY}"'
}

res = requests.get('https://api.deutsche-digitale-bibliothek.de/institutions/sectors', headers = headers)

sectorList = [_['value'] for _ in res.json()]

### Zahl der Items je Sektor

In [None]:
def itemsPerSector(sector):
    res = requests.get("https://api.deutsche-digitale-bibliothek.de/search",
             params = {
                 'query' : '*',
                 'facet' : 'sector_fct',
                 'sector_fct' : sector
             },
            headers = headers
                      )
    return res.json()

In [None]:
sectorStatistics = { s : int(itemsPerSector(s)['numberOfResults']) for s in sectorList }

In [None]:
xs,ys = zip(*sectorStatistics.items())
plt.bar(xs, ys)
plt.title("Zahl der Objekte je Sektor")
plt.show()

## Datenabzug nach Suchkriterien

Wie ziehe ich mir alle Datensätze zu Käthe Kollwitz?

In [None]:
endpunkt = "https://api.deutsche-digitale-bibliothek.de/search"

headers = {
'Accept' : 'application/json',
'Authorization' : f'OAuth oauth_consumer_key="{APIKEY}"'
}

parameters = {
    'facet' : 'affiliate_fct_role',
    'affiliate_fct_role' : 'Käthe Kollwitz'
}

res = requests.get(endpunkt, headers = headers, params = parameters)

In [None]:
for doc in res.json()['results'][0]['docs']:
    item = requests.get(f'https://api.deutsche-digitale-bibliothek.de/items/{doc["id"]}', headers = headers).json()
    print(item)
    break # höre nach dem ersten Durchlauf auf

## Iteration durch Ergebnismenge ('Paging')

### Ineffiziente Methode (mit Hochzählen von `offset`)

In [None]:
endpoint = "https://api.deutsche-digitale-bibliothek.de/search"
params = {
  "query": "dante alighieri",
  "type_fct": "mediatype_002",
  "facet": [
    "type_fct"
  ]
}

headers = {
  "Accept": "application/json",
  "Authorization": f'OAuth oauth_consumer_key="{APIKEY}"'
}

response = requests.get(endpoint, headers=headers, params=params)

Wie viele Objekte umfasst die Ergebnismenge?

In [None]:
numberOfResults = response.json().get('numberOfResults')
print(numberOfResults)

Wir wollen jetzt in Zehnerschritten durch die Anfrage iterieren und nach und nach alle IDs in Liste `collectedIDs` einsammeln.

In [None]:
collectedIDs = list()

# in Funktion gekapselter API-Call

def callDDBAPI(offset):
    endpoint = "https://api.deutsche-digitale-bibliothek.de/search"
    params = {
      "query": "dante alighieri",
      "type_fct": "mediatype_002",
      "facet": [
        "type_fct"
      ],
    "sort" : "ALPHA_ASC",
    "offset" : offset, # wird bei jeder Iteration erhöht
    "rows" : 10 # bleibt stabil, es sollen jedesmal 10 Datensätze abgerufen werden
    }

    headers = {
      "Accept": "application/json",
      "Authorization": f'OAuth oauth_consumer_key="{APIKEY}"'
    }
    
    response = requests.get(endpoint, headers = headers, params = params)
    IDs = [_.get('id') for _ in response.json().get('results')[0].get('docs')]
    return IDs   

In [None]:
offset = 0
while offset <= numberOfResults:
    collectedIDs.extend(callDDBAPI(offset))
    offset += 10

In [None]:
print(collectedIDs)

### Alternative Methode (mit `cursorMark`)

In [None]:
def callDDBAPI(cursorMark):
    endpoint = "https://api.deutsche-digitale-bibliothek.de/search"
    params = {
      "query": "dante alighieri",
      "type_fct": "mediatype_002",
      "facet": [
        "type_fct"
      ],
    "sort" : "ALPHA_ASC",
    "cursorMark" : cursorMark, # wird bei jeder Iteration erhöht
    "rows" : 100 # bleibt stabil, es sollen jedesmal 10 Datensätze abgerufen werden
    }
    
    headers = {
      "Accept": "application/json",
      "Authorization": f'OAuth oauth_consumer_key="{APIKEY}"'
    }
    
    response = requests.get(endpoint, headers = headers, params = params)
    #IDs = [_.get('id') for _ in response.json().get('results')[0].get('docs')]
    return response   
    

In [None]:
collectedIDs_cursorMark = list()

res = callDDBAPI('*')
IDs = [_.get('id') for _ in res.json().get('results')[0].get('docs')]
collectedIDs_cursorMark.extend(IDs)

firstCursorMark = res.json().get('nextCursorMark').strip()
nextCursorMark = res.json().get('nextCursorMark').strip()

while True:
    res = callDDBAPI(nextCursorMark)
    IDs = [_.get('id') for _ in res.json().get('results')[0].get('docs')]
    collectedIDs_cursorMark.extend(IDs)
    if nextCursorMark == res.json().get('nextCursorMark').strip():
        print("Done!")
        break
    else:
        nextCursorMark = res.json().get('nextCursorMark').strip()

In [None]:
len(collectedIDs_cursorMark)