# 10. Korpus-APIs

- Web-APIs
- Crawling
- wget/curl
- urllib


## URL (Uniform Resource Locator)
Aufbau: 
`<scheme>:<scheme-specific-part>`

http/https:
```
       |------------------ Schema-spezifischer Teil ------------------|
 https://max:muster@www.example.com:8080/index.html?p1=A&p2=B#ressource
 \___/   \_/ \____/ \_____________/ \__/\_________/ \_______/ \_______/
   |      |    |           |         |       |          |         |
Schema⁺   | Kennwort      Host      Port    Pfad      Query    Fragment
       Benutzer

⁺ (hier gleich Netzwerkprotokoll)
```
https://de.wikipedia.org/wiki/Uniform_Resource_Locator


## Web-APIs

- **API = _Application Programming Interface_**
- webbasierte Programmierschnittstelle zur Kommunikation von Maschinen (Webserver untereinander oder Webbrowser mit Webserver)
- bestehen aus Endpoints (URLs), die ein Request-Response-Messaging-System (meist HTTP-basiert) definieren
- Austausch über JSON oder XML
- maschinenlesbares Output

https://en.wikipedia.org/wiki/Web_API



- **API-Beispiel**: IIIF-Bild-API, hier ein Beispiel von der Bayerischen Staatsbibliothek:
  - https://api.digitale-sammlungen.de/iiif/presentation/v2/bsb00085989/manifest
  - (= API-JSON-Link von https://www.digitale-sammlungen.de/de/view/bsb00085989)


- ebenso gibt es auch **Korpus-Web-APIs** 
- erlauben das Filtern der Dokumente von Korpussammlungen über entsprechende Suchanfragen (Queries)
- können über URL-Parameter (siehe URL-Struktur: Query) abgefragt werden, etwa: `...?query=hallo&maxhits=5`

https://wiki.selfhtml.org/wiki/URL-Parameter

## Verwendung von Query-Parametern für Filterung der Korpusdokumente

- normale DTA-Korpus-Suche im Browser (produziert HTML)
- z.B. https://www.deutschestextarchiv.de/search?in=text;q=%22%24p%3DADJA%20Leser%22

#### Download als HTML:

In [1]:
%%bash
wget -q -O - 'https://www.deutschestextarchiv.de/search?in=text;q=%22%24p%3DADJA%20Leser%22' | sed 5q && echo ...

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="de" lang="de">
<head>
  <title>Deutsches Textarchiv</title>
  <base href="https://www.deutschestextarchiv.de/" />
...


#### Verarbeitung JSON-Response von Query an Korpus-API mit wget (und jq):

- Suchergebnisse neben HTML über API-Links auch in maschinenlesbaren Formaten wie JSON abrufbar
    
- vgl. "Suchergebnisse herunterladen" (rechte Sidebar) auf https://www.deutschestextarchiv.de/search?in=text;q=%22%24p%3DADJA%20Leser%22
- **Ergebnis der Anfrage an diese Korpus-API**: https://kaskade.dwds.de/dstar/dta/dstar.perl?&q=%22$p=ADJA%20Leser%22%20%23has%5Bflags,/ready/%5D&start=1&limit=10&ctx=&fmt=json



In [4]:
%%bash
wget -q -O - 'https://kaskade.dwds.de/dstar/dta/dstar.perl?&q=%22$p=ADJA%20Leser%22&start=1&limit=10&fmt=json' | jq . | sed 10q

#awk '{f=index($0,"author"); print substr($0,f-1,100) "..."}'

{
  "limit": "10",
  "ddocs_": "0+0=0",
  "hint_": "10(10(10+0)+0(0+0)) #8000ddb7",
  "istatus_": 0,
  "start": "0",
  "dhits_": "2991+1708=4699",
  "ndocs_": 0,
  "hits_": [
    {


## Korpus-API-Requests mit python

#### URL-Methoden von urllib:

In [7]:
from urllib.parse import urlunsplit
print(urlunsplit(('http', 'example.com', 'path/to/resource', 'a=b', 'fragment')))

http://example.com/path/to/resource?a=b#fragment


In [9]:
from urllib.parse import urlencode
url = 'http://example.com' + '?' + urlencode({"q": "Säbelzah  ntiger", "n": 10}) 
print("url:", url)

url: http://example.com?q=S%C3%A4belzah++ntiger&n=10


In [10]:
from urllib.parse import urlsplit
print(urlsplit('http://example.com/foo?bar=z#x'))

SplitResult(scheme='http', netloc='example.com', path='/foo', query='bar=z', fragment='x')


#### Hilfsfunktion für Web-API-Anfrage mit Query-Parametern:

In [11]:
def make_query_url(base_url, query):
    parts = list(urlsplit(base_url))
    parts[3] = urlencode(query)
    return urlunsplit(parts)
print(make_query_url('http://example.com', {'q': 'query', 'limit': 10}))

http://example.com?q=query&limit=10


#### Verwendung für Suchanfrage an DTA-Web-API:

In [12]:
from urllib.request import urlopen 
import json

url = make_query_url('https://kaskade.dwds.de/dstar/dta/dstar.perl', {
    "q": "Axolotl *", 
    "start": 1, 
    "limit": 5,
    "fmt": "json",
})
print(url)

with urlopen(url) as f:
    hits = json.loads(f.read())

for hit in hits['hits_']:
    meta = hit['meta_']
    print(f'{meta["title"]} ({meta["author"]})')
    print(f' > {meta["basename"]}')
    print(f' > {meta["dtaid"]}')
    for match in hit['matches']:
        print(f' > {match["w"]} [{match["p"]}]')

https://kaskade.dwds.de/dstar/dta/dstar.perl?q=Axolotl+%2A&start=1&limit=5&fmt=json
Natürliche Schöpfungsgeschichte: Gemeinverständliche wissenschaftliche Vorträge über die Entwickelungslehre im Allgemeinen und diejenige von Darwin, Goethe und Lamarck im Besonderen, über die Anwendung derselben auf den Ursprung des Menschen und andere ... (Haeckel, Ernst (#118544381))
 > haeckel_schoepfungsgeschichte_1868
 > 25164
 > Die [ART]
 > meisten [PIAT]
 > Kiemenlurche [NN]
 > leben [VVFIN]
 > in [APPR]
 > Nordamerika [NE]
 > , [$,]
 > unter [APPR]
 > anderen [PIS]
 > der [ART]
 > früher [ADJD]
 > erwähnte [ADJA]
 > Axolotl [NN]
 > oder [KON]
 > Siredon [NN]
 > ( [$(]
 > vergl. [NE]
 > oben [ADV]
 > S. [NN]
 > 192 [CARD]
 > ) [$(]
 > . [$.]
Natürliche Schöpfungsgeschichte: Gemeinverständliche wissenschaftliche Vorträge über die Entwickelungslehre im Allgemeinen und diejenige von Darwin, Goethe und Lamarck im Besonderen, über die Anwendung derselben auf den Ursprung des Menschen und andere ... (