# APIs
## URL (Uniform Resource Locator)
Aufbau: 
`<scheme>:<scheme-specific-part>`

http/https:
```
       |------------------ Schema-spezifischer Teil ------------------|
 https://max:muster@www.example.com:8080/index.html?p1=A&p2=B#ressource
 \___/   \_/ \____/ \_____________/ \__/\_________/ \_______/ \_______/
   |      |    |           |         |       |          |         |
Schema⁺   | Kennwort      Host      Port    Pfad      Query    Fragment
       Benutzer

⁺ (hier gleich Netzwerkprotokoll)
```
[Wikipedia](https://de.wikipedia.org/wiki/Uniform_Resource_Locator)

In [1]:
%%bash
wget -q -O - 'https://www.deutschestextarchiv.de/search?in=text;q=%22%24p%3DADJA%20Leser%22' | sed 5q && echo ...

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="de" lang="de">
<head>
  <title>Deutsches Textarchiv</title>
  <base href="https://www.deutschestextarchiv.de/" />
...


In [4]:
%%bash
wget -q -O - 'https://kaskade.dwds.de/dstar/dta/dstar.perl?&q=%22$p=ADJA%20Leser%22&start=1&limit=10&fmt=json' | jq . | sed 10q

#awk '{f=index($0,"author"); print substr($0,f-1,100) "..."}'

{
  "limit": "10",
  "ddocs_": "0+0=0",
  "hint_": "10(10(10+0)+0(0+0)) #8000ddb7",
  "istatus_": 0,
  "start": "0",
  "dhits_": "2991+1708=4699",
  "ndocs_": 0,
  "hits_": [
    {


In [7]:
from urllib.parse import urlunsplit
print(urlunsplit(('http', 'example.com', 'path/to/resource', 'a=b', 'fragment')))

http://example.com/path/to/resource?a=b#fragment


In [9]:
from urllib.parse import urlencode

url = 'http://example.com' + '?' + urlencode({"q": "Säbelzah  ntiger", "n": 10}) 
print("url:", url)

url: http://example.com?q=S%C3%A4belzah++ntiger&n=10


In [10]:
from urllib.parse import urlsplit
print(urlsplit('http://example.com/foo?bar=z#x'))

SplitResult(scheme='http', netloc='example.com', path='/foo', query='bar=z', fragment='x')


In [11]:
from urllib.parse import urlunsplit
def make_query_url(base_url, query):
    parts = list(urlsplit(base_url))
    parts[3] = urlencode(query)
    return urlunsplit(parts)
print(make_query_url('http://example.com', {'q': 'query', 'limit': 10}))

http://example.com?q=query&limit=10


In [12]:
from urllib.request import urlopen 
import json
url = make_query_url('https://kaskade.dwds.de/dstar/dta/dstar.perl', {
    "q": "Axolotl *", 
    "start": 1, 
    "limit": 5,
    "fmt": "json",
})
print(url)
with urlopen(url) as f:
    hits = json.loads(f.read())

for hit in hits['hits_']:
    meta = hit['meta_']
    print(f'{meta["title"]} ({meta["author"]})')
    print(f' > {meta["basename"]}')
    print(f' > {meta["dtaid"]}')
    for match in hit['matches']:
        print(f' > {match["w"]} [{match["p"]}]')

https://kaskade.dwds.de/dstar/dta/dstar.perl?q=Axolotl+%2A&start=1&limit=5&fmt=json
Natürliche Schöpfungsgeschichte: Gemeinverständliche wissenschaftliche Vorträge über die Entwickelungslehre im Allgemeinen und diejenige von Darwin, Goethe und Lamarck im Besonderen, über die Anwendung derselben auf den Ursprung des Menschen und andere ... (Haeckel, Ernst (#118544381))
 > haeckel_schoepfungsgeschichte_1868
 > 25164
 > Die [ART]
 > meisten [PIAT]
 > Kiemenlurche [NN]
 > leben [VVFIN]
 > in [APPR]
 > Nordamerika [NE]
 > , [$,]
 > unter [APPR]
 > anderen [PIS]
 > der [ART]
 > früher [ADJD]
 > erwähnte [ADJA]
 > Axolotl [NN]
 > oder [KON]
 > Siredon [NN]
 > ( [$(]
 > vergl. [NE]
 > oben [ADV]
 > S. [NN]
 > 192 [CARD]
 > ) [$(]
 > . [$.]
Natürliche Schöpfungsgeschichte: Gemeinverständliche wissenschaftliche Vorträge über die Entwickelungslehre im Allgemeinen und diejenige von Darwin, Goethe und Lamarck im Besonderen, über die Anwendung derselben auf den Ursprung des Menschen und andere ... (

## Aufgaben
### Aufgabe DTA-Crawler
Schreiben Sie ein Python-Programm, das verschiedene Korpusdateien vom
DTA-Korpus herunter in das aktuelle Verzeichnis läd.  Für eine
Suchanfrage sollen maximal für maximal 10 *unterschiedliche* Dokumente
jeweils die TCF- und TEI-Dateien heruntergeladen werden:

* Das Programm erwartet einen Suchbegriff als einziges
  Kommandozeilenargument
* Über den Schalter `--max` soll die maximale Anzahl der Dokumenente
  festgelegt werden (Standardwert: 10)
* Über den Schalter `--dir` soll das Ausgabeverzeichnis eingestellt
  werden (Standardwert: `.`)
* Achten Sie darauf nich zu viele Suchanfragen zu schnell an den
  Server zu schicken!

```bash
$ ./dta-crawler --max 5 --dir corpus Axolotl
downloading to corpus/brehm_thierleben_1869.tei.xml
downloading to corpus/brehm_thierleben_1869.tcf.xml
...
$ ls corpus
brehm_thierleben_1869.tei.xml
brehm_thierleben_1869.tcf.xml
...
```
