[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/CCS-ZCU/pribehy-dat/blob/master/scripts/api.ipynb)


# API: Aplikační rozhraní

**autor**: *Vojtěch Kaše* (kase@ff.zcu.cz)

[![](https://ccs.zcu.cz/wp-content/uploads/2021/10/cropped-ccs-logo_black_space_240x240.png)](https://ccs.zcu.cz)

## Úvod a cíle kapitoly

Systém dotazování v podobě URL adres a odpovídání na ně v podobě dat, kterým jsme se zabývali v předchozí kapitole, je někdy standardizovaný do podoby tzv. **API**: Application Programming Interface, kdy vracená data již nemají podobu webových stránek, ale specificky strukturovaných dat, nad kterými vývojář zajásá. Tímto způsobem se na našich chytrých telefonech například aktualizují data o počasí (viz např. dokumentaci k API od [OpenWeatherMa](https://openweathermap.org/api/one-call-3#current)).  Aby však nedošlo k přetížení či zneužití těchto služeb, většina API vyžaduje nějakou formu autorizace, nejčastěji ve formě jakéhosi automaticky generovaného klíče či tokenu pro registrované uživatele.

Tato technologie je využívána i pro potřeby zpřístupňování dat z oblasti péče o kulturní dědictví. V této kapitole si ukážeme několik příkladů těchto webových služeb.

Projekt Epigraphic Database Heidelberg hostí digitalizovanou kolekci více než 80,000 převážně latinských nápisů z antického Říma. Tyto nápisy si veřejnost může prohlížet a prohledávat za využití webových stránek [zde](https://edh.ub.uni-heidelberg.de/inschrift/suche). Kromě toho má však badatel ještě jinou možnost, jak se dostat k příslušným datům, a totiž právě za využití speciálně vyvinutého API, které je zdokumentováno [zde](https://edh.ub.uni-heidelberg.de/data/api).

V této dokumentaci se podrobně dočteme, jaké parametry můžeme v našem dotazu (query) použít a jak. 

Základní URL adresa je `https://edh.ub.uni-heidelberg.de/data/api/inschrift/suche?`, za níž připojujeme parametry pro určení námi hledaného nápisu či skupiny nápisů.

Každý nápis v EDH databázi má svůj jednoznačný číslený identifikátor. Jako příklad může posloužit nápis s identifikačním číslem "HD000010", který je přes webové rozhraní přístupný [zde](https://edh.ub.uni-heidelberg.de/inschrift/suche?hd_nr=000010&tm_nr=&fo_antik=&fo_modern=&fundstelle=&region=&compFundjahr=eq&fundjahr=&aufbewahrung=&compHoehe=eq&hoehe=&compBreite=eq&breite=&compTiefe=eq&tiefe=&bh=&dat_tag=&dat_monat=&jahre=600+BC+-+1500+AD&literatur=&kommentar=&p_name=&p_praenomen=&p_nomen=&p_cognomen=&p_supernomen=&p_origo=&p_geschlecht=&p_ljahre_comp=gt&p_ljahre=&p_lmonate_comp=gt&p_lmonate=&p_ltage_comp=gt&p_ltage=&p_lstunden_comp=gt&p_lstunden=&atext1=&bool=AND&atext2=&sort=hd_nr&anzahl=20).

Známe-li ID nápisu, můžeme se dostat k datům o něm přes API takto:

```
https://edh.ub.uni-heidelberg.de/data/api/inschrift/suche?hd_nr=000010
```
Vyzkoušejme nejprve v prohlížeči! Vidíme datový obsah bez jakéhokoli formátování. 

Chceme-li např. získat data o všech nápisech z Římské provincie *Germania superior*, nastavíme parametr "provinz" na hodnotu "ges" (Tyto parametry a jejich hodnoty samozřejmě nestanovujeme z hlavy, ale snažíme se je vyčíst z dokumentace. Někdy však musíme trochu experimentovat). Výsledná URL adresa pak vypadá takto:

```
https://edh.ub.uni-heidelberg.de/data/api/inschrift/suche?provinz=ges
```

## Cvičení

In [1]:
# naimportujeme si několik knihoven
import requests # python knihovna pro vznášení HTTP dotazů
from bs4 import BeautifulSoup # python knihovna pro práci s daty ve formátu html či xml
import pandas as pd

Nyní si to vyzkoušejme v praxi za využití Pythonu a knihoven requests, BeautifulSoup, a pandas, které jsme již použili v předchozích kapitolách.
* Naše výchozí adresa bude vypadat vždy stejně, uložme si ji do proměnné `base_url`.
* Následně specifikujme náš dotaz, tzv. `query`. 
* Tento dotaz nyní vzneseme prostřednictvím knihovny `requests` a odpověď si uložme jako objekt `resp`.

In [2]:
base_url = 'https://edh.ub.uni-heidelberg.de/data/api/inschrift/suche?'
query = 'hd_nr=000010'
resp = requests.get(base_url + query)

Podíjme se na obsah atributu `.text`:

In [3]:
resp.text

'{"items":[{"commentary":"(B): AE 1983: Z. 3/4: Secundus et Orphaeus.","country":"Italy","depth":"44 cm","diplomatic_text":"D M / L ASINI POLI / SECVNDVS / ET ORPHAEVS / LIB P B M","findspot":"Friedhof","findspot_ancient":"Ariminum","findspot_modern":"Rimini","height":"46 cm","id":"HD000010","language":"L","last_update":"2007-05-16","letter_size":"4.2-2.5 cm","literature":"AE 1983, 0410. (B) ; G.A. Mansuelli, Epigraphica 2, 1940, 185-186, Nr. 2; fig. 9. - AE 1983. ;","modern_region":"Forli","not_after":"101","not_before":"200","present_location":"Rimini, Mus. Arch. Com.","responsible_individual":"Gräf","transcription":"D(is) M(anibus) / L(uci) Asini Poli / Secundus / et Orphaeus / lib(erti) p(atrono) b(ene) m(erenti)","trismegistos_uri":"https://www.trismegistos.org/text/244297","type_of_inscription":"epitaph","type_of_monument":"urn","width":"52 cm","work_status":"checked with photo","year_of_find":1936}],"limit":20,"offset":0,"total":1}\n'

Vidíme totéž, co jsme viděli v prohlížeči. Na první pohled tato data možná nepůsobí příliš vábně, ale datový analytik zájásí. Použité speciální znaky jako "{", "}", "[", a "]" v kombinaci s dvojtečkami totiž indikují, že vrácená data jsou strukturována v tzv. **JSON** struktuře. JSON (=JavaScript Object Notation) je v současnosti velice populární způsob strukturovaného zápisu dat, s kterým si dokáže poradit velké množství programů. 

Pro uživatele Pythonu je JSON zvláště přitažlivý, neboť se jedná v podstatě o strukturu do sebe se zanořujících objektů typu `dict` a `list`. Takto tato data načteme do Pythonu prostřednictvím metody `json()`.

In [4]:
data_json = resp.json()
data_json

{'items': [{'commentary': '(B): AE 1983: Z. 3/4: Secundus et Orphaeus.',
   'country': 'Italy',
   'depth': '44 cm',
   'diplomatic_text': 'D M / L ASINI POLI / SECVNDVS / ET ORPHAEVS / LIB P B M',
   'findspot': 'Friedhof',
   'findspot_ancient': 'Ariminum',
   'findspot_modern': 'Rimini',
   'height': '46 cm',
   'id': 'HD000010',
   'language': 'L',
   'last_update': '2007-05-16',
   'letter_size': '4.2-2.5 cm',
   'literature': 'AE 1983, 0410. (B) ; G.A. Mansuelli, Epigraphica 2, 1940, 185-186, Nr. 2; fig. 9. - AE 1983. ;',
   'modern_region': 'Forli',
   'not_after': '101',
   'not_before': '200',
   'present_location': 'Rimini, Mus. Arch. Com.',
   'responsible_individual': 'Gräf',
   'transcription': 'D(is) M(anibus) / L(uci) Asini Poli / Secundus / et Orphaeus / lib(erti) p(atrono) b(ene) m(erenti)',
   'trismegistos_uri': 'https://www.trismegistos.org/text/244297',
   'type_of_inscription': 'epitaph',
   'type_of_monument': 'urn',
   'width': '52 cm',
   'work_status': 'checke

Nyní již data vypadají úhledněji. Vzpomeňme na syntaxi objektů typu `dict` a `list`. Vypišme si všechny klíče našeho JSON objektu: 

In [5]:
data_json.keys()

dict_keys(['items', 'limit', 'offset', 'total'])

V tuto chvíli je pro nás nejzajímavější položka "items", kde jsou uschována data pro nápisy jako takové. Tyto "items" mají podobu datové struktury typu `list`. Jelikož však máme co do činění pouze s jedním nápisem, nachází se zde jediný prvek (viz též klíč "total"). 

K tomuto prvku se musíme dostat prostřednictvím indexování - jeho index bude 0.

Samotný prvek má opět podobu `dict`. Jednotlivé klíče pak definují jednotlivé proměnné definující daný nápis.
 

In [6]:
data_json["items"][0]

{'commentary': '(B): AE 1983: Z. 3/4: Secundus et Orphaeus.',
 'country': 'Italy',
 'depth': '44 cm',
 'diplomatic_text': 'D M / L ASINI POLI / SECVNDVS / ET ORPHAEVS / LIB P B M',
 'findspot': 'Friedhof',
 'findspot_ancient': 'Ariminum',
 'findspot_modern': 'Rimini',
 'height': '46 cm',
 'id': 'HD000010',
 'language': 'L',
 'last_update': '2007-05-16',
 'letter_size': '4.2-2.5 cm',
 'literature': 'AE 1983, 0410. (B) ; G.A. Mansuelli, Epigraphica 2, 1940, 185-186, Nr. 2; fig. 9. - AE 1983. ;',
 'modern_region': 'Forli',
 'not_after': '101',
 'not_before': '200',
 'present_location': 'Rimini, Mus. Arch. Com.',
 'responsible_individual': 'Gräf',
 'transcription': 'D(is) M(anibus) / L(uci) Asini Poli / Secundus / et Orphaeus / lib(erti) p(atrono) b(ene) m(erenti)',
 'trismegistos_uri': 'https://www.trismegistos.org/text/244297',
 'type_of_inscription': 'epitaph',
 'type_of_monument': 'urn',
 'width': '52 cm',
 'work_status': 'checked with photo',
 'year_of_find': 1936}

Chceme-li získat text tohoto nápisu

In [7]:
#Chceme-li získat text tohoto nápisu, použijeme klíč "transcription"
data_json["items"][0]["transcription"]

'D(is) M(anibus) / L(uci) Asini Poli / Secundus / et Orphaeus / lib(erti) p(atrono) b(ene) m(erenti)'

In [8]:
#Chceme-li získat informaci o tom, ze kdy nápis pochází, použijeme klíče "not_before" a "not_after"
data_json["items"][0]["not_before"]

'200'

Vznesme nyní dotaz na nápisy z území ČR (bude jich podle všeho pouze omezené množství, neboť na našem území Římané aktivně nepůsobili.

In [9]:
base_url = 'https://edh.ub.uni-heidelberg.de/data/api/inschrift/suche?'
query = 'land=cz' ## &not_after=251'
resp = requests.get(base_url + query)
data_json = resp.json()
data_json

{'items': [{'commentary': 'Inschrift gestempelt. Sogenannter Sohlenstempel; Sohle mit Schuhnägeln; Stempel des gleichen Typs: AE 1993, 1295.',
   'country': 'Czech Republic',
   'diplomatic_text': 'LEG X G P F',
   'findspot': '{Burgstall, röm. Kastell}',
   'findspot_modern': 'Mušov',
   'id': 'HD012650',
   'language': 'L',
   'last_update': '2014-10-22',
   'letter_size': None,
   'literature': 'AE 1987, 0823a. ; J. Tejral, ARohzl 38, 1986, 407-408; Abb. 6. - AE 1987. ;',
   'material': 'Ton',
   'modern_region': 'Jihomoravský kraj',
   'not_after': '151',
   'not_before': '200',
   'responsible_individual': 'Gräf',
   'transcription': 'Leg(io) X g(emina) p(ia) f(idelis)',
   'trismegistos_uri': 'https://www.trismegistos.org/text/195755',
   'type_of_inscription': 'owner/artist inscription',
   'type_of_monument': 'tile',
   'work_status': 'checked with photo'},
  {'country': 'Czech Republic',
   'diplomatic_text': 'LEG XIIII G M V',
   'findspot': '{Burgstall, röm. Kastell}',
   'f

In [10]:
# klíč total podává informaci o celkovém počtu vrácených položek:
data_json["total"]

8

Chceme-li získat text šestého nápisu v pořadí, budeme jej indexovat pomocí hodnoty 5 a následně použijeme klíč "transcription"

In [11]:
data_json["items"][5]["transcription"]

'Leg(io) X g(emina) p(ia) f(idelis)'

V této podobě však práce s daty není zcela nejpraktičtější. Velká výhoda JSONu však je, že tato data můžeme snadno převést např. do tabulkové podoby objektu typu `pandas.DataFrame`. Klíče se automaticky stanou názvy sloupců: 

In [12]:
data_df = pd.DataFrame(data_json["items"])
data_df

Unnamed: 0,commentary,country,diplomatic_text,findspot,findspot_modern,id,language,last_update,letter_size,literature,...,responsible_individual,transcription,trismegistos_uri,type_of_inscription,type_of_monument,work_status,height,width,present_location,year_of_find
0,Inschrift gestempelt. Sogenannter Sohlenstempe...,Czech Republic,LEG X G P F,"{Burgstall, röm. Kastell}",Mušov,HD012650,L,2014-10-22,,"AE 1987, 0823a. ; J. Tejral, ARohzl 38, 1986, ...",...,Gräf,Leg(io) X g(emina) p(ia) f(idelis),https://www.trismegistos.org/text/195755,owner/artist inscription,tile,checked with photo,,,,
1,,Czech Republic,LEG XIIII G M V,"{Burgstall, röm. Kastell}",Mušov,HD012653,L,2017-04-20,,"AE 1987, 0823b. ;",...,Osnabrügge,Leg(io) XIIII g(emina) M(artia) v(ictrix),https://www.trismegistos.org/text/195756,owner/artist inscription,tile,provisional,,,,
2,,Czech Republic,PH,,Mikulčice,HD014654,L,1997-06-21,,"AE 1968, 0440bis. ;",...,Niquet,Ph(idias?),https://www.trismegistos.org/text/217428,,,provisional,,,,
3,,Czech Republic,LEG X C P F,,Musov,HD023590,L,2005-01-20,,"AE 1928, 0067. ;",...,Gräf,Leg(ionis) X &lt;g=C&gt;(eminae) p(iae) f(idel...,https://www.trismegistos.org/text/217444,,,provisional,,,,
4,,Czech Republic,LEG X / / BRVTI,,Musov,HD048247,L,2008-04-14,,"AE 2000, 1860. ;",...,Platz,Leg(io) X // Bruti,https://www.trismegistos.org/text/217523,owner/artist inscription,instrumentum militare,provisional,18 cm,8 cm,,
5,Fundjahr: 1984-1991. Inschrift gestempelt. Sog...,Czech Republic,LEG X G P F,"{Burgstall, röm. Kastell}",Mušov,HD051419,L,2011-09-13,,"AE 1993, 1295. ; J. Musil, AAustr 77, 1993, 93...",...,Gräf,Leg(io) X g(emina) p(ia) f(idelis),https://www.trismegistos.org/text/197267,owner/artist inscription,tile,checked with drawing,29 cm,30 cm,Dolní Dunajovice,1984.0
6,Ziegel mit Sohlenstempel (ohne Sohlennägel); h...,Czech Republic,LEG X G P F,"{Burgstall, röm. Kastell}",Mušov,HD064401,L,2014-10-22,,"AE 1987, 0823a. ; J. Tejral, ARohzl 38, 1986, ...",...,Gräf,Leg(io) X g(emina) p(ia) f(idelis),https://www.trismegistos.org/text/195755,owner/artist inscription,tile,no image,,,,
7,Fundjahr: 1927 oder 1928. Inschrift gestempelt...,Czech Republic,LEG X G P F,"{Burgstall, röm. Kastell}",Mušov,HD064402,L,2011-09-13,,"AE 1993, 1295. ; J. Musil, AAustr 77, 1993, 93...",...,Gräf,Leg(io) X g(emina) p(ia) f(idelis),https://www.trismegistos.org/text/197448,owner/artist inscription,tile,checked with drawing,,,"Brno, MZM",1927.0


V případě, že náš dotaz odpovídá většímu množství položek, API nám často vrátí pouze první "stránku" hodnot. V případě EDH API je na první stránce pouze dvacet prvních hodnot. To je případ níže. 

In [13]:
base_url = 'https://edh.ub.uni-heidelberg.de/data/api/inschrift/suche?'
query = 'provinz=ges' ## &not_after=251'
resp = requests.get(base_url + query)
data_json = resp.json()
data_json

{'items': [{'commentary': '(B): AE 1982: Z. 3/4: Zeilentrenner nicht angegeben; Z. 4: Va[rvaria ---].',
   'country': 'Germany',
   'diplomatic_text': 'C CASSIVS / C F CLA / VALENS / VAR[ ] / [',
   'findspot': '{Fort Stahlberg}',
   'findspot_ancient': 'Mogontiacum',
   'findspot_modern': 'Mainz',
   'id': 'HD000358',
   'language': 'L',
   'last_update': '2018-10-17',
   'letter_size': None,
   'literature': 'AE 1983, 0727. ; G. Forni, AFLM 15, 1982, 702-703, Nr. 5. - AE 1983. ; CIL 13, 07008. ; AE 1982, 0720. (B) ; G. Forni, in: Studia in onore di A. Biscardi (Milano 1982) 116-117, Nr. 6. - AE 1982. ;',
   'modern_region': 'Rheinland-Pfalz',
   'not_after': '1',
   'not_before': '100',
   'responsible_individual': 'Esch',
   'transcription': 'C(aius) Cassius / C(ai) f(ilius) Cla(udia) / Valens / Var[var(ia)] / [------',
   'trismegistos_uri': 'https://www.trismegistos.org/text/209796',
   'type_of_inscription': 'epitaph',
   'work_status': 'no image',
   'year_of_find': 1842},
  {'c

In [14]:
data_json["total"]

Nyní vidíme, že celkový počet položek je 6832 (viz `data_json["total"]`). Na stránce však máme pouze prvních dvacet. 
Chceme-li získat data z druhé stránky, musíme vznést nový dotaz nastavit v něm parametr "offset". 

In [15]:
base_url = 'https://edh.ub.uni-heidelberg.de/data/api/inschrift/suche?'
query = 'provinz=ges&offset=20'
resp = requests.get(base_url + query)
data_json = resp.json()
data_json

{'items': [{'commentary': 'Reste gelbweißer Farbe auf Vorder- und Nebenseiten; Sockelstein restauriert. (B): Schallmayer: Z. 7: Iullinius; Cubaynes: Zeilenfall 6/7 fehlt.',
   'country': 'Germany',
   'depth': '26 cm',
   'diplomatic_text': 'I O M / ET IVNONI / REGINAE / ET GENIO LOCI / DIS DEABVSQ / VE OMNIBVS / G IVL IVLLINVS / MIL LEG VIII AVG / BF COS / PRO SE ET SVIS / V S L L M',
   'findspot': '{Benefiziarierweihebezirk}, 2. Steinreihe',
   'findspot_ancient': '(Civitas Alisinensium)',
   'findspot_modern': 'Osterburken',
   'height': '154 cm',
   'id': 'HD002066',
   'language': 'L',
   'last_update': '2020-10-07',
   'letter_size': None,
   'literature': 'AE 1985, 0690. ; E. Schallmayer, in: Der Keltenfürst von Hochdorf (Stuttgart 1985) 399, Nr. 6; Abb. 599. (B) - AE 1985. ; E. Schallmayer - K. Eibl - J. Ott - G. Preuß - E. Wittkopf, Der römische Weihebezirk von Osterburken 1 (Stuttgart 1990) 134-135, Nr. 148; Foto. ; R. Cubaynes, Les hommes de la VIIIe légion Auguste (Autun 2

Takto jsme získali dalších 20 položek. 

Abychom však získali všechny položky, musíme použít cyklus FOR. Budeme postupně po hodnotách dvacet zvyšovat hodnotu parametru offset a rozšiřovat náš list "all_items".

In [16]:
# seznam offsets v celkové délce našich dat:
offsets = [n for n in range(0,data_json["total"], 20)]
offsets[:10]

[0, 20, 40, 60, 80, 100, 120, 140, 160, 180]

In [17]:
%%time
all_items = []
base_url = 'https://edh.ub.uni-heidelberg.de/data/api/inschrift/suche?' # zůstává stejné
for offset in offsets: # pro každý offset
    query = 'provinz=ges&offset=' + str(offset)
    resp = requests.get(base_url + query)
    data_json = resp.json()
    all_items.extend(data_json["items"])

In [18]:
# Nyní máme data pro veškeré nápisy z provincie Germania superior
len(all_items)

6832

In [19]:
# data si převedeme do objektu typu dataframe
data_df = pd.DataFrame(all_items)
data_df.head(5)

Unnamed: 0,commentary,country,diplomatic_text,findspot,findspot_ancient,findspot_modern,id,language,last_update,letter_size,...,type_of_inscription,work_status,year_of_find,depth,height,material,present_location,religion,type_of_monument,width
0,(B): AE 1982: Z. 3/4: Zeilentrenner nicht ange...,Germany,C CASSIVS / C F CLA / VALENS / VAR[ ] / [,{Fort Stahlberg},Mogontiacum,Mainz,HD000358,L,2018-10-17,,...,epitaph,no image,1842.0,,,,,,,
1,(B): Finke: Z. 2: [C?]reto[ni?; AE 1983: Z. 3:...,Germany,IN HONOR DOM D[ ] / DEO CRETO[ ] / GENIO [ ]AG...,"Wederath, bei, {Archäologiepark Belginum, Heil...",Belginum,Morbach,HD000361,L,2020-02-14,5-3.8 cm,...,votive inscription,checked with photo,1925.0,19 cm,75 cm,Kalkstein,"Trier, Rhein. Landesmus.; Morbach, Wederath, b...",names of pagan deities,tabula,(68) cm
2,Die letzte Zeile befindet sich auf dem Sockelp...,Germany,DEAE FORTVNAE / SANCTAE BALINEV[ ] / VETVSTATE...,"Lager, bei, {Thermen, Eingang, bei}",(Civitas Alisinensium),Walldürn,HD000364,L,2020-10-06,,...,votive inscription,checked with photo,1897.0,20 cm,119 cm,Sandstein,"Karlsruhe, Bad. Landesmus.",names of pagan deities,altar,58 cm
3,Inschriftträger: Fragment eines Architravs übe...,France,[ ]O INVI[ ] / / [ ] AC DEINDE C[ ] / [ ]NTONI...,{Rue de Bréchainville},Grannum (Civitas Lingonum)?,Grand,HD001034,L,2020-11-30,10-4.5 cm,...,votive inscription,checked with photo,1820.0,33 cm,(75) cm,Gesteine,"Épinal, Mus. dép. art anc. contemp.",names of pagan deities,architectural member?,(50) cm
4,Auf der Rückseite eine tabula ansata ohne Besc...,Germany,[ ]AESARES / [ ]VERVS AV[ ] / [ ]TON[ ] / [ ]S...,"{Lager Miltenberg-Ost, Porta decumana}, bei, L...",Seiopa (Civitas Alisinensium),Miltenberg,HD001198,L,2018-02-21,7-6 cm,...,building/dedicatory inscription,checked with photo,1979.0,18 cm,(41) cm,Sandstein,"Miltenberg, Mus. der Stadt",,tabula,(43) cm


In [20]:
data_df.shape

(6832, 27)

Máme tak dataset o 6832 řádcích a 27 sloupcích.

Každé API se chová trochu odlišně, ale základní logika, včetně pohybu po stránkách, bývá dosti podobná. Vždy je potřeba trochu experimentování.