In [None]:
from IPython.display import Image

# Co je API?

## Klient a server

API(Application Programming Interface) je dohoda mezi dvěma stranami o tom, jak si mezi sebou budou povídat. Těmto stranám se říká klient a server.

**Server** je ta strana, která má zajímavé informace, nebo něco zajímavého umí, a umožňuje ostatním na internetu, aby toho využili. Server je program, který donekonečna běží na nějakém počítači a je připraven všem ostatním na internetu odpovídat na požadavky.

**Klient** je program, který posílá požadavky na server a z odpovědí se snaží poskládat něco užitečného. Klient je tedy mobilní aplikace s mráčky a sluníčky nebo náš prohlížeč, v němž si můžeme otevřít kurzovní lístek ČNB. Je to ale i Heureka robot, který za Heureku načítá informace o zboží v e-shopech.

![title](giphy.gif)

# Základní pojmy

Než se pustíme do tvorby klienta, projdeme si některé základní pojmy kolem API.

## Protokol

Celé dorozumívání mezi klientem a serverem se odehrává přes tzv. protokol. To není nic jiného, než smluvený způsob, co bude kdo komu posílat a jakou strukturu to bude mít. Protokolů je v počítačovém světě spousta, ale nás bude zajímat jen HTTP, protože ten využívají webová API a ostatně i web samotný. Není to náhoda, že adresa internetových stránek v prohlížeči zpravidla začíná http:// (nebo https://).

### HTTP

Dorozumívání mezi klientem a serverem probíhá formou požadavku (HTTP request), jenž posílá klient na server, a odpovědi (HTTP response), kterou server posílá zpět. Každá z těchto zpráv má své náležitosti.

### Požadavek

+ **metoda** (HTTP method): Například metoda GET má tu vlastnost, že provádí pouze čtení a nemůžeme s ní tedy přes API něco změnit - je tzv. bezpečná. Další metody PUT, POST a DELETE
+ **adresa s parametry** (URL s query parameters):  Na konci běžné URL adresy otazník a za ním parametry. Pokud je parametrů víc, oddělují se znakem &.
        http://api.example.com/movies/
        http://api.example.com/movies?genre=drama&duration=150 
+ **hlavičky** (headers): Hlavičky jsou vlastně jen další parametry. Liší se v tom, že je neposíláme jako součást adresy a na rozdíl od URL parametrů podléhají nějaké standardizaci a konvencím.
+ **tělo** (body): Tělo zprávy je krabice, kterou s požadavkem posíláme, a do které můžeme vložit, co chceme. Tedy nejlépe něco, čemu bude API na druhé straně rozumět. Tělo může být prázdné. V těle můžeme poslat obyčejný text, data v nějakém formátu, ale klidně i obrázek. Aby API na druhé straně vědělo, co v krabici je a jak ji má rozbalovat, je potřeba s tělem zpravidla posílat hlavičku Content-Type.

Musíme vyčíst z dokumentace konkrétního API, jak požadavek správně poskládat.

In [None]:
### Odpověď

+ **status kód** (status code): Číselný kód, kterým API dává najevo, jak požadavek zpracovalo. Podle první číslice kódu se kódy dělí na různé kategorie:
        1xx - informativní odpověď (požadavek byl přijat, ale jeho zpracování pokračuje)
        2xx - požadavek byl v pořádku přijat a zpracován
        3xx - přesměrování, klient potřebuje poslat další požadavek jinam, aby se dobral odpovědi
        4xx - chyba na straně klienta (špatně jsme poskládali dotaz)
        5xx - chyba na straně serveru (API nezvládlo odpovědět)
+ **hlavičky** (headers): Informace o požadavku jako např. datum zpracování, formát odpovědi...
+ **tělo** (body): Tělo odpovědi - to, co nás zajímá většinou nejvíc

### Formáty

Tělo může být v libovolném formátu. Může to být text, HTML, obrázek, PDF soubor, nebo cokoliv jiného.
Hodnotě hlavičky Content-Type se dávají různé názvy: content type, media type, MIME type. 
Nejčastěji se skládá jen z typu a podtypu, které se oddělí lomítkem. Několik příkladů:
+ text/plain - obyčejný text
+ text/html - HTML
+ text/csv - CSV
+ image/gif - GIF obrázek
+ image/jpeg - JPEG obrázek
+ image/png - PNG obrázek
+ application/json - JSON
+ application/xml nebo text/xml - XML


### Formát JSON

JSON vznikl kolem roku 2000 a brzy se uchytil jako stručnější náhrada za XML, především na webu a ve webových API. Dnes je to **nejspíš nejoblíbenější formát pro obecná strukturovaná data vůbec**. Jeho autorem je Douglas Crockford, jeden z lidí podílejících se na vývoji jazyka JavaScript.

#### JSON je datový formát NE datový typ!

Vstupem je libovolná datová struktura:
+ číslo
+ řetězec
+ boolean
+ pole
+ objekt
+ null

Výsutpem je vždy řetězec(string)

![title](null.jpg)

Jazyk Python (a mnoho dalších) má podporu pro práci s JSON v základní instalaci(vestavěný).

V případě jazyka Python si lze JSON splést především se slovníkem(dictionary). Je ale potřeba si uvědomit, že JSON je text, který může být uložený do souboru nebo odeslaný přes HTTP, ale nelze jej přímo použít při programování. Musíme jej vždy nejdříve zpracovat na slovníky a seznamy.

In [None]:
import json

In [None]:
#klíč "people" s polem objektů, které má vlastní klíče
people_info = '''
{
    "people": [
    {
        "name": "John Smith",
        "phone": "555-246-999",
        "email": ["johns@gmail.com", "jsmith@gmail.com"],
        "is_employee": false
    },
    {
        "name": "Jane Doe",
        "phone": "665-296-659",
        "email": ["janed@gmail.com", "djane@gmail.com"],
        "is_employee": true
    }
  ]
}
'''

In [None]:
#json.loads převede řetězec na objekt
data = json.loads(people_info)

In [None]:
print(data)

In [None]:
print(type(data))

In [None]:
print(type(data['people']))

In [None]:
print(type(data['people'][0]))

In [None]:
print(data['people'])

In [None]:
print(data['people'][0])

In [None]:
print(data['people'][0]['name'])

# Práce s API klienty

## Obecný klient

Mobilní aplikace na počasí je klient, který někdo vytvořil pro jeden konkrétní úkol a pracovat umí jen s jedním konkrétním API. Takový klient je užitečný, pokud chceme akorát vědět jaké je počasí, ale už méně, pokud si chceme zkoušet práci s více API zároveň. Proto existují obecní klienti.

### Prohlížeč jako obecný klient

Pokud z API chceme pouze číst a API nevyžaduje žádné přihlašování, můžeme jej vyzkoušet i v prohlížeči, jako by to byla webová stránka. Pokud v prohlížeči přejdeme na odkaz Stažení v textovém formátu, uvidíme odpověď z API serveru.

https://www.cnb.cz/cs/financni_trhy/devizovy_trh/kurzy_devizoveho_trhu/denni_kurz.txt

### Obecný klient v příkazové řádce: curl

Pokud se k API budeme potřebovat přihlásit nebo s ním zkoušet dělat složitější věci než jen čtení, nebude nám prohlížeč stačit.

Proto je dobré se naučit používat program curl. Spouští se v příkazové řádce a je to švýcarský nůž všech, kteří se pohybují kolem webových API.

#### Příklady s curl

![title](curl.jpg)

Když příkaz zadáme a spustíme, říkáme tím programu curl, že má poslat požadavek na uvedenou adresu a vypsat to, co mu ČNB pošle zpět.

![title](curl-return.jpg)

## Vlastní klient

Obecného klienta musí ovládat člověk (ruční nastavování parametrů, pravidelné spuštění na základě podmínek či času atd.). To je přesně to, co potřebujeme, když si chceme nějaké API vyzkoušet, ale celý smysl API je v tom, aby je programy mohly využívat automaticky.
Pokud chceme naprogramovat klienta pro konkrétní úkol, můžeme ve většině jazyků použít buď vestavěnou, nebo doinstalovanou knihovnu. V případě jazyka Python použijeme knihovnu Requests.

## Práce s veřejným API
Vyzkoušíme si dotazy na API s daty zločinnosti v UK, která jsou dostupná na měsiční bázi dle přibližné lokace (viz https://data.police.uk/docs/method/stops-at-location/)

In [9]:
import requests

In [None]:
api_url = "https://data.police.uk/api/stops-street"

In [None]:
# nastavení parametrů volání API dle dokumentace https://data.police.uk/docs/method/stops-at-location/
# jako lokaci jsem vybral nechvalně proslulý obvod Hackney v Londýně :)

params = {"lat" : "51.5487158",
          "lng" : "-0.0613842",
          "date" : "2018-06"
    
}

In [None]:
#pomocí get vytvoříme objekt response
response = requests.get(api_url,
                        params = params
)

In [None]:
# pokud je status kód jiný, než 200 (success), vyhodí skript chybu a chybový status code
if response.status_code != 200:
    print('Failed to get data:', response.status_code)
else:
    print('First 100 characters of data are')
    print(response.text[:100])

In [None]:
# hlavička s doplňujícími informacemi o opdovědi
response.headers

In [None]:
response.headers['content-type']

In [None]:
# obsah odpovědi je řetězec bytů
response.content[:200]

In [None]:
# vypadá jako seznam(list) nebo slovník(dictionary), ale nechová se tak
response[0]["age_range"]

In [None]:
# převedeme řetězec bytů metodou .json() z knihovny requests
data = response.json()

In [None]:
# ověříme datový typ
type(data)

In [None]:
# nyní můžeme přistupovat k "data" jako ke klasickému seznamu (list)
data[0]["age_range"]

In [None]:
# převední seznamu(list) na řetězec s parametry pro zobrazení struktury v čitelné podobě
datas = json.dumps(data, sort_keys = True, indent = 4)

In [None]:
print(datas[:1600])

In [None]:
# cyklus, kterým přistupujeme k věkovému rozpětí lidí lustrovaných policií
age_range = []

for i in data:
    age = i["age_range"]
    #print('{}'.format(age))
    age_range.append(age)

In [None]:
#type(data[0])

In [None]:
# cyklus, kterým přistupujeme k id ulice, kde došlo lustraci podezřelé(ho)
street_id = []

for i in data:
    street = i["location"]["street"]["id"]
    #print('{}'.format(street))
    street_id.append(street)
    

In [15]:
import pandas as pd

In [None]:
# spojíme seznamy(lists) do dataframe
df_from_lists = pd.DataFrame(list(zip(age_range, street_id)), 
               columns =['age_range', 'street_id'])

In [None]:
df_from_lists.head()

In [None]:
# jakou věkovou skupinu lustrovala policie nejčastěji?
df_from_lists["age_range"].value_counts().plot.bar()

### Json_normalize
aneb jak obejít custom funkce 

In [12]:
# naimportování json_normalize z knihovny pandas
from pandas.io.json import json_normalize

C:\Anaconda3\lib\site-packages\numpy\.libs\libopenblas.CSRRD7HKRKC3T3YXA7VY7TAZGLSWDKW6.gfortran-win_amd64.dll
C:\Anaconda3\lib\site-packages\numpy\.libs\libopenblas.TXA6YQSD3GCQQC22GEQ54J2UDCXDXHWN.gfortran-win_amd64.dll
  stacklevel=1)


In [None]:
#vytvoření dataframe pomocí json_normalize z knihovny pandas
norm_data = json_normalize(data)

In [None]:
norm_data.head()

In [None]:
norm_data["gender"].value_counts()

In [None]:
norm_data["gender"].value_counts().plot.bar()

In [None]:
norm_data["age_range"].value_counts().plot.bar()

## Tvoříme klienta pro práci s veřejným API

V následujícím bloku si vytvoříme klienta, který nám stáhne data za dva měsíce (místo jednoho) a uloží je do seznamu seznamů(list of lists). Případné chyby spojení s API ošetříme výjimkami(exceptions) - více viz [dokumentace requests](https://requests.readthedocs.io/en/master/_modules/requests/exceptions/)

In [16]:
dates_list = ["2018-06","2018-07"]
data_list = []
appended_data = []


lat = "51.5487158"
lng = "-0.0613842"

def get_uk_crime_data(latitude, longitude):
    """
    Function loops through a list of dates 
    
    Two arguments latitude and longitude
    
    Returns a dataframe with crime data for each day
    """
    
    for i in dates_list:
        try:
            api_url = "https://data.police.uk/api/stops-street"
            params = {"lat" : latitude,
                      "lng" : longitude,
                      "date" : i
                     }
            response = requests.get(api_url,
                                    params = params
                               )
            data_foo = response.json()
            
            data = json_normalize(data_foo)
            # store DataFrame in list
            appended_data.append(data)
            
        except requests.exceptions.RequestException as e:
            print(e)
            sys.exit(1)
            
       
    return pd.concat(appended_data) #data_list    

In [24]:
#schedule.every(1).minutes.do(get_uk_crime_data,lat,lng)
#while True:
    #schedule.run_pending()
    #time.sleep(1)

In [29]:
#zavolání funkce more_data
df_uk_crime_data = get_uk_crime_data(lat, lng)

In [30]:
df_uk_crime_data.head()

Unnamed: 0,age_range,datetime,gender,involved_person,legislation,location.latitude,location.longitude,location.street.id,location.street.name,object_of_search,officer_defined_ethnicity,operation,operation_name,outcome,outcome_linked_to_object_of_search,outcome_object.id,outcome_object.name,removal_of_more_than_outer_clothing,self_defined_ethnicity,type
0,18-24,2018-06-01T09:45:00+00:00,Male,True,Misuse of Drugs Act 1971 (section 23),51.55133,-0.068037,968551,On or near Downs Park Road,Controlled drugs,Black,False,,Community resolution,,bu-community-resolution,Community resolution,,Black/African/Caribbean/Black British - Any ot...,Person search
1,18-24,2018-06-02T02:37:00+00:00,Male,True,Misuse of Drugs Act 1971 (section 23),51.549626,-0.054738,968830,On or near Dalston Lane,Controlled drugs,Black,False,,A no further action disposal,,bu-no-further-action,A no further action disposal,,Black/African/Caribbean/Black British - Any ot...,Person search
2,over 34,2018-06-02T09:45:00+00:00,Male,True,Misuse of Drugs Act 1971 (section 23),51.549626,-0.054738,968830,On or near Dalston Lane,Controlled drugs,White,False,,Arrest,,bu-arrest,Arrest,,White - Any other White background,Person search
3,18-24,2018-06-02T10:50:00+00:00,Male,True,Misuse of Drugs Act 1971 (section 23),51.550209,-0.051944,968740,On or near Rowe Lane,Controlled drugs,Black,False,,A no further action disposal,,bu-no-further-action,A no further action disposal,,Black/African/Caribbean/Black British - African,Person and Vehicle search
4,10-17,2018-06-02T19:30:00+00:00,Female,True,Police and Criminal Evidence Act 1984 (section 1),51.542304,-0.054589,964026,On or near St Thomas'S Square,Offensive weapons,Black,False,,A no further action disposal,,bu-no-further-action,A no further action disposal,,Black/African/Caribbean/Black British - Caribbean,Person search


## Přistupování k tweetům přes Twitter API pomocí knihovny Tweepy

Instalace a import knihovny Tweepy

In [36]:
import tweepy

Pro získání dat z Twitteru musí náš klient projít OAuth autorizací.

**Jak funguje OAuth autorizace na Twitteru?**

1. vývojář aplikace se zaregistruje u poskytovatele API
2. zaregistruje aplikaci, získá consumer_key, consumer_secret, access_token a access_secret na https://developer.twitter.com/en/apps
3. aplikace volá API a prokazuje se consumer_key, consumer_secret, access_token a access_secret

In [37]:
consumer_key = "fptJDY5ywDIOtaLQ944tDNOvs"
consumer_secret = "fnJWyryxovVG2AFIkcsAfruBsyv92xCU41cWvWeYYkmCyVGBqn"
access_token = "1646190612-IQtyZcONXougSAUCTD7GWuoCVf21SnMcXZxLE7p"
access_secret = "jjhEMh0eOZGyX1xwKCYz2MIWUE3z8qgEf1Q74SXfy2Lb7"

Další krok je vytvoření instance OAuthHandleru, do kterého vložíme náš consumer token a consumer secret

In [38]:
auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
auth.set_access_token(access_token, access_secret)

Ověření funkčnosti autentifikace

In [39]:
api = tweepy.API(auth)

try:
    api.verify_credentials()
    print("Authentication OK")
except:
    print("Error during authentication")

Authentication OK


V API dokumentaci k Tweepy http://docs.tweepy.org/en/v3.5.0/api.html najdeme metodu která např. vypíše ID přátel, reps. sledujících účtu

In [107]:
api.friends_ids('@PREZIDENTmluvci')

[806895322505117696,
 737427145,
 493480037,
 555176287,
 1869336583,
 730414396372045825,
 1044587777990569984,
 710583823122178048,
 500704345,
 121482708,
 498694272,
 1076576528,
 19918110,
 2388737857,
 783313066893115393,
 217544609,
 1122857578122358784,
 1408164626,
 592730371,
 735221894853591040,
 2217410809,
 1052972392748859393,
 119703447,
 1080808790256222209,
 737599392916471809,
 14151855,
 2298540890,
 1126806427375419392,
 2669428663,
 2414884400,
 540935884,
 131249283,
 369416406,
 1105851826702897152,
 47336129,
 3078101607,
 377976301,
 389352472,
 1096394885467381761,
 1103558480,
 1070005631199969280,
 1852003688,
 519328169,
 371215965,
 284950629,
 459989874,
 343958195,
 3110301261,
 2770056264,
 964967282589028352,
 190318813,
 4849277615,
 839393075982123008,
 2766892525,
 118756393,
 1032623727152955394,
 2189317336,
 46623193,
 216881337,
 15987296,
 90480218,
 2786900559,
 57626153,
 15877628,
 202086424,
 43932737,
 988573326376427520,
 4441426415,
 154

Nebo vypíše ID, které účet sleduje

In [109]:
api.followers_ids('@PREZIDENTmluvci')

[1218942306423844864,
 4924387648,
 1218921684771713029,
 1218919167774154752,
 1190240100229271552,
 1218917276495335424,
 1218898961332948999,
 1218897693730316289,
 1218895450503352321,
 1213890769158688768,
 2268785268,
 1148122992108625922,
 1439401489,
 1218871510875672577,
 1218866637937442816,
 1217823934525202433,
 1086516726425178112,
 1218854528566661121,
 1218846088863604737,
 1218849402879606784,
 1218845901386592256,
 1218842135044198401,
 1218841773017124864,
 1218840705369616384,
 1218840540369883136,
 1218840222244405249,
 927094465294106624,
 1218827685763452928,
 1218827646068502528,
 1218820454766596097,
 1218811595654074374,
 1215282153707266048,
 1205940282807783424,
 2968443645,
 1216429147469352961,
 1218780915960295424,
 1218770198678974464,
 1218261660315607041,
 812773101868089348,
 914477972580597760,
 1218455443405791232,
 1212084133385555969,
 1218655830033215488,
 1217762864594931713,
 1218638885271613442,
 1218638939025825792,
 1213533857925890048,
 1218

Metoda, která vrátí posledních 20 tweetů podle ID uživatele

In [110]:
twitter_user = api.user_timeline('@PREZIDENTmluvci')

In [111]:
for tweet in twitter_user:
    print(tweet.text)
    print("--------")

Právě teď z Lán! Pan prezident na rádiu Frekvence 1 v Prezidentském Press klubu. https://t.co/x1tbSqMPlN
--------
Nezapomeňte, od 18:00 vystoupí pan prezident na Frekvenci 1 v Prezidentském Press klubu! https://t.co/xytKFI4VHz
--------
Pozor, už dnes❗️Pan prezident vystoupí od 18.00 hodin v pořadu Prezidentský Press klub na rádiu 📻Frekvence 1. Rozho… https://t.co/EGrLuBPBh5
--------
Požehnanou neděli, přátelé! https://t.co/HCPnVHnSO6
--------
RT @PaulinkyPraha: https://t.co/AwjxVo4YzJ
--------
Milí přátelé, přeji vám klidnou nadcházející sobotu a požehnanou neděli! https://t.co/3VNWm1tuwI
--------
Prezident republiky Miloš Zeman vystoupí v neděli dne 19. ledna 2020 od 18.00 hodin v pořadu Prezidentský Press klu… https://t.co/SXw2HLt3IB
--------
RT @PremierRP: W #Praga twa sesja plenarna Premierów Państw #GrupaWyszehradzka. #V4 🇵🇱🇨🇿🇭🇺🇸🇰 https://t.co/kUJZ1qw2HD
--------
RT @HradOfficial: ★ Dnes si připomínáme Den památky Jana Palacha - 16. ledna 1969 se na protest proti letargii společno

In [104]:
tweets_list = []
twitter_account = '@PREZIDENTmluvci'

def get_tweets(consumer_key, consumer_secret, access_token, access_secret, twitter_account):
    """
    Function gets the last 20 tweets and adds those not in the list
    
    Five arguments consumer_key, consumer_secret, access_token, access_secret, and twitter_account name
    
    Returns a dataframe with tweets for given account
    """
    
    auth = tweepy.OAuthHandler(consumer_key, consumer_secret)
    auth.set_access_token(access_token, access_secret)
    api = tweepy.API(auth)

    try:
        api.verify_credentials()
        print("Authentication OK")
        twitter_user = api.user_timeline(twitter_account)
        
        for tweet in twitter_user:
            #print(tweet.text)
            if tweet.text not in tweets_list:
                tweets_list.append(tweet.text)
                #print(tweets_list)
                
    except:
        print("Error during authentication")
    
    return pd.DataFrame(tweets_list, columns=[twitter_account])

In [105]:
get_tweets(consumer_key, consumer_secret, access_token, access_secret, twitter_account)

Authentication OK


Unnamed: 0,@PREZIDENTmluvci
0,Právě teď z Lán! Pan prezident na rádiu Frekve...
1,"Nezapomeňte, od 18:00 vystoupí pan prezident n..."
2,"Pozor, už dnes❗️Pan prezident vystoupí od 18.0..."
3,"Požehnanou neděli, přátelé! https://t.co/HCPnV..."
4,RT @PaulinkyPraha: https://t.co/AwjxVo4YzJ
5,"Milí přátelé, přeji vám klidnou nadcházející s..."
6,Prezident republiky Miloš Zeman vystoupí v ned...
7,RT @PremierRP: W #Praga twa sesja plenarna Pre...
8,RT @HradOfficial: ★ Dnes si připomínáme Den pa...
9,Prezident republiky Miloš Zeman navrhl Poslane...
