# API, Application Programming Interface

API sono protocolli utili per costruire una web app e condividere dati. Diversi siti web (compresi Twitter, Facebook, Spotify, wikipedia, Reddit, GitHub, ISS) mettono a disposizine API per offrire un punto d'accesso ai loro dati.  


### Processo
Dalla nostra parte possiamo usare le loro API per recuperare i loro dati e analizzarli.  
Generalmente viene richiesta un'autentificazione al sito da cui potremo avere accesso ad un access token personalizzato che ci servirà per la richiesta dei dati, ad esempio per Twitter, in questo Jupyter Notebook utilizzeremo API che non richiedoono autentificazione.

### Vantaggi
I vantaggi di usare API invece di scaricare un dataset statico sono:
* Accedere ad aggiornamenti più immediati
* Richiedere solo parte di un grande dataset di dati
* Disporre di dati già strutturati e classificati 

### ISS API
Utilizzeremo "API from space" http://open-notify.org  

Altre risorse:  
http://open-notify.org/Open-Notify-API  
ISS, International Space Station https://en.wikipedia.org/wiki/International_Space_Station  


### Altre API senza autentificazione
Potete poi esplorare direttamente altre API senza autorizzazioni:
https://shkspr.mobi/blog/2016/05/easy-apis-without-authentication

Ricordiamo che in ogni caso anche per API che richiedono un token autentificatico la procedura è solitamente abbastanza semplice e vi consiglio di esplorare API anche ti altri siti tipo Twitter.

Concluderemo con alcuni cenni a come siti diversi forniscano modi diversi di accedere ai dati, esempio di Wikipedia, e a come richiamare alcuni dati da siti web.

Come sempre ricordiamo che sfruttiamo la potenzialità di Jupyter Notebook nel comportarsi come interprete, nel caso di script .py ricordiamoci di utilizzare `print()` per gli output che vogliamo che l'utente finale visualizzi.

### Richiesta di API e libreria `requests`.

Quando digitiamo un indirizzo web sul nostro programma di navigazione il computer richiede al server di tale sito per una pagina web che sarà visualizzata nel nostro browser.

Le API funzionano in un modo simile, invece di chiedere per una pagina web richiede direttamente dei dati che solitamente arrivano in formato JSON (JavaScript Object Notation).

Quindi per avere accesso a tali dati dobbiamo fare una richiesta al web server, in Python ci sono librerie standard apposite per fare questo tipo di richieste.

In [1]:
import requests

Iniziamo a verificare i codici di stato delle nostre richieste utilizzando `requests.get` sulle API di Open Notify.

Elenco codici di stato e loro significato: https://it.wikipedia.org/wiki/Codici_di_stato_HTTP

In [2]:
response = requests.get("http://api.open-notify.org/iss-now.json")

response.status_code

200

**Codice 200**: tutto bene

In [3]:
response = requests.get("http://api.open-notify.org/iss-pass")

response.status_code

404

**Codice 404**: la risorsa che stiamo cercando non è stata trovata sul server

In [4]:
response = requests.get("http://api.open-notify.org/iss-pass.json")

response.status_code

400

**Codice 400**: 'bad request' cattiva richiesta, la documentazione ci indica che sono necessari altri due paramentri (lat e lon)

Possiamo verificare con **`dir`** quali altri metodi e attributi possiamo richiamare.

In [5]:
dir(response)

['__attrs__',
 '__bool__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__nonzero__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_content',
 '_content_consumed',
 '_next',
 'apparent_encoding',
 'close',
 'connection',
 'content',
 'cookies',
 'elapsed',
 'encoding',
 'headers',
 'history',
 'is_permanent_redirect',
 'is_redirect',
 'iter_content',
 'iter_lines',
 'json',
 'links',
 'next',
 'ok',
 'raise_for_status',
 'raw',
 'reason',
 'request',
 'status_code',
 'text',
 'url']

## Richiesta a ISS usando le coordinate di Torino

Stampiano la richiesta con i giusti parametri con `.content`.

In [6]:
# Impostiamo i giusti parametri per fare la nostra richiesta
parameters = {"lat": 45.07, "lon": 7.68}

# Facciamo la nostra richiesta con i parametri impostati
response = requests.get("http://api.open-notify.org/iss-pass.json", params=parameters)

response.content

b'{\n  "message": "success", \n  "request": {\n    "altitude": 100, \n    "datetime": 1518172213, \n    "latitude": 45.07, \n    "longitude": 7.68, \n    "passes": 5\n  }, \n  "response": [\n    {\n      "duration": 96, \n      "risetime": 1518172489\n    }, \n    {\n      "duration": 598, \n      "risetime": 1518177967\n    }, \n    {\n      "duration": 638, \n      "risetime": 1518183724\n    }, \n    {\n      "duration": 612, \n      "risetime": 1518189553\n    }, \n    {\n      "duration": 624, \n      "risetime": 1518195372\n    }\n  ]\n}\n'

In [7]:
# Possiamo usare i parametri direttaente nell'indirizzo della richiesta
response = requests.get("http://api.open-notify.org/iss-pass.json?lat=45.071&lon=7.68")
response.content

b'{\n  "message": "success", \n  "request": {\n    "altitude": 100, \n    "datetime": 1518172273, \n    "latitude": 45.071, \n    "longitude": 7.68, \n    "passes": 5\n  }, \n  "response": [\n    {\n      "duration": 96, \n      "risetime": 1518172490\n    }, \n    {\n      "duration": 598, \n      "risetime": 1518177967\n    }, \n    {\n      "duration": 638, \n      "risetime": 1518183724\n    }, \n    {\n      "duration": 612, \n      "risetime": 1518189553\n    }, \n    {\n      "duration": 624, \n      "risetime": 1518195372\n    }\n  ]\n}\n'

In [8]:
# Notiamo che il risultato ha un suo formato specifico

type(response)

requests.models.Response

Convertiamo in contenuto della risposta in stringa con **`.decode`**.

In [9]:
str_response = response.content.decode("utf-8")

In [10]:
type(str_response)

str

In [11]:
str_response

'{\n  "message": "success", \n  "request": {\n    "altitude": 100, \n    "datetime": 1518172273, \n    "latitude": 45.071, \n    "longitude": 7.68, \n    "passes": 5\n  }, \n  "response": [\n    {\n      "duration": 96, \n      "risetime": 1518172490\n    }, \n    {\n      "duration": 598, \n      "risetime": 1518177967\n    }, \n    {\n      "duration": 638, \n      "risetime": 1518183724\n    }, \n    {\n      "duration": 612, \n      "risetime": 1518189553\n    }, \n    {\n      "duration": 624, \n      "risetime": 1518195372\n    }\n  ]\n}\n'

Essendo una stringa possiamo anche maniporarla per renderla più leggibile, ricordiamo che i `\n` sono simboli che indicano la fine di una riga che possono essere utili per la conversione in altri formati.

In [12]:
str_response.replace("\n", "").replace("  ", "")

'{"message": "success", "request": {"altitude": 100, "datetime": 1518172273, "latitude": 45.071, "longitude": 7.68, "passes": 5}, "response": [{"duration": 96, "risetime": 1518172490}, {"duration": 598, "risetime": 1518177967}, {"duration": 638, "risetime": 1518183724}, {"duration": 612, "risetime": 1518189553}, {"duration": 624, "risetime": 1518195372}]}'

## JSON, JavaScript Object Notation
Risorse http://json.org  

JSON è un formato per strutturare i dati in modo che siano più gestibili e manipolabili.  

**`json`** è anche il nome di una libreria standard in Python che ci permette fra le altre cose di: 
* converire stringhe in liste e dizionari con **`json.dumps()`**
* convertire liste e dizionari in json file **`json.load()`**

## Richiediamo JSON da API

In [13]:
parameters = {"lat": 45.07, "lon": 7.68}
response = requests.get("http://api.open-notify.org/iss-pass.json", params=parameters)

data = response.json()
type(data)

dict

In [14]:
data

{'message': 'success',
 'request': {'altitude': 100,
  'datetime': 1518172213,
  'latitude': 45.07,
  'longitude': 7.68,
  'passes': 5},
 'response': [{'duration': 96, 'risetime': 1518172489},
  {'duration': 598, 'risetime': 1518177967},
  {'duration': 638, 'risetime': 1518183724},
  {'duration': 612, 'risetime': 1518189553},
  {'duration': 624, 'risetime': 1518195372}]}

In [15]:
data['response']

[{'duration': 96, 'risetime': 1518172489},
 {'duration': 598, 'risetime': 1518177967},
 {'duration': 638, 'risetime': 1518183724},
 {'duration': 612, 'risetime': 1518189553},
 {'duration': 624, 'risetime': 1518195372}]

Convertiamo il dizionario in un Pandas dataframe come già sappiano fare

In [16]:
import pandas as pd
df_response = pd.DataFrame(data['response'])

In [17]:
df_response

Unnamed: 0,duration,risetime
0,96,1518172489
1,598,1518177967
2,638,1518183724
3,612,1518189553
4,624,1518195372


## Headers e contenuto
Usiamo `.headers` per vedere il contenuto dell'header, metadata all'inizio della nostra response.

In [18]:
response.headers

{'Server': 'nginx/1.10.3', 'Date': 'Fri, 09 Feb 2018 11:07:19 GMT', 'Content-Type': 'application/json', 'Content-Length': '517', 'Connection': 'keep-alive', 'Via': '1.1 vegur'}

In [19]:
response.headers["content-type"]

'application/json'

## Astronauti sulla ISS ora

In [20]:
# Get the response from the API endpoint.
response = requests.get("http://api.open-notify.org/astros.json")
data = response.json()

In [21]:
data

{'message': 'success',
 'number': 6,
 'people': [{'craft': 'ISS', 'name': 'Alexander Misurkin'},
  {'craft': 'ISS', 'name': 'Mark Vande Hei'},
  {'craft': 'ISS', 'name': 'Joe Acaba'},
  {'craft': 'ISS', 'name': 'Anton Shkaplerov'},
  {'craft': 'ISS', 'name': 'Scott Tingle'},
  {'craft': 'ISS', 'name': 'Norishige Kanai'}]}

In [22]:
# Numero di umani presenti ora nello spazio
data["number"]

6

In [23]:
type(data)

dict

In [24]:
import pandas as pd
df = pd.DataFrame(data)

In [25]:
df

Unnamed: 0,message,number,people
0,success,6,"{'craft': 'ISS', 'name': 'Alexander Misurkin'}"
1,success,6,"{'craft': 'ISS', 'name': 'Mark Vande Hei'}"
2,success,6,"{'craft': 'ISS', 'name': 'Joe Acaba'}"
3,success,6,"{'craft': 'ISS', 'name': 'Anton Shkaplerov'}"
4,success,6,"{'craft': 'ISS', 'name': 'Scott Tingle'}"
5,success,6,"{'craft': 'ISS', 'name': 'Norishige Kanai'}"


In [26]:
astronauts = pd.DataFrame(data['people'])

In [27]:
astronauts

Unnamed: 0,craft,name
0,ISS,Alexander Misurkin
1,ISS,Mark Vande Hei
2,ISS,Joe Acaba
3,ISS,Anton Shkaplerov
4,ISS,Scott Tingle
5,ISS,Norishige Kanai


In [28]:
astronauts.index += 1 

In [29]:
astronauts

Unnamed: 0,craft,name
1,ISS,Alexander Misurkin
2,ISS,Mark Vande Hei
3,ISS,Joe Acaba
4,ISS,Anton Shkaplerov
5,ISS,Scott Tingle
6,ISS,Norishige Kanai


## Wikipedia API

Iniziamo col fare alcune richieste da API
http://2015.compjour.org/tutorials/exploring-wikipedia-api-via-python/

In [30]:
resp = requests.get("http://en.wikipedia.org/w/api.php?action=query&prop=info&format=json&titles=Hello")
resp.status_code

200

In [31]:
resp.json()

{'batchcomplete': '',
 'query': {'pages': {'6710844': {'contentmodel': 'wikitext',
    'lastrevid': 820524053,
    'length': 11891,
    'ns': 0,
    'pageid': 6710844,
    'pagelanguage': 'en',
    'pagelanguagedir': 'ltr',
    'pagelanguagehtmlcode': 'en',
    'title': 'Hello',
    'touched': '2018-02-06T13:53:45Z'}}}}

In [32]:
url = 'http://en.wikipedia.org/w/api.php?action=query&prop=info&format=json&titles=Polytechnic%20University%20of%20Turin'
resp = requests.get(url)
data = resp.json()

In [33]:
data

{'batchcomplete': '',
 'query': {'pages': {'911906': {'contentmodel': 'wikitext',
    'lastrevid': 824642616,
    'length': 13408,
    'ns': 0,
    'pageid': 911906,
    'pagelanguage': 'en',
    'pagelanguagedir': 'ltr',
    'pagelanguagehtmlcode': 'en',
    'title': 'Polytechnic University of Turin',
    'touched': '2018-02-08T16:29:33Z'}}}}

## Librerie Python per Wikipedia API
https://en.wikipedia.org/w/api.php  
https://www.mediawiki.org/wiki/API:Main_page


Wikipedia ha anche una sua libreria Python apposita per lanciare i suoi comandi dobbiamo prima installarla.

Libreria Python **`wikipedia`** https://pypi.python.org/pypi/wikipedia  
Installabile da terminale con **`pip install wikipedia`**

In [34]:
import wikipedia
wikipedia.summary("Wikipedia")

'Wikipedia ( ( listen) WIK-i-PEE-dee-ə or  ( listen) WIK-ee-PEE-dee-ə) is a free online encyclopedia with the mission of allowing anyone to create or edit articles. Wikipedia is the largest and most popular general reference work on the Internet, and is ranked the fifth-most popular website. Wikipedia is a project owned by the nonprofit Wikimedia Foundation.\nWikipedia was launched on January 15, 2001, by Jimmy Wales and Larry Sanger. Sanger coined its name, a portmanteau of wiki and encyclopedia. There was only the English-language version initially, but similar versions in other languages quickly developed, which differ in content and in editing practices. With 5,567,872 articles, the English Wikipedia is the largest of the more than 290 Wikipedia encyclopedias. Overall, Wikipedia comprises more than 40 million articles in 299 different languages and, as of February 2014, it had 18 billion page views and nearly 500 million unique visitors each month.\nAs of March 2017, Wikipedia has 

In [35]:
wikipedia.search("Python")

['Python',
 'Python (programming language)',
 'Monty Python',
 'PYTHON',
 'Ball python',
 'Python molurus',
 'Burmese python',
 'African rock python',
 'List of Python software',
 'Python (missile)']

## Librerie standard per richiamare contenuti da URL

Per completezza citiamo anche le libreria standard in Python per lavorare in generale con contenuti web.

Nota: la libreria standard di Python 2 **`urllib2`**, in Python 3 è stata divisa nei moduli **`urllib.request`** e **`urllib.error`**.

Risorse: https://docs.python.org/3.0/library/urllib.request.html

In [36]:
import urllib.request

A fini dimostrativi guardiamo uno dei suoi metodi per catturare i contenuti web di una pagina

In [37]:
url = "https://it.indeed.com/offerte-lavoro-Data-Scientist"
result = urllib.request.urlopen(url)

In [38]:
result

<http.client.HTTPResponse at 0x111e499b0>

In [39]:
result.url

'https://it.indeed.com/offerte-lavoro-Data-Scientist'

In [40]:
result.read()

b'<!DOCTYPE html>\n<html lang="it">\n<head>\n<meta http-equiv="content-type" content="text/html;charset=UTF-8">\n<script type="text/javascript" src="/s/0920edb/it_IT.js"></script>\n<link href="/s/ecdfb5e/jobsearch_all.css" rel="stylesheet" type="text/css">\n<link rel="alternate" type="application/rss+xml" title="Lavoro - Data Scientist, Offerte lavoro" href="http://it.indeed.com/rss?q=Data+Scientist">\n<link rel="alternate" media="only screen and (max-width: 640px)" href="/m/jobs?q=Data+Scientist">\n<link rel="alternate" media="handheld" href="/m/jobs?q=Data+Scientist">\n<script type="text/javascript">\n    \n    if (typeof window[\'closureReadyCallbacks\'] == \'undefined\') {\n        window[\'closureReadyCallbacks\'] = [];\n    }\n\n    function call_when_jsall_loaded(cb) {\n        if (window[\'closureReady\']) {\n            cb();\n        } else {\n            window[\'closureReadyCallbacks\'].push(cb);\n        }\n    }\n</script>\n<meta name="ppstriptst" content="1">\n\n<script 

In [41]:
dir(result)

['__abstractmethods__',
 '__class__',
 '__del__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__enter__',
 '__eq__',
 '__exit__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__next__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '_abc_cache',
 '_abc_negative_cache',
 '_abc_negative_cache_version',
 '_abc_registry',
 '_checkClosed',
 '_checkReadable',
 '_checkSeekable',
 '_checkWritable',
 '_check_close',
 '_close_conn',
 '_get_chunk_left',
 '_method',
 '_peek_chunked',
 '_read1_chunked',
 '_read_and_discard_trailer',
 '_read_next_chunk_size',
 '_read_status',
 '_readall_chunked',
 '_readinto_chunked',
 '_safe_read',
 '_safe_readinto',
 'begin',
 'chunk_left',
 'chunked',
 'close',
 'closed',
 'code',
 'debuglevel',
 'detach',
 'fileno',
 'flush',
 'fp',
 'getcode',
 'gethead

## Let's play!

Per approndire puoi leggere la documentazione delle librerie citate ed esplorare altre API con autentificazione come quella di Twitter citata.

Risorsa https://developer.twitter.com/en/docs