# APIs Scraping
## Introfuction aux APIs et requêtes APIs
### Qu'est-ce qu'une API ?

API pour Application Program Interface

Ensemble d'outils et méthodes qui autorisent différentes applications à interragir entre elles. Pour récupérer de la data dynamiquement.

Ex: Twitter, les posts, les comments..

### Requête API

In [1]:
import requests

#### Requête GET

In [3]:
# Requête pour obtenir la dernière position de la sation ISS depuis l'API OpenNotify
response = requests.get("http://api.open-notify.org/iss-now.json") 
#On ajoute après l'adresse de l'API (http://api.open-notify.org) un point d'accès ou endpoint 
#qui donne accès à des informations (ici: iss-now.json --> latitude et longitude de la sation)

## Code status

In [4]:
response

<Response [200]>

#### 200 - Tout est OK : le serveur retourne le résultat de la requête

In [6]:
status_code = response.status_code
print(status_code)

200


#### 301 - Le serveur redirige vers un autre paramètre

#### 400 - Mauvaise requête

In [8]:
response = requests.get("http://api.open-notify.org/iss-pass.json")
status_code = response.status_code
print(status_code)

400


#### 401 - Le serveur pense que vous n'êtes pas authentifié

#### 403 - Vous n'êtes pas autorisé à accéder à l'API

#### 404 - Le serveur n'a pas trouvé la ressource (souvent liée au point d'accès)

In [9]:
response = requests.get("http://api.open-notify.org/iss-pass")
status_code = response.status_code
print(status_code)

404


# Paramètres de requête

In [11]:
# latitude et longitude de la ville Paris
parameters = {"lat": 48.84, "lon": 2.33}

In [12]:
# http://api.pone-notify.org/iss-pass.json?lat=48.87&lon=2.33

In [13]:
response = requests.get("http://api.open-notify.org/iss-pass.json", params=parameters)

In [15]:
content = response.content #on récupère le contenu
print(content)

b'{\n  "message": "success", \n  "request": {\n    "altitude": 100, \n    "datetime": 1585580751, \n    "latitude": 48.84, \n    "longitude": 2.33, \n    "passes": 5\n  }, \n  "response": [\n    {\n      "duration": 639, \n      "risetime": 1585582809\n    }, \n    {\n      "duration": 652, \n      "risetime": 1585588607\n    }, \n    {\n      "duration": 651, \n      "risetime": 1585594433\n    }, \n    {\n      "duration": 649, \n      "risetime": 1585600246\n    }, \n    {\n      "duration": 542, \n      "risetime": 1585606076\n    }\n  ]\n}\n'


# Format JSON

librairie JSON:

- dumps -- prend en entrée un objet Python et retourne une chaine de caractère
- loads -- prend en entrée un chaine de caractères JSON et retourne un objet Python (listes, dictionnaires...)

### Exemple

In [18]:
# Soit une liste de sports
sports = ["Tennis", "Foot", "Triathlon"]
print(sports)

['Tennis', 'Foot', 'Triathlon']


In [19]:
print(type(sports))

<class 'list'>


In [20]:
# importer la librairie JSON
import json

In [21]:
# Méthode json.dumps pour convertir en chaine de caractère
sports_string = json.dumps(sports)
print(sports_string)

["Tennis", "Foot", "Triathlon"]


In [22]:
print(type(sports_string))

<class 'str'>


In [23]:
# Convertire sports_string en liste -- méthode json.loads
sports_list = json.loads(sports_string)
print(sports_list)

['Tennis', 'Foot', 'Triathlon']


In [24]:
print(type(sports_list))

<class 'list'>


# Obtenir un JSON depuis une requête

In [26]:
# Méthode json()
# Reprenons notre requête avec les coordonées de Paris
parameters = {'lat':48.87, 'lon':2.33}
response = requests.get("http://api.open-notify.org/iss-pass.json",
                       params=parameters)

In [27]:
# Obtenir un objet Python
json_data = response.json()
print(type(json_data))

<class 'dict'>


In [28]:
print(json_data)

{'message': 'success', 'request': {'altitude': 100, 'datetime': 1585581642, 'latitude': 48.87, 'longitude': 2.33, 'passes': 5}, 'response': [{'duration': 639, 'risetime': 1585582809}, {'duration': 652, 'risetime': 1585588608}, {'duration': 651, 'risetime': 1585594433}, {'duration': 649, 'risetime': 1585600246}, {'duration': 541, 'risetime': 1585606076}]}


In [31]:
first_pass_duration = json_data['response'][0]['duration']
print(first_pass_duration)

639


# Type de contenu

In [32]:
# .headers

In [33]:
print(response.headers)

{'Connection': 'keep-alive', 'Content-Length': '518', 'Content-Type': 'application/json', 'Date': 'Mon, 30 Mar 2020 15:32:27 GMT', 'Server': 'nginx/1.10.3', 'Via': '1.1 vegur'}


In [34]:
content_type = response.headers['Content-type']
print(content_type)

application/json
