# **Python**
# **TP 5 - Requêtes HTTP et API**


***

[**Notions**](#notions)

1. [Le package `requests` et les API](#1a)
2. [La requête `GET`](#2)
3. [Status codes (codes de réponses HTTP)](#3)
4. [Headers de réponses](#4)
5. [Paramètres de requêtes](#5)
6. [Headers de requêtes](#6)
7. [Types de requêtes / HTTP Methods](#7)




*** 

[**Exercices**](#exercices)

- Exercice 1 - Manipulation de résultats de requêtes
- Exercice 2 - Authentification et API Le Seigneur des Anneaux

***

<a id='1'></a>

## 1. Le package `requests`

- `requests` est le package standard pour faire des requêtes HTTP en Python.
- La librairies permet de faire des requêtes pour interagir avec des ressources distantes, très simplement et avec peu de code.
- [Documentation officielle : Requests: HTTP for Humans](https://requests.readthedocs.io/en/master/)

<a id='1'></a>
## 1. ... et les API
- Tiré de : [Practical Programming](https://practicalprogramming.fr/api-rest/)
- **API** est un acronyme pour “Application Programming Interface” ou Interface de programmation d’application en français : 
 - Il s’agit d’une interface permettant l’interaction entre différentes applications. 
 - Elle définit quels appels ou requêtes peuvent être réalisés et comment les réaliser : le format des données à utiliser, la structure de la réponse, les conventions à respecter etc. 

<center>
<img src="images/restapi.png" width="600">
 </center>
 
 
- Tiré de : [Practical Programming](https://practicalprogramming.fr/api-rest/)
- **API Rest** : REST (pour REpresentational State Transfer) est une type d’architecture d’API qui fournit un certain nombre de normes et de conventions à respecter pour faciliter la communication entre applications. Les APIs qui respectent le standard REST sont appelées API REST ou API RESTful.

 - Les principes d’une architecture REST
 - Le standard REST impose six contraintes architecturales qui doivent toutes être respectées par un système pour qu’il soit qualifiable de système RESTful. Le strict respect de ces six contraintes permet d’assurer une fiabilité, une scalabilité et une extensibilité optimales.

    - La séparation entre client et serveur
    - L’absence d’état de sessions (stateless)
    - L’uniformité de l’interface 
    - La mise en cache
    - L’architecture en couches
    - Le code à la demande. Cette contrainte est optionnelle. 

<a id="2"></a>
## 2. La requête `GET`

- Le requête `GET` accède à une page web par son URL et renvoie la page (ou le fichier) dans son intégralité. 

**Exemple**
- Un lien de téléchargement d'un fichier `json` : https://www.nosdeputes.fr/deputes/enmandat/json

In [1]:
import requests

# On fait une requête GET sur cette adresse
# r = response
r = requests.get("https://www.nosdeputes.fr/deputes/enmandat/json")

#######################################
# A la main
#######################################

# Le contenu est un objet de type bytes
content = r.content

# On le convertit en string
json_string = r.content.decode()

# On peut aussi obtenir directement le json au format string ainsi :    
json_string = r.text


import json
# On le convertit ensuite en dictionnaire
d = json.loads(json_string)


# On vérifie les types des variables
for var_name, var in zip(["content", "json_string", "d"], [content, json_string, d]):
    print(f"Type of {var_name} is {type(var)}")

#######################################
# Mieux : 
#######################################
d = r.json()

#######################################




Type of content is <class 'bytes'>
Type of json_string is <class 'str'>
Type of d is <class 'dict'>


In [14]:
# d

In [3]:
# On fait une requête GET sur cette adresse
# r = response
r = requests.get("https://www.nosdeputes.fr/deputes/enmandat/json")

# On peut aussi obtenir directement le dictionnaire ainsi :
d = r.json()

In [15]:
print(d.keys())

from pprint import pprint

pprint(d["deputes"][200])

dict_keys(['deputes'])
{'depute': {'adresses': [{'adresse': 'Assemblée nationale, 126 Rue de '
                                     "l'Université, 75355 Paris 07 SP"}],
            'anciens_autres_mandats': [],
            'anciens_mandats': [{'mandat': '22/06/2022 /  / '}],
            'autres_mandats': [],
            'collaborateurs': [{'collaborateur': 'Mme Huguette Dies'},
                               {'collaborateur': 'M. Xavier Baudry'},
                               {'collaborateur': 'M. Hubert de Jacquelin'}],
            'date_naissance': '1968-02-20',
            'emails': [{'email': 'sophie.blanc@assemblee-nationale.fr'}],
            'groupe_sigle': 'RN',
            'id': 208,
            'id_an': '794886',
            'lieu_naissance': 'Toulouse (Haute-Garonne)',
            'mandat_debut': '2022-06-22',
            'nb_mandats': 0,
            'nom': 'Sophie Blanc',
            'nom_circo': 'Pyrénées-Orientales',
            'nom_de_famille': 'Blanc',
            'nu

<a id="3"></a>
## 3. Status codes
- Dans l'objet renvoyé par une requête faite avec `requests`, ici l'objet `r`, on peut accéder au `status_code`
- Ce dernier nous renseigne sur le succès de la requête - et peut donner des informations supplémentaires :
 - Vous en connaissez tous déjà un exemple : [Le code HTTP 404](https://fr.wikipedia.org/wiki/Erreur_HTTP_404)
 - Liste des `status_codes` : [List of HTTP status codes - Wikipedia](https://en.wikipedia.org/wiki/List_of_HTTP_status_codes)
 
 
 
- Comment les lire : 

 - **1xx** : Information / Informational Response

 - **2xx** : Succès / Success

 - **3xx** : Redirection / Redirection

 - **4xx** : Erreur du client / Client Errors

 - **5xx** : Erreur du serveur / Server Errors

**Exemple**
- Dans le code ci dessous : 
 - `GET`sur l'adresse : "https://www.nosdeputes.fr/deputes/enmandat/json" renvoie un code 200 (succès)
 - `GET`sur l'adresse : "https://www.nosdeputes.fr/deputes/enmandat/json123" renvoie un code 404 (Non trouvée, car l'url est fausse)

In [16]:
# On fait une requête GET sur cette adresse
r = requests.get("https://www.nosdeputes.fr/deputes/enmandat/json")
print(f"Status code : {r.status_code}")


# On fait une requête GET sur cette adresse qui est fausse
r = requests.get("https://www.nosdeputes.fr/deputes/enmandat/json123")
print(f"Status code : {r.status_code}")

Status code : 200
Status code : 404


<a id="4"></a>

## 4. Headers de réponses

- Les headers de la réponse à la requête HTTP peuvent donner des informations utiles sur le type de la réponse
- Les headers renvoyés par `requests` sont des dictionnaires "Case Insensitive" - on n'a pas à se soucier de la casse en les manipulant

In [6]:
# On fait une requête GET sur cette adresse
r = requests.get("https://www.nosdeputes.fr/deputes/enmandat/json")
print("type:", type(r.headers))
print("\nHeaders :")
pprint(dict(r.headers))

# Case insensitive
print("\nCase insensitive :")
print(r.headers['ContENt-Type'])
print(r.headers['content-type'])

type: <class 'requests.structures.CaseInsensitiveDict'>

Headers :
{'Access-Control-Allow-Origin': '*',
 'Cache-Control': 'no-store, no-cache, must-revalidate',
 'Connection': 'Keep-Alive',
 'Content-Disposition': 'attachment; '
                        'filename="nosdeputes.fr_deputes_en_mandat_2022-08-29.json"',
 'Content-Encoding': 'gzip',
 'Content-Type': 'text/plain; charset=utf-8',
 'Date': 'Mon, 29 Aug 2022 11:30:24 GMT',
 'Expires': 'Thu, 19 Nov 1981 08:52:00 GMT',
 'Keep-Alive': 'timeout=5, max=100',
 'Pragma': 'no-cache',
 'Server': 'Apache/2.4.53 (Debian)',
 'Set-Cookie': 'symfony=aud2qkddn94e4ni5sbl2iirm77; path=/',
 'Transfer-Encoding': 'chunked',
 'Vary': 'Accept-Encoding'}

Case insensitive :
text/plain; charset=utf-8
text/plain; charset=utf-8


<a id="5"></a>

## 5. Paramètres de requêtes 

- Dans certains cas, on peut ajouter des paramètres à une requête `GET` HTTP
- Un exemple avec l'API de Github : on peut chercher par mot clefs - cherchons le repository du cours

In [2]:
# On passe les paramètres ainsi à la fonction get 
# équivalent à  requests.get("https://api.github.com/search/repositories?q=hetic_m1_csb")
response = requests.get(
    'https://api.github.com/search/repositories',
    params={'q': 'hetic_m1_csb'},
)
# Voici l'url utilisées
url = response.url
print(f"Url utilisée : {url}")

#
json_response = response.json()
#print(json_response["items"])
repository = json_response['items'][0]
print(f"Status code : {response.status_code}")
print(f'Url du repo: {repository["full_name"]}')  # Python 3.6+

Url utilisée : https://api.github.com/search/repositories?q=hetic_m1_csb
Status code : 200
Url du repo: kevin-sagan/hetic_m1_csb_public


In [18]:
url_google = "https://www.google.com/search?q=hetic&oq=hetic+&aqs=chrome..69i57j0l3j69i60l4.1381j0j4&sourceid=chrome&ie=UTF-8"
params_string = url_google.split("?")[1]
params_string.split("&")

['q=hetic',
 'oq=hetic+',
 'aqs=chrome..69i57j0l3j69i60l4.1381j0j4',
 'sourceid=chrome',
 'ie=UTF-8']

<a id="6"></a>
## 6. Headers de requêtes

- On peut customiser les requêtes en renseignant des paramètres dans le header

**Exemple**
- Dans cet exemple on utilise un header propriétaire de GitHub qui renseigne sur le matching des mots clefs utilisés dans la requête

In [20]:
import requests

response = requests.get(
    'https://api.github.com/search/repositories',
    params={'q': 'hetic_m1_csb'},
    headers={'Accept': 'application/vnd.github.v3.text-match+json'},
)

json_response = response.json()
repository = json_response['items'][0]
# Renseigne sur les positions des mots clefs de la recherche dans le repository
pprint(f'Text matches: {repository["text_matches"]}')

("Text matches: [{'object_url': "
 "'https://api.github.com/repositories/308571538', 'object_type': "
 "'Repository', 'property': 'name', 'fragment': 'hetic_m1_csb_public', "
 "'matches': [{'text': 'hetic', 'indices': [0, 5]}, {'text': 'm1', 'indices': "
 "[6, 8]}, {'text': 'csb', 'indices': [9, 12]}]}]")


- User Agent

In [21]:
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
r = requests.get("https://www.nosdeputes.fr/deputes/enmandat/json", headers=headers)
r.status_code

200

<a id="7"></a>

## 7. Types de requêtes / HTTP Methods

- Il existe différentes requêtes HTTP qui permettent de faire différentes opérations : dans les API Rest, on veille à bien utiliser une méthode pour une certaine opération.
- Quelques débats à propos de ces méthodes : https://blog.engineering.publicissapient.fr/2014/03/17/post-vs-put-la-confusion/
- Les `https://httpbin.org/{method}` permettent de tester les requêtes


In [22]:
# On envoie une ressource : par exemple un formulaire (plutôt pour un "update")
response = requests.post('https://httpbin.org/post', data={'key':'value'})
print(f"Status code : {response.status_code}")
# print le retour des données envoyées

Status code : 200


In [24]:
response.json()

{'args': {},
 'data': '',
 'files': {},
 'form': {'key': 'value'},
 'headers': {'Accept': '*/*',
  'Accept-Encoding': 'gzip, deflate',
  'Content-Length': '9',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'httpbin.org',
  'User-Agent': 'python-requests/2.26.0',
  'X-Amzn-Trace-Id': 'Root=1-630de15c-7dd5b889127e25e035b86ce7'},
 'json': None,
 'origin': '95.91.215.113',
 'url': 'https://httpbin.org/post'}

In [25]:
# On envoie une ressource : par exemple un formulaire (plutôt pour un "create")
response = requests.put('https://httpbin.org/put', data={'key':'value'})
print(f"Status code : {response.status_code}")

# On supprime une ressource
response = requests.delete('https://httpbin.org/delete')
print(f"Status code : {response.status_code}")

# On veut accéder au header d'une page (ou metadonnees)
response = requests.head('https://httpbin.org/head')
print(f"Status code : {response.status_code}")

Status code : 200
Status code : 200
Status code : 200


<a id='exercices'></a>
## Exercice 1 - Manipulation de résultats de requêtes

- 1. En utilisant une requête `GET`sur l'url du premier exemple : 
    - Créer la liste de tous les partis politiques
    - Trouver tous les députés qui ont aussi un autre mandat
    - Trouver tous les députés qui ont eu un premier mandat avant l'an 2000
    - Etablir la liste des liens Twitter des députés renvoyés par l'API
    
    
- 2. En utilisant une requête `GET`sur l'url d'un lien Twitter de la liste précédente : 
    - Interpréter une valeur de l'attribut headers de la réponse
    - Afficher le code source de la page du profil Twitter d'un député

In [1]:
## Créer la liste de tous les partis politiques

import requests
import re

r = requests.get("https://www.nosdeputes.fr/deputes/enmandat/json")
d = r.json()
d = d["deputes"] # on prend la valeur de la clef "deputes" pour ne pas avoir à toujours réécrire la clef 

# Le Set permet de prendre les valeurs uniques sans répétition
partis = set([dep["depute"]['parti_ratt_financier'] for dep in d])


# On retire la chaîne de caractères vide
# "if p" est équivalent à "if p != '' " 
# C'est à dire qu'on test que p n'est pas la chaîne de caractères vide
partis = [p for p in partis if p] 
print(partis, "\n")

# Deputes avec un autre mandat
autres_mandats = [dep["depute"]["nom"] for dep in d if dep["depute"]["autres_mandats"] != []]
print(len(autres_mandats), "deputes avec un autre mandat\n")


# Deputes avec un mandat avant 2000
deputes_mandats_avant_2000 = []
for dep in d:
    
    anciens_mandats = dep["depute"]["anciens_mandats"]
    #print(dep["depute"]["nom"])
    years = []
    for d_mandat in anciens_mandats:
        # re.findall() nous permet de matcher un pattern
        # ici on cherche à matcher une date : \d indique un chiffre
        # on cherche au format : XX / XX / XX
        # donc le pattern est : \d \d / \d \d / \d\d
        dates = re.findall(r'\d\d/\d\d/\d\d\d\d', d_mandat["mandat"])
        # on garde l'année
        years_mandat = [x.split("/")[-1] for x in dates]
        # on convertit en entier
        years_mandat = [int(x) for x in years_mandat]
        # on garde les années trouvées
        years = years + years_mandat
    
    # on vérifie si la liste est non vide
    if years != [] and min(years) < 2000:
            deputes_mandats_avant_2000.append(dep["depute"]["nom"])
            
print(deputes_mandats_avant_2000)    
print("\n")


import datetime

# Autre solution
deputes_mandats_avant_2000 = []
for dep in d:
    
    anciens_mandats = dep["depute"]["anciens_mandats"]
    #print(dep["depute"]["nom"])
    years = []
    for d_mandat in anciens_mandats:
        # exemple : 20/06/2012 / 20/06/2017 / fin de législature
        dates = d_mandat["mandat"].split(" / ")
    
        
        for item in dates:
            try:
                day, month, year = tuple(item.split("/"))
                years.append(int(year))
            except:
                pass
            
    # on vérifie si la liste est non vide
    if years != [] and min(years) < 2000:
            deputes_mandats_avant_2000.append(dep["depute"]["nom"])
print(deputes_mandats_avant_2000)  
print("\n")



# Tous les liens twitters
l_twitter = []

for i in range(len(d)):
    sites = [list(x.values())[0] for x in d[i]["depute"]["sites_web"]]
    twitters = [x for x in sites if x.startswith("https://twitter")]
    try:
        twitter = twitters[0]
        l_twitter.append(twitter)
    except:
        pass
    
print(len(l_twitter), "liens twitter")

[] 

0 deputes avec un autre mandat

['Nicolas Forissier', 'Nicolas Dupont-Aignan', 'Charles de Courson', 'Jean-Pierre Pont', 'Marc Le Fur', 'Michel Herbillon', 'Jean-Luc Warsmann']


['Nicolas Forissier', 'Nicolas Dupont-Aignan', 'Charles de Courson', 'Jean-Pierre Pont', 'Marc Le Fur', 'Michel Herbillon', 'Jean-Luc Warsmann']


552 liens twitter


## Exercice 2 - Authentification et API Le Seigneur des Anneaux

- [Documentation](https://the-one-api.dev/documentation)
- Attention ! Pas plus de 100 requêtes toutes les 10 minutes (utiliser `time.sleep()` entre les requêtes si nécessaire)
- A part pour l'endpoint `/book` qui renvoie la liste des livres, il faut être authentifié

- 1. Inscrivez-vous en créant un compte [ici](https://the-one-api.dev/sign-up)

- 2. Faites une requête pour rapatrier la liste de tous les livres (cf exemple)

- 3. Créer la liste de tous les personnages

- 4. Créer la liste de tous les personnages qui ne sont pas des humains

In [2]:
# Liste de tous les livres
from pprint import pprint
import requests
url = "https://the-one-api.dev/v2/book"
r = requests.get(url)
json_data = r.json()
# print(json_data)

In [16]:
url = "https://the-one-api.dev/v2/character"
headers = {"Authorization" : "Bearer p5Lvqe8RXe73x7Sej2qr"} # Remplacer XXXXXXXXXXXX par la clef affichée lors de l'inscription 
                                                    # (ou disponible sur le site dans la rubrique account en haut à droite)
r = requests.get(url, headers=headers)
json_data = r.json()
pprint(json_data["docs"][300])

personnages = [p["name"] for p in json_data["docs"]]
print(len(personnages), "personnages")


# Première solution : on filtre
not_humans = [p["name"] for p in json_data["docs"] if p["race"]!='Human']
print(len(not_humans), "personnages non humain")

# Deuxième solution, grâce à la documentation de l'API :
url = "https://the-one-api.dev/v2//character?race!=Human"
r = requests.get(url, headers=headers)
json_data = r.json()
not_humans = json_data["docs"]
print(len(not_humans), "personnages non humain")


{'_id': '5cd99d4bde30eff6ebccfcec',
 'birth': 'YT 1300',
 'death': 'FA 465',
 'gender': 'Male',
 'hair': 'Golden',
 'height': '',
 'name': 'Finrod',
 'race': 'Elf',
 'realm': '',
 'spouse': 'Loved ,Amarië but they never married',
 'wikiUrl': 'http://lotr.wikia.com//wiki/Finrod'}
933 personnages
545 personnages non humain
545 personnages non humain


In [22]:
# Cette url 
mot_clef = "Code"
url = f"https://en.wikipedia.org/w/api.php?action=query&prop=extracts&format=json&exintro=&titles={mot_clef}"
# Package the request, send the request and catch the response: r
r = requests.get(url)

# Decode the JSON data into a dictionary: json_data
json_data = r.json()
json_data

# RUVQlI4E6uYyx4yIWr_O


{'batchcomplete': '',
 'query': {'pages': {'5225': {'pageid': 5225,
    'ns': 0,
    'title': 'Code',
    'extract': '<p class="mw-empty-elt">\n</p>\n\n\n<link rel="mw-deduplicated-inline-style" href="mw-data:TemplateStyles:r1033289096">\n<link rel="mw-deduplicated-inline-style" href="mw-data:TemplateStyles:r1033289096">\n<p>In communications and information processing, <b>code</b> is a system of rules to convert information—such as a letter, word, sound, image, or gesture—into another form, sometimes shortened or secret, for communication through a communication channel or storage in a storage medium. An early example is an invention of language, which enabled a person, through speech, to communicate what they thought, saw, heard, or felt to others. But speech limits the range of communication to the distance a voice can carry and limits the audience to those present when the speech is uttered. The invention of writing, which converted spoken language into visual symbols, extended the