# Chapitre 4.3 - Les fichiers CSV, JSON et les requêtes

---

## 1. La structure du web : comment communique-t-on avec un serveur ?

![Anatomie d'une communication HTTP](images/http.request.scheme.png)

Lors d'une communication HTTP avec un serveur, la communication est scindable en deux : l'envoi de la requête et la réponse du serveur. Ces deux éléments de la communication répondent à un ensemble de standards très stricts permettant le fonctionnement du web tel que nous le connaissons.

### 1.A. Anatomie d'une requête :

![Anatomie d'une requête HTTP](images/http.request.request.png)

La requẽte, c'est-à-dire l'information envoyée au serveur, est composée à minima de trois type d'informations :

- l'URL
- le méthode
- les headers

#### URL

Voir le [schéma](images/url.png) ([Source](https://cascadingmedia.com/assets/images/insites/2015/02/url-anatomy/url-anatomy-55598c24.png) 
L'URL est une information que l'on connaît tous. C'est l'adresse dont on requiert le contenu. Typiquement, l'adresse est divisible en plusieurs parties. Celle qui peut être importante et qui changera sûrement suivant les utilisateurs est la partie *query* qui permet d'apporter des informations supplémentaires (elle se trouve après le premier "?").

* scheme : https:// (https : sécurisé)
* sous domaines
* domaine
* port : le plus utilisé est le port 80 (https : port 443) => ils peuvent être ouverts ou fermés par sécurité
* chemin : après le port jusqu'au "?"
* query : ensemble de paramètres
* fragment : liaison avec une partie du fichier HTML

Par exemple, dans http://cts.dh.uni-leipzig.de/api/cts?request=GetCapabilities&urn=urn:cts:latinLit:phi1294 , on a deux paramètres fournis :

| Nom | Valeur |
| --- | ------ |
| urn | urn:cts:latinLit:phi1294 |
| request | GetCapabilities |

#### Méthode

La méthode informe le serveur de ce que vous allez vouloir faire. 90% des requêtes que vous faites en navigant sur le web sont en GET : vous récupérez de l'information. Vous utilisez sur les 9.9% restant la requête POST, notamment quand vous vous connectez sur vos comptes sur les divers sites que vous utilisez.

* get : gestion données
* put : création données
* post : modification état données
* delete : suppression données
* patch : modification d'une partie de la donnée


#### Les Headers

Le Header comporte des informations sur vos attentes et votre contexte de requêtage. Par exemple, on peut demander via les Headers un format de réponse particulier (d'après son [mimetype](https://fr.wikipedia.org/wiki/Type_MIME) : html, xml ou json par exemple : 

| Headers Clé | Headers Valeur   |
| ----------- | ---------------- |
| Accept      | application/json |

#### (Optionnel) Le Corps (Body, data, etc.)

Dans le cadre de l'envoi d'un formulaire ou d'un fichier, on a un corps dans la requête. Beaucoup de formats différents sont possible dans ce cadre. De nombreuses API acceptent par exemple l'encodage en JSON de vos informations.

### 1.B. Anatomie d'une réponse

![Anatomie d'une réponse HTTP](images/http.request.response.png)

La réponse est composée de trois éléments aussi :

#### Les Headers 

Tout comme la requête, les Headers nous renvoie l'information sur la réponse. Voici quelques headers utiles


| Headers Clé | Headers Valeur   | Note |
| ----------- | ---------------- | ---- |
| Encoding      | application/json | Type Mime de la réponse |

#### Le code HTTP

Le code HTTP nous informe sur le statut de la réponse. Vous connaissez *a minima* le code 404, qui indique que la ressource demandée n'est pas disponible. Il existe bien d'autres codes (*cf.* [Wikipedia](https://fr.wikipedia.org/wiki/Liste_des_codes_HTTP) :
- 200 : succès de la requête ;
- 301 et 302 : redirection, respectivement permanente et temporaire ;
- 401 : utilisateur non authentifié ;
- 403 : accès refusé ;
- 404 : page non trouvée ;
- 500 et 503 : erreur serveur.
- 418 : "I’m a teapot" (Blague du 1er Avril 1998 resté dans le standard)



#### Le Corps

Le corps de la réponse contient bien évidemment ce que vous voyez lorsque vous faites une requête : le contenu html, le contenu en plein texte, le contenu json, etc.

## 2. Faire des requêtes http en python : le module request


### 2.A Le module `requests`

Tout comme il existe pour python des modules pour gérer les CSV et les JSON, il en existe pour faire des requêtes WEB. Cela dit, il ne font pas partie du coeur de Python ! C'est pour ça que nous les avons installés. En effet, quand à l'installation, vous avez tapé `pip install -r requirements.txt`, vous avez demandé à PIP (Un gestionnaire de dépendances/librairies de python) d'installer chaque librairie citée dans le fichier `requirements.txt`. L'une d'entre elles était `requests`

Le module `requests` possède sa documentation sur son [propre site](http://docs.python-requests.org/en/master/). Au moment de l'écriture, le module est dans sa version 2.18.4

Les versions : 2.0.0 => semantic versioning
* 2 : révision majeure (changement du code qui peut poser des problèmes)
* 0 : révision mineure (rajout d'une fonctionnalité)
* 0 : bug fix (amélioration question d'une petite performance)

### 2.B Faire une requête GET:

Le module est très simple : il propose une fonction `get` qui prend une URL !

In [1]:
import requests

# Pour l'exemple nous utilisons l'API de Chronicling America, un projet de numérisation de journaux
# Américains
req = requests.get("https://chroniclingamerica.loc.gov/search/pages/results/?format=json&proxtext=ecole+nationale")
print(req)

<Response [200]>


Les objets `Response` ont plusieurs propriétés intéressantes : 

- `.status_code` sous la forme d'un entier qui informe du succès de la requête
- `.headers` sous la forme d'un dictionnaire qui comporte l'ensemble des headers
- `.encoding` qui comprend la méthode d'encodage
- `.text` qui contient le contenu de la réponse
- `.json()` qui, si `.headers['content-type']` est `application/json`, parse lui-même le json de la réponse. 

Voyons un peu leur contenu :

In [2]:
print(req.status_code)
print(req.headers)
print(req.encoding)

200
{'Access-Control-Allow-Headers': 'X-requested-with', 'Date': 'Tue, 09 Jan 2018 13:10:10 GMT', 'Expires': 'Wed, 10 Jan 2018 13:09:21 GMT', 'Cache-Control': 'max-age=86400', 'Via': '1.1 varnish-v4', 'CF-RAY': '3da7a29bed9b6926-CDG', 'Content-Type': 'application/json', 'Age': '48', 'Connection': 'keep-alive', 'Accept-Ranges': 'bytes', 'Server': 'cloudflare-nginx', 'Content-Encoding': 'gzip', 'Set-Cookie': '__cfduid=d42dfcca876b3af541197846957a75c7b1515503410; expires=Wed, 09-Jan-19 13:10:10 GMT; path=/; domain=.loc.gov; HttpOnly', 'X-Varnish': '364970830 362709802', 'Access-Control-Allow-Origin': '*', 'Last-Modified': 'Tue, 09 Jan 2018 13:09:21 GMT', 'Vary': 'Accept-Encoding', 'Content-Length': '234708'}
None


In [3]:
# Puisque l'on a du json, on peut le traiter comme un dictionnaire ou une liste
# Une rapide ouverture de la page m'informe que le nom du journal est disponible à la clé ""

for resultat in req.json()["items"]:
    print("\"{titre}\" a publié un article comprenant 'école nationale' le {jour}/{mois}/{annee}".format(
        titre=resultat["title_normal"], 
        annee=resultat["date"][:4], 
        mois=resultat["date"][4:6],
        jour=resultat["date"][6:]
    ))

"washington times." a publié un article comprenant 'école nationale' le 13/11/1921
"santa fe new mexican." a publié un article comprenant 'école nationale' le 13/01/1910
"wenatchee daily world." a publié un article comprenant 'école nationale' le 10/01/1910
"sistersville daily oil review." a publié un article comprenant 'école nationale' le 16/09/1902
"evening star." a publié un article comprenant 'école nationale' le 04/10/1927
"weekly thibodaux sentinel and journal of the 8th senatorial district." a publié un article comprenant 'école nationale' le 02/03/1895
"deutsche correspondent." a publié un article comprenant 'école nationale' le 24/07/1905
"echo de l'ouest." a publié un article comprenant 'école nationale' le 03/04/1914
"echo de l'ouest." a publié un article comprenant 'école nationale' le 18/10/1895
"echo de l'ouest." a publié un article comprenant 'école nationale' le 25/04/1889
"arizona republican." a publié un article comprenant 'école nationale' le 21/02/1917
"weekly mine

La construction d'URL pouvant poser des problèmes (échappage de caractère par exemple), `requests.get()` accepte un paramètre `params`:

In [4]:
req = requests.get("http://cts.dh.uni-leipzig.de/api/cts", params={
    "urn": "urn:cts:latinLit:phi1294.phi002.perseus-lat2:1.pr.1",
    "request": "GetPassage"
})
print("URL : " + req.url)
if req.status_code == 200:
    print(req.text)

URL : http://cts.dh.uni-leipzig.de/api/cts?urn=urn%3Acts%3AlatinLit%3Aphi1294.phi002.perseus-lat2%3A1.pr.1&request=GetPassage
<GetPassage xmlns="http://chs.harvard.edu/xmlns/cts">
    <request>
        <requestName>GetPassage</requestName>
        <requestUrn>urn:cts:latinLit:phi1294.phi002.perseus-lat2:1.pr.1</requestUrn>
    </request>
    <reply>
        <urn>urn:cts:latinLit:phi1294.phi002.perseus-lat2:1.pr.1</urn>
        <passage>
            <TEI xmlns="http://www.tei-c.org/ns/1.0" xmlns:py="http://codespeak.net/lxml/objectify/pytype" py:pytype="TREE"><text n="urn:cts:latinLit:phi1294.phi002.perseus-lat2" xml:id="stoa0045.stoa0"><body><div type="edition" n="urn:cts:latinLit:phi1294.phi002.perseus-lat2" xml:lang="lat"><div type="textpart" subtype="book" n="1"><div type="textpart" subtype="poem" n="pr"><l n="1">Spero me secutum in libellis meis tale temperamen-</l></div></div></div></body></text></TEI>
        </passage>
    </reply>
</GetPassage>


De la même manière, la méthode `.get()` accepte des headers sous la forme d'un dictionnaire :

In [5]:
import requests

# L'adresse suivante permet de demander l'analyse morphologique d'un terme :
url = "http://morph.alpheios.net/api/v1/analysis/word?word=lasciva&lang=lat&engine=whitakerLat"

xml = requests.get(url, headers={"Accept": "text/xml"})
print(xml.text)
req_json = requests.get(url, headers={"Accept": "application/json"})
print(req_json.text)

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
  <oac:Annotation xmlns:oac="http://www.openannotation.org/ns/" rdf:about="urn:TuftsMorphologyService:lasciva:whitakerLat">
    <dcterms:creator xmlns:dcterms="http://purl.org/dc/terms/">
      <foaf:Agent xmlns:foaf="http://xmlns.com/foaf/0.1/" rdf:about="net.alpheios:tools:wordsxml.v1"/>
    </dcterms:creator>
    <dcterms:created xmlns:dcterms="http://purl.org/dc/terms/">2018-01-09T13:20:00.652955</dcterms:created>
    <dc:rights xmlns:dc="http://purl.org/dc/elements/1.1/">Short definitions and morphology from Words by William Whitaker, Copyright 1993-2007.</dc:rights>
    <oac:hasTarget>
      <rdf:Description rdf:about="urn:word:lasciva"/>
    </oac:hasTarget>
    <dc:title xmlns:dc="http://purl.org/dc/elements/1.1/"/>
    <oac:hasBody rdf:resource="urn:uuid:idm140222649649592"/>
    <oac:Body rdf:about="urn:uuid:idm140222649649592">
      <rdf:type rdf:resource="cnt:ContentAsXML"/>
      <cnt:rest xmlns:cnt="http:/

### 2.C Les autres types de requêtes :

Le module possède de la même manière une méthode `requests.post()` qui prendra en plus un paramètre `data` tout comme il possède les méthodes :

- `.update()`
- `.delete()`
- `.put()`
- `.options()`

Toutes ces requêtes prennent les mêmes paramètres que `.get()`

### 2.D Générer une erreur

Imaginons que vous avez un code 404. Vous voulez peut-être éviter de faire tourner un script si cela arrive. L'objet `Response` possède une méthode utile en ce cas : le `.raise_for_status()` :

In [6]:
import requests 
bad_r = requests.get("http://cts.dh.uni-leipzig.de/collections/urn:cts:froLit")
bad_r.raise_for_status()

HTTPError: 500 Server Error: Internal Server Error for url: http://cts.dh.uni-leipzig.de/collections/urn:cts:froLit

### Exercice de compréhension 

Lisez le code ci-dessous. Il est issu du projet EHRI ( https://portal.ehri-project.eu/api/v1#api-usage-python ). Essayez de comprendre ce qu'il fait, commentez le de manière à vous en souvenir 

In [7]:
import requests 


def scope_content(url):
    # affiche un messahe pour dire que l'on récupère le contenu de l'adresse en variable 'url'
    print("Fetching: " + url)
    # on émet une requête GET vers 'url' et on stock sa réponse dans la variable r (print(r) => <response 200>)
    r = requests.get(url)
    # réponse est du json, je peux demander de parser du json : data est le contenu parsé de la réponse (en l'occurence un dictionnaire)
    data = r.json()
    #création d'une liste vide nommée "simplified
    simplified = []

    # pour chaque valeur que l'on trouve dans la liste associée à la clé data (print(type (data["data"]))) => <list>)
    # ces valeurs sont stockées dans une variable 'item' qui est de type dictionnaire
    for item in data["data"]:
        # essayer de (pour ne pas planter le script)
        try:
            # fetch the ID and first description...
            # je stocke dans la variable identifier la valeur associée à la clé "id" dans le dictionnaire desc
            identifier = item["id"]
            # je stocke dans desc 
            #      [0] : le 1er item de la liste
            #      ["description"] : associée à la clé "description"
            #      ["attributes] > dans le dictionnaire associée la clé "attributes" dans le dictionnaire desc
            desc = item["attributes"]["descriptions"][0] # possibilité de faire desc = item["attributes"]["descriptions"][0]["name"]["scopeAndContent"]
            # je stocke dans la variable name la valeur associée à la clé "name" dans le dictionnaire desc
            name = desc["name"]
            # je stocke dans la variable scopecontent la valeur associée à la clé "scopeAndContent" dans le dictionnaire desc
            scopecontent = desc["scopeAndContent"]
            # on ajoute à la liste simplified un triple (identifier, scopecontent, name)
            simplified.append((identifier, scopecontent, name))
        # et si j'ai une erreur IndexError et KeyError alors
        except (IndexError, KeyError) as e:
            # no description or scope and content found... skipping...
            # pass : passer au prochain de la boucle
            pass

    # fetch the next page of data...
    # principe de récurssion : la fonction s'appelle elle-même.
    # Si le dictionnaire data a une clé "link" et si dans le dictionnaire associé à la clé "links" j'ai une valeur dans la clé "next"
    # .get : prend une clé et ensuite la clé par défaut (ex : .get("link", o))
    if data.get("links") and data["links"].get("next"): # if "links" in data and "next" in data["links"]
        # on appelle la fonction scopecontent sur le lien de la page suivante, cette fonction retourne une liste que l'on fusionne à la liste courante
        simplified += scope_content(data["links"]["next"]) #clé optionnelle : x.get ("...") > dans résultat affichage "none"
    # on retourne la liste
    return simplified

scope_content("https://portal.ehri-project.eu/api/v1/search?type=DocumentaryUnit&q=Potato")

Fetching: https://portal.ehri-project.eu/api/v1/search?type=DocumentaryUnit&q=Potato
Fetching: http://portal.ehri-project.eu/api/v1/search?type=DocumentaryUnit&q=Potato&page=2
Fetching: http://portal.ehri-project.eu/api/v1/search?type=DocumentaryUnit&q=Potato&page=3
Fetching: http://portal.ehri-project.eu/api/v1/search?type=DocumentaryUnit&q=Potato&page=4


[('il-002798-o_34-629',
  'Reports and articles by the Ghetto Archives staff: "The Elixir of Life-Potato Peels" by Jozef Zelkowicz Deaths of many in the ghetto from starvation and disease; shortage of medicines and distribution of potato peels to those who are ill as a substitute by the physicians; receipt of potato peels only with a physician\'s prescription.',
  'Reports and articles by the Ghetto Archives staff: "The Elixir of Life-Potato Peels" by Jozef Zelkowicz\n\n"דער לעבנס עליקסיר - קארטאפל שיילעכץ"'),
 ('cz-002302-výtvarná_sbírka-pt_10136',
  'Ilustrace k pracovní zprávě - Uskladnění brambor\n\nIllustration of the staff report - Potato Storage',
  'Einlagerung der Kartoffel'),
 ('cz-002302-výtvarná_sbírka-pt_1478',
  'Bramboráři\n\nA group of potato peelers',
  'PT 1478'),
 ('cz-002302-výtvarná_sbírka-pt_3459',
  'Květ bramboru\n\nFlower of a potato',
  'PT 3459'),
 ('cz-002302-výtvarná_sbírka-pt_12108',
  'Skicář s kresbami\n\nSketchbook with drawings',
  'PT 12108'),
 ('cz-0

### Exercice de fin de chapitre

1. Ouvrir http://gallica.bnf.fr/iiif/ark:/12148/btv1b84259980/manifest.json
2. Comprendre le format de http://gallica.bnf.fr/iiif/ark:/12148/btv1b84259980/manifest.json
3. En Python, faire une fonction qui prend un identifiant ark BNF et qui:
    1. Affiche l'ensemble des métadonnées sur l'objet décrit en JSON
    2. Génère un fichier CSV avec les colonnes `Numéro | Nom de Page | Lien image | Largeur | Longueur` en fonction d'un argument `nom_csv`

In [None]:
def iiif_csv(ark, nom_csv):
    colonnes = ["Numéro", "Nom de Page", "Lien image", "Largeur", "Longueur"]
    # Complétez avec la documentation
    return None

# Testez le code ici
iiif_csv("ark:/12148/btv1b84259980", "pages.csv")

----

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.

- la structure d'une requête http et de sa réponse
- `requests.get`
- `requests.post` et les autres
- `Response.json()`
- `Response.status_code`
- `Response.text`
- `Response.headers`
- `Response.raise_for_status()`