# Chapitre 4.3 - Les fichiers CSV, JSON et les requêtes

---

## 1. La structure du web : comment communique-t-on avec un serveur ?

![Anatomie d'une communication HTTP](images/http.request.scheme.png)

Lors d'une communication HTTP avec un serveur, la communication est divisible en deux : l'envoi de la requête et la réponse du serveur. Ces deux éléments de la communication répondent à un ensemble de standards très stricts permettant le fonctionnement du web tel que nous le connaissons.

### 1.A. Anatomie d'une requête :

![Anatomie d'une requête HTTP](images/http.request.request.png)

La requête, c'est-à-dire l'information envoyée au serveur, est composée à minima de trois types d'informations :

- l'URL
- la méthode
- les headers

#### URL

Voir le [schéma](images/url.png) ([Source](https://cascadingmedia.com/assets/images/insites/2015/02/url-anatomy/url-anatomy-55598c24.png) 
L'URL est une information que l'on connait tous. C'est l'adresse dont on requiert le contenu. Typiquement, l'adresse est divisible en plusieurs parties. Celle qui peut être importante et qui changera surement suivant les utilisateurs est la partie *query* qui permet d'apporter des informations supplémentaires.

Par exemple, dans http://cts.dh.uni-leipzig.de/api/cts?request=GetCapabilities&urn=urn:cts:latinLit:phi1294 , on a deux paramètres fournis :

| Nom | Valeur |
| --- | ------ |
| urn | urn:cts:latinLit:phi1294 |
| request | GetCapabilities |

#### Méthode

La méthode informe le serveur de ce que vous allez vouloir faire. 90% des requêtes que vous faites en naviguant sur le web sont en GET : vous récupérez de l'information. Vous utilisez sur les 9.9% restant la requête POST, notamment quand vous vous connectez sur vos comptes sur les divers sites que vous utilisez.

#### Les Headers

Le Header comporte des informations sur vos attentes et votre contexte de requêtage. Par exemple, on peut demander via les Headers un format de réponse particulier (d'après son [mimetype](https://fr.wikipedia.org/wiki/Type_MIME) : html, xml ou json par exemple : 

| Headers Clé | Headers Valeur   |
| ----------- | ---------------- |
| Accept      | application/json |

#### (Optionnel) Le Corps (Body, data, etc.)

Dans le cadre de l'envoi d'un formulaire ou d'un fichier, on a un corps dans la requête. Beaucoup de formats différents sont possibles dans ce cadre. De nombreuses API acceptent par exemple l'encodage en JSON de vos informations.

### 1.B. Anatomie d'une réponse

![Anatomie d'une réponse HTTP](images/http.request.response.png)

La réponse est composée de trois éléments aussi :

#### Les Headers 

Tout comme la requête, les Headers nous renvoient l'information sur la réponse. Voici quelques headers utiles.


| Headers Clé | Headers Valeur   | Note |
| ----------- | ---------------- | ---- |
| Encoding      | application/json | Type Mime de la réponse |

#### Le code HTTP

Le code HTTP nous informe sur le statut de la réponse. Vous connaissez *à minima* le code 404, qui indique que la ressource demandée n'est pas disponible. Il existe bien d'autres codes (*cf.* [Wikipedia](https://fr.wikipedia.org/wiki/Liste_des_codes_HTTP) :
- 200 : succès de la requête ;
- 301 et 302 : redirection, respectivement permanente et temporaire ;
- 401 : utilisateur non authentifié ;
- 403 : accès refusé ;
- 404 : page non trouvée ;
- 500 et 503 : erreur serveur.
- 418 : "I’m a teapot" (Blague du 1er avril 1998 restée dans le standard)



#### Le Corps

Le corps de la réponse contient bien évidemment ce que vous voyez lorsque vous faites une requête : le contenu html, le contenu en plein texte, le contenu json, etc.

## 2. Faire des requêtes http en python : le module request


### 2.A Le module `requests`

Tout comme il existe pour python des modules pour gérer les CSV et les JSON, il en existe pour faire des requêtes WEB. Cela dit, ils ne font pas partie du coeur de Python ! C'est pour ça que nous les avons installés. En effet, quant à l'installation, vous avez tapé `pip install -r requirements.txt`, vous avez demandé à PIP (un gestionnaire de dépendances/librairies de python) d'installer chaque librairie citée dans le fichier `requirements.txt`. L'une d'entre elles était `requests`

Le module `requests` possède sa documentation sur son [propre site](http://docs.python-requests.org/en/master/). Au moment de l'écriture, le module est dans sa version 2.18.4.

### 2.B Faire une requête GET:

Le module est très simple : il propose une fonction `get` qui prend une URL !

In [1]:
import requests

# Pour l'exemple nous utilisons l'API de Chronicling America, un projet de numérisation de journaux
# Américains
req = requests.get("https://chroniclingamerica.loc.gov/search/pages/results/?format=json&proxtext=ecole+nationale")
print(req)



<Response [200]>


Les objets `Response` ont plusieurs propriétés intéressantes : 

- `.status_code` sous la forme d'un entier qui informe du succès de la requête
- `.headers` sous la forme d'un dictionnaire qui comporte l'ensemble des headers
- `.encoding` qui comprend la méthode d'encodage
- `.text` qui contient le contenu de la réponse
- `.json()` qui, si `.headers['content-type']` est `application/json`, parse lui-même le json de la réponse. 

Voyons un peu leur contenu :

In [2]:
print(req.status_code)
print(req.headers)
print(req.encoding)

200
{'Date': 'Sun, 07 Nov 2021 23:51:43 GMT', 'Content-Type': 'application/json', 'Transfer-Encoding': 'chunked', 'Connection': 'keep-alive', 'Last-Modified': 'Sun, 07 Nov 2021 23:51:43 GMT', 'Expires': 'Mon, 08 Nov 2021 23:51:43 GMT', 'Cache-Control': 's-maxage=86400, public, max-age=86400', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Headers': 'X-requested-with', 'X-Frame-Options': 'SAMEORIGIN', 'Content-Encoding': 'gzip', 'Vary': 'Accept-Encoding', 'X-Varnish': '61812758', 'Via': '1.1 varnish (Varnish/5.2)', 'CF-Cache-Status': 'EXPIRED', 'Expect-CT': 'max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"', 'Server': 'cloudflare', 'CF-RAY': '6aaa787c1fd4ee54-CDG'}
utf-8


In [3]:
#Ça c'est mon code, pour voir sur un fichier la structure json du site
import json

text = req.json()
with open("text.json", mode='w') as f:
    json.dump(text, f)


In [4]:
# Puisque l'on a du json, on peut le traiter comme un dictionnaire ou une liste
# Une rapide ouverture de la page m'informe que le nom du journal est disponible à la clé ""
#moi : texte fautif ? la clé est ["items"][0]["title"] : on peut itérer sur items car c'est une liste

for resultat in req.json()["items"]:
    print("\"{titre}\" a publié un article comprenant 'école nationale' le {jour}/{mois}/{annee}".format(
        titre=resultat["title_normal"].replace(".", ""),     #moi : ajout de replace car le "." était relou
        annee=resultat["date"][:4], 
        mois=resultat["date"][4:6],
        jour=resultat["date"][6:]
    ))

"arizona post" a publié un article comprenant 'école nationale' le 11/01/1963
"mississippi enterprise" a publié un article comprenant 'école nationale' le 16/10/1954
"evening star" a publié un article comprenant 'école nationale' le 27/04/1930
"washington times" a publié un article comprenant 'école nationale' le 13/11/1921
"evening star" a publié un article comprenant 'école nationale' le 26/06/1932
"evening star" a publié un article comprenant 'école nationale' le 10/04/1932
"evening star" a publié un article comprenant 'école nationale' le 28/06/1931
"jackson advocate" a publié un article comprenant 'école nationale' le 09/10/1954
"auttaja" a publié un article comprenant 'école nationale' le 22/11/1951
"sistersville daily oil review" a publié un article comprenant 'école nationale' le 16/09/1902
"santa fe new mexican" a publié un article comprenant 'école nationale' le 13/01/1910
"wenatchee daily world" a publié un article comprenant 'école nationale' le 10/01/1910
"evening star" a 

La construction d'URL pouvant poser des problèmes (échappement de caractère par exemple), `requests.get()` accepte un paramètre `params`:

In [5]:
req = requests.get("http://cts.dh.uni-leipzig.de/api/cts", params={
    "urn": "urn:cts:latinLit:phi1294.phi002.perseus-lat2:1.pr.1",
    "request": "GetPassage"
})
print("URL : " + req.url)

#ce code ne marche que avec l'environnement virtual env (source env/bin/activate) en linux
#marche aussi sur mac, si on utilise source env/bin/activate et pas conda
#cependant, ne marche plus sur aucun endroit.


KeyboardInterrupt: 

De la même manière, la méthode `.get()` accepte des headers sous la forme d'un dictionnaire :

In [8]:
import requests

# L'adresse suivante permet de demander l'analyse morphologique d'un terme :
url = "http://morph.alpheios.net/api/v1/analysis/word?word=lasciva&lang=lat&engine=whitakerLat"

xml = requests.get(url, headers={"Accept": "text/xml"})   #moi : on peut mettre le lien au lieu de la variable url
print(xml.text)
req_json = requests.get(url, headers={"Accept": "application/json"})
print(req_json.text)


<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">
  <oac:Annotation xmlns:oac="http://www.openannotation.org/ns/" rdf:about="urn:TuftsMorphologyService:lasciva:whitakerLat">
    <dcterms:creator xmlns:dcterms="http://purl.org/dc/terms/">
      <foaf:Agent xmlns:foaf="http://xmlns.com/foaf/0.1/" rdf:about="net.alpheios:tools:wordsxml.v1"/>
    </dcterms:creator>
    <dcterms:created xmlns:dcterms="http://purl.org/dc/terms/">2021-10-27T13:00:33.102515</dcterms:created>
    <dc:rights xmlns:dc="http://purl.org/dc/elements/1.1/">Short definitions and morphology from Words by William Whitaker, Copyright 1993-2007.</dc:rights>
    <oac:hasTarget>
      <rdf:Description rdf:about="urn:word:lasciva"/>
    </oac:hasTarget>
    <dc:title xmlns:dc="http://purl.org/dc/elements/1.1/"/>
    <oac:hasBody rdf:resource="urn:uuid:idm139817375002344"/>
    <oac:Body rdf:about="urn:uuid:idm139817375002344">
      <rdf:type rdf:resource="cnt:ContentAsXML"/>
      <cnt:rest xmlns:cnt="http:/

### 2.C Les autres types de requêtes :

Le module possède de la même manière une méthode `requests.post()` qui prendra en plus un paramètre `data` tout comme il possède les méthodes :

- `.update()`
- `.delete()`
- `.put()`
- `.options()`

Toutes ces requêtes prennent les mêmes paramètres que `.get()`

### 2.D Générer une erreur

Imaginons que vous avez un code 404. Vous voulez peut-être éviter de faire tourner un script si cela arrive. L'objet `Response` possède une méthode utile en ce cas : le `.raise_for_status()` :

In [None]:
import requests 
bad_r = requests.get("http://cts.dh.uni-leipzig.de/collections/urn:cts:froLit")
bad_r.raise_for_status()

### Exercice de compréhension 

Lisez le code ci-dessous. Il est issu du projet EHRI ( https://portal.ehri-project.eu/api/v1#api-usage-python ). Essayez de comprendre ce qu'il fait, commentez-le de manière à vous en souvenir. 

In [None]:
import requests 

def scope_content(url):
    """Recherche une chaine en tant qu'item "DocumentaryUnit" sur l'api du site EHRI, et retourne 
    une liste d'ocurrences qui indique l'id de l'item, le scopecontent et le nom.
    
    :param url: lien url
    :type url: str
    :returns: simplified
    :rtype: list
    """
    print("Fetching: " + url)            #moi : print de chaque page recherchée (12 au total). Sur le site, DocumentaryUnit = archival description, c'est un type d'item
    r = requests.get(url)                #get url
    data = r.json()                      #parser en json le contenu json de la réponse
    simplified = []                      #création d'une liste vide, qui sera la valeur de return à la fin

    for item in data["data"]:            #pour chaque élément de l'entité json. Data contient une liste de dictionnaires ; chaque dic est un item DocumentaryUnit
        try:
            # fetch the ID and first description...
            identifier = item["id"]
            desc = item["attributes"]["descriptions"][0]       #descriptions est une liste de dics, [0] est en anglais
            name = desc["name"]                          #part de desc, la variable antérieur, ce qui évite de tout réércire
            scopecontent = desc["scopeAndContent"]
            simplified.append(("id: "+identifier, "Documentary Unit: "+name, "scopecontent: "+scopecontent)) #envoie un tuple vers la liste simplifie. J'ai rajouté moi meme les str pour comprendre les tuples retournés
        except (IndexError, KeyError) as e:                 #stocker les params suivants dans la variable e, pour stocker les eurreurs
            # no description or scope and content found... skipping...
            pass                                                #passe outre l'item si un des éléments n'est pas présent

    # fetch the next page of data...                       #dans le metadata de chaque page, on voit que le json correspond à 1 des 12 pages
    if data.get("links") and data["links"].get("next"):        #links est un des trois éléments du fichier data (avec data et meta). Condition = s'il est possible de faire la méthode .get sur le dic link, puis sur l'item next :
        simplified += scope_content(data["links"]["next"])       #la valeur de "next" est la page suivante, par ex la 2 si on est sur json de la page 1
    return(simplified)
scope_content("https://portal.ehri-project.eu/api/v1/search?type=DocumentaryUnit&q=potato")

"""
Ce code présente des chose qu'on a pas vu : la recursivité : une fonction qui s'appelle elle-même
# dans la dernière partie du code : .get est l'équivalent d'entre crochets pour un dictionnaire; et si jamais la clé n'est pas présente ça renvoie une erreur #
# donc : si la clé est là : valeur. Si la clé n'est pas là : none
# if : va vérifier que la clé est true, et si on a une page suivante : on refait la fonction
#rappel : une addition de deux listes donne une seule liste avec tous les éléments
try : essayer de lancer le code
except : et si ça ne marche pas à cause de (arguments), passer à la suivante, et stocker l'erreur dans e
""" 


### Exercice de fin de chapitre

1. Ouvrir http://gallica.bnf.fr/iiif/ark:/12148/btv1b84259980/manifest.json
2. Comprendre le format de http://gallica.bnf.fr/iiif/ark:/12148/btv1b84259980/manifest.json
3. En Python, faire une fonction qui prend un identifiant ark BNF et qui:
    1. Affiche l'ensemble des métadonnées sur l'objet décrit en JSON
    2. Génère un fichier CSV avec les colonnes `Numéro | Nom de Page | Lien image | Largeur | Longueur` en fonction d'un argument `nom_csv`

In [None]:
#votre code
import csv
import json
import requests

#je créé un fichier .json pour voir les données :
data = requests.get("http://gallica.bnf.fr/iiif/ark:/12148/btv1b84259980/manifest.json")
text = data.json()
with open ("gallica_data.json", mode='w') as json_file:
    json.dump(text, json_file)

#je définie la fonction :
def iiif_csv(ark, nom_csv):
    """À partir d'un identifiant ark de la BnF, affiche en json les métadonnées associées à l'objet décrit, 
    puis génère un fichier CSV qui consiste en un tableau listant les images iiif associées à  cet objet, 
    avec les colonnes suivantes : Numéro, Nom de Page, Lien image, Largeur, Longueur.
    
    :param ark: identifiant ark complet
    :type ark: str
    :param nom_csv: nom souhaité pour le fichier csv à produire
    :type nom_csv: str
    :returns: none
    """
    #A. afficher l'ensemble des métadonnées sur l'objet décrit en JSON
    url = "http://gallica.bnf.fr/iiif/{}/manifest.json".format(ark)
    data = requests.get(url)
    data_json = data.json()
    print("Métadonnées associées à cet objet: "+str(data_json["metadata"])) 
    #ou bien, si l'on souhaite afficher en json : print(data_json["metadata"])
    #B. si il n'y a pas de .csv, le rajouter
    if ".csv" not in nom_csv:
        nom_csv = nom_csv+".csv"
    #B. créér un fichier CSV en fonction de l'argument nom_CSV
    with open (nom_csv, mode="w") as tableau:
        ecriveur = csv.writer(tableau, delimiter="\t")
        ecriveur.writerow(["Numéro", "Nom de Page", "Lien image", "Largeur", "Longueur"])
        images = data_json["sequences"][0]["canvases"]
        numero_image = 0
        for image in images:
            numero_image += 1
            ecriveur.writerow("{numero}|{nom}|{lien}|{largeur}|{longueur}".format(
            numero=numero_image, nom=image["label"], lien=image["images"][0]["resource"]["@id"],largeur=image["height"], longueur=image["width"]).split("|"))
    return None  

#correction
def iiif_csv(ark, nom_csv):



# Testez le code ici     
iiif_csv("ark:/12148/btv1b84259980", "pages.csv")

----

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.

- la structure d'une requête http et de sa réponse
- `requests.get`
- `requests.post` et les autres
- `Response.json()`
- `Response.status_code`
- `Response.text`
- `Response.headers`
- `Response.raise_for_status()`