# Chapitre 4.3 - Les fichiers CSV, JSON et les requêtes

---

## 1. La structure du web : comment communique-t-on avec un serveur ?

![Anatomie d'une communication HTTP](images/http.request.scheme.png)

Lors d'une communication HTTP avec un serveur, la communication est scindable en deux : l'envoi de la requête et la réponse du serveur. Ces deux éléments de la communication répondent à un ensemble de standards très stricts permettant le fonctionnement du web tel que nous le connaissons.

### 1.A. Anatomie d'une requête :

![Anatomie d'une requête HTTP](images/http.request.request.png)

### 1.B. Anatomie d'une réponse

![Anatomie d'une réponse HTTP](images/http.request.response.png)

## Faire des requêtes http en python : le module request

http://docs.python-requests.org/en/master/

```python
>>> r = requests.get('https://api.github.com/user', auth=('user', 'pass'))
>>> r.status_code
200
>>> r.headers['content-type']
'application/json; charset=utf8'
>>> r.encoding
'utf-8'
>>> r.text
u'{"type":"User"...'
>>> r.json()
{u'private_gists': 419, u'total_private_repos': 77, ...}
```

>>> payload = {'key1': 'value1', 'key2': 'value2'}
>>> r = requests.get('http://httpbin.org/get', params=payload)

You can see that the URL has been correctly encoded by printing the URL:

>>> print(r.url)
http://httpbin.org/get?key2=value2&key1=value1

>>> url = 'https://api.github.com/some/endpoint'
>>> headers = {'user-agent': 'my-app/0.0.1'}

>>> r = requests.get(url, headers=headers)

>>> bad_r.raise_for_status()

In [None]:
import requests 

def scope_content(url):
    print("Fetching: " + url)
    r = requests.get(url)
    data = r.json()
    simplified = []

    for item in data["data"]:
        try:
            # fetch the ID and first description...
            identifier = item["id"]
            desc = item["attributes"]["descriptions"][0]
            name = desc["name"]
            scopecontent = desc["scopeAndContent"]
            simplified.append((identifier, scopecontent, name))
        except (IndexError, KeyError) as e:
            print(e)
            # no description or scope and content found... skipping...
            pass

    # fetch the next page of data...
    if data.get("links") and data["links"].get("next"):
        simplified += scope_content(data["links"]["next"])
    return simplified

scope_content("https://portal.ehri-project.eu/api/v1/search?type=DocumentaryUnit&q=Potato")

##### Exercice de fin de chapitre

1. Ouvrir http://gallica.bnf.fr/iiif/ark:/12148/btv1b84259980/manifest.json
2. Comprendre le format de http://gallica.bnf.fr/iiif/ark:/12148/btv1b84259980/manifest.json
3. En Python, faire une fonction qui prend un identifiant ark BNF et qui:
    1. Affiche l'ensemble des métadonnées sur l'objet décrit en JSON
    2. Génère un fichier CSV avec les colonnes `Numéro | Nom de Page | Lien image | Largeur | Longueur` en fonction d'un argument `nom_csv`

In [None]:
def iiif_csv(ark, nom_csv):
    colonnes = ["Numéro", "Nom de Page", "Lien image", "Largeur", "Longueur"]
    # Complétez avec la documentation
    return None

# Testez le code ici
iiif_csv("ark:/12148/btv1b84259980", "pages.csv")