# Cours de Python - Utilisation de l'API IIIF et manipulation de donn√©es 2

---

## Table des Mati√®res

1. [R√©visions](#r√©visions)
    - [Structure des manifestes](#structure-des-manifestes)
        - [Les principales composantes](#les-principales-composantes)
        - [Les canvas](#les-canvas)
        - [Trouver l'URL de l'image](#trouver-lurl-de-limage)
    - [Biblioth√®que JSON](#biblioth√®que-json)
        - [Rappel sur la biblioth√®que](#rappel-sur-la-biblioth√®que)
        - [Ouvrir un fichier JSON](#ouvrir-un-fichier-json)
        - [√âcrire et enregistrer un fichier JSON](#√©crire-et-enregistrer-un-fichier-json)
    - [La biblioth√®que `pathlib`](#la-biblioth√®que-pathlib)
        - [Int√©r√™t de `pathlib`](#int√©r√™t-de-pathlib)
        - [Cr√©ation de chemins de fichiers avec `pathlib`](#cr√©ation-de-chemins-de-fichiers-avec-pathlib)
        - [Cr√©ation de dossier](#cr√©ation-de-dossier)
    - [Les d√©corateurs](#Les-d√©corateurs)
        - [Qu'est-ce qu'un d√©corateur en Python ?](#Qu'est-ce-qu'un-d√©corateur-en-Python-?)
        - [Pourquoi utiliser des d√©corateurs ?](#Pourquoi-utiliser-des-d√©corateurs-?)
        - [Comment fonctionnent les d√©corateurs ?](#Comment-fonctionnent-les-d√©corateurs-?)
2. [T√©l√©charger des donn√©es avec la biblioth√®que `requests`](#t√©l√©charger-des-donn√©es-avec-la-biblioth√®que-requests)
    - [Int√©r√™t de la biblioth√®que](#int√©r√™t-de-la-biblioth√®que)
    - [Manipulation des codes et gestion des exceptions](#manipulation-des-codes-et-gestion-des-exceptions)
    - [M√©thode `get` et g√©rer les `status_code`](#m√©thode-get-et-g√©rer-les-status_code)
    - [T√©l√©chargement avec `requests`](#t√©l√©chargement-avec-requests)
3. [Manipuler des images](#manipuler-des-images)
    - [La biblioth√®que `PIL`](#la-biblioth√®que-pil)
    - [Manipulation de base d'une image](#manipulation-de-base-dune-image)
    - [R√©cup√©rer les donn√©es des images](#r√©cup√©rer-les-donn√©es-des-images)

---

## R√©visions

### Structure des manifestes

#### Les principales composantes

Un **manifeste** est un document structur√© qui d√©crit une ressource num√©rique complexe. Il est souvent utilis√© pour repr√©senter des collections d'images, de textes ou de m√©dias. Dans le contexte de l'histoire num√©rique, les manifestes facilitent l'acc√®s et l'interop√©rabilit√© des ressources historiques en ligne.

- **Identifiant unique (`@id`)** : Un URL unique qui identifie le manifeste.
- **Type (`@type`)** : Indique le type de ressource (par exemple, "sc:Manifest").
- **M√©tadonn√©es (`metadata`)** : Informations sur la ressource, telles que le titre, le cr√©ateur, la date, etc.
- **S√©quences (`sequences`)** : Liste des s√©quences de contenu, g√©n√©ralement une seule s√©quence nomm√©e "normal".
- **Canvases (`canvases`)** : Repr√©sente les unit√©s de contenu individuelles, comme les pages d'un livre, les folios d'un manuscrit ou les images d'une collection.

Exemple d'un manifeste simplifi√© au format JSON :


```json
{
  "@context": "http://iiif.io/api/presentation/2/context.json",
  "@id": "http://example.org/manifest.json",
  "@type": "sc:Manifest",
  "label": "Titre de la ressource",
  "metadata": [
    {
      "label": "Cr√©ateur",
      "value": "Nom du cr√©ateur"
    }
  ],
  "sequences": [
    {
      "@type": "sc:Sequence",
      "canvases": [
        {
          "@id": "http://example.org/canvas/p1",
          "@type": "sc:Canvas",
          "label": "Page 1",
          "images": [
            {
              "@type": "oa:Annotation",
              "motivation": "sc:painting",
              "resource": {
                "@id": "http://example.org/image/p1/full/full/0/default.jpg",
                "@type": "dctypes:Image",
                "format": "image/jpeg",
                "width": 1000,
                "height": 1500
              },
              "on": "http://example.org/canvas/p1"
            }
          ]
        }
      ]
    }
  ]
}
```

#### Les canvas

Un **canvas** repr√©sente une unit√© de contenu, comme une page ou une image individuelle. Il est essentiel pour structurer et naviguer √† travers une collection ou un document complexe.

Propri√©t√©s d'un canvas :

- **Identifiant (`@id`)** : URL unique du canvas.
- **Type (`@type`)** : G√©n√©ralement "sc:Canvas".
- **Label** : Nom ou titre du canvas.
- **Dimensions** : Largeur et hauteur du canvas.
- **Images** : Liste des annotations d'images associ√©es au canvas. L'annotation dans le contexte de IIIF contient des informations sur l'image, telles que :
    - @type : Type de l'annotation, par exemple, "Annotation".
    - motivation : But de l'annotation. Pour une image, c'est souvent "sc:painting", ce qui signifie qu'elle est peinte ou plac√©e sur le canvas.
    - resource : La ressource multim√©dia, souvent un lien vers l'image elle-m√™me. Il peut contenir des d√©tails sur la taille de l'image et des informations de type MIME (comme image/jpeg).
    - on : R√©f√©rence au canvas sur lequel l'image doit √™tre affich√©e. Cela associe l'image √† un endroit sp√©cifique sur ce canvas.

```json
{
    "@id": "https://www.e-codices.unifr.ch/metadata/iiif/bbb-0318/canvas/bbb-0318_001r.json",
    "@type": "sc:Canvas",
    "label": "1r",
    "height": 6496,
    "width": 4872,
    "images": [
        {
            "@id": "https://www.e-codices.unifr.ch/metadata/iiif/bbb-0318/annotation/bbb-0318_001r.json",
            "@type": "oa:Annotation",
            "motivation": "sc:painting",
            "on": "https://www.e-codices.unifr.ch/metadata/iiif/bbb-0318/canvas/bbb-0318_001r.json",
            "resource": {
                "@id": "https://www.e-codices.unifr.ch/loris/bbb/bbb-0318/bbb-0318_001r.jp2/full/full/0/default/jpg",
                "@type": "dctypes:Image",
                "format": "image/jpeg",
                "height": 6496,
                "width": 4872,
                "service": {
                    "@context": "http://iiif.io/api/image/2/context.json",
                    "@id": "https://www.e-codices.unifr.ch/loris/bbb/bbb-0318/bbb-0318_001r.jp2",
                    "profile": "http://iiif.io/api/image/2/level2.json"
                }
            }
        }
    ]
}

#### Trouver l'URL de l'image

Pour extraire l'URL d'une image sp√©cifique √† partir d'un manifeste, vous devez naviguer √† travers la structure imbriqu√©e du JSON.

Exemple en Python :

```python
iiif_manifest = open_json('Berne_318.json')


# Deux approches pour parcourir un manifest: 

# Comme un dictionaire en appelant les cl√©s et les valeurs

"""for key, value in iiif_manifest.items():
    print(key)
"""
# En parcourant simplement les cl√©s
for item in iiif_manifest:
    print(item)

# Avantage de la deuxi√®me pour taper sur les cl√©s qui nous int√©resse

id = iiif_manifest['@id']
print(id)

"""for i, canvas in enumerate(iiif_manifest['sequences'][0]['canvases']):
    manifestURL = iiif_manifest['@id']
    canvasId = canvas['@id']
    urlImage = canvas['images'][0]['resource']['@id']
    imageLabel = canvas['label']
    imageWidthAsDeclared = canvas['width']
    imageHeightAsDeclared = canvas['height']
    image_format = urlImage.split('.')[-1]
    image_id = f"{i+1}"
    htmlCode = requests.get(urlImage).status_code
    path_to_store_image = os.path.join(dataset_folder, ms_base_name + '_' + image_id + '.' + image_format)"""

```

In [34]:
import json

def find_url_img(iiif_manifest):
    with open(iiif_manifest, 'r') as file:
        manifest = json.load(file)

    # Acc√©der au premier canvas
    canvas = manifest['sequences'][0]['canvases'][0]

    # Acc√©der √† l'annotation de l'image
    annotation = canvas['images'][0]

    # URL de l'image
    image_url = annotation['resource']['@id']

    print("URL de l'image :", image_url)

#### Exercice

- Chargez l'un des manifestes suivants :

  - **BVMM** : `https://bvmm.irht.cnrs.fr/iiif/22470/manifest`
  - **e-codices** : `https://www.e-codices.unifr.ch/metadata/iiif/bbb-0318/manifest.json`

- Affichez le titre et les m√©tadonn√©es du manifeste.

In [None]:
# Votre code ici

---

### Biblioth√®que JSON

#### Rappel sur la biblioth√®que

La biblioth√®que `json` est int√©gr√©e √† Python et permet de travailler facilement avec des donn√©es au format JSON.

- **JSON** (JavaScript Object Notation) est un format l√©ger d'√©change de donn√©es, facile √† lire et √† √©crire pour les humains, et facile √† analyser et g√©n√©rer pour les machines.

#### Ouvrir un fichier JSON

Pour lire un fichier JSON en Python :

```python
import json

with open('data.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

print(data)
```

Gestion des exceptions :

```python
try:
    with open('data.json', 'r', encoding='utf-8') as file:
        data = json.load(file)
except json.JSONDecodeError as e:
    print("Erreur lors du d√©codage JSON :", e)
except FileNotFoundError:
    print("Fichier non trouv√©.")
```

#### √âcrire et enregistrer un fichier JSON

Pour √©crire des donn√©es Python dans un fichier JSON :

```python
import json

data = {
    'name': 'Historien',
    'projets': ['num√©risation', 'analyse']
}

with open('output.json', 'w', encoding='utf-8') as file:
    json.dump(data, file, indent=4, ensure_ascii=False)
```

Notes :

- `indent=4` : pour une indentation de 4 espaces, am√©liore la lisibilit√©.
- `ensure_ascii=False` : pour conserver les caract√®res sp√©ciaux (accents, etc.).

---

### La biblioth√®que `pathlib`

#### Int√©r√™t de `pathlib`

La biblioth√®que `pathlib` permet de **manipuler les fichiers et r√©pertoires** de mani√®re moderne et intuitive :

- Gestion des chemins, fichiers et dossiers via des objets `Path`.
- Navigation, cr√©ation et suppression d‚Äô√©l√©ments du syst√®me de fichiers.
- Code **plus lisible, plus s√ªr et compatible** entre Windows, macOS et Linux.

üí° `pathlib` remplace avantageusement les fonctions de `os` et `os.path` pour toutes les op√©rations sur les chemins et fichiers.

#### Cr√©ation de chemins de fichiers avec `pathlib`

Construction de chemins de mani√®re **simple et ind√©pendante du syst√®me** :

```python
from pathlib import Path

# Chemin relatif
chemin = Path("dossier") / "sous_dossier" / "fichier.txt"
print(chemin)

# Chemin absolu
chemin_absolu = chemin.resolve()
print(chemin_absolu)
```

‚úÖ Plus besoin de `os.path.join` :
l‚Äôop√©rateur `/` g√®re automatiquement les s√©parateurs selon le syst√®me d‚Äôexploitation.

Fonctions utiles avec `pathlib` :

- `chemin.exists()` : V√©rifie si le chemin existe.
- `chemin.parent` : Renvoie le r√©pertoire parent.
- `chemin.name` : Renvoie le nom du fichier (avec extension).
- `chemin.stem` : Nom du fichier sans extension.
- `chemin.suffix` : Extension du fichier (ex. .jpg).

üí° Avec `pathlib`, ces propri√©t√©s et m√©thodes sont directement accessibles sur les objets `Path`, ce qui rend le code plus lisible et naturel.

#### Cr√©ation de dossier

Cr√©er un dossier en toute simplicit√© :

```python
from pathlib import Path

dossier = Path("nouveau_dossier")

if not dossier.exists():
    dossier.mkdir()
    print(f"Dossier '{dossier}' cr√©√©.")
else:
    print(f"Dossier '{dossier}' existe d√©j√†.")
```

‚úÖ Avantages

- Plus lisible et pythonique.
- `Path.mkdir()` g√®re directement la cr√©ation du dossier.

Possibilit√© d‚Äôajouter :

```python
dossier.mkdir(parents=True, exist_ok=True)
```

- cr√©e toute l‚Äôarborescence si n√©cessaire `parents=True`
- n‚Äô√©crase pas les dossiers d√©j√† existants. `exist_ok=True`

Cr√©er des r√©pertoires imbriqu√©s :

```python
from pathlib import Path

dossiers = Path("dossier1") / "dossier2" / "dossier3"

if not dossiers.exists():
    dossiers.mkdir(parents=True)
    print(f"Dossiers '{dossiers}' cr√©√©s.")
else:
    print(f"Dossiers '{dossiers}' existent d√©j√†.")
```
‚úÖ Avantages :

- Le `/` g√®re automatiquement la construction du chemin.

- L‚Äôoption `parents=True` cr√©e tous les dossiers interm√©diaires si n√©cessaire.

- On peut ajouter `exist_ok=True` pour √©viter les erreurs si les dossiers existent d√©j√†.

Gestion des exceptions avec `pathlib` :

```python
from pathlib import Path

dossiers = Path("dossier1") / "dossier2" / "dossier3"

try:
    dossiers.mkdir(parents=True, exist_ok=True)
except Exception as e:
    print(f"Erreur lors de la cr√©ation des dossiers : {e}")
```

üí° Plus simplement (et recommand√© dans la plupart des cas) :

```python
dossiers.mkdir(parents=True, exist_ok=True)
```

‚úÖ `pathlib` g√®re d√©j√† les cas d‚Äôexistences de dossiers via `exist_ok=True`, plus besoin de manipuler manuellement les erreurs comme avec `os.errno`.

---

### Les d√©corateurs

#### Qu'est-ce qu'un d√©corateur en Python ?

Un **d√©corateur** est une fonction qui prend en entr√©e une autre fonction et retourne une nouvelle fonction avec un comportement modifi√© ou √©tendu.

- **But** : Modifier le comportement d'une fonction sans changer son code source.

#### Pourquoi utiliser des d√©corateurs ?

- **R√©utilisation du code** : Appliquer le m√™me comportement √† plusieurs fonctions.
- **S√©paration des pr√©occupations** : Isoler le code additionnel du code principal.

#### Comment fonctionnent les d√©corateurs ?

Cr√©ons un d√©corateur qui journalise les appels de fonctions, ce qui peut √™tre utile pour suivre les manipulations sur des documents historiques.

In [None]:
def journaliser(fonction):
    def nouvelle_fonction(*args, **kwargs):
        print(f"Appel de la fonction '{fonction.__name__}' avec les arguments {args} {kwargs}")
        resultat = fonction(*args, **kwargs)
        print(f"Fin de l'appel de '{fonction.__name__}'")
        return resultat
    return nouvelle_fonction

# Utilisation du d√©corateur
@journaliser
def analyser_document(titre, date):
    print(f"Analyse du document '{titre}' datant de {date}.")

# Appel de la fonction
analyser_document("The Aberdeen bestiary", "1200")

---

## T√©l√©charger des donn√©es avec la biblioth√®que `requests`

### Int√©r√™t de la biblioth√®que

La biblioth√®que `requests` simplifie les requ√™tes HTTP en Python :

- Plus conviviale que le module int√©gr√© `urllib`.
- G√®re les sessions, les cookies, l'authentification, etc.
- Bien document√©e et largement utilis√©e.

Installation :

```bash
pip install requests
```

### Manipulation des codes et gestion des exceptions

Comprendre les codes de statut HTTP :

- **200** : OK (succ√®s).
- **404** : Not Found (non trouv√©).
- **429** : Too Many Requests
- **500** : Internal Server Error (erreur serveur).

Exemple :

In [35]:
import requests

response = requests.get('https://www.e-codices.unifr.ch/metadata/iiif/bbb-0318/manifest.json')

print("Code de statut :", response.status_code)

Code de statut : 200


### M√©thode `get` et g√©rer les `status_code`

Gestion des erreurs :

```python
if response.status_code == 200:
    data = response.json()
else:
    print(f"Erreur {response.status_code} lors de la requ√™te.")
```

Exceptions de `requests` :

```python
import requests

try:
    response = requests.get('https://api.example.com/data')
    response.raise_for_status()  # L√®ve une exception pour les codes d'erreur HTTP
    data = response.json()
except requests.exceptions.HTTPError as errh:
    print("Erreur HTTP :", errh)
except requests.exceptions.ConnectionError as errc:
    print("Erreur de connexion :", errc)
except requests.exceptions.Timeout as errt:
    print("D√©lai d'attente d√©pass√© :", errt)
except requests.exceptions.RequestException as err:
    print("Erreur lors de la requ√™te :", err)
```

### T√©l√©chargement avec `requests'

#### T√©l√©charger un manifeste depuis une URL :

In [36]:
import json
import requests
import os

def download_manifest(manifest_url, output_folder, ms_name):
    # URL du manifeste IIIF
    manifest_url = 'https://www.e-codices.unifr.ch/metadata/iiif/bbb-0318/manifest.json'

    # T√©l√©charger le manifeste
    response = requests.get(manifest_url)

    # V√©rifier que la requ√™te s'est bien pass√©e
    if response.status_code == 200:
        manifest = response.json()
        print("Manifeste charg√© avec succ√®s.")
        manifest_path = os.path.join(output_folder, ms_name + '_manifest.json')
        
        # Save the manifest.json file in the destination folder
        with open(manifest_path, 'wb') as f:
            f.write(response.content)
        print(f"Manifeste t√©l√©charg√© dans : {os.path.join(output_folder, ms_name + '_manifest.json')}")
    else:
        print(f"Erreur lors du chargement du manifeste : {response.status_code}")

#### T√©l√©chargement d'image

T√©l√©charger une image depuis une URL :

In [37]:
import requests

url = 'https://www.e-codices.unifr.ch/loris/bbb/bbb-0318/bbb-0318_001r.jp2/full/full/0/default/jpg'

try:
    response = requests.get(url)
    response.raise_for_status()
    
    # V√©rifier le type de contenu
    if url.endswith('jpg'):
        with open('image.jpg', 'wb') as file:
            file.write(response.content)
        print("Image t√©l√©charg√©e avec succ√®s.")
    else:
        print("URL ne pointe pas vers une image.")
except requests.exceptions.RequestException as e:
    print(f"Erreur lors du t√©l√©chargement : {e}")


Image t√©l√©charg√©e avec succ√®s.


## Manipuler des images

### La biblioth√®que PIL

#### Pr√©sentation de PIL/Pillow

- **PIL** : Python Imaging Library, biblioth√®que historique pour la manipulation d'images.
- **Pillow** : Fork de PIL, activement maintenu et compatible avec les versions r√©centes de Python.

Installation :

```bash
pip install Pillow
```

Importation :

```python
from PIL import Image
```

### Manipulation de base d'une image

#### Ouvrir et afficher une image

In [None]:
from PIL import Image

image = Image.open('PATHTODOWLOAD/image.jpg')
image.show()

"from PIL import Image\n\nimage = Image.open('PATHTODOWLOAD/image.jpg')\nimage.show()"

#### Redimensionner une image

In [None]:
nouvelle_image = image.resize((800, 600))
nouvelle_image.save('image_redimensionnee.jpg')

#### Rotation

In [None]:
image_rotated = image.rotate(90)
image_rotated.save('image_rotated.jpg')

#### Conversion de format

In [None]:
image.convert('L').save('image_grayscale.jpg')

#### Recadrage

In [None]:
box = (200, 900, 2400, 3500)  # (left, upper, right, lower)
image_cropped = image.crop(box)
image_cropped.save('image_cropped.jpg')

### R√©cup√©rer les donn√©es des images

#### Acc√©der aux m√©tadonn√©es

Informations de base :

In [None]:
print(f"Format : {image.format}")
print(f"Taille : {image.size}")
print(f"Absoluter path : {image.filename}")

Format : JPEG
Taille : (4872, 6496)
Absoluter path : /Users/marioncharpier/Documents/Cours_ENC/Cours_6_Utilisation de l‚ÄôAPI IIIF et manipulation de donn√©es 2/image.jpg


#### Exercice

- Chargez une image  de votre choix.
- Effectuez les op√©rations suivantes :
  - Redimensionnez l'image pour qu'elle ait une largeur de 800 pixels tout en conservant le ratio.
  - Appliquez un filtre de nettet√© pour am√©liorer la lisibilit√© (parcourir la doc : https://pillow.readthedocs.io/en/stable/reference/ImageFilter.html).

In [None]:
# Votre code ici

---

### Conclusion

En ma√Ætrisant ces biblioth√®ques et techniques, vous serez en mesure de :

- Manipuler des donn√©es structur√©es (JSON).
- Interagir avec le syst√®me de fichiers.
- T√©l√©charger des ressources en ligne de mani√®re efficace et s√©curis√©e.
- Traiter et analyser des images pour vos projets en histoire num√©rique.

Ces comp√©tences sont essentielles pour analyser, conserver et diffuser le patrimoine historique dans le contexte num√©rique actuel.

---

Vous pouvez utiliser ce notebook comme base pour vos propres projets, en adaptant et en √©tendant les exemples fournis.

---