# Collecte, traitement et publication de jeux de donn√©es avec Python

Hugo Scheithauer - ing√©nieur Recherche et D√©veloppement - Inria ALMAnaCH (Paris)

üìß hugo.scheithauer@inria.fr

---





Ce cours de deux heures est dispens√© dans le cadre du Master 2 Documentation et Humanit√©s Num√©riques de l'√âcole du Louvre. Il vise √† former √† la collecte, le traitement et la publication de jeux de donn√©es avec Python. üêç

Il sera suivi de deux autres cours : 

* Outils de visualisation de donn√©es
* Nettoyer les donn√©es: introduction √† OpenRefine



In [1]:
# On cr√©e un dossier 'data' dans lequel on va venir stocker nos fichiers de travail
!mkdir data

## 1\. Rappels

Commen√ßons avec quelques rappels pour se rafra√Æchir la m√©moire et d√©buter le cours.

### 1.1 La variable

Une variable est un conteneur auquel on assigne une valeur.

Elle poss√®de :

* Un **nom**
* Une **valeur**
* Un **type**

In [2]:
day = 12
month = "octobre"
year = 2021

On peut afficher la valeur de ces variables gr√¢ce √† la m√©thode `print()`.

In [3]:
print("Ma premi√®re variable : ")
print(day)
print("---")
print("Ma deuxi√®me variable : ")
print(month)
print("---")
print("Ma troisi√®me variable : ")
print(year)

Ma premi√®re variable : 
12
---
Ma deuxi√®me variable : 
octobre
---
Ma troisi√®me variable : 
2021


Pouvez-vous lister les quatres types de valeur de base qu'il est possible d'assigner √† une variable ? üßê ‚û°Ô∏è https://colab.research.google.com/drive/1jGnol8wrpwBNObCBuW1TO-idXgXvsJgU?usp=sharing

In [None]:
# Lister les types de valeur possibles ici



On peut utiliser la m√©thode `type()` pour conna√Ætre le type d'une variable avec Python.

In [None]:
# Utiliser la m√©thode type() pour indiquer le type des variables pr√©c√©demment d√©clar√©es




### 1.2 Les listes

On peut √©galement stocker plusieurs valeurs dans une liste.

Assignons une liste √† une variable :

In [4]:
ma_liste_de_peintre = ['Mary Cassatt', 'Frida Kahlo', 'Judith Leyster', 'Rosa Bonheur', 'Margaret Macdonald Mackintosh']

Une liste permet d'ordonner simplement plusieurs valeurs, et les rend facilement accessible dans un seul et m√™me conteneur. 

On peut √©galement it√©rer dessus avec une boucle `for`.

In [5]:
for painter in ma_liste_de_peintre:
  print(painter)

Mary Cassatt
Frida Kahlo
Judith Leyster
Rosa Bonheur
Margaret Macdonald Mackintosh


Rappelons que les listes sont **indexables**. On peut acc√©der √† une valeur de la liste en appelant son index. La subtilit√© est qu'en programmation, l'index commence √† 0. 

| ma_liste_de_peintre : | Mary Cassatt | Frida Kahlo | Judith Leyster | Rosa Bonheur | Margaret Macdonald Mackintosh |
|---------------------|--------------|-------------|----------------|--------------|-------------------------------|
| Index :               | 0            | 1           | 2              | 3            | 4                             |

In [6]:
print(ma_liste_de_peintre[2])

Judith Leyster


Les valeurs contenues dans une liste peuvent √™tre de types diff√©rents.

Les index d'une liste peuvent √©galement √™tre une liste et un dictionnaire. Quand c'est le cas d'une liste, par exemple, on parle de liste imbriqu√©e, ou *nested list*.

In [7]:
ma_deuxieme_liste_de_peintre = [['Mary Cassatt', '1844', '1926'], ['Frida Kahlo', '1907', '1954'], ['Judith Leyster', '1609', '1660'],
                                ['Rosa Bonheur', '1822', '1899'], ['Margaret Macdonald Mackintosh', '1864', '1933']]

On peut afficher chacune de ces listes avec une boucle `for`.

In [9]:
for index in ma_deuxieme_liste_de_peintre:
  print(index)

['Mary Cassatt', '1844', '1926']
['Frida Kahlo', '1907', '1954']
['Judith Leyster', '1609', '1660']
['Rosa Bonheur', '1822', '1899']
['Margaret Macdonald Mackintosh', '1864', '1933']


 √âtant donn√© que nous avons cr√©√© la liste, nous savons que chaque liste imbriqu√©e poss√®de :

 * En index 0, le nom d'une peintre.
 * En index 1, sa date de naissance.
 * En index 2, sa date de d√©c√®s.

 Sauriez-vous n'imprimer seulement que la date de naissance √† l'aide d'une boucle `for` ? ‚û°Ô∏è https://colab.research.google.com/drive/15HNVvKgliqmJarxqh1jvk7EbpCXUqgeP?usp=sharing

In [None]:
# Imprimer la date de naissance de chaque peintre ici



### 1.3 Les dictionnaires

Les dictionnaires ont l'avantage de stocker l'information de mani√®re plus structur√©e qu'une liste.  Mais attention, il n'y a pas de meilleure mani√®re de stocker des valeurs, seulement des solutions plus ou moins adapt√©es √† chaque situation. üë©‚Äçüíª 

Dans un dictionnaire, les valeurs sont organis√©s selon une paire cl√©-valeur. 

Chaque cl√© est unique, mais on peut retrouver plusieurs fois la m√™me valeur. 

Les valeurs peuvent √™tre de plusieurs types.

Si on reprend la derni√®re liste que nous avons cr√©√©, on peut imaginer sa transformation en dictionnaire.

In [10]:
mon_dictionnaire_de_peintre = {0: {'nom': 'Mary Cassatt',
                                   'date_de_naissance': "1844",
                                   'date_de_deces': '1926'},
                               1: {'nom': 'Frida Kahlo',
                                   'date_de_naissance': "1907",
                                   'date_de_deces': '19546'},
                               2: {'nom': 'Judith Leyster',
                                   'date_de_naissance': "1609",
                                   'date_de_deces': '1660'},
                               3: {'nom': 'Rosa Bonheur',
                                   'date_de_naissance': "1822",
                                   'date_de_deces': '1899'},
                               4: {'nom': 'Margaret Macdonald Mackintosh',
                                   'date_de_naissance': "1864",
                                   'date_de_deces': '1933'},
                               }

On commence donc √† traiter des structures de donn√©es un peu plus complexes, qui nous permettent d'anticiper ce qu'il est possible de trouver couramment. 

Disons que nous souhaitions afficher le nom de la quatri√®me peintre. De nouveau, √©tant donn√© que nous avons cr√©√© ce dictionnaire, nous savons comment il fonctionne, ce qui facilite l'acc√®s √† l'information. 

Ainsi, nous pouvons voir qu'il faut d'abord acc√©der √† la quatri√®me cl√©, `3`, puis √† la cl√© `'nom'`.

In [11]:
mon_dictionnaire_de_peintre[3]['nom']

'Rosa Bonheur'

Ajoutons quelques-unes des oeuvres de chaque peintre dans notre dictionnaire üé® :

In [12]:
mon_dictionnaire_de_peintre = {0: {'nom': 'Mary Cassatt',
                                   'date_de_naissance': "1844",
                                   'date_de_deces': '1926',
                                   'artworks': ['Little Girl in a Blue Armchair',
                                                'The Boating Party']},
                               1: {'nom': 'Frida Kahlo',
                                   'date_de_naissance': "1907",
                                   'date_de_deces': '1956',
                                   'artworks': ['The Two Fridas',
                                                'The wounded Deer']},
                               2: {'nom': 'Judith Leyster',
                                   'date_de_naissance': "1609",
                                   'date_de_deces': '1660',
                                   'artworks': ['Jolly Toper',
                                                'Self‚Äëportrait by Judith Leyster']},
                               3: {'nom': 'Rosa Bonheur',
                                   'date_de_naissance': "1822",
                                   'date_de_deces': '1899',
                                   'artworks': ['Labourage nivernais',
                                                'Le March√© aux chevaux']},
                               4: {'nom': 'Margaret Macdonald Mackintosh',
                                   'date_de_naissance': "1864",
                                   'date_de_deces': '1933',
                                   'artworks': ['The Mysterious Garden',
                                                'Queen']},
                               }

Sauriez-vous afficher la premi√®re oeuvre de Margaret Macdonald Mackintosh ? ‚û°Ô∏è https://colab.research.google.com/drive/1_3XzkBrdK86p_oIG3EuuIq7t4XQ8vo3A?usp=sharing

In [None]:
# Afficher la premi√®re oeuvre de Margaret Macdonald Mackintosh depuis notre dictionnaire



## 2\. Lire des fichiers avec Python et cr√©er des fonctions

Lorsqu'on programme, les structures de donn√©es qu'on utilise peuvent √™tre plus ou moins complexes, plus ou moins longues. 

On peut √©galement utiliser des donn√©es localis√©es sur des fichiers externes aux scripts que l'on √©crit. C'est ce que nous allons voir dans cette partie.

Pour commencer, et vu que nous sommes en plein mois d'octobre, je vous propose de t√©l√©charger depuis le site du Projet Gutenberg la version plein texte du roman de Bram Stoker, *Dracula*, publi√© en 1897. üéÉ üßõ

Le projet Gutenberg est une biblioth√®que de versions √©lectroniques libres de livres physiques tomb√©s dans le domaine public. Les ouvrages sont t√©l√©chargeables dans diff√©rents format. Chaque notice poss√®de les m√©tadonn√©es correspondante √† l'ouvrage concern√©.


Pour *Dracula*, voir ‚û°Ô∏è https://www.gutenberg.org/ebooks/345

### 2.1 T√©l√©chargement du fichier plein texte de *Dracula*

Il n'y a pas besoin de t√©l√©charger quelque chose sur votre ordinateur, tout passera par Colab, gr√¢ce √† la cellule de code suivante. En ex√©cutant celle-ci, on r√©cup√©rera une version plein texte du roman de Bram Stoker, au format `.txt` donc.

In [13]:
# On importe le module built-in os
import os 

# On d√©clare une variable pour stocker l'URL renvoyant vers la version plein texte de Dracula
url_dracula = "https://www.gutenberg.org/files/345/345-0.txt"
# On r√©cup√®re le nom du fichier t√©l√©charg√© depuis le site du projet Gutenberg gr√¢ce √† la m√©thode basename()
filename = os.path.basename(url_dracula)

# On utilise des commandes Shell pour t√©l√©charger le fichier plein texte avec la commande wget
!wget $url_dracula
# On cr√©e un dossier pour stocker notre fichier 
!mkdir data/dracula_texte
# Puis on d√©place le fichier dans ce dossier et on modifie le nom du fichier pour qu'on s'y retrouve mieux
!mv $filename data/dracula_texte/stoker_dracula.txt

--2021-10-11 16:47:50--  https://www.gutenberg.org/files/345/345-0.txt
Resolving www.gutenberg.org (www.gutenberg.org)... 152.19.134.47, 2610:28:3090:3000:0:bad:cafe:47
Connecting to www.gutenberg.org (www.gutenberg.org)|152.19.134.47|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 881473 (861K) [text/plain]
Saving to: ‚Äò345-0.txt‚Äô


2021-10-11 16:47:57 (6.96 MB/s) - ‚Äò345-0.txt‚Äô saved [881473/881473]



### 2.2 Ouverture du fichier texte

Avec Python, on peut utiliser la fonction *built-in* `open()`, pour ouvrir un fichier texte.

Nous reviendrons tr√®s prochainenement sur la notion de fonction, d√©clarons pour commencer qu'une fonction est un bout de code que l'on peut appeler pour l'ex√©cuter √† l'endroit o√π on le souhaite. Bien souvent, on applique une fonction √† des donn√©es. 

Par exemple, la fonction `open()` a besoin, au minimum, d'une cha√Æne de caract√®re indiquant un chemin de fichier. Les donn√©es utilis√©s par une fonction sont appel√©s **param√®tres**.

Essayons la fonction :

In [14]:
mon_fichier = open('data/dracula_texte/stoker_dracula.txt')
# Pr√©cision : pour venir ouvrir le fichier, il faut indiquer le chemin de fichier o√π celui-ci r√©side. 
# Ici, notre fichier est stock dans le dossier 'data'.

# Essayons de l'imprimer maintenant.
print(mon_fichier)

<_io.TextIOWrapper name='data/dracula_texte/stoker_dracula.txt' mode='r' encoding='UTF-8'>


Le r√©sultat de `print()`est int√©ressant. On n'obtient pas le roman, mais des informations relatives √† un objet python, `TextIOWrapper`.

Pour stocker le roman sous forme de cha√Æne de caract√®res dans une variable, il faut une √©tape suppl√©mentaire. 

On peut utiliser la m√©thode `.read()` de ce type d'objet sp√©cifique. 

Voyez par vous-m√™me :

In [15]:
print(mon_fichier.read())

ÔªøThe Project Gutenberg eBook of Dracula, by Bram Stoker

This eBook is for the use of anyone anywhere in the United States and
most other parts of the world at no cost and with almost no restrictions
whatsoever. You may copy it, give it away or re-use it under the terms
of the Project Gutenberg License included with this eBook or online at
www.gutenberg.org. If you are not located in the United States, you
will have to check the laws of the country where you are located before
using this eBook.

Title: Dracula

Author: Bram Stoker

Release Date: October, 1995 [eBook #345]
[Most recently updated: March 12, 2021]

Language: English

Character set encoding: UTF-8

Produced by: Chuck Greif and the Online Distributed Proofreading Team

*** START OF THE PROJECT GUTENBERG EBOOK DRACULA ***




                                DRACULA





                                DRACULA

                                  _by_

                              Bram Stoker

                        [Illust

Je vous l'accorde, lire Dracula dans une cellule d'un Google Colab n'est pas tr√®s pratique.

Parlons maintenant de bonnes pratiques. Ouvrir un fichier de la sorte n'est pas la bonne mani√®re. Il manque notamment des param√®tres, optionnels certes, mais importants lorsqu'on souhaite traiter du texte avec Python. De plus, la syntaxe pr√©c√©dente laisse la porte ouverte aux √©tourderies et erreurs, car on ne ferme pas le fichier automatiquement.

Pour le fermer, il faudrait faire :

In [16]:
mon_fichier.close()

On peut v√©rifier qu'on l'a bien ferm√© : 

In [17]:
mon_fichier.read()

ValueError: ignored

Python propose une syntaxe compacte et claire pour g√©rer des fichiers textes, que voici :

In [18]:
with open('data/dracula_texte/stoker_dracula.txt', mode='r', encoding='utf8') as fh:
  dracula = fh.read()

Elle a l'avantage de fermer automatiquement le fichier qui a √©t√© ouvert. 

D√©composons-la :

* with ... as ... : cette syntaxe permet d'utiliser la variable `fh`pour se r√©f√©rer √† l'objet que l'on a cr√©√© avec `open()`
* `open()` poss√®de ici trois param√®tres :
    * le chemin de fichier, obligatoire
    * `mode`, o√π une cha√Æne de caract√®res vient indiquer le mode de traitement du fichier. Ici `'r'` pour *reading*. On souhaite donc seulement lire le fichier, et non le modifier. Voir la documentation Python pour les autres modes ‚û°Ô∏è https://docs.python.org/3/library/functions.html#open
    * `encoding`, o√π l'on indique l'encodage utilis√© dans le fichier pour pouvoir le d√©coder ou l'encoder. (Concernant l'encodage, voir la vid√©o de Computerphile https://www.youtube.com/watch?v=MijmeoH9LT4&ab_channel=Computerphile)
* On cr√©e ensuite la variable `dracula`, qui va venir stocker la cha√Æne de caract√®re du fichier plein texte que l'on a ouvert, gr√¢ce √† la m√©thode `read()` que l'on applique √† `fh`.



Et `open` s'occupe donc pour nous de fermer le fichier. 

### 2.3 Cr√©ation d'une premi√®re fonction

Nous venons donc de voir comment ouvrir un fichier texte pour le pr√©parer √† son traitement avec Python. 

Nous avons aussi rapidement parl√© des fonctions. 

Imaginez que vous ayez √† traiter dans un script plusieurs fichiers texte, qu'il faudrait donc ouvrir √† chaque fois avec `open`. Bien que la cellule o√π on utilise cette syntaxe ne fasse que deux lignes de code, programmer, c'est aussi trouver des solutions pour se faciliter la vie. 

On pourrait donc cr√©er une fonction pour √©viter d'avoir √† r√©-√©crire tout le temps ces deux lignes de code. 

#### 2.3.1 D√©finition et cr√©ation 

Une fonction c'est quoi ?

C'est donc un bloc de code, auquel on donne un nom et que l'on peut appeler avec ce nom. On peut utiliser des param√®tres, aussi appel√©s arguments pour ex√©cuter la fonction (*parameters*, *arguments*). Et enfin, une fonction donne une valeur de retour (*return value*).

On cr√©e une fonction comme cela :

In [20]:
def open_file(chemin_de_fichier):
  with open(chemin_de_fichier, mode='r', encoding='utf8') as fh:
    opened_file = fh.read()

  return opened_file

On d√©clare une fonction avec `def`, suivi du nom de la fonction, puis entre parenth√®ses, du/des param√®tre(s), suivi de `:`.

Avec une indentation, on peut ensuite √©crire le contenu de la fonction, puis lui donner une valeur de retour, ici, le contenu de notre fichier. 

On appelle ensuite notre fonction de la sorte :

In [21]:
texte_dracula = open_file('data/dracula_texte/stoker_dracula.txt')

Ici, on attribue donc la valeur de retour de notre fonction √† la variable `texte_dracula`.

Avec cette fonction, on pourrait ouvrir une multitude de fichiers textes et les assigner respectivement √† des variables diff√©rentes.

#### 2.3.2 La valeur de retour (*return value*)

Sans valeur de retour ad√©quate, notre fonction serait par contre totalement inutile. Essayons par exemple :

In [22]:
def fonction_qui_ne_va_pas_marcher(chemin_de_fichier):
  with open(chemin_de_fichier, mode='r', encoding='utf8') as fh:
    opened_file = fh.read()

est_ce_que_ca_va_marcher = fonction_qui_ne_va_pas_marcher('data/dracula_texte/stoker_dracula.txt')
print(est_ce_que_ca_va_marcher)

None


Sans valeur de retour, les fonctions renvoient `None`, donc une absence de valeur. La variable existe, mais aucune valeur ne lui est assign√©e.

In [23]:
def fonction_qui_ne_retourne_pas_ce_quon_veut(chemin_de_fichier):
  with open(chemin_de_fichier, mode='r', encoding='utf8') as fh:
    opened_file = fh.read()

    return fh

est_ce_que_ca_va_marcher_cette_fois = fonction_qui_ne_retourne_pas_ce_quon_veut('data/dracula_texte/stoker_dracula.txt')
print(est_ce_que_ca_va_marcher_cette_fois)

<_io.TextIOWrapper name='data/dracula_texte/stoker_dracula.txt' mode='r' encoding='utf8'>


Pas de chance, ici la fontion retourne `fh`, qui comme on l'a vu, est un objet `TextIOWrapper`, et non une cha√Æne de caract√®res.

#### 2.3.3 La notion de port√©e (*scope*)

Une variable ne peut √™tre accessible que depuis la r√©gion o√π elle a √©t√© cr√©√©e. Cette notion se nomme port√©e, ou *scope*.

Dans le cas d'une fonction, on parle de port√©e locale (*local scope*). Par cela, on entend que les variables d√©clar√©es dans une fonction, ne sont pas accessibles en dehors de la fonction. C'est notamment pour cela qu'on utilise une valeur de retour, pour pouvoir obtenir un r√©sultat depuis la fonction et faire en sorte qu'elle serve √† quelque chose. 

Essayons par exemple d'acc√©der √† la variable `opened_file` en dehors de la fonction que l'on vient de cr√©er :

In [24]:
print(opened_file)

NameError: ignored

Vu que nous sommes en dehors de la port√©e de la fonction, la variable `opened_file` n'existe donc pas.

#### 2.3.4 Convention de nommage

Pour nommer une fonction, la [PEP8](https://www.python.org/dev/peps/pep-0008/#function-and-variable-names) d√©clare que les noms doivent √™tre en minuscule, et s√©par√©s par des `_`.

#### 2.3.5 Documenter une fonction

Enfin, dans le cas des bonnes pratiques Python, et m√™me de la programmation en g√©n√©ral, il est important de prendre l'habitude de documenter les fonctions que vous cr√©ez. 

Documenter le code que l'on √©crit et les fonctions simplifiera √©norm√©ment la t√¢che de votre futur vous et des personnes qui seront potentiellement amen√© √† reprendre votre code, et contribue √† une bonne hygi√®ne du code.

Pour documenter une fonction, on peut utiliser la documentation [reStructuredText](https://devguide.python.org/documenting/), dont voici un exemple appliqu√© √† notre fonction :

In [None]:
def open_file(chemin_de_fichier):
  """ Ouvre un fichier texte et retourne
  son contenu sous forme de cha√Æne de caract√®res.

  :param chemin_de_fichier: chemin de fichier
  :type chemin_de_fichier: str
  :returns: Contenu du fichier ouvert sous forme de cha√Æne de caract√®res
  :rtype: str
  """
  with open(chemin_de_fichier, mode='r', encoding='utf8') as fh:
    opened_file = fh.read()

  return opened_file

Plusieurs √©l√©ments servent √† documenter la fonction :

* On utilise un commentaire multilignes avec `"""`
* On d√©crit l'objectif de la fonction
* On d√©crit les param√®tres en commen√ßant par :
    * `:param nom_du_param√®tre:` qui sert √† d√©crire ce qui est attendu pour le param√®tre concern√©.
    * `:type nom_du_param√®tre:` o√π on indique le type de valeur attendu, ici une cha√Æne de caract√®res, donc `str` pour *string*.
    * `:returns:` pour renseigner sur la valeur de retour.
    * Et enfin, `:rtype:`, o√π on indique le type de valeur de retour.



#### 2.3.6 Un petit exercice d'√©criture de fonction

Essayons d'√©crire et d'analyser des fonctions.

In [25]:
def word_counter(texe, word_to_count):
  """ Compte un mot donn√© dans un texte

  :param text: cha√Æne de caract√®res √† analyser
  :type text: str
  :param word_to_count: mot √† compter
  :type word_to_count: str
  :returns: d√©compte
  :rtype: int
  """
  counter = 0
  text_lowered = text.lower()
  text_splitted = text_lowered.split()
  for word in text_splitted:
    if word == word_to_count:
      counter += 1

  return counter

Une autre fonction, qui donne exactement le m√™me r√©sultat que la pr√©c√©dente, mais avec une syntaxe diff√©rente.

In [28]:
def word_counter(texte, word_to_count):
    """ Compte un mot donn√© dans un texte

  :param text: cha√Æne de caract√®res √† analyser
  :type text: str
  :param word_to_count: mot √† compter
  :type word_to_count: str
  :returns: d√©compte
  :rtype: int
  """
    counter = 0
    text_lowered = texte.lower()
    text_splitted = text_lowered.split()

    counter = text_splitted.count(word_to_count)

    return counter

In [None]:
def remove_punctuation(text):
  """ Nettoie un texte en supprimant sa ponctuation
  :param text: texte √† nettoyer
  :type text: str
  :returns: texte nettoy√©
  :rtype: str
  """
  punctuation = '!@#$%^&*()_-+={}[]:;"\'|<>,.?/~`'
  for marker in punctuation:
      text = text.replace(marker, "")
  return text

# 3\. Les fichiers CSV

Un fichier CSV, ou *comma-separated values* est un fichier de texte o√π des valeurs sont d√©limit√©s par une virgule. 

En d'autres termes, un fichier CSV est un tableau dans une forme simplifi√©e, dans lequel on organise des donn√©es, et qui peut √™tre facilement analyser par un ordinateur. 

On peut √©galement trouver d'autres s√©parateurs de colonnes : un point-virgule, ou encore une tabulation. On utilise le terme fichier CSV de fa√ßon g√©n√©rale, mais vous pouvez aussi rencontrer, lorsque les valeurs sont d√©limit√©s par une tabulation, le terme de fichier TSV, pour *tab-separated values*.

Ces fichiers sont encod√©s en plein texte, et peuvent √™tre lus avec l'√©diteur de texte de votre choix. On peut √©galement les utiliser avec Python, c'est ce que nous allons voir.

## 3.1 Visualisation d'un fichier CSV

Commen√ßons par t√©l√©charger, comme nous l'avons fait pr√©c√©demment, un fichier CSV depuis le site de la British Library.

Nous utiliserons pour commencer un fichier CSV tir√© d'un set de donn√©es sur l'autrice Jane Austen (1775-1817), et plus particuli√®rement sur les ouvrages conserv√©s √† la British Library qui sont lui sont reli√©s.

‚û°Ô∏è Voir https://www.bl.uk/collection-metadata/downloads# rubrique *Literature datasets*

In [29]:
url = "https://www.bl.uk/bibliographic/downloads/JAustenResearcherFormat_202107_csv.zip"

filename = os.path.basename(url)

!mkdir data/CSV

!wget -N $url --no-check-certificate && unzip -u $filename && rm $filename && mv titles.csv data/CSV/Austen_titles_britishLibrary.csv
!rm *.csv
!rm *.txt
!rm *.pdf

--2021-10-11 16:54:31--  https://www.bl.uk/bibliographic/downloads/JAustenResearcherFormat_202107_csv.zip
Resolving www.bl.uk (www.bl.uk)... 194.66.233.215
Connecting to www.bl.uk (www.bl.uk)|194.66.233.215|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 8134322 (7.8M) [application/zip]
Saving to: ‚ÄòJAustenResearcherFormat_202107_csv.zip‚Äô


2021-10-11 16:54:33 (4.75 MB/s) - ‚ÄòJAustenResearcherFormat_202107_csv.zip‚Äô saved [8134322/8134322]

Archive:  JAustenResearcherFormat_202107_csv.zip
  inflating: british_library_catalogue_dataset_tc.pdf  
  inflating: classification.csv      
  inflating: names.csv               
  inflating: Readme - Jane Austen.txt  
  inflating: records.csv             
  inflating: titles.csv              
  inflating: topics.csv              


Pour les besoins de cette d√©monstration, nous installons ici la librairie Pandas, couramment utilis√© dans la manipulation et l'analyse de donn√©es. Ici, elle nous servira seulement d'outil de visualisation.

In [30]:
!pip install pandas



In [31]:
# On importe la librairie
import pandas

# On utilise la m√©thode read_csv() pour la visualisation
pandas.read_csv("data/CSV/Austen_titles_britishLibrary.csv")

Unnamed: 0,Title,Other titles,BL record ID,Type of resource,Content type,Material type,BNB number,Archival Resource Key,ISBN,Name,Dates associated with name,Type of name,Role,All names,Series title,Number within series,Country of publication,Place of publication,Publisher,Date of creation/publication,Edition,Physical description,Dewey classification,BL shelfmark,Topics,Genre,Languages,Notes,Provenance
0,''VOLUME THE THIRD'': notebook containing two ...,,032-001990460,Fonds. Archives and Manuscripts,,,,ark:/81055/vdc_100000000036.0x0000f2,,"Austen, Jane, novelist",1775-1817,person,author,"Austen, George, Reverend father of Jane Austen...",,,,,,6 May 1792-19 Aug 1809,,1 item,,Western Manuscripts. Add MS 65381,"Leigh, James Edward Austen, nephew of Jane Austen",,English,"Jane Austen, novelist: Juvenilia, ''Volume The...",National Heritage Memorial Fund: Purchased wit...
1,'A very pretty amber cross' : material sources...,'Is she musical?' players and nonplayers in Au...,019690003,Monograph,Language material ; Still image ; Text,Volume,GBC012674,,9781644531747 ; 9781644531754,,,,,"Battigelli, Anna, 1960-, editor [person]",,,United States of America,Newark,University of Delaware Press,2020,,"xi, 267 pages, black and white illustrations, ...",823.7,YC.2020.a.3310 ; m20/.10973,"Arts in literature ; Austen, Jane, 1775-1817 ;...",Criticsm and interpretation,English,First published 2020,
2,'An orgy of propriety' : Jane Austen and the e...,,007343210,Monograph,Language material ; Text,Volume,,,9783884763704,"Scholz, Anne-Marie",,person,author,"Scholz, Anne-Marie, author [person]",Mosaic,Band 7 [Mosaic],Germany,Trier,Wissenschaftlicher Verlag Trier,1999,,"183 pages, 21 cm",,YA.2002.a.8490,"Austen, Jane, 1775-1817--Criticism and interpr...",,English,Dissertation,
3,'And of this place I might have been mistress'...,Austenland and Lost in Austen: plunging into a...,019193419,Monograph,Language material ; Text,Online resource,GBB902417,,9781527523418,"Camden, Jennifer",,person,author,"Camden, Jennifer, author [person] ; Oestreich,...",,,England,Newcastle upon Tyne,Cambridge Scholars,2018,,1 online resource (182 pages),006.7,ELD.DS.375228,Feminism & feminist theory ; Pemberley Digital...,Adaptation,English,,
4,'Emma',Companion to 'Emma' ; The Cambridge companion ...,017496856,Monograph,Language material ; Still image ; Text,Online resource (PDF ebook),GBB5B4171,,9781316390979,,,,,"Sabor, Peter, editor [person]",Cambridge companions to literature,,England,Cambridge,Cambridge University Press,2015,,"1 online resource, black and white illustrations",823.7,,"Austen, Jane, 1775-1817",,English,Additional physical form: Print version. 97811...,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4076,≈íuvres romanesques compl√®tes,Works. Selections. French,016892741,Monograph,Language material ; Text,Volume,,,9782070146154,"Austen, Jane",1775-1817,person,author,"Goubert, Pierre, editor ; translator [person] ...",Biblioth√®que de la Pl√©iade,"469, 592 [Biblioth√®que de la Pl√©iade]",France,Paris,Gallimard,2000-2013,,"2 volumes, 18 cm",,YF.2014.a.28090,,,French,In slip case ; Translated from the English,
4077,–ì–æ—Ä–¥–æ—Å—Ç—å –∏ –ø—Ä–µ–¥—É–±–µ–∂–¥–µ–Ω–∏–µ,Gordost π i predubezhdenie ; Pride and prejudic...,000144722,Monograph,Language material ; Text,Volume,,,,"Austen, Jane",1775-1817,person,author,"Demurova, N. M. (Nina Mikhaƒ≠lovna), 1930- [per...",Literaturnye pamiÔ∏†aÔ∏°tniki / AkademiiÔ∏†aÔ∏° nauk S...,,Russia,Moskva ; –ú–æ—Å–∫–≤–∞,Nauka ; –ò–∑–¥-–≤–æ '–ù–∞—É–∫–∞',1967,,"621 pages, 8¬∞",,Ac.1125/225. (105.),,,Russian,,
4078,◊î◊¢◊ï◊ú◊ù ◊ë◊°◊ô◊§◊ï◊®◊™ : ◊ó◊ô◊ß◊ï◊ô ◊û◊¶◊ô◊ê◊ï◊™ ◊ê◊ï ◊ê◊®◊í◊ï◊ü ◊ê◊û◊†◊ï◊™◊ô?,Fictional world ; ha- øOlam ba-siporet : ·∏•i·∏≥ui ...,013142812,Monograph,Language material ; Text,Volume,,,9789653024946,"Hertsig, ·∏§anah",,person,,"◊î◊®◊¶◊ô◊í, ◊ó◊†◊î [person] ; Universi·π≠ah ha-petu·∏•ah [...",,,Israel,"Ramat-Aviv, Tel-Aviv ; ◊®◊û◊™÷æ◊ê◊ë◊ô◊ë, ◊™◊ú÷æ◊ê◊ë◊ô◊ë",ha-Universi·π≠ah ha-petu·∏•ah ; ◊î◊ê◊ï◊†◊ô◊ë◊®◊°◊ô◊ò◊î ◊î◊§◊™◊ï◊ó◊î,1989,,"276, 1 page, illustrations, 25 cm",,HEC.1990.a.79,"Austen, Jane, 1775-1817 ; ◊ê◊ï◊°◊ò◊ü, ◊í◊≥◊ô◊ô◊ü, 1775-1...",,Hebrew,'10334'--Spine ; Title on t.p. verso: The fict...,
4079,ÿßŸÑŸÉÿ®ÿ±Ÿäÿßÿ° Ÿà ÿßŸÑŸáŸàŸâ,Pride and prejudice. Arabic ; al-KibriyƒÅ º wa-a...,016569330,Monograph,Language material ; Text,Volume,,,,"Austen, Jane",1775-1817,person,author,"BadrƒÅn, Mu·∏•ammad, translator [person] ; ÿ®ÿØÿ±ÿßŸÜ,...",,,Egypt,Cairo ; al-QƒÅhirah ; ÿßŸÑŸÇÿßŸáÿ±ÿ©,DƒÅr al-Fikr al-'Arabƒ´ ; ÿØÿßÿ± ÿßŸÑŸÅŸÉÿ± ÿßŸÑÿπÿ±ÿ®Ÿä,1947,,"iv, 216 pages, 19 cm",,14524.a.19,Young women--Fiction ; Sisters--Fiction ; Engl...,Fiction,Arabic,,


## 3.2 Importer un *package* avec Python : la librairie CSV

Nous avons pu utiliser, depuis le d√©but de ce cours, plusieurs fonctions basiques directement disponibles. Python poss√®de √©galement des librairies *built-in*, qu'on nomme paquets, ou *packages*. 

Un *package* est un regroupement de modules dans lesquels se trouvent des utilitaires, tels que des fonctions, et qu'il faut importer dans le script qu'on √©crit pour pouvoir l'utiliser. 

Python poss√®de une librairie *built-in*, nomm√©e [csv](https://docs.python.org/3/library/csv.html), qui sert √† traiter des fichiers CSV. Pour l'utiliser, il faut donc l'importer.

Pour cela, on utilise la syntaxe suivante :

In [32]:
import csv

On peut afficher les m√©thodes propres au *package* en question de la sorte, m√™me si sans la documentation cela n'est pas d'une tr√®s grande utilit√© :

In [33]:
dir(csv)

['Dialect',
 'DictReader',
 'DictWriter',
 'Error',
 'OrderedDict',
 'QUOTE_ALL',
 'QUOTE_MINIMAL',
 'QUOTE_NONE',
 'QUOTE_NONNUMERIC',
 'Sniffer',
 'StringIO',
 '_Dialect',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '__version__',
 'excel',
 'excel_tab',
 'field_size_limit',
 'get_dialect',
 'list_dialects',
 're',
 'reader',
 'register_dialect',
 'unix_dialect',
 'unregister_dialect',
 'writer']

## 3.3 Lire un fichier CSV

Nous avons vu tout √† l'heure comment ouvrir un fichier texte avec `with open(...) as ...:`. Pour ouvrir un fichier CSV et le stocker dans une variable, la m√©thode est diff√©rente, mais pas si √©loign√©. Il faut maintenant utiliser le *package* csv.

Pour cela, on utilise la m√©thode `reader()`.

In [34]:
with open('data/CSV/Austen_titles_britishLibrary.csv', mode='r', encoding='utf-8', newline='') as csvfile:
  csv_reader = csv.reader(csvfile, delimiter=',')

Cette m√©thode retourne un *reader object* qui permet d'it√©rer sur chaque ligne du fichier CSV. 

‚û°Ô∏è https://docs.python.org/3/library/csv.html#csv.reader

Chaque ligne du CSV est enregistr√©e dans l'objet *reader* comme une liste. Chaque index de la liste est une cellule (attention √† l'en-t√™te, qui n'est pas trait√©e diff√©remment!)

In [35]:
with open('data/CSV/Austen_titles_britishLibrary.csv', mode='r', encoding='utf-8', newline='') as csvfile:
  csv_reader = csv.reader(csvfile, delimiter=',')
  for row in csv_reader:
    print(row)

['Title', 'Other titles', 'BL record ID', 'Type of resource', 'Content type', 'Material type', 'BNB number', 'Archival Resource Key', 'ISBN', 'Name', 'Dates associated with name', 'Type of name', 'Role', 'All names', 'Series title', 'Number within series', 'Country of publication', 'Place of publication', 'Publisher', 'Date of creation/publication', 'Edition', 'Physical description', 'Dewey classification', 'BL shelfmark', 'Topics', 'Genre', 'Languages', 'Notes', 'Provenance']
["''VOLUME THE THIRD'': notebook containing two early novels, ''Evelyn'' and ''Catharine, or the Bower'', by Jane Austen; 6 May 1792-19 Aug. 1809, n.d. Mostly autograph. This is the third of the surviving three volumes of Jane Austen''s juvenilia; ''Volume the First'' is in the Bodleian Library, Oxford (MS Don.e.7) and ''Volume the Second'' is in the British Library (Add. 59874). All contain copies, with some later additions and revisions, of original manuscripts which do not survive. On the inner front cover (f.

Maintenant que nous avons ouvert un fichier CSV, nous pourrions imaginer quelques traitements √† faire dessus.

Essayons de compter combien il y a de monographies concernant Jane Austen ! üìö

‚û°Ô∏è https://colab.research.google.com/drive/1A8rvPw31eQcQ1t3ZsWMcgxloOWMrmAhR?usp=sharing

In [None]:
# Comptez combien il y a de monographies concernant Jane Austen dans le CSV



## 3.4 Ecrire dans un fichier CSV

Jusque-l√†, nous avons vu comment lire des fichiers, texte ou CSV. Il est √©galement utile de savoir comment √©crire dans un fichier.

Imaginons que nous ayons envie de r√©cup√©rer seulement quelques colonnes de ce CSV, et non toutes. On pourrait utiliser Python pour cr√©er un nouveau fichier CSV √† partir de celui sur lequel on travaille en s√©lectionnant les colonnes qui nous int√©resse.

En regardant le fichier, nous savons que :

1. la premi√®re colonne concerne les **titres**.
2. La troisi√®me colonne les **identifiants**.
3. La quatri√®me colonne **le type de ressource**.
4. La dixi√®me colonne le **nom de la personne √† l'origine de la ressource**.
5. La onzi√®me colonne **la date associ√© √† la ressource**, s'il y en a une. 

Essayons d'√©crire un fichier avec ces colonnes.

Pour cela, on utilise la m√©thode `writer()` du *package* csv.

Cette m√©thode va cr√©er un fichier et √©crire des informations √† l'int√©rieur, en fonction bien √©videmment du code que l'on va √©crire. 

Essayons d'√©crire ce nouveau fichier ensemble, en r√©organisant les colonnes.

In [37]:
with open('data/CSV/Austen_titles_britishLibrary.csv', mode='r', encoding='utf-8', newline='') as csvfile:
  csv_reader = csv.reader(csvfile, delimiter=',')

  with open('data/CSV/Austen_titles_britishLibrary_modified.csv', mode='w', encoding='utf-8', newline='') as new_csv:
    csv_writer = csv.writer(new_csv, delimiter=',')
    csv_writer.writerow(['Personne associ√©e √† la ressource', 'titre', 'date', 'type de ressource', 'identifiant'])
    
    for row[1:] in csv_reader:
      csv_writer.writerow([row[10], row[1], row[11], row[4], row[3],])

On a vu qu'il y avait √©norm√©ment de monographies, essayons de cr√©er un autre fichier CSV √† partir du pr√©c√©dent, qui exclue toutes les monographies.

In [38]:
with open('data/CSV/Austen_titles_britishLibrary_modified.csv', mode='r', encoding='utf-8', newline='') as csvfile:
  csv_reader = csv.reader(csvfile, delimiter=',')

  with open('data/CSV/Austen_titles_britishLibrary_without_monographs.csv', mode='w', encoding='utf-8', newline='') as new_csv:
    csv_writer = csv.writer(new_csv, delimiter=',')  

    for row in csv_reader:
      if row[3] != 'Monograph':
        csv_writer.writerow(row)

### 3.4.1 Apart√© : √©crire dans un fichier texte

Nous avons vu comment √©crire dans un fichier CSV, on peut √©galement voir rapidement comment √©crire dans un fichier texte ! üìñ

In [39]:
!mkdir data/apart√©

str_for_writing = "Python, c'est quand m√™me super chouette."

with open('data/apart√©/fichier_texte_exemple.txt', mode='w', encoding='utf-8') as fh:
  fh.write(str_for_writing)

# 4\. Les fichiers JSON

Le format JSON est un format de donn√©es textuelles permettant de structurer l'information.

Il a √©t√© d√©velopp√©e entre 2002 et 2005 dans le contexte du langage JavaScript, et est √©norm√©ment utilis√© pour l'√©change de donn√©es sur Internet. La plupart des requ√™tes faites sur internet passent par du JSON.

‚û°Ô∏è https://www.json.org/json-en.html

## 4.1 Structure d'un fichier JSON

Regardons de plus pr√®s comment est structur√© le format JSON. üîé

üëâ Affiche pour *Nosferatu* (1922), pour le *Film Complet du Dimanche*, sur Gallica (https://gallica.bnf.fr/ark:/12148/bpt6k3206933d/f1.item)

üëâ La m√™me notice, mais au format JSON (https://gallica.bnf.fr/iiif/ark:/12148/bpt6k3206933d/manifest.json)

Qu'observons-nous ? Est-ce que cette structure vous rappelle quelque chose ?

Le format JSON ressemble de tr√®s pr√®s aux dictionnaires et aux listes qu'on conna√Æt avec Python. Un fichier JSON contient un √©l√©ment racine qui peut √™tre ou une liste, ou un dictionnaire, et peut contenir plusieurs √©l√©ments :

* Des cha√Ænes de caract√®res
* Des entiers et des d√©cimaux
* Des bool√©ens
* Des objets `null`
* Des listes
* Des dictionnaires

Dans l'exemple pr√©c√©dent, l'√©l√©ment racine est un dictionnaire, par exemple.

Un *formater* est toujours partique pour aider √† lire des formats comme le JSON : https://jsonformatter.curiousconcept.com/

Vous pouvez √©galement installer une extension dans votre navigateur. Je recommande, par habitude, JSON Formater : https://chrome.google.com/webstore/detail/json-formatter/bcjindcccaagfpapjjmafapmmgkkhgoa?hl=en

## 4.2 Traiter un fichier JSON avec Python

Tout √† l'heure, nous avons vu le *package* CSV, et bien il existe √©galement un *package* pour traiter des fichiers JSON avec Python : le module [json](https://docs.python.org/3/library/json.html)

Importons-le module :

In [40]:
# Importer ici le module



## 4.3 Lire un fichier JSON

T√©l√©chargeons la notice Gallica en JSON que nous avons vu √† l'instant.

In [41]:
url = "https://gallica.bnf.fr/iiif/ark:/12148/bpt6k3206933d/manifest.json"

filename = os.path.basename(url)

!mkdir data/JSON

!wget -N $url && mv $filename data/JSON/nosferatu_gallica.json

--2021-10-11 16:57:59--  https://gallica.bnf.fr/iiif/ark:/12148/bpt6k3206933d/manifest.json
Resolving gallica.bnf.fr (gallica.bnf.fr)... 194.199.8.11
Connecting to gallica.bnf.fr (gallica.bnf.fr)|194.199.8.11|:443... connected.
HTTP request sent, awaiting response... 200 200
Length: unspecified [application/json]
Saving to: ‚Äòmanifest.json‚Äô

manifest.json           [ <=>                ]  16.98K  --.-KB/s    in 0.08s   

Last-modified header missing -- time-stamps turned off.
2021-10-11 16:58:00 (215 KB/s) - ‚Äòmanifest.json‚Äô saved [17386]



Avec le *package* json, on peut lire du JSON de deux mani√®res diff√©rentes : 

* Avec la m√©thode `json.load()`. Elle sert √† lire un fichier JSON.
* Avec la m√©thode `json.loads()`. Elle sert √† lire une cha√Æne de caract√®res format√©e en JSON.

Attention de ne pas confondre les deux !

Ouvrons notre fichier fraichement t√©l√©charg√© :

In [42]:
import json 

with open("data/JSON/nosferatu_gallica.json") as fh:
  print(json.load(fh))

{'@id': 'https://gallica.bnf.fr/iiif/ark:/12148/bpt6k3206933d/manifest.json', 'label': 'Cin√©math√®que fran√ßaise, 2019-39038', 'attribution': 'Biblioth√®que nationale de France', 'license': 'https://gallica.bnf.fr/html/und/conditions-dutilisation-des-contenus-de-gallica', 'logo': 'https://gallica.bnf.fr/mbImage/logos/logo-bnf.png', 'related': 'https://gallica.bnf.fr/ark:/12148/bpt6k3206933d', 'seeAlso': ['http://oai.bnf.fr/oai2/OAIHandler?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:bnf.fr:gallica/ark:/12148/bpt6k3206933d'], 'description': 'Le Film complet ...', 'metadata': [{'label': 'Repository', 'value': 'Cin√©math√®que fran√ßaise'}, {'label': 'Digitised by', 'value': 'Biblioth√®que nationale de France'}, {'label': 'Source Images', 'value': 'https://gallica.bnf.fr/ark:/12148/bpt6k3206933d'}, {'label': 'Metadata Source', 'value': 'http://oai.bnf.fr/oai2/OAIHandler?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:bnf.fr:gallica/ark:/12148/bpt6k3206933d'}, {'label': 'Shelfma

Et nous voil√† donc avec un dictionnaire, pr√™t √† √™tre exploit√© √† l'aide de Python.

Assignons-le √† une variable :

In [43]:
# Assignez le fichier JSON √† une variable ici 

with open("data/JSON/nosferatu_gallica.json") as fh:
  nosferatu_gallica = json.load(fh)

On peut ensuite s'amuser avec ! 

In [44]:
print('Titre : ' + nosferatu_gallica['metadata'][5]['value'])
print('Date : ' + nosferatu_gallica['metadata'][6]['value'])
print('Image : ' + nosferatu_gallica['metadata'][2]['value'])

Titre : Le Film complet ...
Date : 06 d√©cembre 1925
Image : https://gallica.bnf.fr/ark:/12148/bpt6k3206933d


## 4.4 Ecrire un fichier JSON

Essayons de cr√©er notre propre fichier JSON, √† partir de plusieurs notices Gallica.

üëâ Des photographies de Jean-Pierre Ronnay sur le th√®me de la chauve-souris https://gallica.bnf.fr/iiif/ark:/12148/btv1b10547084s/manifest.json

üëâ Une gravure de Francisco de Goya, *Los Desastres de la guerra*, 1862-1863 https://gallica.bnf.fr/iiif/ark:/12148/btv1b8452017b/manifest.json

üëâ *The Vampyre; a Tale*, roman de Lord Byron (1819) https://gallica.bnf.fr/iiif/ark:/12148/bpt6k323980f/manifest.json

üëâ *Le Horla*, de Guy de Maupassant, dans une √©dition illustr√©e ! (1908) https://gallica.bnf.fr/iiif/ark:/12148/bpt6k9923506/manifest.json

In [45]:
urls = ['https://gallica.bnf.fr/iiif//ark:/12148/btv1b10547084s/manifest.json', 'https://gallica.bnf.fr/iiif//ark:/12148/btv1b8452017b/manifest.json',
        'https://gallica.bnf.fr/iiif//ark:/12148/bpt6k323980f/manifest.json', 'https://gallica.bnf.fr/iiif/ark:/12148/bpt6k9923506/manifest.json']
counter = 1

for url in urls:
  filename = os.path.basename(url)
  new_filename = 'notice' + str(counter) + '.json'
  !wget -N $url && mv $filename data/JSON/$new_filename
  counter += 1

--2021-10-11 17:01:40--  https://gallica.bnf.fr/iiif//ark:/12148/btv1b10547084s/manifest.json
Resolving gallica.bnf.fr (gallica.bnf.fr)... 194.199.8.11
Connecting to gallica.bnf.fr (gallica.bnf.fr)|194.199.8.11|:443... connected.
HTTP request sent, awaiting response... 200 200
Length: unspecified [application/json]
Saving to: ‚Äòmanifest.json‚Äô

manifest.json           [ <=>                ]  23.48K  --.-KB/s    in 0.08s   

Last-modified header missing -- time-stamps turned off.
2021-10-11 17:01:41 (295 KB/s) - ‚Äòmanifest.json‚Äô saved [24044]

--2021-10-11 17:01:41--  https://gallica.bnf.fr/iiif//ark:/12148/btv1b8452017b/manifest.json
Resolving gallica.bnf.fr (gallica.bnf.fr)... 194.199.8.11
Connecting to gallica.bnf.fr (gallica.bnf.fr)|194.199.8.11|:443... connected.
HTTP request sent, awaiting response... 200 200
Length: 3880 (3.8K) [application/json]
Saving to: ‚Äòmanifest.json‚Äô


Last-modified header missing -- time-stamps turned off.
2021-10-11 17:01:41 (73.1 MB/s) - ‚Äòmani

Essayons de construire un JSON avec :

* Un √©l√©ment racine qui est une liste
* Des dictionnaires qui rendent compte de chaque notice avec 
    * Le titre de l'oeuvre concern√© par la notice
    * Sa date
    * Son cr√©ateur
    * Un lien vers son image

In [46]:
filepaths = ['data/JSON/notice1.json', 'data/JSON/notice2.json',
        'data/JSON/notice3.json', 'data/JSON/notice4.json']

mon_futur_objet_json = []

for filepath in filepaths:  
  with open(filepath) as fh:
    gallica_json = json.load(fh)
    for dictionary in gallica_json['metadata']:
      if dictionary['label'] == 'Title':
        title = dictionary['value']
      if dictionary['label'] == 'Date':
        date = dictionary['value']
      if dictionary['label'] == 'Creator':
        creator = dictionary['value']
      if dictionary['label'] == 'Source Images':
        image_url = dictionary['value']
    
    mon_futur_objet_json.append({'Titre': title,
                                 'Date': date,
                                 'Cr√©ateur': creator,
                                 'Image URL': image_url})
    
print(mon_futur_objet_json)

[{'Titre': 'La Chauve-souris : vingt et une photographies de sc√®ne / Jean-Pierre Ronnay', 'Date': '2000', 'Cr√©ateur': 'Ronnay, Jean-Pierre (1948). Photographe', 'Image URL': 'https://gallica.bnf.fr/ark:/12148/btv1b10547084s'}, {'Titre': '[The consequences]', 'Date': '1862-1863', 'Cr√©ateur': 'Goya, Francisco de (1746-1828). Graveur', 'Image URL': 'https://gallica.bnf.fr/ark:/12148/btv1b8452017b'}, {'Titre': 'The vampyre ; a tale, by the right honourable lord Byron.', 'Date': '1819', 'Cr√©ateur': 'Polidori, John William (1795-1821). Auteur du texte', 'Image URL': 'https://gallica.bnf.fr/ark:/12148/bpt6k323980f'}, {'Titre': 'Le Horla : oeuvres compl√®tes illustr√©es de Guy de Maupassant / dessins de Julian-Damazy ; grav√©s sur bois par G. Lemoine', 'Date': '1908', 'Cr√©ateur': 'Maupassant, Guy de (1850-1893). Auteur du texte', 'Image URL': 'https://gallica.bnf.fr/ark:/12148/bpt6k9923506'}]


Il ne nous reste plus qu'√† le transformer en objet JSON. Pour cela on peut utiliser :

* `json.dumps()` : pour une cha√Æne de caract√®re
* `json.dump()` : dans un fichier

In [47]:
mon_objet_json = json.dumps(mon_futur_objet_json)

with open('data/JSON/mon_json.json', mode='w') as fh:
  json.dump(mon_futur_objet_json, fh)

V√©rifions qu'il a bien √©t√© √©crit : 

In [49]:
with open('data/JSON/mon_json.json') as fh:
  json_file = fh.read()
  objet_json = json.loads(json_file)
  print(objet_json)

[{'Titre': 'La Chauve-souris : vingt et une photographies de sc√®ne / Jean-Pierre Ronnay', 'Date': '2000', 'Cr√©ateur': 'Ronnay, Jean-Pierre (1948). Photographe', 'Image URL': 'https://gallica.bnf.fr/ark:/12148/btv1b10547084s'}, {'Titre': '[The consequences]', 'Date': '1862-1863', 'Cr√©ateur': 'Goya, Francisco de (1746-1828). Graveur', 'Image URL': 'https://gallica.bnf.fr/ark:/12148/btv1b8452017b'}, {'Titre': 'The vampyre ; a tale, by the right honourable lord Byron.', 'Date': '1819', 'Cr√©ateur': 'Polidori, John William (1795-1821). Auteur du texte', 'Image URL': 'https://gallica.bnf.fr/ark:/12148/bpt6k323980f'}, {'Titre': 'Le Horla : oeuvres compl√®tes illustr√©es de Guy de Maupassant / dessins de Julian-Damazy ; grav√©s sur bois par G. Lemoine', 'Date': '1908', 'Cr√©ateur': 'Maupassant, Guy de (1850-1893). Auteur du texte', 'Image URL': 'https://gallica.bnf.fr/ark:/12148/bpt6k9923506'}]


# 5\. Utiliser Python pour communiquer avec internet

Pour le moment, les fichiers exemples que nous avons utilis√© pour progresser durant le cours ont √©t√© t√©l√©charg√©s avec des commandes Shell. Cela facilite les d√©monstrations !

Mais, il aurait √©t√© tout √† fait envisageable de t√©l√©charger ces donn√©es avec Python. En effet, avec la librairie `requests`, il devient possible de communiquer avec internet directement depuis un script. 

Avant de rentrer dans les d√©tails de l'utilisation de cette librairie, parlons un peu des **communications HTTP**. üíª

## 5.1 La communication avec un serveur

Tous les jours, lorsqu'on utilise internet, on communique avec un serveur. Ces communications s'effectuent gr√¢ce au protocole HTTP (*Hypertext Transfer Protocol*).

La communication avec un serveur s'effectue en deux temps :

* L'envoie de la requ√™te
* La r√©ponse du serveur

Un √©l√©ment d'une requ√™te HTTP que vous connaissez est l'URL que vous indiquez dans votre navigateur pr√©f√©r√©. La longue URL qu'on utilise pour ce Google Colab est une requ√™te, √† laquelle j'ai re√ßu une r√©ponse avec mon navigateur. 

### 5.1.2 La requ√™te HTTP

Une requ√™te HTTP est une information que l'on envoie au serveur. Elle contient trois informations diff√©rentes :

* Les **headers**
* La **m√©thode**
* Et l'**URL**

Un **header**, dans une requ√™te HTTP, peut contenir les informations suivantes :

* Le syst√®me utilis√© par le client
* La page qui a √©t√© requ√™t√©e
* Des donn√©es de sortie accept√©es par le navigateur
* Etc. 

La **m√©thode** informe le serveur ce que la requ√™te souhaite effectuer. 

Pour n'en citer que deux, les plus courantes sur Internet :

* La m√©thode **GET**, qui compose la tr√®s grande majorit√© des requ√™tes. Elle permet de r√©cup√©rer de l'information. Quand je fais charger une page sur Wikipedia, par exemple, la m√©thode de la requ√™te est GET.
* la m√©thode **POST**, qui est utilis√©e, par exemple, pour se connecter sur diff√©rents sites internet. Elle permet d'envoyer de l'information.

L'**URL**, c'est l'adresse o√π se trouve le contenu auquel on veut acc√©der. Une URL est compos√© de plusieurs √©l√©ments, un nom de domaine par exemple, et de param√®tres qui la composent et qui permettent de renseigner sur la nature de la requ√™te.

Pour reprendre un de nos exemples pr√©c√©dents, tir√© de Gallica :

https://gallica.bnf.fr/iiif/ark:/12148/btv1b10547084s/manifest.json



### 5.1.3 La r√©ponse HTTP

Une requ√™te re√ßoit une r√©ponse. 

Une r√©ponse HTTP est compos√©e de trois √©l√©ments :

* Le **code HTTP**
* Les **headers**
* Le **corps** (*body*)

Un **code HTTP** permet de renseigner sur le statut de la r√©ponse. 

Il y en a √©norm√©ment (https://developer.mozilla.org/en-US/docs/Web/HTTP/Status), mais il y a fort √† parier que vous connaissiez le code 404 : `404 Not Found`, qui indique donc que la ressource demand√©e n'a pas √©t√© trouv√©e.

Elles sont class√©s de 1 √† 5, chaque chiffre repr√©sentant une cat√©gorie.

* 1XX : les r√©ponses informatives
* 2XX : les r√©ponses de succ√®s (celles que l'on rencontre donc majoritairement)
* 3XX : les r√©ponses de redirection
* 4XX : les r√©ponses d'erreur c√¥t√© client
* 5XX : les r√©ponses d'erreur c√¥t√© serveur (ces erreurs ne sont g√©n√©ralement pas de votre faute)

Citons enfin les erreurs les plus connus :

* 404, que nous avons d√©j√† pr√©sent√©
* 401 : utilisateur non authentifi√©
* 403 : acc√®s refus√©
* 200 : succ√®s de la requ√™te
* 500 : erreur serveur

Les **headers** contiennent l'information sur la r√©ponse, par exemple le format de donn√©es re√ßu.

Le **corps**, c'est le contenu-m√™me de la r√©ponse, celle qui s'affiche dans votre navigateur, en d'autres termes, le contenu HTML, JSON, etc.

## 5.2 Des requ√™tes HTTP avec Python gr√¢ce √† la librairie `requests`

Jusqu'ici, nous avons utilis√© des librairies *built-in*, qui ne n√©cessite pas d'installation.

Cependant, pour communiquer avec Internet, il va √™tre n√©cessaire d'installer une librairie externe √† Python. Bienvenue dans le fabuleux √©cosyst√®me Python, regorgeant de librairies toutes aussi utiles les unes que les autres !

Pour cela, on utilise le *Package Installer for Python*, ou `pip`, dans le terminal, pour installer `requests`.

Pour acc√©der √† la documentation de cette librairie, notamment comment l'installer, vous pouvez consulter son site : https://docs.python-requests.org/en/master/

In [50]:
# On installe la librairie requests avec pip (Package Installer for Python)
# Le ! devant la ligne de code indique qu'on passe une ligne de commande pour le terminal (on n'utilise donc pas Python dans cette cellule)

!pip install requests



Utilisons une nouvelle notice Gallica, une affiche pour Nosferatu (encore! üßõ) pour √©tudier une requ√™te HTTP avec `requests`. : https://gallica.bnf.fr/ark:/12148/bpt6k3206429s/f1.item

Faisons une requ√™te GET :

In [51]:
import requests

request_url = 'https://gallica.bnf.fr/iiif//ark:/12148/bpt6k3206429s/manifest.json'

In [52]:
request = requests.get(request_url)
print(request)

<Response [200]>


Tout va bien ! Le code de r√©ponse HTTP est 200 ! 

In [53]:
type(request)

requests.models.Response

Comme vous pouvez le voir, nous avons stock√© dans notre variable request un objet Response. On peut acc√©der √† plusieurs informations √† partir de cet objet : 

In [54]:
print(request.status_code)
print(request.headers)
print(request.encoding)

200
{'Date': 'Mon, 11 Oct 2021 17:03:32 GMT', 'Server': 'Apache', 'X-OneAgent-JS-Injection': 'true', 'Set-Cookie': 'JSESSIONID=C14C7320B62C3C840509F247BC8D2E57; Path=/; Secure; HttpOnly, dtCookie=v_4_srv_1_sn_FB1F1A421A49A5367929FEF0D9C2FEAC_perc_100000_ol_0_mul_1_app-3A3c476fda10179998_1; Path=/; Domain=.bnf.fr', 'Access-Control-Allow-Origin': '*', 'Content-Type': 'application/json;charset=UTF-8', 'Vary': 'Accept-Encoding,User-Agent', 'Content-Encoding': 'gzip', 'Server-Timing': 'dtSInfo;desc="0", dtRpid;desc="-658959588"', 'Content-Length': '1247', 'Keep-Alive': 'timeout=5, max=500', 'Connection': 'Keep-Alive'}
UTF-8


C'est confirm√© : tout va bien.

G√©n√©rons une erreur tout de m√™me, pour voir :

In [55]:
bad_request_url = 'https://gallica.bnf.fr/iiif//ark:/121uneErreurDiscrete48/bpt6k3206429s/manifest.json'

bad_request = requests.get(bad_request_url)

print(bad_request.status_code)
print(bad_request.headers)
print(bad_request.encoding)

500
{'Date': 'Mon, 11 Oct 2021 17:03:38 GMT', 'Server': 'Apache', 'X-OneAgent-JS-Injection': 'true', 'Set-Cookie': 'JSESSIONID=7A65E0DFC30B30C242FEEEE6EB4F5670; Path=/; Secure; HttpOnly, dtCookie=v_4_srv_1_sn_B163F58A20A020524BB18F0EA8456FC2_perc_100000_ol_0_mul_1_app-3A3c476fda10179998_0; Path=/; Domain=.bnf.fr', 'Content-Type': 'text/html;charset=utf-8', 'Content-Language': 'fr', 'Vary': 'Accept-Encoding,User-Agent', 'Content-Encoding': 'gzip', 'Server-Timing': 'dtSInfo;desc="0", dtRpid;desc="766659761"', 'Content-Length': '872', 'Connection': 'close'}
utf-8


Une erreur 500 ! 

In [56]:
bad_request_url = 'https://gallica.bnf.fr/iiiiiif//ark:/121e48/bpt6k3206429s/manifest.json'

bad_request = requests.get(bad_request_url)

print(bad_request.status_code)
print(bad_request.headers)
print(bad_request.encoding)

404
{'Date': 'Mon, 11 Oct 2021 17:03:39 GMT', 'Server': 'Apache', 'X-OneAgent-JS-Injection': 'true', 'Content-Type': 'text/html;charset=utf-8', 'Content-Language': 'fr', 'Vary': 'Accept-Encoding,User-Agent', 'Content-Encoding': 'gzip', 'Server-Timing': 'dtSInfo;desc="0", dtRpid;desc="710741592"', 'Set-Cookie': 'dtCookie=v_4_srv_1_sn_42564F32C4DF497D945EAD2C3A21156F_perc_100000_ol_0_mul_1_app-3A3c476fda10179998_0; Path=/; Domain=.bnf.fr', 'Content-Length': '401', 'Keep-Alive': 'timeout=5, max=500', 'Connection': 'Keep-Alive'}
utf-8


Et une erreur 404 !

## 5.3 T√©l√©charger des donn√©es depuis Internet

Tr√®s bien, on a r√©ussi √† communiquer avec l'ext√©rieur. On peut aller chercher des choses en dehors de notre script donc !

Essayons d'utiliser l'URL que nous avons assign√© √† la variable `request_url`.

In [57]:
new_request = requests.get(request_url)

# V√©rifions qu'on a bien un code de r√©ponse satisfaisant
if new_request.status_code == 200:
  # Si on a un code HTTP 200, alors on assigne les donn√©es du corps de la r√©ponse, en JSON, √† une variable, en les convertissant en JSON gr√¢ce √† .json()
  data = new_request.json()
  print(data)

{'@id': 'https://gallica.bnf.fr/iiif/ark:/12148/bpt6k3206429s/manifest.json', 'label': 'Cin√©math√®que fran√ßaise, 2019-39038', 'attribution': 'Biblioth√®que nationale de France', 'license': 'https://gallica.bnf.fr/html/und/conditions-dutilisation-des-contenus-de-gallica', 'logo': 'https://gallica.bnf.fr/mbImage/logos/logo-bnf.png', 'related': 'https://gallica.bnf.fr/ark:/12148/bpt6k3206429s', 'seeAlso': ['http://oai.bnf.fr/oai2/OAIHandler?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:bnf.fr:gallica/ark:/12148/bpt6k3206429s'], 'description': 'Le Film complet ...', 'metadata': [{'label': 'Repository', 'value': 'Cin√©math√®que fran√ßaise'}, {'label': 'Digitised by', 'value': 'Biblioth√®que nationale de France'}, {'label': 'Source Images', 'value': 'https://gallica.bnf.fr/ark:/12148/bpt6k3206429s'}, {'label': 'Metadata Source', 'value': 'http://oai.bnf.fr/oai2/OAIHandler?verb=GetRecord&metadataPrefix=oai_dc&identifier=oai:bnf.fr:gallica/ark:/12148/bpt6k3206429s'}, {'label': 'Shelfma

On a donc r√©ussi √† r√©cup√©rer le contenu du corps de la r√©ponse et √† l'assigner √† une variable.

Transformons cela en une petite fonction : 

In [58]:
def get_json_from_http_request(url):
  """ Retourne le contenu du corps d'une r√©ponse HTTP
  pour une r√©ponse au format JSON.

  :param url: l'URL depuis laquelle on veut r√©cup√©rer un JSON
  :type url: str
  :returns: le JSON de la r√©ponse HTTP
  :rtype: json
  """
  r = requests.get(url)
  if r.status_code == 200:
      data = r.json()

  return data

Maintenant, jouons un peu avec les formats, convertissons le JSON en CSV.

In [59]:
with open('data/CSV/nosferatu.csv', mode='w', encoding='utf-8', newline='') as csvfile:
  csv_reader = csv.writer(csvfile, delimiter=',')
  csv_reader.writerow(['Titre', 'Date', 'Url notice', 'Url image'])

  url_notice = data['@id']
  for dictionary in data['metadata']:
      if dictionary['label'] == 'Title':
        title = dictionary['value']
      if dictionary['label'] == 'Date':
        date = dictionary['value']
      if dictionary['label'] == 'Source Images':
        image_url = dictionary['value']
  
  csv_reader.writerow([title, date, url_notice, image_url])

Et pour terminer, ouvrons le fichier CSV et re-convertissons-le en fichier JSON.

In [60]:
with open('data/JSON/from_csv_nosferatu.json', mode='w', encoding='utf-8') as fh:

  with open('data/CSV/nosferatu.csv', mode='r', encoding='utf-8', newline='') as csvfile:
      reader = csv.DictReader(csvfile, delimiter=',')

      for row in reader:
        json.dump(row, fh)

In [61]:
url = "https://static.data.gouv.fr/resources/collections-des-musees-de-france-extrait-de-la-base-joconde-en-format-xml/20180709-151926/joconde-MUSEES.json.zip"

filename = os.path.basename(url)

!mkdir data/JSON

!wget -N $url --no-check-certificate && unzip -u $filename && rm $filename && mv joconde-MUSEES.json data/JSON/joconde-MUSEES.json

mkdir: cannot create directory ‚Äòdata/JSON‚Äô: File exists
--2021-10-11 17:04:00--  https://static.data.gouv.fr/resources/collections-des-musees-de-france-extrait-de-la-base-joconde-en-format-xml/20180709-151926/joconde-MUSEES.json.zip
Resolving static.data.gouv.fr (static.data.gouv.fr)... 37.59.183.93
Connecting to static.data.gouv.fr (static.data.gouv.fr)|37.59.183.93|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 20394639 (19M) [application/zip]
Saving to: ‚Äòjoconde-MUSEES.json.zip‚Äô


2021-10-11 17:04:02 (18.5 MB/s) - ‚Äòjoconde-MUSEES.json.zip‚Äô saved [20394639/20394639]

Archive:  joconde-MUSEES.json.zip
  inflating: joconde-MUSEES.json     
