In [None]:
# **Préambule**
# Mise à jour de la bibliothèque nbformats utilisée par Plotly par précaution
%pip install --quiet nbformat

# Séance 1 : Exploration et visualisation de données avec Pandas et Plotly

Bonjour 👋 !

Bienvenue dans la première partie de la séquence dédiée au développement d'un **tableau de bord**  (*dashboard*) pour explorer graphiquement un jeu de données de grande taille.

## Objectifs de la séance 🎯

- découvrir la bibliothèque Pandas pour manipuler des tables de données ;
- découvrir la bibliothèque Plotly pour créer des graphiques interactifs ;
- apprendre à visualiser simplement une ressources IIIF dans un *notebook* Jupyter.

## Important ❗

1. Répondez aux questions directement dans les cellules de ce notebook. Cette fois il n'y a **pas de fichier .py à remplir**.

2. 🆘 Une question n'est pas claire ? Vous êtes bloqué(e) ?  N'attendez pas, **appelez à l'aide 🙋**.  

3. 🤖 Vous pouvez utiliser ChatGPT/Gemini/etc. pour vous aider, **mais** contraignez vous à n'utiliser ses propositions **que si vous les comprenez vraiment**. Ne devenez pas esclave de la machine ! 🙏

4. 😌 Si vous n'avez pas réussi ou pas eu le temps de répondre à une question, **pas de panique**, le fichier `correction.ipynb` contient une solution !

ℹ️ **Info** : La difficulté d'une question **🧩**  est indiquée de ⭐ à ⭐⭐⭐⭐.

# Une histoire dont vous êtes le héros<sup>TM</sup> 📰

**Novembre 2025**, jeune diplômé.e de l'École Nationale des Chartes (bravo !👏), vous décrochez un travail  d'ingénieur.e. au sein d'un projet de recherche en humanités numériques dont le but est de créer de **nouveaux modes d'exploration de la presse ancienne française** (le projet **ÉPAF**, donc).
Votre mission : reprendre le corpus de données sur la presse produit il y a 10 ans par la BnF pour le projet [Europeana Newspaper](http://www.europeana-newspapers.eu/), et aider les historien.ne.s de votre équipe à en comprendre le contenu et commencer à identifier les analyses possibles.

Le but de ce grand projet européen était de rendre la presse ancienne plus visible et plus facile à explorer par le grand public comme par les universitaires. Environ 887 000 titres de presse numérisés et OCRisés ont ainsi été rendus consultables en ligne, sur [https://www.europeana.eu/fr/themes/newspapers ](https://www.europeana.eu/fr/themes/newspapers ).

La BnF y a participé en traitant près de **3 millions** de pages de journaux qui sont aussi accessibles aujourd'hui sur [Gallica](https://gallica.bnf.fr/selections/fr/html/presse-et-revues/les-principaux-quotidiens).
La bibliothèque a ouvert l'intégralité des données issues de ces traitements : textes OCRisés, mise en page structurée, images, etc.

Ces jeux de données sont tous accessibles depuis la page de présentation du projet sur le site **API et jeux de données** de la BnF : [https://api.bnf.fr/fr/node/190](https://api.bnf.fr/fr/node/190).
Prenez une minute pour lire le texte de présentation qui complète ce résumé rapide.


# Le corpus 📦

Pour l'instant, les membres du projet sont surtout interessés par l'un des livrables créé par la BnF : **les métadonnées quantitatives produites sur la presse nationale et régionale aux XIX<sup>e</sup> et XX<sup>e</sup> siècles**.

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 1 - ⭐⭐</strong></div>

Lisez la page de description de ces métadonnées afin de répondre aux questions de suivantes :

🡆 **[https://api.bnf.fr/fr/metadonnees-quantitatives-de-la-presse-ancienne-xixe-xxe-siecles](https://api.bnf.fr/fr/metadonnees-quantitatives-de-la-presse-ancienne-xixe-xxe-siecles)**

- Combien de journeaux différents ont été traités par la BnF ?
- Quelle est la période couverte ?
- Quelles informations contiennent ces métadonnées ?
- Comment s'appelle l'idenfiant unique d'une ressource numérique sur Gallica ?
- Quel est l'identifiant du Petit Parisien ? 
  - Quel est l'identifiant de l'édition du 16 janvier 1924 ? 
    - Comment l'obtenir en utilisant l'API de Gallica ?
<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>

Ces métadonnées sont disponibles aux formats XML, JSON, et CSV, mais à chaque fois avec quelques défauts qui les rendent difficiles à utiliser telles quelles.

Heureusement, un collègue du projet a fait un premier reformatage des données ✨, qu'il vous transmet sous forme d'une archive ZIP, c'est `./presse_xix-xxe.zip`.

Décompressez cette archive dans le répertoire courant (`partie_1/`) pour récupérer les **2 fichiers CSV** qu'elle contient :
```raw
📂 ./partie_1/
├── 🗎 presse_xix_xxe_arks.csv
├── 🗎 presse_xix_xxe_meta.csv
├── ...
└── notebook.ipynb
```

Vous voilà donc avec le corpus sous forme de deux tables de données stockées au format CSV, c'est à dire sous forme de texte structuré par un séparateur (par défaut la virgule - *comma*, d'où CSV = *Comma Separated Values*).

Partons maintenant à la découverte de son contenu ! 🔎



# A/ Manipuler les métadonnées de la presse avec Pandas 🐼

[**Pandas**](https://pandas.pydata.org/) est une bibliothèque Python dédiée à la manipulation et à l'analyse de données sous formes de tableaux ou de grandes séries de valeurs ([temporelles notamment](https://fr.wikipedia.org/wiki/S%C3%A9rie_temporelle)).

C'est aujourd'hui l'une des bibliothèque Python les plus populaires et les plus utilisées pour l'analyse de données, dans les sciences computationelles bien sûr, mais aussi dans les travaux quantitatifs en sciences sociales ... et donc logiquement en "humanités numériques".

**Pandas** n'est pas disponible par défaut, il faut l'installer.
Dans un notebook Jupyter, on peut utiliser la ["commande magique"](https://ipython.readthedocs.io/en/stable/interactive/magics.html) `%pip` pour installer des modules Python avec `pip`.

Complétez puis exécutez la cellule suivante pour installer la bibliothèque `pandas`.

In [None]:
# Notez le paramètre --quiet pour ne pas afficher les messages d'installation dans le notebook
%pip install --quiet pandas

Pandas étant installée, reste à l'importer dans l'environnement d'exécution du *notebook* pour pouvoir l'utiliser ensuite.

L'usage faisant la norme, on donne souvent l'alias `pd` au module `pandas` lors de son import par souci de concision.
Cela permet ensuite d'écrire par exemple `pd.show_versions()` au lieu de `pandas.show_versions()`. 

Exécutez la cellule suivante pour importer Pandas.

In [None]:
import pandas as pd

# On vérifie que l'import s'est bien passé, par exemple en affichant la version de pandas
pd.__version__ # Note : Dans un notebook, la dernière valeur de la cellule est toujours affichée !

ℹ️ **Tout est prêt !** N'oubliez pas que « si vous ne savez pas, la documentation est là » :
- Les tutoriels pour débuter : [https://pandas.pydata.org/docs/getting_started/index.html](https://pandas.pydata.org/docs/getting_started/index.html)
- Les guides officiels plus avancés : [https://pandas.pydata.org/docs/user_guide/index.html#user-guide](https://pandas.pydata.org/docs/user_guide/index.html#user-guide)
-  La documentation complète : [https://pandas.pydata.org/docs/reference/index.html](https://pandas.pydata.org/docs/reference/index.html)

## Lire un fichier CSV

La première chose à faire est bien sûr de charger nos deux fichiers CSV pour voir ce qu'ils contiennent, ce qu'on peut faire avec la fonction [`pd.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html).

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 2 - ⭐</strong></div>

À l'aide de la documentation de `read_csv()` <sup><a style="color:#ff9800;" href="https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html">⤷doc</a></sup>, lisez le  fichier `presse_xix-xxe_meta.csv` dans la cellule suivante puis répondez à ces questions : 
- quelles informations contient le fichier `presse_xix-xxe_meta.csv` ?
- combien de lignes contient la table ?
- que représente une ligne ?
<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>

In [None]:
métadonnées = ... # 🏗️ Complétez ici !
métadonnées # Dernière instruction de la cellule = affichée ! ✨

On voit que la variable `métadonnées` stocke le contenu du fichier sous la forme d'une **table de données** qui a été renvoyée par l'appel à `pd.read_csv()`.

Notez au passage que Pandas a ajouté une première colonne contenant le numéro de la ligne : c'est **l'index** de la table.  Pandas a généré un index qui n'existait pas dans le fichier CSV (ouvrez le avec un éditeur de texte si vous voulez vérifier).

Voyons le type de `métadonnée`.

In [None]:
type(métadonnées)

`DataFrame`<sup><a style="color:#ff9800;" href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html">⤷doc</a></sup> est la structure proposée par Pandas pour représenter un tableau à deux dimensions (avec des lignes et des colonnes), ici contenant toutes les données issues du fichier CSV.

## Sélections

Une `DataFrame` est un objet riche qui vient avec une série d'opérateurs puissants et élégants pour **sélectionner**, **enrichir**, **modifier**, **supprimer** le contenu de la table.

Expérimentons un petit peu la sélection pour s'échauffer.

### Sélectionner des colonnes

On peut sélectionner une partie seulement des colonnes de la table avec l'opérateur "crochets" `[]`.

Par exemple, `métadonnées["date"]`sélectionner uniquement la colonne `"date"`

In [None]:
métadonnées["date"]

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 3 - ⭐</strong></div>

À l'aide du tutoriel Pandas suivant, modifiez la cellule suivante pour sélectionner les colonnes `"titre"`,`"date"` et `"nb_pages"`.

🡆 **https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html**


In [None]:
métadonnées["..."] # 🏗️ Complétez ici !

<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>

<span style="color: #40d6d1"><strong>💡 Astuce</strong></span> Quand on sélectionner une seule colonne, ex. `métadonnées["pages"]`, on peut aussi utiliser la syntaxe `métadonnées.pages`. 

### Sélectionner des lignes

Bien sûr on peut aussi sélectionner des lignes, soit :
1.  en utilisant les valeurs de l'index, avec `métadonnées.loc[]` (Notez bien l'utilisation de **crochets `[]`** au lieu de parenthèses `()` pour appeler `loc` & `iloc`),
2. avec leur position, grâce à `métadonnées.iloc[]`
3. même avec des conditions sur les valeurs des cellules  !

Comme, à la lecture du fichier, Pandas a généré un index en utilisant le numéro de ligne,  `iloc[]` et `iloc[]` sélectionnent les mêmes lignes : 

In [None]:
print(métadonnées.loc[0]) # Sélection de ligne de valeur d'index 0
print(métadonnées.iloc[0]) # Sélection de la première ligne de la table
# Regarez que c'est bien la même ligne qui est sélectionnée les deux fois !

On peut aussi sélectionner des lignes en filtrant sur les valeurs des cellules.


Il existe pour cela deux syntaxes possibles, avec des crochets `[]`, ou avec la méthode `query()`. Nous ne verrons ici que la seconde, moins utilisée mais plus simple. Le tutorial Pandas sur la sélection est plus complet et traite de la première syntaxe : https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html 

La méthode `query()` permets d'écrire des conditions de sélection à la manière de SQL.
Par exemple, pour sélectionner toutes les données du journal **Le Matin** avec  **au moins 4 pages**, on peut tout simplement écrire :

In [None]:
métadonnées.query("titre == 'Le Matin' and nb_pages > 4") # Le résultat est  une extraction de la table `métadonnées` avec seulement les lignes qui vérifient la condition !

### Sélections combinées

Bien sûr on peut chaîner les sélection de ligne et les combiler avec  des sélections de colonnes !

Par exemple  :
```python
# Sélection des 100 premières lignes de données pour le journal  `Le Matin`
métadonnées.query("titre == 'Le Matin' ").iloc[0:100]

# Sélection des titres et dates de des éditions de  plus de 4 pages
métadonnées.query("nb_pages > 4")[["titre", "date"]]
  ```
Pas mal, non ? 🤩 Et encore, c'est un tout petit aperçu de la puissance de Pandas !

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 4 - ⭐⭐</strong></div>

Modifiez la cellule suivante pour sélectionner toutes les éditions qui contiennent au moins une illustration, et ne conservez que les colonnes `"titre"` et `"date"`.

In [None]:
métadonnées.query("...") # 🏗️ Complétez ici !

<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>

## Modifications

Nous avons vu comment sélectionner une sous-parties d'une `DataFrame` que l'on peut ensuite stocker, par exemple, dans une variable :
```python
selection = métadonnées[["titre", "date"]] # La variable `selection` contient une DataFrame qui est une "vue" sur les 2 colonnes titre et date de la DataFrame  `métadonnées`.
``` 

Mais on peut utiliser une syntaxe similaire pour **modifier** le contenu d'une `DataFrame` ou même **ajouter** des éléments.

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 5 - ⭐</strong></div>

Expérimentons utilement, cette fois. Tentez de sélectionner toutes les éditions de presse **avant le 25 août 1855**.

<span style="color: #40d6d1"><strong>💡 Astuce</strong></span> Pandas saura reconnaître qu'on compare avec une date si on l'écrit `'1855-08-25'`, 

In [None]:
métadonnées[...] # 🏗️ Complétez ici !

<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>

On dirait bien que ça ne fonctionne pas ...🫤


Inspectons le type de la colonne `date`...

In [None]:
métadonnées.dtypes

La colonne `date` est de type `object`.

Il y a sur la page [https://pbpython.com/pandas_dtypes.html](https://pbpython.com/pandas_dtypes.html) un tableaux des types possibles dans Pandas.
On voit que le type `object` est utilisé pour les **chaînes de caractères**, ou les colonnes qui mélangent chaînes de caractères et nombres. 
Pourtant, il serait logique que le type de la colonne soit `datetime64`, non ?
Cela signifie donc que notre filtre ne fonctionne pas car Panda ne comprend pas que la colonne `"date"` contient...des dates. 🤔


Pourquoi ? 
1. car le format utilisé, "jour.mois.année", n'est pas un format de date standard
2. car `read_csv()` ne devine pas seul qu'une colonne contient des dates, il faut lui spécifier avec l'option `parse_date=["colonne de dates"]`.

Bon, les données sont déjà chargées, trop tard ? Et bien non, on peut parfaitement **modifier** la colonne `"date"` pour la transformer en date compréhensible par Python (et Pandas) !

Tout d'abord, on peut convertir les éléments de la colonne `"date"` en objets `datetime64`grâce à la fonction `pd.to_datetime()`<sup><a style="color:#ff9800;" href="https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html">⤷doc</a></sup> :
```python
pd.to_datetime(métadonnées.date)
```

Cela va renvoyer une copie de la colonne `"date"`, mais cette fois où chaque date en chaîne de caractère a été convertie en objet de type`datetime64`. 

Pour finir, il reste encore à remplacer les valeurs de la colonne `"date"` dans notre `DataFrame` par les dates converties !

Pour cela on peut utiliser la syntaxe **d'affectation** de Pandas :
```python
métadonnées["date"] = ... # On affecte à la colonne `date`de la DataFrame `métadonnées`, facile non ? 😎
```

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 6 - ⭐⭐</strong></div>

Utilisez la cellule suivante pour combiner les deux instructions précédentes afin de transformer la colonne `"date"` en dates `datetime64`.

Vérifiez ensuite ce que donne `métadonnées.dtypes` et finalement testez à nouveau la condition `métadonnées.date < '1855-08-25'` !

In [None]:
... # 🏗️ Complétez ici !

<span style="color: #40d6d1"><strong>💡 Astuce</strong></span> Un **UserWarning** s'affiche quand vous convertissez la colonne `"date"` ? Lisez le et corrigez l'appel à `pd.to_datetime()` en fonction. C'est rarement une bonne idée d'ignorer un avertissement 😉

<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>

# B/ Visualiser des tables Pandas avec Plotly 📈

Tout ça, c'est très beau, mais ce n'est pas en regardant une `DataFrame` de 140 000 lignes pendant très longtemps qu'on en comprend mieux le contenu.

La visualisation de données, avec des graphiques notamment, peut être un outil d'exploration heuristique très puissant. Avec des graphiques interactifs, c'est encore mieux !

C'est là que [**Plotly**](https://plotly.com/python/) entre en jeu. C'est une bibliothèque Python qui permet de créer, plutôt très simplement, des graphiques dynamiques et interactifs ! 

Elle n'est pas installée par défaut, nous devons donc le faire, puis l'importer.

In [None]:
%pip install --quiet plotly

# On importe en fait le module `plotly.express`, qui est l'interface la plus simple pour tracer des graphiques avec Plotly.
import plotly.express as px

Le principe de fonctionnement de Plotly est simple : 
1. à partir d'une `DataFrame` Pandas, on construit l'un des nombreux graphes possibles listés sur cette page : https://plotly.com/python/reference/index/
2. les fonctions de construction de graphes renvoient un objet de type `Figure`, que l'on peut enrichir d'un titre, de notes  et surtout...
3. ... on affiche la figure (et, éventuellement, on l'exporte).

Voyons cela pas à pas pour construire votre premier graphique : **l'évolution de la présence d'illustrations dans la presse** !

## Le cas du "Gaulois"

Commençons avec le cas du journal "Le Gaulois".

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 7 - ⭐</strong></div>

Utilisez la cellule suivante afin de filtrer `métadonnées` pour ne garder que les éditions du journal "Le Gaulois", et stockez le résultat dans une variable nommée `le_gaulois`. 

In [None]:
le_gaulois = ... # 🏗️ Complétez ici !
le_gaulois.head(10) # La méthode `head()` permet d'afficher les premières lignes d'un DataFrame, ici les 10 premières.

À partir de cette extraction nous pouvons construire notre premier graphique qui tracera l'évolution du nombre d'illustration (colonne `"nb_illustrations"`) en fonction du temps (colonne `"date"`). 

Un mode de visualisation basique consiste à tracer un graphe avec le temps en absisses (axe horizontal) et le nombre d'illustrations en ordonnées (axe vertical), puis à dessiner un point pour chaque ligne du tableau à la coordonnée (date, nb_illustrations) correspondante. 

Dans Plolty, les graphes de points s'appellent [***scatter plots***](https://en.wikipedia.org/wiki/Scatter_plot) ("nuages de points") et se construisent avec la fonction `px.scatter()`<sup><a style="color:#ff9800;" href="https://plotly.com/python/line-and-scatter">⤷doc</a></sup> : 
```python
px.scatter(
    dataframe, # La DataFrame qui fournit les données à dessiner
    x=...,     # La colonne à utiliser pour les abscisses.  Optionnel : si non précisé, l'index sera utilisé.
    y=...      # La colonne à utiliser pour les ordonnée. Optionnel : si non précisé, l'index sera utilisé.
    title=...  # Titre donné au graphique. Optionnel.
    ...        # les fonctions de création de graphes ont beaucoup de paramètres optionnels de personnalisation
)
```

Utilisez la cellule suivante pour construire le graphique du **nombre d'illustrations dans les numéros du 'Gaulois' au cours du temps** !

Remarquez l'interactivité "par défaut" : vous pouvez selectionner une zone pour zoomer, ou utiliser la barre d'outil qui s'affiche en haut à droite quand vous survolez le graphique avec la souris !


In [None]:
px.scatter(...) # 🏗️ Complétez ici !

<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>

Le graphique produit n'est pas très lisible en raison de la densité des points et du nombre d'éditions avec un nombre d'illustrations très faibles ou nulles; on s'en rend bien compte en zoomant.
Nous pourrions réduire l'apparent "bruit" en réduisant la résolution temporelle, par exemple en sommant le nombre d'illustrations par années.

Notre `DataFrame` est une série temporelle : nous traçons l'évolution d'une valeur en fonction du temps, celui-ci étant encodé par la colonne `"date"`.
Cela tombe bien car nous pouvons changer très facilement la résolution temporelle d'une colonne de dates avec la fonction `DataFrame.resample()` <sup><a style="color:#ff9800;" href="https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.resample.html">⤷doc</a></sup>.

Cette fonction change la fréquence d'une série d'une colonne d'objets `datetime64`. 

Par exemple si l'on veut que la colonne `"date"` de la table `le_gaulois` soit ré-échantillonné à une résolution annuelle, groupant automatiquement les lignes ayant la même année  : 
```python
le_gaulois.resample("YE",on="date")
# YE pour "Year End", c'est-à-dire qu'on arrondit  à la fin de l'année .
# `on="date"` précise quelle colonne contient les dates à rééchantillonner.
```

`resample()` ne renvoie pas directement une `DataFrame`, mais un objet intermédiaire qui contient les regroupements. 
Pour récupérer une `DataFrame`, il faut d'abord appliquer une fonction transformant chaque groupe en une unique ligne.
Il en existe plusieurs, nous allons ici utiliser la méthode `sum()` qui additionne les valeurs de chaque colonne dans chaque groupe :
```python
le_gaulois.resample("YE",on="date").sum()
```
<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 8 - ⭐⭐</strong></div>

Utilisez la cellule ci-dessous pour rééchantillonner annuellement la table `le_gaulois`.
Affichez et observez la `DataFrame`produite pour vous assurer qu'elle est bien rééchantillonnée comme vous le souhaitiez !

In [None]:
le_gaulois = ... # 🏗️ Complétez ici !.

le_gaulois # Pour afficher la table rééchantillonnée

<span style="color: #40d6d1"><strong>💡 Astuce</strong></span> Avez-vous remarqué ce que la méthode `.sum()` a provoqué sur la colonne `"date"`? Comme c'est une colonne de chaînes de caractères, Pandas a tout simplement concaténé toutes les valeurs groupées ! Pas top 😒 Ce n'est pas gênant pour le moment, mais nous verrons plus loin comment éviter ce souci !

En tout cas, on peut maintenant créer de nouveau le graphique avec notre table rééchantillonnée !

Observez l'affichage de la table `le_gaulois` rééchantillonnée : la méthode `resample()` a automatiquement fait de `"date"` l'index de la `DataFrame`. 
Cela signifie que nous n'avons pus besoin de préciser l'option `x="date"` en appellant `x.scatter()` : Plotly utilisera automatiquement l'index ! 

Complétez pour cela la cellule suivante :

In [None]:
px.scatter(...) # 🏗️ Complétez ici !

<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>

C'est mieux, non ? 😌

On pourrait faire encore mieux : tracer une courbe plutôt que des points !

C'est la fonction `px.line()` qui se charge de cela; elle fonctionne exactement comme `px.scatter()` !

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 9 - ⭐</strong></div>

Utilisez la cellule suivante pour créer cette fois la **courbe** de l'évolution du nombre d'illustrations dans Le Gaulois !

<span style="color: #40d6d1"><strong>💡 Astuce</strong></span> Utilisez l'option `line_shape="spline"` pour lisser la courbe !

In [None]:
px.line(...) # 🏗️ Complétez ici !

<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>

## Ouf, c'est fini ! 🏁

C'est tout pour cette fois, vous voici arrivé(e)s au bout, félicitations ! 🎉🎉

Dans la prochaine séquence, nous apprendrons à utiliser Plotly pour constuire un **tableau de bord** interactif pour explorer les données de la presse !


## [Bonus 🔥] Et maintenant tous ensemble

Mieux qu'observer un journal unique, on peut comparer la dynamique de tous les journaux sur un même graphique.

Une méthode, pas la plus élégante mais la plus simple, consiste tout simplement à répéter l'opération précédente pour les autres journaux, soit :
1. Filtrer pour conserver les lignes relatives à un journal ;
2. Rééchantilloner à l'année avec `resample()`
3. Créer le graphique du journal avec `px.line()`.

Une fois tous les graphiques créés, nous pourrons les combiner en une seule et unique figure ! 

Relevons pour commencer la liste des journaux disponibles :


In [None]:
métadonnées.titre.unique() # Affiche les valeurs uniques de la colonne `titre`!

<div style="border-top: 1px solid #ff9800; padding: 10px; border-radius: 5px; color:#ff9800;"><strong>🧩 - QUESTION 10 - ⭐⭐⭐ </strong></div>

Dans la cellule suivante, complétez la fonction `rééchantillonne_journal(str)` qui prends en paramètre le titre d'un journal et renvoie l'extrait de `métadonnées` rééchantillonné pour ce journal.
Enfin, construisez les tables rééchantillonnées pour tous les journaux.

In [None]:
def rééchantillonne_journal(titre: str):
    # 1. Filtrage
    dataframe = ... # 🏗️ Complétez ici !
    # 2. Rééchantillonnage
    dataframe = ... # 🏗️ Complétez ici !
    dataframe["titre"] = titre # 💡 Astuce : Utiliser sum() sur la colonne titre a pour effet de concaténer toutes valeurs groupées, ce qui n'a pas de sens. On réassigne donc le titre de façon explicite.
    return dataframe

df1 = rééchantillonne_journal("Le Gaulois")
df2 = ... # 🏗️ Complétez ici pour Le Journal des Débats politiques et littéraires
df3 = ... # 🏗️ Complétez ici pour Le Matin
df4 = ... # 🏗️ Complétez ici pour Ouest Eclair (Éd. de Nantes)
df5 = ... # 🏗️ Complétez ici pour Ouest Eclair (Éd. de Rennes)
df6 = ... # 🏗️ Complétez ici pour Le Petit Journal illustré Supplément du dimanche
df7 = ... # 🏗️ Complétez ici pour Le Petit Parisien

Reste à combiner tous ces graphes en un seul.

Pour cela on va commencer par combiner toutes les `DataFrame` `df1...7` en une seule `DataFrame` avec la fonction `pd.concat()` qui (c'est son nom) concatène (="colle") des `DataFrame` entre elles.

In [None]:
df_totale = pd.concat([df1, df2, df3, df4, df5, df6, df7])
df_totale.sample(10) # Affiche 10 lignes aléatoires de la table

Et maintenant, place au graphique combiné ! 

Réutilisez la méthode `px.line(...)`pour afficher `df_totale`.  Afin de signaler à Plotly qu'il faut distinguer plusieurs courbes en se basant sur une colonne, on utilise le paramètre optionnel `color="nom de la colonne de catégories"`. Dans notre cas, la colonne indiquant à quel courbe "appartient" une ligne est `"titre"`.

Utilisez la cellule suivante pour afficher le graphe combiné avec la méthode `px.line()`.

In [None]:
... # 🏗️ Complétez ici !

<div style="border-bottom: 1px solid #ff9800; padding: 10px; border-radius: 5px;"></div>