# Exploration des données

Dans ce notebook, nous proposons simplement d'explorer les données du cours afin d'explorer leur structure et de nous familiariser avec la bibliothèque [pandas](https://pandas.pydata.org/). Nous commençons par le jeu de données "Sciences du climat".

## Sciences du climat

Pour commencer, il nous faut "importer" la bibliothèque pandas (import).
Une fois ceci fait, nous pouvons lire la table (*dataframe*) référençant les articles de la base de données. Puis nous affichons les cinq premières entrées:

In [12]:
import pandas as pd

articles = pd.read_parquet("science/climate/articles.parquet")
articles.head(5)

Unnamed: 0_level_0,title,publication_year,domain,field,subfield,domains,fields,subfields,url,pdf,language,source
article_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
4393546166,Data Clain et al. - Supporting the uncertainty...,2022,2,20,2002,"b'[""2"",""3"",""2""]'","b'[""20"",""26"",""18""]'","b'[""2002"",""2613"",""1803""]'",,,en,https://openalex.org/S4306400562
4393714386,Data Clain et al. - Supporting the uncertainty...,2022,2,20,2002,"b'[""2"",""3"",""2""]'","b'[""20"",""26"",""18""]'","b'[""2002"",""2613"",""1803""]'",,,en,https://openalex.org/S4306400562
4220805390,Evaluating urban risks in Europe using publicl...,2022,3,23,2306,"b'[""3"",""3""]'","b'[""23"",""23""]'","b'[""2306"",""2306""]'",,,en,
4220871093,Carbon Footprint Assessment for Decarbonisatio...,2022,3,23,2306,"b'[""3"",""2"",""3""]'","b'[""23"",""20"",""23""]'","b'[""2306"",""2002"",""2306""]'",,,en,
4224019370,The future cryosphere: Impacts of global warming,2022,3,23,2306,"b'[""3"",""3"",""3""]'","b'[""23"",""22"",""23""]'","b'[""2306"",""2202"",""2306""]'",,,en,https://openalex.org/S4306462995


## Composition des dataframes pandas

Un dataframe est composé de lignes (ici, une par article), de colonnes (title, publication_year, etc.), et d'un index (article_id).
L'index est un identifiant unique associé à chaque ligne. 

Pour accéder à une colonne en particulier (par exemple, l'année de publication), utilise la syntaxe suivante:

In [13]:
articles["publication_year"]

article_id
4393546166    2022
4393714386    2022
4220805390    2022
4220871093    2022
4224019370    2022
              ... 
4386855500    2023
4389633312    2023
4389862110    2023
4389881210    2023
4390419499    2023
Name: publication_year, Length: 231101, dtype: int64

## Explorer un jeu de données

Une des premières étapes suivant la collecte d'un jeu de données est son exploration préliminaire, afin d'en comprendre les caractéristiques et éventuellement de repérer des erreurs. Par exemple, explorons le nombre de publications par année. Pour cela, nous utilisons la fonctionnalité `groupby()` (qui regroupe les entrées selon leur valeur pour une certaine colonne, en l'occurrence `publication_year`), et la fonction `count()`, qui compte le nombre d'entrées non-nulles au sein de chaque groupe et pour chaque colonne:



In [14]:
articles.groupby("publication_year").count()

Unnamed: 0_level_0,title,domain,field,subfield,domains,fields,subfields,url,pdf,language,source
publication_year,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2015,15975,15996,15996,15996,15996,15996,15996,15993,13589,15996,12811
2016,16837,16858,16858,16858,16858,16858,16858,16857,13205,16858,13728
2017,16556,16586,16586,16586,16586,16586,16586,16585,13497,16586,13677
2018,18477,18711,18711,18711,18711,18711,18711,18711,15290,18711,15551
2019,21011,21107,21107,21107,21107,21107,21107,21107,16249,21107,18007
2020,25233,25309,25309,25309,25309,25309,25309,25309,19167,25309,20492
2021,29373,29451,29451,29451,29451,29451,29451,29451,22656,29451,23702
2022,28680,28744,28744,28744,28744,28744,28744,28744,22803,28744,23289
2023,31798,31873,31873,31873,31873,31873,31873,31873,24963,31873,24670
2024,24633,24637,24637,24637,24637,24637,24637,24637,16683,24637,20162


Dans ce dataframe, la colonne sur laquelle est fondée le regroupement (``publication_year'') est devenue un index.

Cette manière de visualiser les données est un peu austère. À la place, nous pouvons créer un graphique représenter le nombre d'articles publié chaque année. Pour cela, on utilise la bibliothèque matplotlib:

In [None]:
from matplotlib import pyplot as plt
df = articles.groupby("publication_year").count()
plt.scatter(df.index, df["title"])
plt.plot(df.index, df["title"])

Expliquons le code suivant point par point:

1. La première ligne importe la bibliothèque matplotlib
2. La seconde ligne dérive un dataframe dont chaque ligne est une année de publication et chaque colonne le nombre d'entrées non-vides appartenant à cette année.
3. La troisième ligne dessine un nuage de points, dont les abscisses contiennent l'index du dataframe (à savoir les années de publication), et les ordonnées indiquent le nombre de publications dans la base de données pourvues d'un titre pour chacune de ces années de publication.
4. Le nuage de points est relié par des segments pour améliorer la visibilité du graphique.