# Pandas et l'analyse de données (tabulaires)

User guide : https://pandas.pydata.org/docs/user_guide/10min.html  
Cheat Sheet : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

## 1. Charger des données

In [None]:
# charger les bibliothèques requises
import pandas as pd


In [None]:
# Charger des données locales
df = pd.read_csv("../data/css_openalex_26022026.csv")

In [None]:
# Charger des données avec pandas depuis une URL
data_url = "https://raw.githubusercontent.com/pyshs/CUSO2026/refs/heads/main/data/css_openalex_26022026.csv"
df_url = pd.read_csv(data_url)

In [None]:
# Si besoin : cd / ls / pwd
# (se déplacer, vérifier que le fichier est bien là et que le chemin est correct)

### Hack Time

In [None]:
# Quel est le type de df ?


### DataFrames

Les DataFrames sont des listes (ou des séries lorsqu'on utilise pandas) qui sont assemblées dans un tableau.

![](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

##### Quelques outils utiles pour les dataframes :
- `.info()` des infos sur notre df  
- `.shape` sa "forme"  
- `.columns` les colonnes  
- `.dtypes` le type des données  
- `.head()` afficher les premières observations  
- `.tail()` afficher la fin du df  
- `.describe()` description basique  

### Hack Time

In [None]:
# Testons tout ça ensemble !

# Obtenir plus d'info sur notre df ?
# Quelle forme à notre df ?
# CQuelles sont les colonnes ?
# Quels sont leur type ?
# Quelles sont les grandes tendances de notre df ?

## 2. Exploration de données - Variables

Maintenant que vous avez vos données, l'étape suivante est de vous familiariser avec elles. 

La plupart du temps, vous vous intéressez à certains concepts spécifiques. 
- Vous avez besoin d'un moyen de sélectionner uniquement les variables liées à vos concepts.


### Sélectionner des variables (colonnes)

- Nous pouvons utiliser des crochets sur un objet DataFrame pour sélectionner une seule colonne !
- Nous pouvons également utiliser une liste de chaînes contenant les noms de colonnes pour sélectionner plusieurs colonnes !

![](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)


In [None]:
# rappel : `.columns` permet d'obtenir les noms des colonnes d'un DataFrame


In [None]:
# Sélectionner la variable "title"
# …

In [None]:
# Sélections plusieurs variables : type et title
# mon_df[["ma_var1", "ma_var2"]]


In [None]:
# Sélectionner plusieurs colonnes d'intérêt
my_vars = [
    "type",
    "title",
    "publication_year",
    "relevance_score",
    "abstract",
]

# Sauvegarder ce sous-ensemble plus petit de variables dans my_df
my_df = df[my_vars]
my_df.head()

On peut aussi renommer nos colonnes (les passer en français, ou éviter d'avoir toujours à vérifier un codebook quand les noms des colonnes sont peu explicites).

In [None]:
# Renommer les colonnes
my_df.columns = ["type", "titre", "annee", "score", "resume"]
my_df.head()

In [None]:
# nb: meilleure pratique par rename :
# - plus explicite
# - pas besoin de coller pile à l'ordre des colones
# - et donc on peut choisir lesquelles renommer

# my_df = my_df.rename(columns={
#     "title": "titre",
#     "publication_year": "annee",
#     "relevance_score": "score",
#     "abstract": "resume"
# })
# my_df.head()


### Calculer des trucs
### Méthodes utiles
Les Series et les DataFrames fournissent des méthodes très utiles pour explorer facilement les données. 
Quelques-unes des plus courantes :

- `mean()` : moyenne
- `median()` : médiane
- `std()` : écart-type
- `min()` : minimum
- `max()` : maximum
- `mode()` : mode (valeur la plus fréquente)
- `count()` : nombre d'observations
- `unique()` / `nunique()` : chaque modalité / nb de modalités
- `describe()` : statistiques descriptives
- `value_counts()` : fréquence des valeurs (tri à plat)

### Hack Time

In [None]:
# Testons tout ça ensemble !


In [None]:
# ex :
# Quel est le score moyen dans my_df ?
# quel % de publi par année ? etc.


### Visualisations avec Pandas

Vous pouvez utiliser pandas pour tracer vos résultats en utilisant la méthode `.plot()` sur un objet DataFrame ou Series.

Pour plus d'informations, voir [**ici**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html).

#### Aller plus loin

Il existe de nombreuses options pour jouer avec et améliorer une figure. 
Lorsque vous cherchez de l'aide pour changer quelque chose sur une figure, si vous avez la bonne terminologie, il est assez facile de trouver de l'aide !

#### Anatomie d'une figure
![Anatomie d'une figure](https://matplotlib.org/3.1.1/_images/anatomy.png)

In [None]:
# Testons ensemble
# mega visu moche avec .plot()
# column et by ?


## 2. Filtrer

### .loc et iloc

Récupérer une ligne/un élément avec .loc et .iloc

In [None]:
# TODO : un set_index() quelque part si pas fait jusque là ?

In [None]:
# .loc = nom des lignes et colonnes

In [None]:
# iloc = numéro index des lignes et colonnes

### Filtrer les observations (lignes)

La plupart du temps, vous avez besoin de filtrer certaines observations (lignes) dans votre jeu de données.
- Vous vous intéressez à certains aspects particuliers de votre jeu de données (ex : seulement les articles, ceux publiés après une date, etc.).
- L'information est non pertinente et vous devez supprimer certaines données pour éviter de tirer de mauvaises conclusions (ex : les personnes qui refusent de répondre).

Vous avez donc besoin d'un moyen de filtrer les observations dans votre jeu de données.

- Les opérateurs relationnels permettent de sélectionner des observations.
- Il existe aussi des méthodes utiles pour vous aider dans cette tâche.

![](https://pandas.pydata.org/docs/_images/03_subset_rows.svg)


**Mettons qu'on ne veut travailler que sur les articles**

In [None]:
# créer un filtre/mask pour type == article
# …
# appliquer ce filtre et créer my_df_article
# …

In [None]:
# On peut aussi faire ça en une ligne :
# Mais c'est parfois peu lisible si plusieurs conditions
# Vous pouvez décommenter la ligne ci-dessous si besoin d'en être au meme stade

# my_df_article = my_df[my_df["type"] == "article"]

In [None]:
# Vérifier comment évolue le score moyen entre my_df et my_df_article
# …

**Plusieurs conditions : uniquement les articles qui datent de 2025**

In [None]:
# (ma jolie condition 1) & (ma jolie condition 2) etc.
# le & -> un "and" logique mais pour les séries pandas

# (df["…"]=="…") & (df["…"]=="…")

# appliquer le filtre et afficher les titres (et l'année)
# … mon_df[mon_filtre][["ma_var1", "ma_var2"]]


## 3. Grouper / croiser des observations

### Groupby

La **fonction `groupby`** de pandas permet de regrouper les données selon les valeurs d'une ou plusieurs colonnes, puis d'appliquer des opérations statistiques (comme la moyenne, la médiane, l'écart-type, etc.) sur chaque groupe.

Cela facilite la comparaison entre différentes catégories ou groupes d'observations.

La syntaxe suit ce format :
```python
df.groupby("colonne_à_grouper")[["autre_colonne"]].operation() # .mean(), .std(), etc.
```
NB : on peut directement aggréger différentes stat avec `.agg()` :  
ex : `blablabla.agg(["median","mean"])`

In [None]:
# Grouper par année et afficher le score moyen
# …

# Afficher à la fois la mediane et la moyenne du score par année
# …

# nb : on peut utiliser tail pour afficher les dernières lignes…

In [None]:
# Un exemple tout prêt groupant par type et calculant des trucs sur l'année de publi :
# my_df.groupby("type")["annee"].agg(["median", "mean"])


In [None]:
# Stocker le tout dans un tableau puis faire un grah de la moyenne annuelle
# ex : mon_tableau["mean"].plot(kind="bar")


In [None]:
# Un tableau puis faire un scatter plot moyenne vs mediane

# tableau.plot(x="mean",
#              y="median",
#              kind="scatter",
#              title="mon super titre")

### Crosstab

On peut utiliser la fonction `pd.crosstab()` pour réaliser des tableaux croisés entre deux variables (ou plus)

Pour de l'aide sur une fonction, vous pouvez faire appel à :
```python
help(pd.crosstab)
# ou
pd.crosstab?
```

In [None]:
# Exemple de tableau croisé :
# limiter aux données récentes :
df_recent = my_df[my_df["annee"] >= 2020]

# et croiser type et année :
# pd.crosstab(mon_df["ma_var1"], mon_df["ma_var2"])
# …

In [None]:
# Revient à ...
df_recent.groupby("type")["annee"].value_counts().unstack().fillna(0).astype(int)

# Oui, utiliser des fonctions toutes prêtes c'est mieux…

In [None]:
# Les valeurs absolues ne sont pas très parlantes
# pourcentage du total :
pd.crosstab(df_recent["type"], df_recent["annee"], normalize=True)

# Tester les % en ligne, colonne, ajouter les marges
# …

In [None]:
# Exemple d'un tableau croisé pourcentages en ligne
tab = pd.crosstab(
    df_recent["type"], df_recent["annee"], normalize="index", margins=True
)
tab.round(2) * 100

In [None]:
# On peut aussi faire un graph sur le tableau croisé
tab.plot(
    kind="bar",
    # stacked=True,
    # legend=False,
    # subplots=True,
);

### Manipuler plusieurs tableaux

In [None]:
distribution_absolue = my_df["annee"].value_counts().sort_index().tail(20)
distribution_pourcentage = (
    round(100 * my_df["annee"].value_counts(normalize=True), 1).sort_index().tail(20)
)

Réunion de deux tableaux ensemble

In [None]:
# pd.concat([tableau_1, tableau_2], axis=1)
# pd.concat…………

In [None]:
# Pimper les noms de colonnes avec un dictionnaire :
pd.concat(
    {"%": distribution_pourcentage, "F": distribution_absolue}, axis=1
)  # .tail(10)

## 4. Recodages et modification de variables


### Créer des nouvelles variables (~ Ajout de nouvelles colonnes)

Lorsque vous recodez des variables, vous pouvez ajouter une nouvelle variable au jeu de données d'origine afin de conserver la version originale de votre variable.

![](https://pandas.pydata.org/docs/_images/05_newcolumn_1.svg)




In [None]:
my_df["my_new_var"] = 0
my_df

In [None]:
# On peut également supprimer une colonne à l'aide de la méthode drop.
# Voyons à quoi ressemble le recoded_df si nous supprimons/dropons la variable.
my_df.drop("my_new_var", axis=1)

# nb: axis=1 indique que nous voulons supprimer une colonne(=1), et pas une ligne(=0)

In [None]:
# Une fois satisfaits du résultat, on "sauvegarde"
my_df = my_df.drop("my_new_var", axis=1)
my_df

### Recodage des variables avec la méthode `.replace()`

On peut utiliser la méthode/fonction `replace` pour faciliter le recodage des variables.

In [None]:
# Essayons de recoder la variable type
# remplaçons "book-chapter" par chapitre
# blablabla.replace("ancienne valeur", "nouvelle valeur")

my_df["type"].replace("book-chapter", "chapitre")

In [None]:
# Faire la même chose pour toutes les valeurs …
# Hell no

Recoder chaque catégorie une par une est **TRÈS** fastidieux ! Mais il y a des solutions.

On peut utiliser la méthode `.replace()` avec des listes ou un dictionnaire !

In [None]:
#list(df["type"].unique())

In [None]:
# Créer deux listes avec les anciennes et les nouvelles modalités
# ATTENTION, l'ordre des éléments des listes est important!!
old_labels = ["book", "book-chapter", "report", "editorial"]
new_labels = ["livre", "chapitre", "rapport", "edito"]

In [None]:
# Passer à la fonction replace les anciennes et les nouvelles valeurs
my_df["type"].replace(old_labels, new_labels)

In [None]:
# my_df["type"].replace(old_labels, new_labels).value_counts()

In [None]:
# Je peux donc aussi plutôt utiliser un dictionnaire pour faire le recodage
recode_dict = {
    "book": "livre",
    "book-chapter": "chapitre",
    "report": "rapport",
    # etc.
}

# Et voir ce que ça donne :
my_df["type"].replace(recode_dict).value_counts()

In [None]:
# quand je suis satisfait, je "sauve" dans une nouvelle variable, ou j'écrase l'ancienne
my_df["type_recod"] = my_df["type"].replace(recode_dict)

### La méthode `.cut()` (dicrétiser des variables quanti)

La méthode/fonction `pd.cut()` nous permet de transformer une variable continue en catégories !

In [None]:
# Regardons du côté de la variable score
# On pourrait vouloir recoder les scores en catégories (ex : quartiles)

# my_df["score"].describe()

In [None]:
# On passe d'abord les bornes souhaitées,
# puis les labels correspondants

my_df["score_cat"] = pd.cut(
    my_df["score"],  # la variable à recoder
    bins=[0, 0.58, 2.98, 8.33, 1500],  # les bornes
    labels=["Q1", "Q2", "Q3", "Q4"],  # les labels (Q est pas le bon nom mais…)
)
my_df["score_cat"].value_counts()

# nb : il est possible de préciser le comportement souhaité
# dans les paramètres de pd.cut
# de base : right=True / include_lowest=False

In [None]:
# Bon en vrai je peux aussi recoder les scores en quartiles automatiquement avec qcut
pd.qcut(my_df["score"], q=10, duplicates="drop").value_counts()

In [None]:
# Si je veux visualiser :
# my_df["score_cat"].value_counts().sort_index().plot(kind="bar")


In [None]:
# Croiser score_cat et année :
# my_df.groupby("score_cat")["annee"].mean()

In [None]:
# Visualiser encore un peu plus : type et score_cat

# pd.crosstab(my_df["type"], my_df["score_cat"], normalize=True).plot(
#     kind="bar", subplots=True, figsize=(10, 10), layout=(2, 2)
# );

# TIP : ce petit `;` qu'on utilise parfois c'est pour nettoyer la sortie

### Version générique avec ``.apply()``

Créer une fonction qui renvoie "super pertinent" si un article il fait partie du top 10 des relevance_score

In [None]:
# Definir une fonction

# def ma_fonction(x):
#     si condition:
#         faire des trucs avec x
#     sinon:
#         faire d'autres trucs avec x

# …

In [None]:
# Appliquer la fonction avec apply
# df["ma_var"].apply(ma_fonction)

# …

In [None]:
# Pour en être au même stade :

# def pertinence(nombre):
#     if nombre > 4.1:
#         return "super pertinent"
#     else:
#         return "pas ouf"

# my_df["score"].apply(pertinence).value_counts()

## Autres

In [None]:
# isnull, isna, dropna, fillna

In [None]:
# exporter en csv

In [None]:
# Des trucs que l'on a oublié ?