# Pandas et l'analyse de données (tabulaires)

User guide : https://pandas.pydata.org/docs/user_guide/10min.html  
Cheat Sheet : https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf

## 1. Charger des données

In [8]:
# charger les bibliothèques requises
import pandas as pd


In [9]:
# Charger des données locales
df = pd.read_csv("../data/css_openalex_26022026.csv")

In [10]:
# Charger des données avec pandas depuis une URL
data_url = "https://raw.githubusercontent.com/pyshs/CUSO2026/refs/heads/main/data/css_openalex_26022026.csv"
df_url = pd.read_csv(data_url)

### Hack Time

In [11]:
# Quel est le type de df ?


### DataFrames

Les DataFrames sont des listes (ou des séries lorsqu'on utilise pandas) qui sont assemblées dans un tableau.

![](https://storage.googleapis.com/lds-media/images/series-and-dataframe.width-1200.png)

##### Quelques outils utiles pour les dataframes :
- `.info()` des infos sur notre df  
- `.shape` sa "forme"  
- `.columns` les colonnes  
- `.dtypes` le type des données  
- `.head()` afficher les premières observations  
- `.tail()` afficher la fin du df  
- `.describe()` description basique  

### Hack Time

In [12]:
# Testons tout ça ensemble !

# Obtenir plus d'info sur notre df ?
# Quelle forme à notre df ?
# CQuelles sont les colonnes ?
# Quels sont leur type ?
# Quelles sont les grandes tendances de notre df ?

## 2. Exploration de données - Variables

Maintenant que vous avez vos données, l'étape suivante est de vous familiariser avec elles. 

La plupart du temps, vous vous intéressez à certains concepts spécifiques. 
- Vous avez besoin d'un moyen de sélectionner uniquement les variables liées à vos concepts.


### Sélectionner des variables (colonnes)

- Nous pouvons utiliser des crochets sur un objet DataFrame pour sélectionner une seule colonne !
- Nous pouvons également utiliser une liste de chaînes contenant les noms de colonnes pour sélectionner plusieurs colonnes !

![](https://pandas.pydata.org/docs/_images/03_subset_columns.svg)


In [13]:
# rappel : `.columns` permet d'obtenir les noms des colonnes d'un DataFrame


In [14]:
# Sélectionner la variable "title"
# …

In [15]:
# Sélections plusieurs variables : type et title
# mon_df[["ma_var1", "ma_var2"]]


In [16]:
# Sélectionner plusieurs colonnes
my_vars = [
    "type",
    "title",
    "publication_year",
    "relevance_score",
    "abstract",
]

df[my_vars]

Unnamed: 0,type,title,publication_year,relevance_score,abstract
0,article,Computational Social Science,2009.0,1360.357700,A field is emerging that leverages the capacit...
1,article,Manifesto of computational social science,2012.0,497.826660,
2,article,Computational social science: Obstacles and op...,2020.0,438.539860,"Data sharing, research ethics, and incentives ..."
3,article,Computational Social Science and Sociology,2020.0,413.034240,The integration of social science with compute...
4,article,Integrating explanation and prediction in comp...,2021.0,408.089800,
...,...,...,...,...,...
2124,article,Complexity at large,2011.0,0.095437,The following news item is taken in part from ...
2125,article,AI-Driven Behavioral and Sociocultural Analysi...,2025.0,0.087923,Author: Khan Tahsin AbrarAffiliation: Independ...
2126,paratext,Index,2020.0,0.067887,"Citation (2020), ""Index"", Härtel, C.E.J., Zerb..."
2127,book-chapter,Publishing academic books in emerging fields: ...,2024.0,0.046431,Publishing academic books in emerging fields p...


In [17]:
# Sauvegarder ce sous-ensemble plus petit de variables dans my_df
my_df = df[my_vars]
my_df.head()

Unnamed: 0,type,title,publication_year,relevance_score,abstract
0,article,Computational Social Science,2009.0,1360.3577,A field is emerging that leverages the capacit...
1,article,Manifesto of computational social science,2012.0,497.82666,
2,article,Computational social science: Obstacles and op...,2020.0,438.53986,"Data sharing, research ethics, and incentives ..."
3,article,Computational Social Science and Sociology,2020.0,413.03424,The integration of social science with compute...
4,article,Integrating explanation and prediction in comp...,2021.0,408.0898,


On peut aussi renommer nos colonnes (les passer en français, ou éviter d'avoir toujours à vérifier un codebook quand les noms des colonnes sont peu explicites).

In [18]:
# Renommer les colonnes
my_df.columns = ["type", "titre", "annee", "score", "resume"]
my_df.head()

Unnamed: 0,type,titre,annee,score,resume
0,article,Computational Social Science,2009.0,1360.3577,A field is emerging that leverages the capacit...
1,article,Manifesto of computational social science,2012.0,497.82666,
2,article,Computational social science: Obstacles and op...,2020.0,438.53986,"Data sharing, research ethics, and incentives ..."
3,article,Computational Social Science and Sociology,2020.0,413.03424,The integration of social science with compute...
4,article,Integrating explanation and prediction in comp...,2021.0,408.0898,


In [19]:
# nb: meilleure pratique par rename :
# - plus explicite
# - pas besoin de coler pile à l'ordre des colones
# - et donc on peut choisir lesquelles renommer

# my_df = my_df.rename(columns={
#     "title": "titre",
#     "publication_year": "annee",
#     "relevance_score": "score",
#     "abstract": "resume"
# })
# my_df.head()


### Calculer des trucs
### Méthodes utiles
Les Series et les DataFrames fournissent des méthodes très utiles pour explorer facilement les données. Voici quelques-unes des plus courantes :

- `mean()` : moyenne
- `median()` : médiane
- `std()` : écart-type
- `min()` : minimum
- `max()` : maximum
- `mode()` : mode (valeur la plus fréquente)
- `count()` : nombre d'observations
- `unique()` / `nunique()` : chaque modalité / nb de modalités
- `describe()` : statistiques descriptives
- `value_counts()` : fréquence des valeurs (tri à plat)

### Hack Time

In [20]:
# Testons tout ça ensemble !


In [21]:
# ex :
# Quel est le score moyen dans my_df ?
# quel % de publi par année ? etc.


### Visualisations avec Pandas

Vous pouvez utiliser pandas pour tracer vos résultats en utilisant la méthode `.plot()` sur un objet DataFrame ou Series.

Pour plus d'informations, voir [**ici**](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html).

#### Aller plus loin

Il existe de nombreuses options pour jouer avec et améliorer une figure. 
Lorsque vous cherchez de l'aide pour changer quelque chose sur une figure, si vous avez la bonne terminologie, il est assez facile de trouver de l'aide !

#### Anatomie d'une figure
![Anatomie d'une figure](https://matplotlib.org/3.1.1/_images/anatomy.png)

In [22]:
# Testons ensemble
# mega visu moche avec .plot()


## 2. Filtrer

### .loc et iloc

Récupérer une ligne/un élément avec .loc et .iloc

In [23]:
# TODO : un set_index() quelque part si pas fait jusque là ?

In [24]:
# .loc = nom des lignes et colonnes

In [25]:
# iloc = numéro index des lignes et colonnes

### Filtrer les observations (lignes)

La plupart du temps, vous avez besoin de filtrer certaines observations (lignes) dans votre jeu de données.
- Vous vous intéressez à certains aspects particuliers de votre jeu de données (ex : seulement les articles, ceux publiés après une date, etc.).
- L'information est non pertinente et vous devez supprimer certaines données pour éviter de tirer de mauvaises conclusions (ex : les personnes qui refusent de répondre).

Vous avez donc besoin d'un moyen de filtrer les observations dans votre jeu de données.

- Les opérateurs relationnels permettent de sélectionner des observations.
- Il existe aussi des méthodes utiles pour vous aider dans cette tâche.

![](https://pandas.pydata.org/docs/_images/03_subset_rows.svg)


**Mettons qu'on ne veut travailler que sur les articles**

In [26]:
# créer un filtre+/mask pour type == article
# …
# appliquer ce filtre et créer my_df_article
# …

In [27]:
# On peut aussi faire ça en une ligne :
# Mais c'est parfois peu lisible si plusieurs conditions
# Vous pouvez décommenter la ligne ci-dessous si besoin d'en être au meme stade

# my_df_article = my_df[my_df["type"] == "article"]

In [28]:
# Vérifier comment évolue le score moyen entre my_df et my_df_article
# …

**Plusieurs conditions : uniquement les articles qui datent de 2025**

In [29]:
# (ma jolie condition 1) & (ma jolie condition 2) etc.
# le & -> un "and" logique mais pour les séries pandas
# (df["…"]=="…") & (df["…"]=="…")

# appliquer le filtre et afficher les titres (et l'année)
# … mon_df[mon_filtre][["ma_var1", "ma_var2"]]


## 3. Grouper / croiser des observations

### Groupby

La **fonction `groupby`** de pandas permet de regrouper les données selon les valeurs d'une ou plusieurs colonnes, puis d'appliquer des opérations statistiques (comme la moyenne, la médiane, l'écart-type, etc.) sur chaque groupe.

Cela facilite la comparaison entre différentes catégories ou groupes d'observations.

La syntaxe suit ce format :
```python
df.groupby("colonne_à_grouper")[["autre_colonne"]].operation() # .mean(), .std(), etc.
```
NB : on peut directement aggréger différentes stat avec `.agg()` :  
ex : `blablabla.agg(["median","mean"])`

In [30]:
# Grouper par année et afficher le score moyen
# …

# Afficher à la fois la mediane et la moyenne du score par année
# …

# nb : on peut utiliser tail pour afficher les dernières lignes…

In [31]:
# Un exemple tout prêt groupant par type et calculant des trucs sur l'année de publi :
# my_df.groupby("type")["annee"].agg(["median", "mean"])


In [32]:
# Stocker le tout dans un tableau puis faire un grah de la moyenne annuelle
# ex : mon_tableau["mean"].plot(kind="bar")


In [33]:
# Un tableau puis faire un scatter plot moyenne vs mediane

# tableau.plot(x="mean",
#              y="median",
#              kind="scatter",
#              title="mon super titre")

### Crosstab

On peut utiliser la fonction `pd.crosstab()` pour réaliser des tableaux croisés entre deux variables (ou plus)

Pour de l'aide sur une fonction, vous pouvez faire appel à :
```python
help(pd.crosstab)
# ou
pd.crosstab?
```

In [38]:
# Exemple de tableau croisé :
df_recent = my_df[my_df["annee"] >= 2020]
pd.crosstab(df_recent["type"], df_recent["annee"])

annee,2020.0,2021.0,2022.0,2023.0,2024.0,2025.0,2026.0
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
article,63,83,79,84,91,192,61
book,2,9,8,3,6,10,1
book-chapter,14,42,23,31,28,32,6
dataset,10,2,0,3,0,15,34
dissertation,4,3,2,2,3,10,2
editorial,1,0,1,0,1,1,0
letter,1,2,0,1,0,0,0
libguides,1,0,0,0,0,0,0
other,2,3,0,2,1,16,12
paratext,2,1,1,1,2,1,0


In [None]:
# Revient à ...
df_recent.groupby("type")["annee"].value_counts().unstack().fillna(0).astype(int)

# Oui, utiliser des fonctions toutes prêtes c'est mieux…

annee,2020.0,2021.0,2022.0,2023.0,2024.0,2025.0,2026.0
type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
article,63,83,79,84,91,192,61
book,2,9,8,3,6,10,1
book-chapter,14,42,23,31,28,32,6
dataset,10,2,0,3,0,15,34
dissertation,4,3,2,2,3,10,2
editorial,1,0,1,0,1,1,0
letter,1,2,0,1,0,0,0
libguides,1,0,0,0,0,0,0
other,2,3,0,2,1,16,12
paratext,2,1,1,1,2,1,0


### Manipuler plusieurs tableaux

In [34]:
distribution_absolue = my_df["annee"].value_counts().sort_index().tail(20)
distribution_pourcentage = (
    round(100 * my_df["annee"].value_counts(normalize=True), 1)
    .sort_index()
    .tail(20)
)

Réunion de deux tableaux ensemble

In [35]:
pd.concat({"%": distribution_pourcentage, "F": distribution_absolue}, axis=1).tail(10)

Unnamed: 0_level_0,%,F
annee,Unnamed: 1_level_1,Unnamed: 2_level_1
2017.0,5.6,119
2018.0,5.8,123
2019.0,5.4,114
2020.0,5.8,124
2021.0,8.0,169
2022.0,6.7,141
2023.0,8.4,179
2024.0,10.1,214
2025.0,18.2,385
2026.0,6.4,135


## 4. Recoder

- remplacer
- valeurs nulles
- fonctions comme .cut
- solition générique de .apply

In [None]:
df.isnull().sum()

DOI                              1716
TITLE                              11
DISPLAY_NAME                       11
RELEVANCE_SCORE                     0
PUBLICATION_YEAR                    0
                                 ... 
GRANTS.FUNDER                    8657
GRANTS.FUNDER_DISPLAY_NAME       8657
GRANTS.AWARD_ID                  8657
COUNTS_BY_YEAR.YEAR              3872
COUNTS_BY_YEAR.CITED_BY_COUNT    3872
Length: 182, dtype: int64

In [None]:
# pd.qcut(df["CITED_BY_COUNT"], q=10, duplicates="drop").value_counts()

On veut recoder les publications en trois catégories :
- 0 ou 1 citations
- moins de 10 citations
- et plus de 10 citations

In [None]:
df["CITED_INT"] = pd.cut(
    df["CITED_BY_COUNT"], [-1, 1, 10, 10000], labels=["<2", "2-10", "+10"]
)

In [None]:
df.groupby("CITED_INT")["PUBLICATION_YEAR"].mean()

CITED_INT
<2      2017.494876
2-10    2015.906986
+10     2012.704863
Name: PUBLICATION_YEAR, dtype: float64

# ICI CRÉER UN EXO AVEC CETTE IDÉE
+ STAT DESC
+ VISU ?

## Objectif

- tous les articles
- qui parlent vraiemnt de sciences sociales computationnelles
- taille de l'abstract

In [66]:
len("blabla")

6

In [68]:
df["abstract"]

0       A field is emerging that leverages the capacit...
1                                                     NaN
2       Data sharing, research ethics, and incentives ...
3       The integration of social science with compute...
4                                                     NaN
                              ...                        
2119    The following news item is taken in part from ...
2120    Author: Khan Tahsin AbrarAffiliation: Independ...
2121    Citation (2020), "Index", Härtel, C.E.J., Zerb...
2122    Publishing academic books in emerging fields p...
2123    Citation (2023), "Index", Lytras, M.D., Housaw...
Name: abstract, Length: 2124, dtype: object

In [None]:
def compter(texte):
    if pd.isnull(texte):
        return 0
    else:
        return len(texte)


# Créer une nouvelle variable pour la taille de l'abstract
# Utilisez .apply

In [None]:
df["LEN_ABSTRACT"].describe()

count     9278.000000
mean      2161.624811
std       5606.592746
min          0.000000
25%          0.000000
50%          0.000000
75%       1495.000000
max      43111.000000
Name: LEN_ABSTRACT, dtype: float64

In [None]:
df["CSS"] = (
    df["ABSTRACT"]
    .str.lower()
    .str.contains("computational social science")
    .fillna(False)
)

## Autres

In [65]:
# exporter en csv