# PANDAS

Pandas est sans doute le package Python le plus important pour l'analyse de données : il s'agit du logiciel standard de facto pour la manipulation des données et l'analyse exploratoire des données. 

Pandas est un package de manipulation de données en Python pour les données tabulaires. C'est-à-dire des données sous forme de lignes et de colonnes, également appelées DataFrame. 

Les fonctionnalités de pandas comprennent les transformations de données, comme le tri des lignes et la prise de sous-ensembles, le calcul de statistiques sommaires telles que la moyenne, le remodelage des DataFrames et l'assemblage des DataFrames. 



In [28]:
import pandas as pd

In [29]:
infile='data/sim_tweets.csv'

In [30]:
df=pd.read_csv(infile) 
# je peux aussi importer un fichier excel avec pd.read_excel(infile), 
# ou un fichier json avec pd.read_json(infile) 
# ou des fichiers sql avec pd.read_sql(query,connection)

## Comment visualiser les données

Vous pouvez afficher les premières ou les dernières lignes d'un DataFrame à l'aide des méthodes .head() ou .tail(), respectivement. 

In [31]:
df.head(10)

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets
0,2024-01-13,user04,enseignant,2303,L'immigration est une richesse pour la société...,62
1,2024-01-16,user02,etudiant,817,Un débat apaisé est nécessaire. #Europe,55
2,2025-01-01,user07,infirmiere,4514,Un débat apaisé est nécessaire. #Immigration #...,107
3,2024-06-23,user14,patron_pme,2326,La diversité culturelle est un atout. #Migration,39
4,2024-02-19,user13,ouvrier,2990,L'immigration manque de régulation. #Europe #M...,88
5,2024-02-10,user13,ouvrier,4572,Il faut mieux contrôler les frontières. #Front...,75
6,2024-12-04,user02,etudiant,1916,Les capacités d'accueil sont limitées. #DebatP...,74
7,2024-08-20,user09,chercheur,3038,L'accueil des migrants est une responsabilité ...,41
8,2025-01-08,user18,cadre_prive,2055,La diversité culturelle est un atout. #Politiq...,41
9,2024-04-27,user02,etudiant,312,L'immigration est une richesse pour la société...,80


In [34]:
df.tail(5)

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets
395,2024-05-18,user13,ouvrier,1523,L'accueil des migrants est une responsabilité ...,6
396,2024-08-29,user02,etudiant,4387,Les capacités d'accueil sont limitées. #Migration,91
397,2024-12-02,user08,chauffeur_vtc,2025,L'immigration manque de régulation. #DebatPublic,68
398,2024-03-29,user12,assistante_sociale,1492,La pression sur les services publics augmente....,60
399,2024-10-15,user19,militant_asso,1214,Les politiques migratoires sont inefficaces. #...,144


Pour obtenir des informations sur le format des colonnes on utilise le commande .info()

In [36]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   date           400 non-null    object
 1   user           400 non-null    object
 2   profil_user    400 non-null    object
 3   nb_followers   400 non-null    int64 
 4   contenu_tweet  400 non-null    object
 5   nb_retweets    400 non-null    int64 
dtypes: int64(2), object(4)
memory usage: 18.9+ KB


## Le format date-time dans pandas

Dans **pandas**, les dates et les heures sont gérées via le type  
`datetime64[ns]`, qui permet d’effectuer des **tris**, des **filtres temporels**,  
des **calculs sur les dates** et des **analyses temporelles** de manière efficace.

Contrairement aux chaînes de caractères (`str`), un objet `datetime` est reconnu
comme une date et peut être comparé, découpé ou agrégé dans le temps.

#### Convertir une colonne au format datetime

La fonction principale est `pd.to_datetime()`.


In [9]:
# convertir date en datetime
df['date']=pd.to_datetime(df['date'])

In [38]:
df.info() # la colonne date est maintenant de type datetime64[ns]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   date           400 non-null    object
 1   user           400 non-null    object
 2   profil_user    400 non-null    object
 3   nb_followers   400 non-null    int64 
 4   contenu_tweet  400 non-null    object
 5   nb_retweets    400 non-null    int64 
dtypes: int64(2), object(4)
memory usage: 18.9+ KB


In [46]:
#à partir d'un objet datetime, on peut extraire des informations comme l'année, le mois, le jour, l'heure, etc.
date=pd.to_datetime('2021-01-15 8:30')

print(date)
print(date.year)
print(date.month)
print(date.day)
print(date.hour)
print(date.minute)
print(date.second)

2021-01-15 08:30:00
2021
1
15
8
30
0


## La méthode `describe()` dans pandas

La méthode `describe()` est utilisée pour obtenir **un résumé statistique rapide**
d’un jeu de données. Elle permet d’avoir une première vue d’ensemble des valeurs,
de leur distribution et d’éventuelles anomalies.

In [49]:
df.describe()

Unnamed: 0,nb_followers,nb_retweets
count,400.0,400.0
mean,2631.1875,74.345
std,1403.870483,43.3814
min,70.0,0.0
25%,1359.0,38.75
50%,2786.5,72.0
75%,3791.5,112.25
max,4987.0,150.0


## Obtenir toutes les colonnes et leurs noms



In [12]:
df.columns

Index(['date', 'age', 'genre', 'ville_resid', 'niveau_etude', 'CSP',
       'opinion_migration'],
      dtype='object')

In [47]:
#Le convertir en liste
list(df.columns)

['date', 'user', 'profil_user', 'nb_followers', 'contenu_tweet', 'nb_retweets']

## Isolement d'une ou plus colonnes

#### Isolement d'une colonne à l'aide de [ ] 
Vous pouvez isoler une seule colonne à l'aide d'un crochet [ ] contenant le nom d'une colonne. Le résultat est un objet pandas Series. Une série pandas est un tableau unidimensionnel contenant des données de n'importe quel type

In [48]:
df['contenu_tweet']

0      L'immigration est une richesse pour la société...
1                Un débat apaisé est nécessaire. #Europe
2      Un débat apaisé est nécessaire. #Immigration #...
3       La diversité culturelle est un atout. #Migration
4      L'immigration manque de régulation. #Europe #M...
                             ...                        
395    L'accueil des migrants est une responsabilité ...
396    Les capacités d'accueil sont limitées. #Migration
397     L'immigration manque de régulation. #DebatPublic
398    La pression sur les services publics augmente....
399    Les politiques migratoires sont inefficaces. #...
Name: contenu_tweet, Length: 400, dtype: object

#### Isolement de deux colonnes ou plus à l'aide de [[ ]] 

Vous pouvez également fournir une liste de noms de colonnes à l'intérieur des crochets pour récupérer plus d'une colonne.

In [51]:
df[['nb_followers','nb_retweets']]

Unnamed: 0,nb_followers,nb_retweets
0,2303,62
1,817,55
2,4514,107
3,2326,39
4,2990,88
...,...,...
395,1523,6
396,4387,91
397,2025,68
398,1492,60


## Trier les données

In [58]:
df.sort_values(by="nb_followers", ascending=False, inplace=True) 
# tri par nb_followers décroissant (ascending=False), 
# inplace=True modifie le dataframe df directement
df.head(10)

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets
251,2024-10-17,user10,commercant,4987,La pression sur les services publics augmente....,27
233,2024-04-11,user05,journaliste,4985,L'immigration est une richesse pour la société...,130
229,2024-09-10,user10,commercant,4944,L'immigration est une richesse pour la société...,120
182,2024-03-08,user20,consultant,4942,L'accueil des migrants est une responsabilité ...,96
330,2024-08-02,user13,ouvrier,4935,Les politiques migratoires sont inefficaces. #...,35
60,2024-10-13,user17,doctorant,4927,Les politiques migratoires sont inefficaces. #...,81
98,2024-06-06,user06,retraite,4924,Les politiques migratoires sont inefficaces. #...,145
172,2024-11-10,user03,employe_prive,4916,Un débat apaisé est nécessaire. #Travail,129
376,2024-07-07,user15,urbaniste,4897,Les capacités d'accueil sont limitées. #Accueil,126
280,2025-01-24,user07,infirmiere,4863,L'accueil des migrants est une responsabilité ...,143


## Filtrer les données

In [63]:
df[df["nb_retweets"] >100]  # Selects rows where nb_retweets > 100

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets
233,2024-04-11,user05,journaliste,4985,L'immigration est une richesse pour la société...,130
229,2024-09-10,user10,commercant,4944,L'immigration est une richesse pour la société...,120
98,2024-06-06,user06,retraite,4924,Les politiques migratoires sont inefficaces. #...,145
172,2024-11-10,user03,employe_prive,4916,Un débat apaisé est nécessaire. #Travail,129
376,2024-07-07,user15,urbaniste,4897,Les capacités d'accueil sont limitées. #Accueil,126
...,...,...,...,...,...,...
127,2024-08-13,user10,commercant,323,L'accueil des migrants est une responsabilité ...,148
386,2024-03-30,user09,chercheur,304,Il faut mieux contrôler les frontières. #Migra...,103
132,2024-08-29,user08,chauffeur_vtc,255,Un débat apaisé est nécessaire. #Migration,143
163,2024-08-11,user02,etudiant,203,La pression sur les services publics augmente....,117


In [62]:
df[df["user"] == "user05"]  # Selects rows where user is "user05"

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets
233,2024-04-11,user05,journaliste,4985,L'immigration est une richesse pour la société...,130
146,2024-05-20,user05,journaliste,4845,Les politiques migratoires sont inefficaces. #...,140
11,2024-05-06,user05,journaliste,4648,Un débat apaisé est nécessaire. #DebatPublic #...,137
68,2024-11-14,user05,journaliste,4425,Il faut mieux contrôler les frontières. #Migra...,6
217,2024-08-09,user05,journaliste,4169,Il faut mieux contrôler les frontières. #Asile,14
252,2024-09-15,user05,journaliste,3884,L'immigration est une richesse pour la société...,69
315,2025-01-01,user05,journaliste,3516,Un débat apaisé est nécessaire. #DebatPublic #...,96
155,2024-10-16,user05,journaliste,3333,L'immigration est une richesse pour la société...,17
303,2025-01-13,user05,journaliste,3241,L'immigration est une richesse pour la société...,81
230,2024-05-15,user05,journaliste,3046,Les migrants contribuent à l'économie. #Europe,103


## Créer de nouvelles colonnes basées sur des colonnes existantes

In [64]:
df['contenu_tweet_minuscule']=df['contenu_tweet'].str.lower()

In [65]:
df.head(10)

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets,contenu_tweet_minuscule
251,2024-10-17,user10,commercant,4987,La pression sur les services publics augmente....,27,la pression sur les services publics augmente....
233,2024-04-11,user05,journaliste,4985,L'immigration est une richesse pour la société...,130,l'immigration est une richesse pour la société...
229,2024-09-10,user10,commercant,4944,L'immigration est une richesse pour la société...,120,l'immigration est une richesse pour la société...
182,2024-03-08,user20,consultant,4942,L'accueil des migrants est une responsabilité ...,96,l'accueil des migrants est une responsabilité ...
330,2024-08-02,user13,ouvrier,4935,Les politiques migratoires sont inefficaces. #...,35,les politiques migratoires sont inefficaces. #...
60,2024-10-13,user17,doctorant,4927,Les politiques migratoires sont inefficaces. #...,81,les politiques migratoires sont inefficaces. #...
98,2024-06-06,user06,retraite,4924,Les politiques migratoires sont inefficaces. #...,145,les politiques migratoires sont inefficaces. #...
172,2024-11-10,user03,employe_prive,4916,Un débat apaisé est nécessaire. #Travail,129,un débat apaisé est nécessaire. #travail
376,2024-07-07,user15,urbaniste,4897,Les capacités d'accueil sont limitées. #Accueil,126,les capacités d'accueil sont limitées. #accueil
280,2025-01-24,user07,infirmiere,4863,L'accueil des migrants est une responsabilité ...,143,l'accueil des migrants est une responsabilité ...


In [66]:
# fonction pour extraire les hashtags d'un tweet
def extract_hashtags(text):
    return [part[1:] for part in text.split() if part.startswith('#')]  

In [83]:
### Creer une nouvelle colonne avec les hashtags extraits en utilisant la fonction apply avec lambda
df['hashtags']=df['contenu_tweet'].apply(lambda x: extract_hashtags(x))

# la foncion lambda x: extract_hashtags(x) applique la fonction extract_hashtags à chaque élément x de la colonne 'contenu_tweet'

In [68]:
df.head()

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets,contenu_tweet_minuscule,hashtags
251,2024-10-17,user10,commercant,4987,La pression sur les services publics augmente....,27,la pression sur les services publics augmente....,"[Travail, Europe]"
233,2024-04-11,user05,journaliste,4985,L'immigration est une richesse pour la société...,130,l'immigration est une richesse pour la société...,[Immigration]
229,2024-09-10,user10,commercant,4944,L'immigration est une richesse pour la société...,120,l'immigration est une richesse pour la société...,[DebatPublic]
182,2024-03-08,user20,consultant,4942,L'accueil des migrants est une responsabilité ...,96,l'accueil des migrants est une responsabilité ...,[Travail]
330,2024-08-02,user13,ouvrier,4935,Les politiques migratoires sont inefficaces. #...,35,les politiques migratoires sont inefficaces. #...,[Travail]


La colonne 'hashtags' est une colonne de listes!

In [81]:
### creer une nouvelle colonne avec le nombre de hashtags
df['nb_hashtags']=df['hashtags'].apply(lambda x: len(x))

In [85]:
# On peut creer une nouvelle colonne en combinant plusieurs colonnes 
df['chiffre_inutile']=df['nb_followers'] + df['nb_retweets'] + df['nb_hashtags']

In [86]:
df

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets,contenu_tweet_minuscule,hashtags,nb_hashtags,chiffre_inutile
251,2024-10-17,user10,commercant,4987,La pression sur les services publics augmente....,27,la pression sur les services publics augmente....,"[Travail, Europe]",2,5016
233,2024-04-11,user05,journaliste,4985,L'immigration est une richesse pour la société...,130,l'immigration est une richesse pour la société...,[Immigration],1,5116
229,2024-09-10,user10,commercant,4944,L'immigration est une richesse pour la société...,120,l'immigration est une richesse pour la société...,[DebatPublic],1,5065
182,2024-03-08,user20,consultant,4942,L'accueil des migrants est une responsabilité ...,96,l'accueil des migrants est une responsabilité ...,[Travail],1,5039
330,2024-08-02,user13,ouvrier,4935,Les politiques migratoires sont inefficaces. #...,35,les politiques migratoires sont inefficaces. #...,[Travail],1,4971
...,...,...,...,...,...,...,...,...,...,...
290,2024-01-09,user16,blogueur,104,L'immigration manque de régulation. #Europe,136,l'immigration manque de régulation. #europe,[Europe],1,241
58,2024-12-01,user05,journaliste,95,Les capacités d'accueil sont limitées. #Europe,27,les capacités d'accueil sont limitées. #europe,[Europe],1,123
191,2024-11-11,user15,urbaniste,93,L'accueil des migrants est une responsabilité ...,20,l'accueil des migrants est une responsabilité ...,[Europe],1,114
140,2024-11-01,user05,journaliste,73,Les capacités d'accueil sont limitées. #Europe,70,les capacités d'accueil sont limitées. #europe,[Europe],1,144


## La fonction `explose`

La fonction explose permet de "détendre" une liste en plusieurs lignes

In [72]:
# creation d'une nouveau dataframe avec seulement les colonnes user, date, hashtags
df_hashtags=df[['user','date','hashtags']]

In [73]:
df_hashtags.head()

Unnamed: 0,user,date,hashtags
251,user10,2024-10-17,"[Travail, Europe]"
233,user05,2024-04-11,[Immigration]
229,user10,2024-09-10,[DebatPublic]
182,user20,2024-03-08,[Travail]
330,user13,2024-08-02,[Travail]


In [74]:
# explose la colonne hashtags pour avoir une ligne par hashtag
df_exploded=df_hashtags.explode('hashtags')

In [75]:
df_exploded.head()

Unnamed: 0,user,date,hashtags
251,user10,2024-10-17,Travail
251,user10,2024-10-17,Europe
233,user05,2024-04-11,Immigration
229,user10,2024-09-10,DebatPublic
182,user20,2024-03-08,Travail


## Compter les valeurs uniques

In [76]:
df_exploded['hashtags'].value_counts()

hashtags
Travail                79
Migration              73
DebatPublic            68
Europe                 66
Immigration            64
Frontieres             63
PolitiqueMigratoire    63
Asile                  61
Accueil                59
Name: count, dtype: int64

## Agrégation des données avec `.groupby()`

Pandas permet d'agréger des valeurs en les regroupant par valeurs de colonnes spécifiques. Vous pouvez le faire en combinant la méthode .groupby() avec une méthode de synthèse de votre choix. 

In [78]:
# Dans le dataframe original, compter le nombre de retweets par utilisateur
df.groupby('user')['nb_retweets'].sum().reset_index()

#on regroupe par utilisateur (groupby('user')), on somme le nombre de retweets pour chaque utilisateur (['nb_retweets'].sum())

Unnamed: 0,user,nb_retweets
0,user01,450
1,user02,2063
2,user03,1918
3,user04,1252
4,user05,1643
5,user06,1638
6,user07,1446
7,user08,1554
8,user09,1250
9,user10,1915


In [None]:
# Dans le dataframe original, compter le nombre moyen de retweets par utilisateur
df.groupby('user')['nb_retweets'].mean().reset_index()

Unnamed: 0,user,nb_retweets
0,user01,45.0
1,user02,76.407407
2,user03,73.769231
3,user04,69.555556
4,user05,71.434783
5,user06,74.454545
6,user07,85.058824
7,user08,74.0
8,user09,65.789474
9,user10,70.925926


In [80]:
# Dans le dataframe original, compter le nombre moyen et l'ecart type de retweets par utilisateur
df.groupby('user')['nb_retweets'].agg(['mean', 'std']).reset_index()

Unnamed: 0,user,mean,std
0,user01,45.0,34.746702
1,user02,76.407407,41.345876
2,user03,73.769231,41.852415
3,user04,69.555556,41.706569
4,user05,71.434783,45.911799
5,user06,74.454545,46.620788
6,user07,85.058824,38.47803
7,user08,74.0,49.063225
8,user09,65.789474,42.089295
9,user10,70.925926,44.461674


# CREER UN DATAFRAME À PARTIR D'UN JSON

Il y a une maniere directe de lire un json en format dataframe. 

In [88]:
dfj=pd.read_json('data/sim_tweets.json')

In [89]:
dfj

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets
0,2024-01-13,user04,enseignant,2303,L'immigration est une richesse pour la société...,62
1,2024-01-16,user02,etudiant,817,Un débat apaisé est nécessaire. #Europe,55
2,2025-01-01,user07,infirmiere,4514,Un débat apaisé est nécessaire. #Immigration #...,107
3,2024-06-23,user14,patron_pme,2326,La diversité culturelle est un atout. #Migration,39
4,2024-02-19,user13,ouvrier,2990,L'immigration manque de régulation. #Europe #M...,88
...,...,...,...,...,...,...
395,2024-05-18,user13,ouvrier,1523,L'accueil des migrants est une responsabilité ...,6
396,2024-08-29,user02,etudiant,4387,Les capacités d'accueil sont limitées. #Migration,91
397,2024-12-02,user08,chauffeur_vtc,2025,L'immigration manque de régulation. #DebatPublic,68
398,2024-03-29,user12,assistante_sociale,1492,La pression sur les services publics augmente....,60


Mais parfois, les JSON contiennent des informations plus complexes que ce que l’on peut mettre directement dans un DataFrame (listes, dictionnaires imbriqués, etc.). Il est donc nécessaire d’ouvrir le JSON sous forme de liste de dictionnaires et de construire le DataFrame manuellement.

In [90]:
import json
with open('data/sim_tweets.json', 'r') as f:
    data = json.load(f)

In [91]:
data[0]

{'date': '2024-01-13',
 'user': 'user04',
 'profil_user': 'enseignant',
 'nb_followers': 2303,
 'contenu_tweet': "L'immigration est une richesse pour la société. #DebatPublic",
 'nb_retweets': 62}

In [95]:
data[0]['date']

'2024-01-13'

In [96]:
data[10]['user']

'user07'

In [94]:
# on cree un dataframe vide
df_from_json=pd.DataFrame()

In [97]:
# je cree les colonnes une par une avec une boucle ou en comprehension
df_from_json['date']=[pd.to_datetime(entry['date']) for entry in data] # je le transforme directement en datetime
df_from_json['user']=[entry['user'] for entry in data]
df_from_json['profil_user']=[entry['profil_user'] for entry in data]
df_from_json['nb_followers']=[entry['nb_followers'] for entry in data]
df_from_json['contenu_tweet']=[entry['contenu_tweet'] for entry in data]
df_from_json['nb_retweets']=[entry['nb_retweets'] for entry in data]

In [98]:
df_from_json

Unnamed: 0,date,user,profil_user,nb_followers,contenu_tweet,nb_retweets
0,2024-01-13,user04,enseignant,2303,L'immigration est une richesse pour la société...,62
1,2024-01-16,user02,etudiant,817,Un débat apaisé est nécessaire. #Europe,55
2,2025-01-01,user07,infirmiere,4514,Un débat apaisé est nécessaire. #Immigration #...,107
3,2024-06-23,user14,patron_pme,2326,La diversité culturelle est un atout. #Migration,39
4,2024-02-19,user13,ouvrier,2990,L'immigration manque de régulation. #Europe #M...,88
...,...,...,...,...,...,...
395,2024-05-18,user13,ouvrier,1523,L'accueil des migrants est une responsabilité ...,6
396,2024-08-29,user02,etudiant,4387,Les capacités d'accueil sont limitées. #Migration,91
397,2024-12-02,user08,chauffeur_vtc,2025,L'immigration manque de régulation. #DebatPublic,68
398,2024-03-29,user12,assistante_sociale,1492,La pression sur les services publics augmente....,60


# Correspondance entre Pandas (Python) et tidyverse (R)
Pandas est équivalent au package dplyr de R.

Ce tableau montre les principales opérations en **pandas** et leur équivalent en **R** avec **tidyverse** (`dplyr`, `tidyr`, `readr`). Utile pour traduire rapidement des notebooks Python en R.

---

## 1. Lecture et écriture de fichiers

| Pandas | R (tidyverse) |
|--------|---------------|
| `df = pd.read_csv("file.csv")` | `df <- read_csv("file.csv")` |
| `df.to_csv("file_out.csv", index=False)` | `write_csv(df, "file_out.csv")` |

---

## 2. Exploration des données

| Pandas | R |
|--------|---|
| `df.head()` | `head(df)` |
| `df.tail()` | `tail(df)` |
| `df.info()` | `glimpse(df)` |
| `df.describe()` | `summary(df)` |

---

## 3. Sélection et filtrage

| Pandas | R (tidyverse) |
|--------|---------------|
| `df['col']` | `df %>% select(col)` |
| `df[['col1','col2']]` | `df %>% select(col1, col2)` |
| `df[df['col'] > 10]` | `df %>% filter(col > 10)` |
| `df.sort_values('col')` | `df %>% arrange(col)` |
| `df.sort_values('col', ascending=False)` | `df %>% arrange(desc(col))` |

---

## 4. Colonnes et transformations

| Pandas | R |
|--------|---|
| `df['new'] = df['col']*2` | `df <- df %>% mutate(new = col*2)` |
| `df.rename(columns={'old':'new'}, inplace=True)` | `df <- df %>% rename(new = old)` |
| `df.drop('col', axis=1, inplace=True)` | `df <- df %>% select(-col)` |

---

## 5. Groupement et agrégations

| Pandas | R |
|--------|---|
| `df.groupby('col')['val'].mean()` | `df %>% group_by(col) %>% summarise(mean_val = mean(val))` |
| `df.groupby('col').agg({'val':'mean','val2':'sum'})` | `df %>% group_by(col) %>% summarise(mean_val=mean(val), sum_val2=sum(val2))` |

---

**Remarque :** La syntaxe “pipe” `%>%` en R permet d’enchaîner les opérations comme en pandas.


