# 5. Grouper des données
Grouper les données est une opération extrêmement puissante avec Pandas. En cas de difficulté pour un traitement de données, regrouper les données permet souvent de créer une source utile pour la suite d'une analyse.

En cas de problème, toujours se poser la question de savoir si un regroupement de données ne pourrait pas être une solution. Cela peut aider notamment en combinaison avec les opérations de tri par exemple.

## groupby
```python
# Grouper les données avec un seul index
df[['nom_colonne_A', 'nom_colonne_B']].groupby('nom_colonne_A').count()

# Parmi les fonctions les plus fréquentes pour l'aggrégation:
# count(), max(), min(), mean(), first(), last(), nunique()

# Grouper les données avec plusieurs index
df[['nom_colonne_A', 'nom_colonne_B', 'nom_colonne_C']].groupby(['nom_colonne_A', 'nom_colonne_B']).count()

# Avewc plusieurs méthodes d'aggrégation
df[['nom_colonne_A', 'nom_colonne_B', 'nom_colonne_C']].goupby('nom_colonne_A').agg({'nom_colonne_B': 'first',
                                                                                     'nom_colonne_C': 'max'})

# Des fonctions personnalisées sont possibles pour aggréger les données
```

In [1]:
# Importer les bibliothèques essentielles
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Afficher toutes les colonnes
pd.set_option('display.max_columns', None)

In [2]:
# Chargement des données
df = pd.read_csv('Data/items.csv', dtype=str)

In [3]:
df = df[['Barcode', 'MMS ID', 'Holdings ID', 'Permanent Location', 'Call Number',
       'Material Type', 'Item Policy', 'Description', 'Title', 'Creation Date']]

In [4]:
# Affichage des dix premières lignes
df.head(10)

Unnamed: 0,Barcode,MMS ID,Holdings ID,Permanent Location,Call Number,Material Type,Item Policy,Description,Title,Creation Date
0,HPH000001003,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",,Micro stéréo mini-jack : Rode : VideoMicro,2022-02-09 10:43:49
1,HPH000001004,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",,Micro stéréo mini-jack : Rode : VideoMicro,2022-02-09 10:55:57
2,HPH000001005,991000787439705520,2235648890005520,BE HEP Appareils,HEPBE,Equipment,"97 Booking / Loan max. 14 days, campus, no copy",,Micro stéréo mini-jack : Rode : VideoMicro,2022-02-09 10:57:39
3,03138226,991000065799705520,22106499280005520,BE HEP Séries de livres,HEPBE 6 VEND,Book,"54 Booking 56 days / No loan request, loan 28 ...",1 exemplaire BE,La disparition de Sam Edward van de Vendel ; t...,2022-02-11 10:52:02
4,03138420,991001610643905520,22106459710005520,BE HEP Littérature jeunesse,HEPBE COLO,Book,01 Loan 28 days,,Les pêcheurs d'éternité Marie Colot ; illustra...,2022-02-08 11:53:57
5,03140943,991001604441405520,22106459620005520,BE HEP Jeux,HEPBE MATH TURI,Game,"04 Loan 28 days, no copy",,Turing tumble construis un ordinateur à billes...,2022-02-08 16:02:02
6,03140944,991001604441405520,22106459620005520,BE HEP Jeux,HEPBE MATH TURI,Game,"04 Loan 28 days, no copy",,Turing tumble construis un ordinateur à billes...,2022-02-08 16:06:05
7,03137107,991001610343705520,22106419560005520,BE HEP Fonds documentaire,HEPBE 745.5HAYE,Book,01 Loan 28 days,,40 créations avec la nature Fiona Hayes,2022-02-08 14:15:55
8,03138415,991001609741405520,22106353530005520,BE HEP Littérature jeunesse,HEPBE BD MAUR,Book,01 Loan 28 days,Vol. 1,Eden scénario : Fabrice Colin ; dessin et coul...,2022-02-07 13:20:37
9,03138416,991001609741405520,22106353530005520,BE HEP Littérature jeunesse,HEPBE BD MAUR,Book,01 Loan 28 days,Vol. 2,Eden scénario : Fabrice Colin ; dessin et coul...,2022-02-07 13:21:34


In [5]:
df[['MMS ID', 'Barcode']]

Unnamed: 0,MMS ID,Barcode
0,991000787439705520,HPH000001003
1,991000787439705520,HPH000001004
2,991000787439705520,HPH000001005
3,991000065799705520,03138226
4,991001610643905520,03138420
...,...,...
34681,991000898119705520,03113981
34682,991000017669705520,03112065
34683,991000138989705520,03135035
34684,991000109289705520,1034124356


## Un seul index

In [7]:
d_nb_item_by_title = df[['MMS ID', 'Barcode']].groupby('MMS ID').count()
d_nb_item_by_title

Unnamed: 0_level_0,Barcode
MMS ID,Unnamed: 1_level_1
990003561250205520,1
990004607980205520,1
991000000129705520,1
991000000179705520,1
991000000209705520,1
...,...
999562820105520,1
999563620105520,1
999697150105520,1
999801530105520,1


In [8]:
d_nb_item_by_title['Barcode'].value_counts()

1      26445
2        901
3        204
4         69
10        31
       ...  
53         1
156        1
30         1
169        1
31         1
Name: Barcode, Length: 61, dtype: int64

In [58]:
# Pour retrouver le MMS ID du titre avec le plus d'exemplaires
d_nb_item_by_title.loc[d_nb_item_by_title['Barcode']==272]

Unnamed: 0_level_0,Barcode
MMS ID,Unnamed: 1_level_1
991000740829705520,272


## Plusieurs index

In [59]:
dg = df[['Permanent Location', 'Material Type', 'Barcode']].groupby(['Permanent Location', 'Material Type']).count()
dg

Unnamed: 0_level_0,Unnamed: 1_level_0,Barcode
Permanent Location,Material Type,Unnamed: 2_level_1
BE HEP Acquisitions,Book,50
BE HEP Acquisitions,DVD,6
BE HEP Acquisitions,Game,1
BE HEP Acquisitions,Kit,1
BE HEP Acquisitions,Sound Recording,1
...,...,...
BE HEP Séries de livres,Kit,1
BE JU NE HEP Articles,Article,3
BE JU NE HEP Articles,Book,6299
BE JU NE HEP Articles,Kit,6


In [60]:
dg.to_excel('Resultat/Nb_items_by_loc_by_mat.xlsx')

## Méthodes d'aggrégation

In [12]:
df[['MMS ID', 'Title', 'Creation Date' , 'Barcode']].groupby('MMS ID').agg({'Title': 'first',
                                                                            'Creation Date': ['min', 'max'],
                                                                            'Barcode': 'count'})

Unnamed: 0_level_0,Title,Creation Date,Creation Date,Barcode
Unnamed: 0_level_1,first,min,max,count
MMS ID,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
990003561250205520,La recherche appliquée en pédagogie des modèle...,2020-11-18 01:00:00,2020-11-18 01:00:00,1
990004607980205520,Se former à la réflexion sur les pratiques ens...,2020-11-18 01:00:00,2020-11-18 01:00:00,1
991000000129705520,Labo BD 52 exercices pour créer sa première BD...,2020-11-18 01:00:00,2020-11-18 01:00:00,1
991000000179705520,La dynamique des groupes restreints Didier Anz...,2020-11-18 01:00:00,2020-11-18 01:00:00,1
991000000209705520,Petit traité de la décroissance sereine Serge ...,2020-11-18 01:00:00,2020-11-18 01:00:00,1
...,...,...,...,...
999562820105520,Le petit chaperon rouge Adaption et activités ...,2020-11-18 01:00:00,2020-11-18 01:00:00,1
999563620105520,Mamie Pétronille et les enfants vikings Jane C...,2020-11-18 01:00:00,2020-11-18 01:00:00,1
999697150105520,Schnitzeljagd und Lagerfeuer Naturabenteuer fü...,2021-06-02 16:48:14,2021-06-02 16:48:14,1
999801530105520,Tonton Jean et l'arbre bakonzi Jane Cadwallade...,2020-11-18 01:00:00,2020-11-18 01:00:00,1


In [62]:
dg = df[['MMS ID', 'Title', 'Creation Date' , 'Barcode']].copy()
dg['Creation date last'] = dg['Creation Date']
dg['Creation date first'] = dg['Creation Date']
dg = dg.drop('Creation Date', axis=1)
dg.head()

Unnamed: 0,MMS ID,Title,Barcode,Creation date last,Creation date first
0,991000787439705520,Micro stéréo mini-jack : Rode : VideoMicro,HPH000001003,2022-02-09 10:43:49,2022-02-09 10:43:49
1,991000787439705520,Micro stéréo mini-jack : Rode : VideoMicro,HPH000001004,2022-02-09 10:55:57,2022-02-09 10:55:57
2,991000787439705520,Micro stéréo mini-jack : Rode : VideoMicro,HPH000001005,2022-02-09 10:57:39,2022-02-09 10:57:39
3,991000065799705520,La disparition de Sam Edward van de Vendel ; t...,03138226,2022-02-11 10:52:02,2022-02-11 10:52:02
4,991001610643905520,Les pêcheurs d'éternité Marie Colot ; illustra...,03138420,2022-02-08 11:53:57,2022-02-08 11:53:57


In [63]:
dh = dg.groupby('MMS ID').agg({'Title': 'first',
                            'Creation date last': 'max',
                            'Creation date first': 'min',
                            'Barcode': 'count'})

In [64]:
dh.loc[dh['Creation date last']!=dh['Creation date first']]

Unnamed: 0_level_0,Title,Creation date last,Creation date first,Barcode
MMS ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
991000009779705520,Recherche et formation Institut national de re...,2021-04-26 14:31:02,2020-11-18 01:00:00,27
991000019659705520,NRP Lettres lycée. Hors-série,2021-03-04 15:36:24,2020-11-18 01:00:00,38
991000020149705520,NRP Lettres lycée [dir. publ. Agnès Touraine],2021-12-21 14:47:13,2020-11-18 01:00:00,101
991000026509705520,Babylonia rivista per l'insegnamento e l'appre...,2021-03-04 14:13:00,2020-11-18 01:00:00,29
991000026859705520,Histoire junior le magazine d'histoire pour le...,2021-12-14 16:45:17,2020-11-18 01:00:00,113
...,...,...,...,...
991001597232105520,"Géographie 11e sciences humaines et sociales, ...",2021-11-29 14:17:36,2021-11-29 14:17:03,2
991001597436305520,Enseigner en classe coopérative cycles 2 et 3 ...,2021-12-02 12:38:41,2021-11-30 16:55:52,2
991001597436405520,Le sketchnoting à l'école primaire Manuella Ch...,2021-12-16 09:56:45,2021-11-30 16:45:55,2
991001604441405520,Turing tumble construis un ordinateur à billes...,2022-02-08 16:06:05,2022-02-08 16:02:02,2


In [65]:
# Transforme les dates en années
dh['Creation date last'] = pd.to_datetime(dh['Creation date last']).dt.year
dh['Creation date first'] = pd.to_datetime(dh['Creation date first']).dt.year

In [66]:
# Sélectionne tous les cas où l'année du premier achat est différente de l'année du dernier achat
di = dh.loc[dh['Creation date last']!=dh['Creation date first']].copy()
di

Unnamed: 0_level_0,Title,Creation date last,Creation date first,Barcode
MMS ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
991000009779705520,Recherche et formation Institut national de re...,2021,2020,27
991000019659705520,NRP Lettres lycée. Hors-série,2021,2020,38
991000020149705520,NRP Lettres lycée [dir. publ. Agnès Touraine],2021,2020,101
991000026509705520,Babylonia rivista per l'insegnamento e l'appre...,2021,2020,29
991000026859705520,Histoire junior le magazine d'histoire pour le...,2021,2020,113
...,...,...,...,...
991001137329705520,Spirale revue de recherches en éducation,2021,2020,19
991001151929705520,Broadway limited Malika Ferdjoukh,2021,2020,3
991001154749705520,Le club de l'ours polaire Axel Bell ; illustré...,2022,2020,3
991001157699705520,Education permanente Institut national pour la...,2021,2020,35


In [67]:
# Calcule le nombre d'années entre le premier et le dernier achat
di['Ecart'] = di['Creation date last'] - di['Creation date first']
di

Unnamed: 0_level_0,Title,Creation date last,Creation date first,Barcode,Ecart
MMS ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
991000009779705520,Recherche et formation Institut national de re...,2021,2020,27,1
991000019659705520,NRP Lettres lycée. Hors-série,2021,2020,38,1
991000020149705520,NRP Lettres lycée [dir. publ. Agnès Touraine],2021,2020,101,1
991000026509705520,Babylonia rivista per l'insegnamento e l'appre...,2021,2020,29,1
991000026859705520,Histoire junior le magazine d'histoire pour le...,2021,2020,113,1
...,...,...,...,...,...
991001137329705520,Spirale revue de recherches en éducation,2021,2020,19,1
991001151929705520,Broadway limited Malika Ferdjoukh,2021,2020,3,1
991001154749705520,Le club de l'ours polaire Axel Bell ; illustré...,2022,2020,3,2
991001157699705520,Education permanente Institut national pour la...,2021,2020,35,1


In [68]:
di['Ecart'].max()

2