# Pandas avancé

## Groupby

La mécanique du groupby suit une logique dite de `split-apply-combine`

<img src="media/groupby.png" width="500"/>

#### Étape 1 : Split

Dans cette première étape, les données contenues dans un objet Pandas, qu'il s'agisse d'une Series, d'un DataFrame ou autre, sont divisées en groupes en fonction d'une ou plusieurs clés que vous fournissez. La division est effectuée sur un axe particulier de l'objet. Par exemple, un DataFrame peut être groupé sur ses lignes (axe=0) ou sur ses colonnes (axe=1).

In [4]:
import pandas as pd

# Création d'un DataFrame
data = {'Clé': ['A', 'B', 'A', 'B', 'A'],
        'Valeur': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)

# Groupement par la colonne 'Clé'
groupes = df.groupby('Clé')
groupes.head()

Unnamed: 0,Clé,Valeur
0,A,1
1,B,2
2,A,3
3,B,4
4,A,5


#### Étape 2 : Apply

Une fois que les données sont divisées en groupes, une fonction est appliquée à chaque groupe, produisant une nouvelle valeur. Cette fonction peut être une agrégation statistique (comme la somme, la moyenne, etc.) ou une opération personnalisée.

In [9]:
# Calcul de la somme pour chaque groupe
somme_par_groupe = groupes.sum()

#### Étape 3 : Combine

Enfin, les résultats de toutes ces applications de fonction sont combinés dans un objet de résultat. La forme de l'objet résultant dépendra généralement de ce qui est fait avec les données.

In [10]:
print(somme_par_groupe)

     Valeur
Clé        
A         9
B         6


### _Exercice 1_

Vous avez le fichier suivant : 

In [13]:
df_ventes_aout = pd.read_excel("s3_data/August.xlsx")
df_ventes_aout.head()

Unnamed: 0,transaction_id,store,status,transaction_date,plan,contract_type,amount
0,8d2b0582,Chicago,ACTIVE,2019-08-01,Silver,NEW,14.25
1,61e3773d,Chicago,ACTIVE,2019-08-01,Gold,NEW,19.35
2,52b3f422,New York,ACTIVE,2019-08-01,Bronze,NEW,12.2
3,ae0498f2,Chicago,ACTIVE,2019-08-01,Silver,NEW,14.25
4,7d1f5d57,New York,ACTIVE,2019-08-01,Silver,NEW,14.25


* Calculez le montant total des transactions pour chaque magasin.

In [49]:
# Groupement par magasin et calcul de la somme des montants
split = df_ventes_aout.groupby('store')
print(split.head())

    transaction_id          store  status transaction_date    plan  \
0         8d2b0582        Chicago  ACTIVE       2019-08-01  Silver   
1         61e3773d        Chicago  ACTIVE       2019-08-01    Gold   
2         52b3f422       New York  ACTIVE       2019-08-01  Bronze   
3         ae0498f2        Chicago  ACTIVE       2019-08-01  Silver   
4         7d1f5d57       New York  ACTIVE       2019-08-01  Silver   
5         c03d6d26         Boston  ACTIVE       2019-08-01  Bronze   
6         8204d03f  San Francisco  ACTIVE       2019-08-01    Gold   
7         83cad5b1        Chicago  ACTIVE       2019-08-01  Silver   
8         adca93e5       New York  ACTIVE       2019-08-01  Bronze   
9         cea04b87  San Francisco  ACTIVE       2019-08-01  Silver   
10        2ad9e2e4  San Francisco  ACTIVE       2019-08-01  Silver   
11        5138d879  San Francisco  ACTIVE       2019-08-01  Silver   
12        58241dce  San Francisco  ACTIVE       2019-08-01  Silver   
13        2f05a6ed  

In [50]:
apply_combine = split['amount'].sum()
print(apply_combine)

store
Boston           12239.70
Chicago          24662.75
Las Vegas         6335.05
New York         36491.60
San Francisco    36895.10
Washington DC     6729.15
Name: amount, dtype: float64


## Groupby avancé : la méthode `agg`

La méthode permet d'appliquer des fonctions d'agrégation à vos groupes, telles que la somme, la moyenne, le comptage, etc. Mais elle permet surtout d'appliquer plusieurs fonctions à la fois et créer de nouvelles colonnes avec les résultats agrégés.

Par exemple, avec une seule ligne de code, vous pouvez :

```python
import pandas as pd

# Charger les données
data = pd.read_csv("data.csv")

# Regrouper par une colonne et appliquer plusieurs fonctions d'agrégation
resultats = data.groupby('categorie').agg({
    'colonne1': 'sum',           # Somme de la colonne1
    'colonne2': ['mean', 'max']  # Moyenne et maximum de la colonne2
})

print(resultats)
```

### Exercice 2

Sur le fichier de ventes aout, écrivez un code en utilisant `groupby` et `agg` qui va permettre de connaitre la somme et la moyenne des transactions ainsi que la date de la première transaction pour chaque magasin.


In [53]:
final = df_ventes_aout.groupby('store').agg({"amount":[sum,"mean"],"transaction_date":lambda x: x.unique().tolist()[0]})
print(final.head())

                 amount            transaction_date
                    sum       mean         <lambda>
store                                              
Boston         12239.70  14.553746       2019-08-01
Chicago        24662.75  14.715245       2019-08-01
Las Vegas       6335.05  14.596889       2019-08-01
New York       36491.60  14.602481       2019-08-01
San Francisco  36895.10  14.675855       2019-08-01


## Matplotlib avec pandas

## Travailler avec des séries temporelles