# Pandas 2 

Dans cette seconde introduction à Pandas on va étudier deux notions : 
- les groupby 
- la manipulation de séries temporelles

## les groupby

Les groupby pandas fonctionnent comme les  group by en SQL. L'idée d'un group by est de regrouper les lignes d'un tableau en sous groupe, **puis** d'effectuer des calculs sur chaque sous groupe. Généralement ça va être des statistiques (moyenne, minimum, somme, etc. ). 

Il y a donc deux étapes: 

1. Définir comment former les sous groups avec la méthode groupby
2. Définir quel calcul effectuer sur chaque sous groupe


Supposons qu'on veuille calculer le salaire moyen par ville du dataframe ci-dessous

In [None]:
import pandas as pd

df = pd.DataFrame({
    'age':[22, 32, 50, 29], 
    'salaire': [1000, 1500, 2000, 2500], 
    'ville': ['Aix', 'Aix', 'Paris', 'Paris']})

result_per_city = df.groupby('ville').agg('sum')
result_per_city['salaire']

ville
Aix      2500
Paris    4500
Name: salaire, dtype: int64

Il faut bien comprendre que si vous faite le groupby sans définir le calcul de chaque sous groupe, ça ne marchera pas 


In [None]:
result_per_city = df.groupby('ville') #si on ne met pas de agg pandas n'affiche rien
print(result_per_city)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7f1324b3a090>


Une autre chose intéressante avec les group by c'est qu'on peut passer notre propre function 

In [None]:
def ma_function_par_sous_groupe(group):

    return (group.mean() + 2) / (1 - group.min())


result_per_city = df.groupby('ville').agg(ma_function_par_sous_groupe)
result_per_city['salaire']

ville
Aix     -1.253253
Paris   -1.126563
Name: salaire, dtype: float64

## Les series temporelles

Les séries temporelles sont des données dont la valeur dépendent du temps. 
Dans cette section on va apprendre à les manipuler.

On va commencer par créer notre propre data frame. Pour cela on va créer un index qui sera spécial : il contiendra non pas le numéro de la ligne mais la date de la valeur. 

Pour créer ce genre d'index on peut utiliser la méthode pd.date_range



In [None]:
import pandas as pd
date_range = pd.date_range('01-01-2000', '01-05-2000', freq="H") #attention le mois est avant le jour
date_range

DatetimeIndex(['2000-01-01 00:00:00', '2000-01-01 01:00:00',
               '2000-01-01 02:00:00', '2000-01-01 03:00:00',
               '2000-01-01 04:00:00', '2000-01-01 05:00:00',
               '2000-01-01 06:00:00', '2000-01-01 07:00:00',
               '2000-01-01 08:00:00', '2000-01-01 09:00:00',
               '2000-01-01 10:00:00', '2000-01-01 11:00:00',
               '2000-01-01 12:00:00', '2000-01-01 13:00:00',
               '2000-01-01 14:00:00', '2000-01-01 15:00:00',
               '2000-01-01 16:00:00', '2000-01-01 17:00:00',
               '2000-01-01 18:00:00', '2000-01-01 19:00:00',
               '2000-01-01 20:00:00', '2000-01-01 21:00:00',
               '2000-01-01 22:00:00', '2000-01-01 23:00:00',
               '2000-01-02 00:00:00', '2000-01-02 01:00:00',
               '2000-01-02 02:00:00', '2000-01-02 03:00:00',
               '2000-01-02 04:00:00', '2000-01-02 05:00:00',
               '2000-01-02 06:00:00', '2000-01-02 07:00:00',
               '2000-01-

Ensuite on va créer un DataFrame vide. On va juste lui indiquer que l'index est la plage de date qu'on a créé

In [None]:
df = pd.DataFrame(index=date_range)
df

2000-01-01 00:00:00
2000-01-01 01:00:00
2000-01-01 02:00:00
2000-01-01 03:00:00
2000-01-01 04:00:00
...
2000-01-04 20:00:00
2000-01-04 21:00:00
2000-01-04 22:00:00
2000-01-04 23:00:00
2000-01-05 00:00:00


On va ensuite créer des valeurs aléatoires pour chaque date 

In [None]:
import numpy as np
df['temperature'] = 30 + 3 * np.random.randn(len(df))

In [None]:
df

Unnamed: 0,temperature
2000-01-01 00:00:00,29.729561
2000-01-01 01:00:00,26.779713
2000-01-01 02:00:00,29.068096
2000-01-01 03:00:00,28.932270
2000-01-01 04:00:00,30.664500
...,...
2000-01-04 20:00:00,27.251123
2000-01-04 21:00:00,31.041164
2000-01-04 22:00:00,28.766825
2000-01-04 23:00:00,28.186937


Avoir un index qui soit une date est intéressant car on va pouvoir faire des filtration par date

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=25ad01f7-ec4b-4ac8-bce6-a3745ef02c96' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>