![Logo Pandas](https://camo.githubusercontent.com/981d48e57e23a4907cebc4eb481799b5882595ea978261f22a3e131dcd6ebee6/68747470733a2f2f70616e6461732e7079646174612e6f72672f7374617469632f696d672f70616e6461732e737667)

## 1. Pandas

[Pandas](https://github.com/pandas-dev/pandas) est une librairie Python de haut niveau fournissant des **structures de données**, notamment les **DataFrames** et **Series**, permettant de stocker, manipuler, et analyser de nombreux types de données très facilement, et avec de hautes performances.

Pandas est un package très puissant, et ses qualités comme la **flexibilité** ou bien la **simplicité d'utilisation** ont participé à la popularité du langage Python dans le domaine de la **Data Science**.

Pandas est basé sur **Numpy**. Les structures proposées par cette librairie sont en réalité des wrappers de Numpy arrays. Pandas permet ainsi d'étendre les fonctionnalités de Numpy.

In [1]:
import numpy as np
import pandas as pd  # convention d'import de Pandas

### 1.1. Structures de données

#### Pandas Series

Une **Series** est un objet correspondant à un tableau d'**une seule dimension**, associé à un type de données. Il est ainsi possible de créer une Series d' *int*, de *float*, de *str*, ou bien d'objets Python par exemple.

Une Series Pandas est automatiquement associée à une série de labels appelés **index**.

Il est possible de créer une Series à partir de nombreux **types de données** différents.

In [2]:
s = pd.Series(np.random.rand(4), index=['a', 'b', 'c', 'd'])  # Series a partir de np.array
print(s)

a    0.020414
b    0.338994
c    0.794768
d    0.269909
dtype: float64


In [3]:
s = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])  # Series a partir de liste Python
print(s)

a    1
b    2
c    3
d    4
dtype: int64


In [4]:
my_dict = {
    "key_1": 2,
    "key_2": "value"
}

In [5]:
s = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4})  # Series a partir de dict
print(s)

a    1
b    2
c    3
d    4
dtype: int64


In [6]:
s = pd.Series(12.5, index=['a', 'b', 'c', 'd'])  # Series a partir d'un scalaire
print(s)

a    12.5
b    12.5
c    12.5
d    12.5
dtype: float64


In [7]:
s = pd.Series(np.random.rand(4))  # Par defaut, l'index est une serie d'int commençant a 0
print(s)

0    0.286089
1    0.057132
2    0.822297
3    0.796747
dtype: float64


Une Series Pandas est associée à un **dtype** (tout comme les array Numpy) dépendant des données à partir desquelles elle a été construite.

In [8]:
s.dtype

dtype('float64')

In [9]:
s = pd.Series(["a", "b", "c"])  # dtype: 'O' pour 'object'
s.dtype

dtype('O')

Une Series Pandas est similaire à un **array Numpy**, et peut-être fournie en paramètre de la plupart des fonctions Numpy. La principale différence vient de l'indexation qui est plus flexible via Pandas.

In [10]:
print(s)
s[0]

0    a
1    b
2    c
dtype: object


'a'

In [11]:
s[:2]  # Le slicing Pandas prend aussi en compte les index

0    a
1    b
dtype: object

In [12]:
s = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4})  # Series a partir de dict
print(np.mean(s))

2.5


Il est possible de **convertir** une Pandas Series **en un array Numpy**.

In [13]:
s.to_numpy()

array([1, 2, 3, 4])

In [14]:
s

a    1
b    2
c    3
d    4
dtype: int64

Une Series Pandas est aussi similaire à un `dict` natif de Python, nottament dans l'assignement de valeurs à un label. Néanmoins, les Series Pandas supportent les **index non-uniques**.

In [15]:
s['b'] = 6  # Assignation de la valeur 6 à l'index 'b'
print(s)

a    1
b    6
c    3
d    4
dtype: int64


La vectorisation et le **broadcasting** offert par Numpy sont aussi disponibles sur Pandas. Ils fonctionnent d'une manière très similaire.

In [16]:
s + s  # Calcul vectoriel : deux series de taille 4

a     2
b    12
c     6
d     8
dtype: int64

In [18]:
s * 2  # Broadcasting scalaire de la valeur 2

a     2
b    12
c     6
d     8
dtype: int64

L'une des différences principales sur la vectorisation des calculs entre Pandas et Numpy vient du fait que **Pandas prend en compte les index** des Series dans le calcul. Les données sont "alignées" sur l'index, et il est donc possible d'ajouter deux Series contenant des index différents.

In [19]:
print(s[1:])
print(s[:-1])
s[1:] + s[:-1]  # Ces deux series n'ont que deux index en commun. Les valeurs ne disposant que d'un index sont donc a NaN

b    6
c    3
d    4
dtype: int64
a    1
b    6
c    3
dtype: int64


a     NaN
b    12.0
c     6.0
d     NaN
dtype: float64

Enfin, une Series Pandas dispose d'un attribut spécifique : **name**, qui sera utile dans la suite du cours.

In [20]:
s = pd.Series({'a': 1, 'b': 2, 'c': 3, 'd': 4}, name="my_name")
print(s)

a    1
b    2
c    3
d    4
Name: my_name, dtype: int64


In [21]:
s.rename("another_name")  # On peut renommer une Series tres facilement

a    1
b    2
c    3
d    4
Name: another_name, dtype: int64

#### Pandas DataFrame

Le **DataFrame** est la structure la plus utilisée de la librairie Pandas, et se situe un "cran au desssus" de la Series. Le DataFrame est un **tableau de deux dimensions** (lignes, colonnes) qui sont chacune **labelées** via des `index` (pour les lignes) et `columns`, comme c'était le cas pour la Series.

On peut la considérer comme similaire à une feuille de calcul Excel, ou bien à une table de base de données SQL.

Le **DataFrame** peut, comme les Series, être créé à partir de nombreux formats de données. Chaque colonne est associée à un dtype.

In [25]:
# Creation a partir d'un dict de deux Series
df = pd.DataFrame({
    "one": pd.Series([1.0, 2.0, 3.0, 5.2], index=["a", "b", "c", "d"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
})
print(df)  # 'one' et 'two' sont les noms de colonnes

   one  two
a  1.0  1.0
b  2.0  2.0
c  3.0  3.0
d  5.2  4.0


In [23]:
# Creation a partir d'un dict de liste Python
df = pd.DataFrame({"one": [1.0, 2.0, 3.0, 4.0], "two": [4.0, 3.0, 2.0, 1.0]})
print(df)

   one  two
0  1.0  4.0
1  2.0  3.0
2  3.0  2.0
3  4.0  1.0


In [27]:
# A partir d'une liste de dict
df = pd.DataFrame([{"a": 1, "b": 2}, {"a": 5, "b": 10, "c": 20}])
print(df)

   a   b     c
0  1   2   NaN
1  5  10  20.0


In [28]:
df.dtypes  # dtype de chaque colonne de df

a      int64
b      int64
c    float64
dtype: object

On peut accéder aux colonnes d'un DataFrame comme s'il s'agissait d'un **dictionnaire de pd.Series**. La syntaxe d'accès est simple et flexible :

In [29]:
df

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


In [30]:
df['a'] # Acces a la colonne 'a'

0    1
1    5
Name: a, dtype: int64

In [31]:
df['d'] = df['a'] + df['b']  # Creation d'une nouvelle colonne
print(df)

   a   b     c   d
0  1   2   NaN   3
1  5  10  20.0  15


In [32]:
df['e'] = "toto"  # broadcasting de la str "toto" sur un nouvelle colonne
print(df)

   a   b     c   d     e
0  1   2   NaN   3  toto
1  5  10  20.0  15  toto


In [33]:
import pandas as pd

Pandas permet d'**importer** très facilement **des données** sous forme de DataFrame. Il est par exemple possible de créer un DataFrame à partir d'un fichier **.csv** (Comma-Separated Values) en local ou bien disponible sur une url via la fonction `pd.read_csv`.

In [34]:
# Import du jeu de donnees iris de Seaborn
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [35]:
iris.dtypes

sepal_length    float64
sepal_width     float64
petal_length    float64
petal_width     float64
species          object
dtype: object

Les fonctions `.head()` et `.tail()` permettent de visualiser rapidement respectivement le début et la fin du DataFrame.

In [36]:
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [37]:
iris.tail()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica
149,5.9,3.0,5.1,1.8,virginica


La fonction `.info()` permet de visualiser des informations intéressantes sur le DataFrame, et plus spécifiquement ses colonnes. On peut par exemple y trouver le nombre de valeur non nulles, les dtypes du DataFrame, et l'espace utilisé en mémoire.

In [38]:
iris.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   sepal_length  150 non-null    float64
 1   sepal_width   150 non-null    float64
 2   petal_length  150 non-null    float64
 3   petal_width   150 non-null    float64
 4   species       150 non-null    object 
dtypes: float64(4), object(1)
memory usage: 6.0+ KB


La fonction `.describe()` fournie quelques statistiques classiques des colonnes quantitatives du DataFrame.

In [39]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


On peut accéder aux éléments du DataFrame de plusieurs manières :
- Accès par colonne(s) `df[col]`
- Accès par label `df.loc[label]`
- Accès par localisation `df.iloc[loc]`
- Accès par slice `df[5: 10]`
- Accès par vecteur de bool `df[bool_vec]`

In [41]:
iris["sepal_length"]
# iris  # Acces a une colonne

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepal_length, Length: 150, dtype: float64

In [42]:
df_2 = iris[["sepal_length", "sepal_width"]]  # Acces a plusieurs colonnes
df_2

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [43]:
df_2

Unnamed: 0,sepal_length,sepal_width
0,5.1,3.5
1,4.9,3.0
2,4.7,3.2
3,4.6,3.1
4,5.0,3.6
...,...,...
145,6.7,3.0
146,6.3,2.5
147,6.5,3.0
148,6.2,3.4


In [44]:
df_2['sepal_length'] = df_2['sepal_length'] * 2 # multiplier
df_2

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_2['sepal_length'] = df_2['sepal_length'] * 2 # multiplier


Unnamed: 0,sepal_length,sepal_width
0,10.2,3.5
1,9.8,3.0
2,9.4,3.2
3,9.2,3.1
4,10.0,3.6
...,...,...
145,13.4,3.0
146,12.6,2.5
147,13.0,3.0
148,12.4,3.4


In [45]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [46]:
iris.loc[3]  # Acces a la ligne dont le label est 3

sepal_length       4.6
sepal_width        3.1
petal_length       1.5
petal_width        0.2
species         setosa
Name: 3, dtype: object

In [47]:
iris.iloc[12]  # Acces a la 12e ligne du DataFrame, meme si ses labels sont des dates ou des str

sepal_length       4.8
sepal_width        3.0
petal_length       1.4
petal_width        0.1
species         setosa
Name: 12, dtype: object

In [49]:
iris[5: 10]  # Acces par slice

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
5,5.4,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [50]:
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [51]:
mask = iris["sepal_length"] > 7  # vecteur booleen : True si sepal_length est superieur a 5  # Acces par vecteur booleen

In [52]:
mask

0      False
1      False
2      False
3      False
4      False
       ...  
145    False
146    False
147    False
148    False
149    False
Name: sepal_length, Length: 150, dtype: bool

In [53]:
new_df_filtered = iris[mask]
new_df_filtered

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
102,7.1,3.0,5.9,2.1,virginica
105,7.6,3.0,6.6,2.1,virginica
107,7.3,2.9,6.3,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
125,7.2,3.2,6.0,1.8,virginica
129,7.2,3.0,5.8,1.6,virginica
130,7.4,2.8,6.1,1.9,virginica


In [54]:
filter = iris[iris['sepal_length'] > 7]

In [55]:
filter

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
102,7.1,3.0,5.9,2.1,virginica
105,7.6,3.0,6.6,2.1,virginica
107,7.3,2.9,6.3,1.8,virginica
109,7.2,3.6,6.1,2.5,virginica
117,7.7,3.8,6.7,2.2,virginica
118,7.7,2.6,6.9,2.3,virginica
122,7.7,2.8,6.7,2.0,virginica
125,7.2,3.2,6.0,1.8,virginica
129,7.2,3.0,5.8,1.6,virginica
130,7.4,2.8,6.1,1.9,virginica


#### Exercices sur les structures de données

**Créez un DataFrame** Pandas à partir des deux variables déclarées ci-dessous, puis affichez en les **5 premières lignes**.

Les clés du dictionnaire `exam_data` correspondent aux noms des colonnes du DataFrame. La liste de str `labels` correspond à l'index du DataFrame.

In [57]:
exam_data  = {'name': ['Anastasia', 'Dima', 'Katherine', 'James', 'Emily', 'Michael', 'Matthew', 'Laura', 'Kevin', 'Jonas'],
        'score': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'attempts': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'qualify': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']

In [61]:
# votre code ici
df = pd.DataFrame(exam_data, index=labels)
df.head()  # JE n'utilise pas print parce que je trouve le format des tables plus facile à lire avec pycharm (tables intéractives ^^)

Unnamed: 0,name,score,attempts,qualify
a,Anastasia,12.5,1,yes
b,Dima,9.0,3,no
c,Katherine,16.5,2,yes
d,James,,3,no
e,Emily,9.0,2,no


A partir du DataFrame que vous venez de créer, **sélectionnez** et **affichez** deux colonnes : `name` et `score`.

In [63]:
# votre code ici
df_col_filter = df[['name', 'score']]

In [64]:
# votre code ici
df_col_filter

Unnamed: 0,name,score
a,Anastasia,12.5
b,Dima,9.0
c,Katherine,16.5
d,James,
e,Emily,9.0
f,Michael,20.0
g,Matthew,14.5
h,Laura,
i,Kevin,8.0
j,Jonas,19.0


Importez le jeu de données iris disponible à l'url suivante sous le format .csv : `https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv`.

Ajoutez y une nouvelle colonne nommée `sepal_ratio` contenant le résultat de la division, élément par élément, des colonnes `sepal_width` et `sepal_length`.

Affichez le DataFrame en excluant les colonnes dont le `sepal_ratio` est strictement inférieur à `0.75`.

In [66]:
# votre code ici
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica
146,6.3,2.5,5.0,1.9,virginica
147,6.5,3.0,5.2,2.0,virginica
148,6.2,3.4,5.4,2.3,virginica


In [68]:
# votre code ici
iris['sepal_ratio'] = iris['sepal_width'] / iris['sepal_length']
iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,sepal_ratio
0,5.1,3.5,1.4,0.2,setosa,0.686275
1,4.9,3.0,1.4,0.2,setosa,0.612245
2,4.7,3.2,1.3,0.2,setosa,0.680851
3,4.6,3.1,1.5,0.2,setosa,0.673913
4,5.0,3.6,1.4,0.2,setosa,0.720000
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,virginica,0.447761
146,6.3,2.5,5.0,1.9,virginica,0.396825
147,6.5,3.0,5.2,2.0,virginica,0.461538
148,6.2,3.4,5.4,2.3,virginica,0.548387


In [69]:
# votre code ici
filtered_iris = iris[iris['sepal_ratio'] > 0.75]

In [70]:
# votre code ici
filtered_iris

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species,sepal_ratio
15,5.7,4.4,1.5,0.4,setosa,0.77193
22,4.6,3.6,1.0,0.2,setosa,0.782609
32,5.2,4.1,1.5,0.1,setosa,0.788462
33,5.5,4.2,1.4,0.2,setosa,0.763636


### 1.2. Manipulation des données

#### Gestion des valeurs manquantes

L'un des sujets très important lors de l'étape de **preprocessing** des données est le sujet des **valeurs manquantes**. Il est important de diagnostiquer cette information : quelles valeurs sont manquantes, d'où le problème vient-il, et comment le régler ?

Chaque projet est unique, et de nombreuses méthodologies existent pour contrer ce problème de valeurs manquantes. **Pandas** met à dispositions ces méthodologies à travers la fonction `.fillna()`.

In [80]:
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': ['toto', 'tata', 'titi'],
    'C': [2.3, np.nan, 6.]
})
df  # df contient une valeur manquante

Unnamed: 0,A,B,C
0,1,toto,2.3
1,2,tata,
2,3,titi,6.0


In [73]:
df = df.fillna(df['C'].median())
df

Unnamed: 0,A,B,C
0,1,toto,2.3
1,2,tata,4.15
2,3,titi,6.0


In [74]:
df

Unnamed: 0,A,B,C
0,1,toto,2.3
1,2,tata,4.15
2,3,titi,6.0


In [75]:
# L'une des methodes : forward fill - applique la valeur precedente aux NAN
df.fillna(method='ffill')

  df.fillna(method='ffill')


Unnamed: 0,A,B,C
0,1,toto,2.3
1,2,tata,4.15
2,3,titi,6.0


Il est aussi possible de **supprimer directement la ligne** ou bien la colonne contenant une valeur manquante via la méthode `.dropna()`. Attention néanmoins, car la suppression de lignes détruit des informations : ce n'est pas une bonne pratique de manière générale.

In [78]:
df.dropna()  # Suppression de la seconde ligne, qui contenait un NAN

Unnamed: 0,A,B,C
0,1,toto,2.3
2,3,titi,6.0


Enfin, il est possible de simplement **tester** quelles valeurs de votre DataFrame sont des valeurs manquantes via la fonction `.isna()`.

In [81]:
df.isna().sum()

A    0
B    0
C    1
dtype: int64

#### Opérations sur les DataFrames

Les DataFrames Pandas offrent de nombreux moyens d'**appliquer des opérations** sur les données qu'ils structurent. On peut très facilement appliquer des **opérations statistiques** classiques :

In [82]:
import pandas as pd
import numpy as np

In [83]:
# Import du jeu de donnees iris de Seaborn
iris = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [84]:
iris.describe()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width
count,150.0,150.0,150.0,150.0
mean,5.843333,3.057333,3.758,1.199333
std,0.828066,0.435866,1.765298,0.762238
min,4.3,2.0,1.0,0.1
25%,5.1,2.8,1.6,0.3
50%,5.8,3.0,4.35,1.3
75%,6.4,3.3,5.1,1.8
max,7.9,4.4,6.9,2.5


In [85]:
iris['sepal_length'].mean()  # Moyenne de la colonne sepal_length

np.float64(5.843333333333334)

In [86]:
iris['sepal_length'].std()  # Ecart-type

np.float64(0.828066127977863)

In [87]:
iris['sepal_length'].min()  # Minimum

np.float64(4.3)

De **nombreuses autres méthodes** sont disponibles sur Pandas et s'appliquent aux différents types de données supportés. Il est par exemple possible d'**histogrammer** une colonne via la fonction `.value_counts()`.

In [88]:
iris['species'].value_counts()  # Il y a 3 valeurs uniques, chaqune comptant 50 representants

species
setosa        50
versicolor    50
virginica     50
Name: count, dtype: int64

On peut aussi appliquer des **opérations personnalisées** en fournissant directement une fonction à la méthode `.apply()`.

Cette méthode permet de **parralléliser** les applications de la fonction, et ainsi d'achever des résultats bien meilleurs qu'une simple boucle for.

In [89]:
from math import exp
def sigmoid(x):
    return 1 / 1 + exp(-x)

iris['sepal_length'].apply(sigmoid)

0      1.006097
1      1.007447
2      1.009095
3      1.010052
4      1.006738
         ...   
145    1.001231
146    1.001836
147    1.001503
148    1.002029
149    1.002739
Name: sepal_length, Length: 150, dtype: float64

Enfin, les Series Pandas mettent à disposition l'**accesseur** `.str` sur les colonnes de texte permettant d'utiliser les nombreuses **méthodes vectorisées** de chaînes de charactères.

In [90]:
iris['species'].str.upper()  # transforme le texte en majuscules

0         SETOSA
1         SETOSA
2         SETOSA
3         SETOSA
4         SETOSA
         ...    
145    VIRGINICA
146    VIRGINICA
147    VIRGINICA
148    VIRGINICA
149    VIRGINICA
Name: species, Length: 150, dtype: object

In [91]:
iris['species'].str.replace('e', 'a')  # remplace un morceau du texte par une autre valeur

0         satosa
1         satosa
2         satosa
3         satosa
4         satosa
         ...    
145    virginica
146    virginica
147    virginica
148    virginica
149    virginica
Name: species, Length: 150, dtype: object

#### Concatenation et Merge de données

Extrêment utile dans la **collecte** et la **manipulation** de données, Pandas met à disposition des méthodes simples et efficaces pour manipuler, combiner, ou fusionner plusieurs jeux de données.

La première méthode permettant de **concaténer** des données est la méthode `pd.concat()`. Il s'agit ici d'ajouter des données les unes à la suite des autres, sur l'**un des axes** du DataFrame (ligne ou colonne).

In [92]:
df1 = pd.DataFrame(np.random.rand(3, 4))  # generation d'un df de shape 3, 4
df1

Unnamed: 0,0,1,2,3
0,0.385483,0.152785,0.244377,0.537827
1,0.406672,0.669491,0.513833,0.206327
2,0.875841,0.835189,0.693983,0.570841


In [93]:
df2 = pd.DataFrame(np.random.rand(7, 6))  # generation d'un df de shape 7, 4
df2

Unnamed: 0,0,1,2,3,4,5
0,0.161675,0.521343,0.928802,0.173132,0.005849,0.262299
1,0.937298,0.256097,0.819531,0.067002,0.479054,0.104874
2,0.00548,0.042235,0.469719,0.080883,0.349286,0.794104
3,0.502997,0.792261,0.684944,0.168302,0.520277,0.027878
4,0.787428,0.525009,0.976832,0.746076,0.802069,0.19213
5,0.77574,0.963724,0.213054,0.193539,0.060946,0.204255
6,0.919616,0.990993,0.49222,0.919641,0.471644,0.969205


In [94]:
pd.concat([df1, df2])  # concatenation sur l'axe des lignes de df1 et df2

Unnamed: 0,0,1,2,3,4,5
0,0.385483,0.152785,0.244377,0.537827,,
1,0.406672,0.669491,0.513833,0.206327,,
2,0.875841,0.835189,0.693983,0.570841,,
0,0.161675,0.521343,0.928802,0.173132,0.005849,0.262299
1,0.937298,0.256097,0.819531,0.067002,0.479054,0.104874
2,0.00548,0.042235,0.469719,0.080883,0.349286,0.794104
3,0.502997,0.792261,0.684944,0.168302,0.520277,0.027878
4,0.787428,0.525009,0.976832,0.746076,0.802069,0.19213
5,0.77574,0.963724,0.213054,0.193539,0.060946,0.204255
6,0.919616,0.990993,0.49222,0.919641,0.471644,0.969205


In [95]:
pd.concat([df1, df2], axis=1)  # concatenation sur l'axe des colonnes de df1 et df2

Unnamed: 0,0,1,2,3,0.1,1.1,2.1,3.1,4,5
0,0.385483,0.152785,0.244377,0.537827,0.161675,0.521343,0.928802,0.173132,0.005849,0.262299
1,0.406672,0.669491,0.513833,0.206327,0.937298,0.256097,0.819531,0.067002,0.479054,0.104874
2,0.875841,0.835189,0.693983,0.570841,0.00548,0.042235,0.469719,0.080883,0.349286,0.794104
3,,,,,0.502997,0.792261,0.684944,0.168302,0.520277,0.027878
4,,,,,0.787428,0.525009,0.976832,0.746076,0.802069,0.19213
5,,,,,0.77574,0.963724,0.213054,0.193539,0.060946,0.204255
6,,,,,0.919616,0.990993,0.49222,0.919641,0.471644,0.969205


Pandas met aussi à disposition un **système de jointure** similaire aux jointures SQL via la méthode `.merge()`. Un exemple simple d'utilisation est le suivant, sur lequel nous avons une colonne servant de "**clé**" (dans un concept similaire au SQL), et deux colonnes différentes placées dans deux datasets différents.

In [96]:
left = pd.DataFrame({"key": ["foo", "bar", "too"], "lval": [1, 2, 3]})
left

Unnamed: 0,key,lval
0,foo,1
1,bar,2
2,too,3


In [97]:
right = pd.DataFrame({"key": ["foo", "bar", "tii"], "rval": [4, 5, 6]})
right

Unnamed: 0,key,rval
0,foo,4
1,bar,5
2,tii,6


In [98]:
pd.merge(left, right, on="key")

Unnamed: 0,key,lval,rval
0,foo,1,4
1,bar,2,5


La **méthode de jointure** utilisée par défaut est la méthode "inner", correspondant à l'instruction "INNER JOIN" en SQL, qui ne retient que les clés présentes dans les deux tables. Elle peut être modifiée via le paramètre `how`.

In [99]:
pd.merge(left, right, on="key", how="outer")  # la methode 'outer' retient toutes les cles des deux dataframes

Unnamed: 0,key,lval,rval
0,bar,2.0,5.0
1,foo,1.0,4.0
2,tii,,6.0
3,too,3.0,


In [100]:
pd.merge(left, right, on="key", how="left")  # la methode 'left' retient toutes les cles du df de gauche

Unnamed: 0,key,lval,rval
0,foo,1,4.0
1,bar,2,5.0
2,too,3,


In [101]:
pd.merge(left, right, on="key", how="right")  # la methode 'right' retient toutes les cles du df de droite

Unnamed: 0,key,lval,rval
0,foo,1.0,4
1,bar,2.0,5
2,tii,,6


De manière similaire à la **transposition** des données sous Excel, les DataFrame Pandas peuvent être restructurés via la fonction `.transpose()`.

In [102]:
df = pd.DataFrame({
        "A": np.random.randn(12),
        "B": np.random.randn(12),
    }
)
df

Unnamed: 0,A,B
0,0.028213,-0.050041
1,0.275746,0.570223
2,-0.167273,-1.236549
3,0.427438,-1.302904
4,0.216181,-1.210159
5,1.139827,0.215981
6,0.582855,-0.267317
7,0.486133,0.53237
8,1.424027,0.009015
9,-1.449291,-0.317159


In [103]:
df.transpose()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11
A,0.028213,0.275746,-0.167273,0.427438,0.216181,1.139827,0.582855,0.486133,1.424027,-1.449291,-2.029904,0.442021
B,-0.050041,0.570223,-1.236549,-1.302904,-1.210159,0.215981,-0.267317,0.53237,0.009015,-0.317159,0.202559,0.243417


In [104]:
df = pd.DataFrame({
        "A": ["one", "one", "two", "two", "three", "three"],
        "C": ["foo", "bar", "foo", "bar", "foo", "bar"],
        "D": np.random.randn(6),
    }
)
df

Unnamed: 0,A,C,D
0,one,foo,1.505646
1,one,bar,1.457003
2,two,foo,-1.011562
3,two,bar,0.103302
4,three,foo,-2.809992
5,three,bar,1.509443


In [105]:
pd.pivot_table(df, values="D", index="A", columns="C")

C,bar,foo
A,Unnamed: 1_level_1,Unnamed: 2_level_1
one,1.457003,1.505646
three,1.509443,-2.809992
two,0.103302,-1.011562


#### Exercices sur la manipulation des données

**Concatenez** sur l'axe des **colonnes** les DataFrames weather_max et weather_mean.

Ensuite, calculez la **différence** entre max_temp et mean_temp dans une nouvelle colonne.

Enfin, **affichez** le nouveau DataFrame.

In [106]:
weather_max = pd.DataFrame({"max_temp": [68, 89, 91, 84]}, index=["Jan", "Apr", "Jul", "Oct"])
weather_mean = pd.DataFrame({'mean_temp': [53.1,   70.0,   34.935483870967744,   28.714285714285715,   32.354838709677416,   72.87096774193549,   70.13333333333334,   35.0,   62.612903225806456,   39.8,   55.451612903225815,   63.76666666666666]}, index=['Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May', 'Nov', 'Oct', 'Sep'])
print(weather_max)
print(weather_mean)

     max_temp
Jan        68
Apr        89
Jul        91
Oct        84
     mean_temp
Apr  53.100000
Aug  70.000000
Dec  34.935484
Feb  28.714286
Jan  32.354839
Jul  72.870968
Jun  70.133333
Mar  35.000000
May  62.612903
Nov  39.800000
Oct  55.451613
Sep  63.766667


In [108]:
# votre code ici
weather = pd.concat([weather_max, weather_mean], axis=1)
weather

Unnamed: 0,max_temp,mean_temp
Jan,68.0,32.354839
Apr,89.0,53.1
Jul,91.0,72.870968
Oct,84.0,55.451613
Aug,,70.0
Dec,,34.935484
Feb,,28.714286
Jun,,70.133333
Mar,,35.0
May,,62.612903


In [115]:
# votre code ici
weather['diff'] = weather['max_temp'] - weather['mean_temp']
weather

Unnamed: 0,max_temp,mean_temp,diff
Jan,68.0,32.354839,35.645161
Apr,89.0,53.1,35.9
Jul,91.0,72.870968,18.129032
Oct,84.0,55.451613,28.548387
Aug,,70.0,
Dec,,34.935484,
Feb,,28.714286,
Jun,,70.133333,
Mar,,35.0,
May,,62.612903,


**Concatenez** sur l'axe des **lignes** les DataFrames df1 et df2, puis affichez le DataFrame créé.

In [134]:
# votre code ici
df1 = pd.DataFrame({
        "A":  ["one", "one", "two", "two", "four", "four", "five", "five", "six", "six", "seven", "seven"],
        "B": np.random.randn(12),
    }
)
df2 = pd.DataFrame({
        "A": ["one", "one", "two", "two", "three", "three"],
        "C": ["foo", "bar", "foo", "bar", "foo", "bar"],
        "D": np.random.randn(6),
    }
)
print(df1)
print(df2)

        A         B
0     one -1.833749
1     one  1.317563
2     two -1.187251
3     two  0.360707
4    four  0.035471
5    four -1.082273
6    five -0.255840
7    five -0.336592
8     six  0.686985
9     six  0.336683
10  seven -0.392094
11  seven  0.028323
       A    C         D
0    one  foo  0.233706
1    one  bar -0.226768
2    two  foo  0.210385
3    two  bar  0.483616
4  three  foo -1.172196
5  three  bar  0.972342


In [135]:
df_concat = pd.concat([df1, df2])
df_concat

Unnamed: 0,A,B,C,D
0,one,-1.833749,,
1,one,1.317563,,
2,two,-1.187251,,
3,two,0.360707,,
4,four,0.035471,,
5,four,-1.082273,,
6,five,-0.25584,,
7,five,-0.336592,,
8,six,0.686985,,
9,six,0.336683,,


**Mergez** les DataFrames df1 et df2 en utilisant la **colonne A** comme clé, et en conservant toutes les **lignes des deux DataFrames** (même celles qui n'apparaissent que dans l'un des deux). Affichez le DataFrame créé.

In [136]:
# votre code ici
df_merged1 = pd.merge(df1, df2, on="A", how="outer")
df_merged1

Unnamed: 0,A,B,C,D
0,five,-0.25584,,
1,five,-0.336592,,
2,four,0.035471,,
3,four,-1.082273,,
4,one,-1.833749,foo,0.233706
5,one,-1.833749,bar,-0.226768
6,one,1.317563,foo,0.233706
7,one,1.317563,bar,-0.226768
8,seven,-0.392094,,
9,seven,0.028323,,


**Mergez** les DataFrames df1 et df2 en utilisant la **colonne A** comme clé, et en conservant uniquement **les lignes présente dans les deux DataFrames** (en supprimant celles qui n'apparaissent que dans l'un des deux). Affichez le DataFrame créé.

In [137]:
# votre code ici
df_merged2 = pd.merge(df1, df2, on="A")
df_merged2

Unnamed: 0,A,B,C,D
0,one,-1.833749,foo,0.233706
1,one,-1.833749,bar,-0.226768
2,one,1.317563,foo,0.233706
3,one,1.317563,bar,-0.226768
4,two,-1.187251,foo,0.210385
5,two,-1.187251,bar,0.483616
6,two,0.360707,foo,0.210385
7,two,0.360707,bar,0.483616


**Mergez** les DataFrames df1 et df2 en utilisant la **colonne A** comme clé, et en conservant uniquement **les lignes présente dans df1** (en supprimant celles qui n'apparaissent pas dans df1). Affichez le DataFrame créé.

In [140]:
# votre code ici
df_merged3 = pd.merge(df1, df2, on="A", how="left")
df_merged3

Unnamed: 0,A,B,C,D
0,one,-1.833749,foo,0.233706
1,one,-1.833749,bar,-0.226768
2,one,1.317563,foo,0.233706
3,one,1.317563,bar,-0.226768
4,two,-1.187251,foo,0.210385
5,two,-1.187251,bar,0.483616
6,two,0.360707,foo,0.210385
7,two,0.360707,bar,0.483616
8,four,0.035471,,
9,four,-1.082273,,


### 1.3. Aggregation de données

Pandas permet d'aggréger des données pour en tirer des valeurs intéressantes à travers le **groupage**. La fonction principale de groupage de Pandas est la fonction `.groupby()` qui permet de déterminer les groupes auxquels appliquer par la suite des **fonctions d'aggrégation**.

De manière générale, le **groupage** Pandas consiste à :
- **Découper** le jeu de données en plusieurs groupes à partir d'un **critère** spécifique.
- **Appliquer une fonction** indépendamment sur chaqun des groupes ainsi créés.
- **Combiner** les résultats au sein d'un structure unique.

In [141]:
import numpy as np
import pandas as pd

In [142]:
df = pd.DataFrame(
     {
         "A": ["foo", "bar", "foo", "bar", "foo", "bar", "foo", "foo"],
         "B": ["one", "one", "two", "three", "two", "two", "one", "three"],
         "C": np.random.randn(8),
         "D": np.random.randn(8),
     }
)
df

Unnamed: 0,A,B,C,D
0,foo,one,0.219334,-1.262511
1,bar,one,0.394337,1.88866
2,foo,two,0.601534,0.068832
3,bar,three,2.088184,0.278274
4,foo,two,-0.159134,0.16883
5,bar,two,-0.457376,-2.200939
6,foo,one,-1.347318,-0.926665
7,foo,three,0.582085,0.516212


In [143]:
df.groupby("A").sum()

Unnamed: 0_level_0,B,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,onethreetwo,2.025145,-0.034005
foo,onetwotwoonethree,-0.103498,-1.435302


Il est de plus possible de **grouper sur plusieurs critères** :

In [144]:
df.groupby(["A", "B"]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,0.394337,1.88866
bar,three,2.088184,0.278274
bar,two,-0.457376,-2.200939
foo,one,-1.127984,-2.189176
foo,three,0.582085,0.516212
foo,two,0.4424,0.237662


Le groupage permet aussi d'appliquer **plusieurs fonctions d'aggrégation**, ou bien des **fonctions personnalisées** via la méthode `.agg()`.

In [146]:
# Application de trois fonctions d'aggregation
df.groupby("A").agg([np.sum, np.mean, np.std])

  df.groupby("A").agg([np.sum, np.mean, np.std])
  df.groupby("A").agg([np.sum, np.mean, np.std])


TypeError: agg function failed [how->mean,dtype->object]

Il est aussi possible de choisir à **quelle colonne** appliquer quelle fonction.

In [147]:
df.groupby("A").agg({"C": np.sum, "D": np.std})

  df.groupby("A").agg({"C": np.sum, "D": np.std})
  df.groupby("A").agg({"C": np.sum, "D": np.std})


Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
bar,2.025145,2.060124
foo,-0.103498,0.764909


#### Exercices sur l'aggrégation de données

En utilisant le jeu de données disponible ci-dessous via la variable `diamonds`, affichez le **prix moyen** de **chacun des 'cut'** du jeu de données.

In [148]:
diamonds = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/diamonds.csv')
diamonds

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.20,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
...,...,...,...,...,...,...,...,...,...,...
53935,0.72,Ideal,D,SI1,60.8,57.0,2757,5.75,5.76,3.50
53936,0.72,Good,D,SI1,63.1,55.0,2757,5.69,5.75,3.61
53937,0.70,Very Good,D,SI1,62.8,60.0,2757,5.66,5.68,3.56
53938,0.86,Premium,H,SI2,61.0,58.0,2757,6.15,6.12,3.74


In [155]:
# votre code ici
# diamonds.groupby("cut").agg({"price": np.mean})  # FutureWarning: The provided callable <function mean at 0x10e8dc9d0> is currently using SeriesGroupBy.mean. In a future version of pandas, the provided callable will be used directly. To keep current behavior pass the string "mean" instead.

diamonds.groupby("cut").agg({"price": "mean"}) # Futur-proof version

Unnamed: 0_level_0,price
cut,Unnamed: 1_level_1
Fair,4358.757764
Good,3928.864452
Ideal,3457.54197
Premium,4584.257704
Very Good,3981.759891


Via le même jeu de données, affichez la **somme des prix**, et les valeurs **moyennes des colonnes x, y, et z**, **pour chacun des 'cut'** du jeu de données.

In [156]:
# votre code ici

diamonds.groupby("cut").agg({"price": "sum", "x": "mean", "y": "mean", "z": "mean"})

Unnamed: 0_level_0,price,x,y,z
cut,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Fair,7017600,6.246894,6.182652,3.98277
Good,19275009,5.838785,5.850744,3.639507
Ideal,74513487,5.507451,5.52008,3.401448
Premium,63221498,5.973887,5.944879,3.647124
Very Good,48107623,5.740696,5.770026,3.559801


### 1.4. Séries temporelles

Pour finir, Pandas met à disposition de l'utilisateur de nombreuses fonctionnalités liées aux **time series**. Ces fonctionnalités sont particulièrement utilisées au en **machine learning** ou bien dans l'**industrie financière**.

Pandas utilise les **types de datetime définis par Numpy** : `np.datetime64` et `np.timedelta64`. Néanmoins, il est facile d'utiliser d'autre types de date en input, comme des str, ou des datetime.datetime.

In [157]:
# Declaration d'une date via Pandas
time = pd.to_datetime("2021-04-01")
time_str = "2021-04-01"
time_str = pd.to_datetime(time_str)
print(type(time))
print(type(time_str))

<class 'pandas._libs.tslibs.timestamps.Timestamp'>
<class 'pandas._libs.tslibs.timestamps.Timestamp'>


Il est possible de créer des **séries de dates** via la méthode `pd.date_range`.

In [159]:
# Serie de date commençant le 2018-01-01 a minuit, puis toutes les heures pendant 5 heures.
# dates = pd.date_range("2021-04-01", periods=5, freq="H") # Serie de date commençant le 2018-01-01 a minuit, puis toutes les heures pendant 5 heures.
dates = pd.date_range("2021-04-01", periods=5, freq="h")
dates

DatetimeIndex(['2021-04-01 00:00:00', '2021-04-01 01:00:00',
               '2021-04-01 02:00:00', '2021-04-01 03:00:00',
               '2021-04-01 04:00:00'],
              dtype='datetime64[ns]', freq='h')

Les séries de dates disposent de nombreux attribus qui peuvent être intéressants :

In [160]:
# Jour du mois
dates.day

Index([1, 1, 1, 1, 1], dtype='int32')

In [161]:
# Mois
dates.month

Index([4, 4, 4, 4, 4], dtype='int32')

In [162]:
# Heure
dates.hour

Index([0, 1, 2, 3, 4], dtype='int32')

In [163]:
import pandas as pd
import numpy as np

On parle de **time series** quand une série de date est utilisée en tant qu'**index** d'un tableau de données, comme un DataFrame ou bien une Series Pandas.

In [165]:
# Creation d'une time series
ts = pd.Series(np.random.rand(100), index=pd.date_range("2021-04-01", periods=100, freq="h"))
ts

2021-04-01 00:00:00    0.565289
2021-04-01 01:00:00    0.176374
2021-04-01 02:00:00    0.725584
2021-04-01 03:00:00    0.411868
2021-04-01 04:00:00    0.415092
                         ...   
2021-04-04 23:00:00    0.645233
2021-04-05 00:00:00    0.845029
2021-04-05 01:00:00    0.203314
2021-04-05 02:00:00    0.360973
2021-04-05 03:00:00    0.286317
Freq: h, Length: 100, dtype: float64

Il est possible d'accéder aux éléments d'une time series de la **même manière** qu'une Series ou un DataFrame disposant d'un **index normal**.

In [166]:
ts["2021-04-01 01:00:00"]

np.float64(0.17637388320896263)

Il est aussi possible de créer des **slices** encore plus simplement, en passant la date sous forme de **str** et en ne **précisant pas la fin** de la date :

In [167]:
ts["2021-04-02"]

2021-04-02 00:00:00    0.026910
2021-04-02 01:00:00    0.085676
2021-04-02 02:00:00    0.270012
2021-04-02 03:00:00    0.286032
2021-04-02 04:00:00    0.862104
2021-04-02 05:00:00    0.931182
2021-04-02 06:00:00    0.118460
2021-04-02 07:00:00    0.993965
2021-04-02 08:00:00    0.550414
2021-04-02 09:00:00    0.984548
2021-04-02 10:00:00    0.219240
2021-04-02 11:00:00    0.872451
2021-04-02 12:00:00    0.700516
2021-04-02 13:00:00    0.253886
2021-04-02 14:00:00    0.679882
2021-04-02 15:00:00    0.369302
2021-04-02 16:00:00    0.364377
2021-04-02 17:00:00    0.621815
2021-04-02 18:00:00    0.722217
2021-04-02 19:00:00    0.601220
2021-04-02 20:00:00    0.002719
2021-04-02 21:00:00    0.960784
2021-04-02 22:00:00    0.571436
2021-04-02 23:00:00    0.162376
Freq: h, dtype: float64

Il est fréquent d'appliquer un **shift** ou **lag** à une colonne lors de la manipulation de time series. Il s'agit de décaler la colonne d'une cellule vers le haut ou bien vers le bas.

In [168]:
df = pd.DataFrame(ts, columns=['A'])
df

Unnamed: 0,A
2021-04-01 00:00:00,0.565289
2021-04-01 01:00:00,0.176374
2021-04-01 02:00:00,0.725584
2021-04-01 03:00:00,0.411868
2021-04-01 04:00:00,0.415092
...,...
2021-04-04 23:00:00,0.645233
2021-04-05 00:00:00,0.845029
2021-04-05 01:00:00,0.203314
2021-04-05 02:00:00,0.360973


In [169]:
df['shifted_A'] = df['A'].shift(2)  # decale d'une ligne vers le bas
df

Unnamed: 0,A,shifted_A
2021-04-01 00:00:00,0.565289,
2021-04-01 01:00:00,0.176374,
2021-04-01 02:00:00,0.725584,0.565289
2021-04-01 03:00:00,0.411868,0.176374
2021-04-01 04:00:00,0.415092,0.725584
...,...,...
2021-04-04 23:00:00,0.645233,0.308908
2021-04-05 00:00:00,0.845029,0.669835
2021-04-05 01:00:00,0.203314,0.645233
2021-04-05 02:00:00,0.360973,0.845029


In [170]:
df['shifted_A'] = df['A'].shift(1, freq='D')  # decale d'un jour (24 lignes d'une heure) vers le bas
df

Unnamed: 0,A,shifted_A
2021-04-01 00:00:00,0.565289,
2021-04-01 01:00:00,0.176374,
2021-04-01 02:00:00,0.725584,
2021-04-01 03:00:00,0.411868,
2021-04-01 04:00:00,0.415092,
...,...,...
2021-04-04 23:00:00,0.645233,0.516609
2021-04-05 00:00:00,0.845029,0.533822
2021-04-05 01:00:00,0.203314,0.835140
2021-04-05 02:00:00,0.360973,0.855053


Enfin, Pandas propose une fonctionnalité de **ré-échantillonnage (*resampling*)** sur les time series. Cette fonctionnalité permet de **convertir la fréquence** d'une série de dates, ce qui est très utilisé en finance, mais aussi en data science et machine learning.

Concrètement, le concept est très similaire à celui d'**aggrégation** vu plus haut, si ce n'est qu'il est appliqué à des séries-temporelles.

La fonction `.resample()` est similaire à une fonction `.groupby()` appliquée à un DataFrame indexé par dates, et doit être suivie par une méthode de réduction (d'*aggrégation*) de chacun de ses groupes.

In [171]:
import pandas as pd
import numpy as np

In [173]:
# df time-series a frequence d'une seconde
# rng = pd.date_range("1/1/2012", periods=1000, freq="S") # FutureWarning: 'S' is deprecated and will be removed in a future version, please use 's' instead.
rng = pd.date_range("1/1/2012", periods=1000, freq="s")
df = pd.DataFrame({'A': np.random.randint(0, 500, len(rng))}, index=rng)
df

Unnamed: 0,A
2012-01-01 00:00:00,144
2012-01-01 00:00:01,196
2012-01-01 00:00:02,444
2012-01-01 00:00:03,88
2012-01-01 00:00:04,424
...,...
2012-01-01 00:16:35,249
2012-01-01 00:16:36,93
2012-01-01 00:16:37,341
2012-01-01 00:16:38,493


In [174]:
# Utilisation de resample pour appliquer la fonction mean a chaque intervale de 5 minutes
df.resample("5Min").mean()

Unnamed: 0,A
2012-01-01 00:00:00,243.546667
2012-01-01 00:05:00,243.243333
2012-01-01 00:10:00,253.083333
2012-01-01 00:15:00,251.05


Les fonctions d'aggrégation applicables après `.groupby()` vues plus haut fonctionnent aussi après un resampling. D'autres fonctions, spécifiques aux time series sont de plus disponibles :

In [175]:
df.resample("5Min").first()  # premier element de chaque groupe

Unnamed: 0,A
2012-01-01 00:00:00,144
2012-01-01 00:05:00,233
2012-01-01 00:10:00,451
2012-01-01 00:15:00,90


In [176]:
df.resample("5Min").last()  # dernier element de chaque groupe

Unnamed: 0,A
2012-01-01 00:00:00,449
2012-01-01 00:05:00,452
2012-01-01 00:10:00,87
2012-01-01 00:15:00,379


In [177]:
df.resample("5Min").ohlc()  # caracteristiques utiles en finance

Unnamed: 0_level_0,A,A,A,A
Unnamed: 0_level_1,open,high,low,close
2012-01-01 00:00:00,144,496,0,449
2012-01-01 00:05:00,233,498,1,452
2012-01-01 00:10:00,451,498,0,87
2012-01-01 00:15:00,90,494,23,379


Note :

Il est tout à fait possible d'utiliser la fonction `.groupby()` sur une time series. La fonction `.resample()` peut être considérée comme un cas "spécifique" de groupby, qui est plus généraliste.

`.groupby()` accepte en paramètre un objet de la classe `pd.Grouper`, qui permet de déterminer avec précision les règles de création des groupes.

In [178]:
df.resample("5Min").aggregate(np.average)

Unnamed: 0,A
2012-01-01 00:00:00,243.546667
2012-01-01 00:05:00,243.243333
2012-01-01 00:10:00,253.083333
2012-01-01 00:15:00,251.05


#### Exercices sur les time series

Créez un DataFrame **time series** dont les lignes correspondent aux **jours de l'année 2021**. Il doit contenir une **colonne de nombres aléatoires**. Affichez le DataFrame créé.

In [181]:
# votre code ici
rng = pd.date_range("1/1/2021", periods=365, freq="d")
df = pd.DataFrame({'A': np.random.randint(0, 500, len(rng))}, index=rng)
df

Unnamed: 0,A
2021-01-01,159
2021-01-02,15
2021-01-03,341
2021-01-04,34
2021-01-05,257
...,...
2021-12-27,445
2021-12-28,92
2021-12-29,357
2021-12-30,18


Affichez la **moyenne** des prix par **mois**. Attention, pour pouvoir utiliser la fonction nécessaire, le DataFrame doit être **indexé par date**.

In [183]:
# votre code ici
df.resample("ME").mean()

Unnamed: 0,A
2021-01-31,206.774194
2021-02-28,265.285714
2021-03-31,244.645161
2021-04-30,249.933333
2021-05-31,283.741935
2021-06-30,281.066667
2021-07-31,282.677419
2021-08-31,195.387097
2021-09-30,272.766667
2021-10-31,272.225806
