<p style="color:#FFF; background-color:#00C; padding:12px; font-size:20px; text-align:center">
<span style="font-size:48px"><b>PACKAGE : PANDAS</b></span><br>
<span style="width:49%; display:inline-block; text-align:left">Christophe Schlick</span>
<span style="width:49%; display:inline-block; text-align:right"><i>schlick@u-bordeaux.fr</i></span></p>

Le package [**pandas**](http://pandas.pydata.org) fournit à Python des outils pour
manipuler des tableaux de données de toute nature. Généralement le package **pandas** est utilisé en collaboration avec le package **numpy**, chacun fournissant des outils de traitement spécifiques. En particulier, il y a deux différences fondamentales entre les tables **numpy** et les tables **pandas** :

- une table **numpy** peut avoir un nombre quelconque de dimensions, alors qu'une table **pandas** ne peut avoir qu'une ou deux dimensions
- une table **pandas** peut contenir un nombre quelconque de type de données (un type par colonne ou un type par ligne), alors qu'une table **numpy** doit avoir toutes ses données du même type
    
La documentation complète du package se trouve sur le site [**pandas.org**](https://pandas.pydata.org/docs/user_guide), mais elle est également directement disponible dans le menu `Help` de l'interface Jupyter. Ce notebook a pour objet de faire un tour d'horizon rapide et de montrer les fonctionnalités les plus utiles de **matplotlib** dans le cadre d'une utilisation au sein de l'environnement Jupyter

---
On importe habituellement le package **pandas** par le biais d'un alias, avec la commande suivante :
> `import pandas as pd`

afin de racourcir le préfixe qu'il faudra utiliser pour accéder aux fonctions qu'il contient :

In [1]:
import numpy as np # import du package 'numpy' avec alias 'np' 
import pandas as pd # import du package 'pandas' avec alias 'pd'
from SRC.show import show # import de la fonction 'show' permettant de simplifier certaines explications

<h2 style="padding:16px; color:#FFF; background-color:#00C">A - Création et accès aux séries et tables</h2>

### 1 - Création de séries

Dans la terminologie de **pandas**, une série (***series***) est une table 1D qui peut être indexée par des entiers ou par des labels

In [2]:
sA = pd.Series([0, 50, 150, 300]) # création d'une series à partir d'une liste 1D
sB = pd.Series([0, 50, 150, 300], index=['a','b','c','d']) # on rajoute les labels aux indices
sC = pd.Series(dict(a=0, b=50, c=150, d=300)) # solution alternative à base de dictionnaire
sA

0      0
1     50
2    150
3    300
dtype: int64

In [3]:
rand = pd.Series(np.random.randint(0, 10, 100))
rand

0     2
1     9
2     1
3     4
4     2
     ..
95    3
96    6
97    7
98    2
99    7
Length: 100, dtype: int32

In [4]:
rand.describe()

count    100.000000
mean       4.610000
std        2.788486
min        0.000000
25%        2.000000
50%        4.500000
75%        7.000000
max        9.000000
dtype: float64

In [5]:
dates = pd.date_range('20200101', periods=12, freq='MS')
# fréquences possibles: N = nanosec, U = microsec, L = millisec, S = sec, T = min, H = heure,
# D = jour, W = semaine, M = mois, M[S] = mois [option S pour début], Q[S] = trimestre, Y[S] = année
dates

DatetimeIndex(['2020-01-01', '2020-02-01', '2020-03-01', '2020-04-01',
               '2020-05-01', '2020-06-01', '2020-07-01', '2020-08-01',
               '2020-09-01', '2020-10-01', '2020-11-01', '2020-12-01'],
              dtype='datetime64[ns]', freq='MS')

---
### 2 - Accès aux éléments des séries

In [6]:
sA.index # les indices de 'sA' sont de type 'RangeIndex'
#sA.values # les valeurs de 'sA' sont de type 'array'
#sA[0] # accès à un élément individuel par indice
#sA[1:] # accès à une tranche d'éléments par tranche
#sB.index # les indices de 'sB' sont de type 'Index'
#sB['a'] # accès à un élément individuel par label
#sB['b':'c'] # accès à une tranche d'éléments par tranche de labels (limites comprises)
#sB['e'] = 400 # ajout d'un nouveau couple (label,valeur) comme dans un dictionnaire standard
#sB

RangeIndex(start=0, stop=4, step=1)

---
### 3 - Création de tables

Dans la terminologie de **pandas**, une table (***dataframe***) est une table 2D qui peut être indexée par des entiers ou par des labels

In [7]:
data = pd.DataFrame(np.random.randint(0, 999, (12, 8)), index=dates, columns=list('ABCDEFGH'))
data

Unnamed: 0,A,B,C,D,E,F,G,H
2020-01-01,533,277,163,312,397,945,679,930
2020-02-01,676,594,635,583,154,630,617,651
2020-03-01,965,583,848,497,526,759,237,425
2020-04-01,51,946,149,115,347,11,655,91
2020-05-01,482,796,217,543,772,293,683,216
2020-06-01,793,842,257,227,830,546,710,53
2020-07-01,94,985,703,882,326,822,854,566
2020-08-01,952,647,712,346,661,928,115,523
2020-09-01,746,193,347,311,251,869,979,963
2020-10-01,541,971,928,33,575,905,655,199


In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 12 entries, 2020-01-01 to 2020-12-01
Freq: MS
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       12 non-null     int32
 1   B       12 non-null     int32
 2   C       12 non-null     int32
 3   D       12 non-null     int32
 4   E       12 non-null     int32
 5   F       12 non-null     int32
 6   G       12 non-null     int32
 7   H       12 non-null     int32
dtypes: int32(8)
memory usage: 480.0 bytes


In [9]:
data.describe()

Unnamed: 0,A,B,C,D,E,F,G,H
count,12.0,12.0,12.0,12.0,12.0,12.0,12.0,12.0
mean,563.583333,655.083333,470.25,335.583333,482.083333,652.25,636.166667,533.166667
std,322.365535,302.901262,279.136697,252.965128,205.276956,283.21695,242.101719,339.058545
min,51.0,156.0,149.0,33.0,154.0,11.0,115.0,53.0
25%,394.5,506.5,247.0,110.75,341.75,547.5,618.5,211.75
50%,608.5,721.5,379.5,311.5,473.0,694.5,667.0,544.5
75%,794.25,889.75,705.25,508.5,596.5,878.0,740.25,875.25
max,965.0,985.0,928.0,882.0,830.0,945.0,979.0,963.0


---
### 4 - Accès aux éléments des tables

In [10]:
# L'accès aux colonnes des 'dataframes' se fait par label, alors que l'accès aux lignes se fait par tranches
data['A'] # accès à une colonne (renvoie un object de type 'series')
#data.A # idem (mais uniquement pour les labels qui sont des identificateurs Python valide: A-Za-z0-9_)
#data['20200301':'20200501'] # accès à une tranche de lignes (objet de type 'dataframe')
#data[2:5] # idem en utilisant les indices de lignes pour définir la tranche
#data[2] # erreur car 2 n'est pas une tranche, ni un label existant

2020-01-01    533
2020-02-01    676
2020-03-01    965
2020-04-01     51
2020-05-01    482
2020-06-01    793
2020-07-01     94
2020-08-01    952
2020-09-01    746
2020-10-01    541
2020-11-01    132
2020-12-01    798
Freq: MS, Name: A, dtype: int32

In [11]:
# Néanmoins, on peut passer par la transposition ou utiliser les méthodes 'loc' et 'iloc' pour les autres cas
data.T['20200301'] # accès à une ligne unique !! mais bien sûr, 'data.T.20200301' ne fonctionnera pas !!
#data.loc['20200301'] # idem avec la méthode 'loc', en utilisant le label de la ligne
#data.iloc[2] # idem avec la méthode 'iloc', en utilisant l'indice de la ligne
#data.T['C':'G'].T # accès à une tranche de colonnes (par double transposition)
#data.loc[:,'C':'G'] # idem avec la méthode 'loc'

A    965
B    583
C    848
D    497
E    526
F    759
G    237
H    425
Name: 2020-03-01 00:00:00, dtype: int32

In [12]:
# Il existe également plusieurs techniques pour extraire une sous-matrice d'un dataframe
data['20200301':'20200501'].T['C':'G'].T # extraction par une double tranche avec double transposition
#data.loc['20200301':'20200501','C':'G'] # idem avec la méthode 'loc' (double tranche de labels)
#data.iloc[2:5,2:7] # idem avec la méthode 'iloc' (double tranche d'indices)
#data.loc[('20200201','20200301','20200601'),('C','E','G')] # extraction par énumération de lignes/colonnes
#data.iloc[[1,2,5],[2,4,6]] # idem avec la méthode 'iloc' (énumération d'indices de lignes/colonnes)

Unnamed: 0,C,D,E,F,G
2020-03-01,848,497,526,759,237
2020-04-01,149,115,347,11,655
2020-05-01,217,543,772,293,683


In [13]:
data[data['A'] < 200] # sélection de lignes vérifiant un prédicat donné
#data[data < 200] # élimination de toutes les valeurs >= 200 (remplacement par NaN)
#data.where(data < 200, 200) # remplacement de toutes les valeurs >= 200 par une valeur donnée

Unnamed: 0,A,B,C,D,E,F,G,H
2020-04-01,51,946,149,115,347,11,655,91
2020-07-01,94,985,703,882,326,822,854,566
2020-11-01,132,156,272,98,522,571,831,921


<h2 style="padding:16px; color:#FFF; background-color:#00C">B - Manipulation des séries et tables</h2>

### 1 - xxx

bolobolo

In [15]:
data.apply(np.sum) # application d'un opérateur sur les données d'une colonne
#data.T.apply(np.sum) # idem avec les données d'une ligne
#data.apply(lambda x: x.max()-x.min()) # application d'un opérateur personnalisé (fonction lambda à 1 argument)

A    5424
B    6899
C    8250
D    8613
E    5728
F    5088
G    6270
H    5568
dtype: int64

<h2 style="padding:16px; color:#FFF; background-color:#00C">C - Lecture et écriture sur disque</h2>

In [19]:
authors = pd.read_csv('TEST/Test CSV.csv') # lecture d'un fichier CSV et transformation en 'dataframe'
authors

Unnamed: 0,Nom,Prénom,Date de naissance,Lieu de naissance,Date de décès,Lieu de décès
0,Hugo,Victor,26/02/1802,Besançon,22/05/1885,Paris
1,Baudelaire,Charles,09/04/1821,Paris,31/08/1867,Paris
2,Rimbaud,Arthur,20/10/1854,Charleville,10/11/1891,Marseille


In [22]:
# tout caractère unicode (y compris l'espace) est autorisé pour les labels, mais la notation pointée
# 'authors.Date de décès' ne fonctionnera pas dans ce cas (il faut un identificateur Python valide)
authors['Date de décès']

0    22/05/1885
1    31/08/1867
2    10/11/1891
Name: Date de décès, dtype: object

In [23]:
authors.T.to_csv('TEST/Tost CSV.csv') # écriture d'un dataframe dans un fichier CSV

In [21]:
data = pd.read_csv('CSV/calendar.csv')
data.set_index('Month', inplace=True) # on utilise les valeurs de la colonne 'Month' en tant que labels
data.index.name = None # et on efface l'entête de cette colonne qui n'a plus d'utilité
data
#data['Mar':'May']

Unnamed: 0,2000,2001,2002,2003,2004,2005,2006,2007,2008,2009,2010,2011,2012,2013,2014,2015
Jan,0,3,6,0,22,3,4,24,23,3,23,22,12,6,13,17
Feb,12,14,22,4,10,5,5,14,21,11,23,18,3,17,15,2
Mar,16,16,12,6,4,24,18,25,7,14,1,11,3,12,1,5
Avr,8,4,14,10,21,14,17,12,22,5,15,4,16,3,0,7
May,8,5,7,12,9,13,3,24,24,4,21,2,24,1,12,3
Jun,20,22,20,14,13,9,1,12,9,9,16,8,0,5,6,8
Jul,3,5,0,20,21,23,10,15,5,23,23,11,14,24,9,13
Aug,3,2,25,20,9,16,20,17,20,25,7,16,5,16,13,0
Sep,12,11,5,14,17,22,7,22,2,15,5,0,4,0,21,2
Oct,19,16,3,13,19,3,6,4,22,22,0,15,25,13,21,21


<h2 style="padding:16px; color:#FFF; background-color:#00C">E - Divers</h2>