# Import des modules nécessaires

In [1]:
# Pour faire des calculs complexes (ici c'est juste pour créer des tableaux de nombres aléatoires)
import numpy as np

# Pour manipuler efficacement des tables de données dans Python
import pandas as pd

In [2]:
!pip install --upgrade --user pandas numpy

Requirement already up-to-date: pandas in /home/girardea/anaconda3/lib/python3.6/site-packages (0.23.4)
Requirement already up-to-date: numpy in /home/girardea/.local/lib/python3.6/site-packages (1.15.4)


In [3]:
print(np.__version__)

1.15.4


In [4]:
print(pd.__version__)

0.23.4


Pandas est une bibliothèque écrite pour le langage de programmation Python permettant la manipulation et l'analyse des données. Elle propose en particulier des structures de données et des opérations de manipulation de tableaux numériques et de séries temporelles. Pandas est un logiciel libre sous licence BSD.

# 1. DataFrames et Series

Les `DataFrame` et `Series` sont les types les plus utilisés dans `pandas` et il est fondamental de bien les comprendre !

Une `DataFrame` est juste une table de données, avec des lignes et des colonnes. Les données peuvent être de toute sorte : numériques, chaînes de caractères, booléens.

Une `Series` est simplement une colonne de `DataFrame`.

In [5]:
# On construit une DataFrame avec des nombres aléatoires
df = pd.DataFrame(data=np.random.uniform(size=(5, 3)),
                  columns=['Pierre', 'Paul', 'Jacques'],
                  index=['Janvier', 'Février', 'Mars', 'Avril', 'Mai'])

df

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.651791,0.764848,0.953033
Février,0.331793,0.069802,0.370651
Mars,0.551907,0.533153,0.922069
Avril,0.216808,0.17456,0.518067
Mai,0.212176,0.68284,0.098782


In [6]:
type(df)

pandas.core.frame.DataFrame

In [7]:
df['Pierre']

Janvier    0.651791
Février    0.331793
Mars       0.551907
Avril      0.216808
Mai        0.212176
Name: Pierre, dtype: float64

In [8]:
type(df['Pierre'])

pandas.core.series.Series

Pour sélectionner plusieurs colonnes, on utilise deux paires de crochets.

In [9]:
df[['Pierre', 'Jacques']]

Unnamed: 0,Pierre,Jacques
Janvier,0.651791,0.953033
Février,0.331793,0.370651
Mars,0.551907,0.922069
Avril,0.216808,0.518067
Mai,0.212176,0.098782


In [10]:
type(df[['Pierre', 'Jacques']])

pandas.core.frame.DataFrame

## Manipulations sur les `DataFrame` et `Series`

In [11]:
df * 2

Unnamed: 0,Pierre,Paul,Jacques
Janvier,1.303582,1.529696,1.906065
Février,0.663587,0.139605,0.741302
Mars,1.103814,1.066305,1.844138
Avril,0.433616,0.34912,1.036134
Mai,0.424352,1.365679,0.197565


In [12]:
df['Pierre'] + df['Paul']

Janvier    1.416639
Février    0.401596
Mars       1.085060
Avril      0.391368
Mai        0.895016
dtype: float64

In [13]:
df.mean()

Pierre     0.392895
Paul       0.445041
Jacques    0.572520
dtype: float64

In [14]:
df.mean(axis='columns')

Janvier    0.789891
Février    0.257416
Mars       0.669043
Avril      0.303145
Mai        0.331266
dtype: float64

Comment faire la moyenne complète du `DataFrame` ?

In [15]:
df.mean().mean()

0.47015194799223625

## Sélection simple (par indice) de lignes et de colonnes

In [16]:
df.iloc[2:5, 1:3]

Unnamed: 0,Paul,Jacques
Mars,0.533153,0.922069
Avril,0.17456,0.518067
Mai,0.68284,0.098782


In [17]:
df.iloc[3:5]

Unnamed: 0,Pierre,Paul,Jacques
Avril,0.216808,0.17456,0.518067
Mai,0.212176,0.68284,0.098782


## Sélection par noms

In [18]:
df.loc['Mai']

Pierre     0.212176
Paul       0.682840
Jacques    0.098782
Name: Mai, dtype: float64

In [19]:
df.loc['Janvier':'Mars']

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.651791,0.764848,0.953033
Février,0.331793,0.069802,0.370651
Mars,0.551907,0.533153,0.922069


In [20]:
df.loc['Janvier':'Mars', 'Paul']

Janvier    0.764848
Février    0.069802
Mars       0.533153
Name: Paul, dtype: float64

## Sélections complexes via des conditions

In [21]:
c = (df['Pierre'] >= 0.3)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.651791,0.764848,0.953033
Février,0.331793,0.069802,0.370651
Mars,0.551907,0.533153,0.922069


Pour compter le nombre de lignes qui vérifient la condition, il suffit de compter le nombre de `True` dans la `pd.Series` `c`, ce qui revient à sommer `c` car en Python `True = 1` et `False = 0`.

In [22]:
c.sum()

3

In [23]:
c = (df['Pierre'] >= 0.3) & (df['Paul'] < 0.1)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Février,0.331793,0.069802,0.370651


## Concaténation

On peut facilement mettre des tableaux les uns au-dessus des autres. Il faut cependant **être vigilant au niveau des indices**.

In [30]:
df1 = pd.DataFrame({
    'prénom': ['Pierre', 'Paul'],
    'nom': ['Dupond', 'Durand'],
    'age': [23, 43]
})

print('df1 :\n', df1)

df2 = pd.DataFrame({
    'prénom': ['Alice', 'Franck'],
    'nom': ['Hubert', 'Martin'],
    'age': [27, 34]
})

print('df2 :\n', df2)

df_res = pd.concat([df1, df2])

df_res

df1 :
    prénom     nom  age
0  Pierre  Dupond   23
1    Paul  Durand   43
df2 :
    prénom     nom  age
0   Alice  Hubert   27
1  Franck  Martin   34


Unnamed: 0,prénom,nom,age
0,Pierre,Dupond,23
1,Paul,Durand,43
0,Alice,Hubert,27
1,Franck,Martin,34


Les indices sont conservés. Ainsi, c'est plus dur de sélectionner des lignes...

In [31]:
df_res.loc[0]

Unnamed: 0,prénom,nom,age
0,Pierre,Dupond,23
0,Alice,Hubert,27


On peut forcer le réindicage, si c'est utile.

In [32]:
df_res = pd.concat([df1, df2], ignore_index=True)

df_res

Unnamed: 0,prénom,nom,age
0,Pierre,Dupond,23
1,Paul,Durand,43
2,Alice,Hubert,27
3,Franck,Martin,34


# 2. I/O

Depuis et vers `pandas` on peut utiliser du CSV, Excel, SQL, JSON et sans doute d'autres encore.

## CSV

In [34]:
df.to_csv('toto.csv')

## Excel

In [35]:
df.to_excel('toto.xlsx')

## SQL

In [36]:
from sqlalchemy import create_engine

engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [37]:
df.to_sql("ma_table", connection)

In [38]:
connection.close()

## Et pour lire ?

C'est le même principe !

In [27]:
pd.read_csv('toto.csv', index_col=0)

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [28]:
pd.read_excel('toto.xlsx')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [29]:
engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [30]:
# Lit une table entière
pd.read_sql_table("ma_table", connection, index_col='index')

Unnamed: 0_level_0,Pierre,Paul,Jacques
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [31]:
# Liste toutes les tables du sqlite
print(engine.table_names())

['ma_table']


In [32]:
for table in engine.table_names():
    print(pd.read_sql_table(table, connection))

     index    Pierre      Paul   Jacques
0  Janvier  0.254889  0.483189  0.941259
1  Février  0.297467  0.192431  0.570116
2     Mars  0.484921  0.804019  0.718281
3    Avril  0.207242  0.230061  0.596878
4      Mai  0.094680  0.540839  0.833893


In [33]:
connection.close()

# 3. Valeurs manquantes

In [47]:
# On construit une DataFrame avec des nombres aléatoires et une case vide
df = pd.DataFrame(data=np.random.uniform(size=(5, 3)),
                  columns=['Pierre', 'Paul', 'Jacques'],
                  index=['Janvier', 'Février', 'Mars', 'Avril', 'Mai'])

df.loc['Février', 'Jacques'] = np.nan
df.loc['Mars', 'Pierre'] = np.nan

df

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,
Mars,,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


## Comment sait-on qu'on a des cases vides ?

In [48]:
df.isnull()

Unnamed: 0,Pierre,Paul,Jacques
Janvier,False,False,False
Février,False,False,True
Mars,True,False,False
Avril,False,False,False
Mai,False,False,False


En résumé (n'oublions pas qu'en Python `True=1` et `False=0`) :

In [49]:
df.isnull().sum()

Pierre     1
Paul       0
Jacques    1
dtype: int64

In [50]:
df.isnull().sum(axis='columns')

Janvier    0
Février    1
Mars       1
Avril      0
Mai        0
dtype: int64

Ou bien :

In [51]:
df.isnull().any(axis='columns')

Janvier    False
Février     True
Mars        True
Avril      False
Mai        False
dtype: bool

In [52]:
df.isnull().all(axis='columns')

Janvier    False
Février    False
Mars       False
Avril      False
Mai        False
dtype: bool

## Comment éliminer des valeurs manquantes ?

Attention : **ce n'est pas toujours la bonne solution !**

In [53]:
# condition que chaque ligne ne contienne pas d'élément vide dans la colonne 'Jacques'
c = df['Jacques'].notnull()
df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Mars,,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [54]:
# condition que chaque ligne ne contienne aucun élément vide
c = df.notnull().all(axis='columns')
df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


## Comment remplacer les valeurs manquantes ?

In [55]:
df.fillna(1.0)

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,1.0
Mars,1.0,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [56]:
df.fillna(method='ffill')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,0.287741
Mars,0.298394,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [57]:
df.fillna(method='bfill')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,0.869777
Mars,0.348545,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [59]:
medians = df.median()
print(medians)

df.fillna(value=medians)

Pierre     0.326953
Paul       0.773828
Jacques    0.329133
dtype: float64


Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,0.329133
Mars,0.326953,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


# 4. Séries temporelles

Ce sont juste des `pd.DataFrame` avec des indices temporels.

## Comment les créer ?

Généralement on va les lire dans un fichier ou dans une base de données. Mais voyons comment les créer.

In [69]:
rng = pd.date_range('7/12/2018', periods=20, freq='5S')
rng

DatetimeIndex(['2018-07-12 00:00:00', '2018-07-12 00:00:05',
               '2018-07-12 00:00:10', '2018-07-12 00:00:15',
               '2018-07-12 00:00:20', '2018-07-12 00:00:25',
               '2018-07-12 00:00:30', '2018-07-12 00:00:35',
               '2018-07-12 00:00:40', '2018-07-12 00:00:45',
               '2018-07-12 00:00:50', '2018-07-12 00:00:55',
               '2018-07-12 00:01:00', '2018-07-12 00:01:05',
               '2018-07-12 00:01:10', '2018-07-12 00:01:15',
               '2018-07-12 00:01:20', '2018-07-12 00:01:25',
               '2018-07-12 00:01:30', '2018-07-12 00:01:35'],
              dtype='datetime64[ns]', freq='5S')

In [70]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts

2018-07-12 00:00:00    315
2018-07-12 00:00:05    268
2018-07-12 00:00:10    167
2018-07-12 00:00:15    132
2018-07-12 00:00:20    391
2018-07-12 00:00:25    419
2018-07-12 00:00:30    458
2018-07-12 00:00:35    483
2018-07-12 00:00:40      6
2018-07-12 00:00:45    444
2018-07-12 00:00:50    331
2018-07-12 00:00:55    330
2018-07-12 00:01:00    492
2018-07-12 00:01:05    238
2018-07-12 00:01:10    166
2018-07-12 00:01:15    238
2018-07-12 00:01:20    133
2018-07-12 00:01:25     97
2018-07-12 00:01:30    353
2018-07-12 00:01:35    381
Freq: 5S, dtype: int64

## Comment les ré-échantillonner ?

In [73]:
ts.resample('Min').mean()

2018-07-12 00:00:00    312.00
2018-07-12 00:01:00    262.25
Freq: T, dtype: float64