# Import des modules nécessaires

In [1]:
# Pour faire des calculs complexes (ici c'est juste pour créer des tableaux de nombres aléatoires)
import numpy as np

# Pour manipuler efficacement des tables de données dans Python
import pandas as pd

In [4]:
!pip install --upgrade --user pandas numpy

Requirement already up-to-date: pandas in /home/girardea/anaconda3/lib/python3.6/site-packages (0.23.4)
Collecting numpy
[?25l  Downloading https://files.pythonhosted.org/packages/ff/7f/9d804d2348471c67a7d8b5f84f9bc59fd1cefa148986f2b74552f8573555/numpy-1.15.4-cp36-cp36m-manylinux1_x86_64.whl (13.9MB)
[K    100% |████████████████████████████████| 13.9MB 946kB/s ta 0:00:011   56% |██████████████████              | 7.8MB 4.6MB/s eta 0:00:02
Installing collected packages: numpy
Successfully installed numpy-1.15.4


In [5]:
print(np.__version__)

1.14.3


In [6]:
print(pd.__version__)

0.23.4


Pandas est une bibliothèque écrite pour le langage de programmation Python permettant la manipulation et l'analyse des données. Elle propose en particulier des structures de données et des opérations de manipulation de tableaux numériques et de séries temporelles. Pandas est un logiciel libre sous licence BSD.

# 1. DataFrames et Series

Les `DataFrame` et `Series` sont les types les plus utilisés dans `pandas` et il est fondamental de bien les comprendre !

Une `DataFrame` est juste une table de données, avec des lignes et des colonnes. Les données peuvent être de toute sorte : numériques, chaînes de caractères, booléens.

Une `Series` est simplement une colonne de `DataFrame`.

In [7]:
# On construit une DataFrame avec des nombres aléatoires
df = pd.DataFrame(data=np.random.uniform(size=(5, 3)),
                  columns=['Pierre', 'Paul', 'Jacques'],
                  index=['Janvier', 'Février', 'Mars', 'Avril', 'Mai'])

df

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.842743,0.039651,0.543104
Février,0.467615,0.275337,0.761652
Mars,0.497341,0.503744,0.270699
Avril,0.864567,0.153688,0.412072
Mai,0.013686,0.272243,0.671463


In [8]:
type(df)

pandas.core.frame.DataFrame

In [9]:
df['Pierre']

Janvier    0.842743
Février    0.467615
Mars       0.497341
Avril      0.864567
Mai        0.013686
Name: Pierre, dtype: float64

In [10]:
type(df['Pierre'])

pandas.core.series.Series

Pour sélectionner plusieurs colonnes, on utilise deux paires de crochets.

In [11]:
df[['Pierre', 'Jacques']]

Unnamed: 0,Pierre,Jacques
Janvier,0.842743,0.543104
Février,0.467615,0.761652
Mars,0.497341,0.270699
Avril,0.864567,0.412072
Mai,0.013686,0.671463


In [13]:
type(df[['Pierre', 'Jacques']])

pandas.core.frame.DataFrame

## Manipulations sur les `DataFrame` et `Series`

In [14]:
df * 2

Unnamed: 0,Pierre,Paul,Jacques
Janvier,1.685485,0.079303,1.086209
Février,0.93523,0.550674,1.523304
Mars,0.994682,1.007489,0.541397
Avril,1.729133,0.307375,0.824144
Mai,0.027373,0.544486,1.342927


In [15]:
df['Pierre'] + df['Paul']

Janvier    0.882394
Février    0.742952
Mars       1.001085
Avril      1.018254
Mai        0.285929
dtype: float64

In [16]:
df.mean()

Pierre     0.537190
Paul       0.248933
Jacques    0.531798
dtype: float64

In [17]:
df.mean(axis='columns')

Janvier    0.475166
Février    0.501535
Mars       0.423928
Avril      0.476775
Mai        0.319131
dtype: float64

Comment faire la moyenne complète du `DataFrame` ?

In [19]:
df.mean().mean()

0.4393070395825411

## Sélection simple (par indice) de lignes et de colonnes

In [20]:
df.iloc[2:5, 1:3]

Unnamed: 0,Paul,Jacques
Mars,0.503744,0.270699
Avril,0.153688,0.412072
Mai,0.272243,0.671463


In [21]:
df.iloc[3:5]

Unnamed: 0,Pierre,Paul,Jacques
Avril,0.864567,0.153688,0.412072
Mai,0.013686,0.272243,0.671463


## Sélection par noms

In [22]:
df.loc['Mai']

Pierre     0.013686
Paul       0.272243
Jacques    0.671463
Name: Mai, dtype: float64

In [23]:
df.loc['Janvier':'Mars']

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.842743,0.039651,0.543104
Février,0.467615,0.275337,0.761652
Mars,0.497341,0.503744,0.270699


In [24]:
df.loc['Janvier':'Mars', 'Paul']

Janvier    0.039651
Février    0.275337
Mars       0.503744
Name: Paul, dtype: float64

## Sélections complexes via des conditions

In [27]:
c = (df['Pierre'] >= 0.3)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.842743,0.039651,0.543104
Février,0.467615,0.275337,0.761652
Mars,0.497341,0.503744,0.270699
Avril,0.864567,0.153688,0.412072


Pour compter le nombre de lignes qui vérifient la condition, il suffit de compter le nombre de `True` dans la `pd.Series` `c`, ce qui revient à sommer `c` car en Python `True = 1` et `False = 0`.

In [32]:
c.sum()

4

In [33]:
c = (df['Pierre'] >= 0.3) & (df['Paul'] < 0.1)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.842743,0.039651,0.543104


# 2. I/O

Depuis et vers `pandas` on peut utiliser du CSV, Excel, SQL, JSON et sans doute d'autres encore.

## CSV

In [34]:
df.to_csv('toto.csv')

## Excel

In [35]:
df.to_excel('toto.xlsx')

## SQL

In [36]:
from sqlalchemy import create_engine

engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [37]:
df.to_sql("ma_table", connection)

In [38]:
connection.close()

## Et pour lire ?

C'est le même principe !

In [27]:
pd.read_csv('toto.csv', index_col=0)

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [28]:
pd.read_excel('toto.xlsx')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [29]:
engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [30]:
# Lit une table entière
pd.read_sql_table("ma_table", connection, index_col='index')

Unnamed: 0_level_0,Pierre,Paul,Jacques
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [31]:
# Liste toutes les tables du sqlite
print(engine.table_names())

['ma_table']


In [32]:
for table in engine.table_names():
    print(pd.read_sql_table(table, connection))

     index    Pierre      Paul   Jacques
0  Janvier  0.254889  0.483189  0.941259
1  Février  0.297467  0.192431  0.570116
2     Mars  0.484921  0.804019  0.718281
3    Avril  0.207242  0.230061  0.596878
4      Mai  0.094680  0.540839  0.833893


In [33]:
connection.close()

# 3. Valeurs manquantes

In [47]:
# On construit une DataFrame avec des nombres aléatoires et une case vide
df = pd.DataFrame(data=np.random.uniform(size=(5, 3)),
                  columns=['Pierre', 'Paul', 'Jacques'],
                  index=['Janvier', 'Février', 'Mars', 'Avril', 'Mai'])

df.loc['Février', 'Jacques'] = np.nan
df.loc['Mars', 'Pierre'] = np.nan

df

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,
Mars,,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


## Comment sait-on qu'on a des cases vides ?

In [48]:
df.isnull()

Unnamed: 0,Pierre,Paul,Jacques
Janvier,False,False,False
Février,False,False,True
Mars,True,False,False
Avril,False,False,False
Mai,False,False,False


En résumé (n'oublions pas qu'en Python `True=1` et `False=0`) :

In [49]:
df.isnull().sum()

Pierre     1
Paul       0
Jacques    1
dtype: int64

In [50]:
df.isnull().sum(axis='columns')

Janvier    0
Février    1
Mars       1
Avril      0
Mai        0
dtype: int64

Ou bien :

In [51]:
df.isnull().any(axis='columns')

Janvier    False
Février     True
Mars        True
Avril      False
Mai        False
dtype: bool

In [52]:
df.isnull().all(axis='columns')

Janvier    False
Février    False
Mars       False
Avril      False
Mai        False
dtype: bool

## Comment éliminer des valeurs manquantes ?

Attention : **ce n'est pas toujours la bonne solution !**

In [53]:
# condition que chaque ligne ne contienne pas d'élément vide dans la colonne 'Jacques'
c = df['Jacques'].notnull()
df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Mars,,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [54]:
# condition que chaque ligne ne contienne aucun élément vide
c = df.notnull().all(axis='columns')
df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


## Comment remplacer les valeurs manquantes ?

In [55]:
df.fillna(1.0)

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,1.0
Mars,1.0,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [56]:
df.fillna(method='ffill')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,0.287741
Mars,0.298394,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [57]:
df.fillna(method='bfill')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,0.869777
Mars,0.348545,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [59]:
medians = df.median()
print(medians)

df.fillna(value=medians)

Pierre     0.326953
Paul       0.773828
Jacques    0.329133
dtype: float64


Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,0.329133
Mars,0.326953,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


# 4. Séries temporelles

Ce sont juste des `pd.DataFrame` avec des indices temporels.

## Comment les créer ?

Généralement on va les lire dans un fichier ou dans une base de données. Mais voyons comment les créer.

In [69]:
rng = pd.date_range('7/12/2018', periods=20, freq='5S')
rng

DatetimeIndex(['2018-07-12 00:00:00', '2018-07-12 00:00:05',
               '2018-07-12 00:00:10', '2018-07-12 00:00:15',
               '2018-07-12 00:00:20', '2018-07-12 00:00:25',
               '2018-07-12 00:00:30', '2018-07-12 00:00:35',
               '2018-07-12 00:00:40', '2018-07-12 00:00:45',
               '2018-07-12 00:00:50', '2018-07-12 00:00:55',
               '2018-07-12 00:01:00', '2018-07-12 00:01:05',
               '2018-07-12 00:01:10', '2018-07-12 00:01:15',
               '2018-07-12 00:01:20', '2018-07-12 00:01:25',
               '2018-07-12 00:01:30', '2018-07-12 00:01:35'],
              dtype='datetime64[ns]', freq='5S')

In [70]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts

2018-07-12 00:00:00    315
2018-07-12 00:00:05    268
2018-07-12 00:00:10    167
2018-07-12 00:00:15    132
2018-07-12 00:00:20    391
2018-07-12 00:00:25    419
2018-07-12 00:00:30    458
2018-07-12 00:00:35    483
2018-07-12 00:00:40      6
2018-07-12 00:00:45    444
2018-07-12 00:00:50    331
2018-07-12 00:00:55    330
2018-07-12 00:01:00    492
2018-07-12 00:01:05    238
2018-07-12 00:01:10    166
2018-07-12 00:01:15    238
2018-07-12 00:01:20    133
2018-07-12 00:01:25     97
2018-07-12 00:01:30    353
2018-07-12 00:01:35    381
Freq: 5S, dtype: int64

## Comment les ré-échantillonner ?

In [73]:
ts.resample('Min').mean()

2018-07-12 00:00:00    312.00
2018-07-12 00:01:00    262.25
Freq: T, dtype: float64