# Import des modules nécessaires

In [1]:
# Pour faire des calculs complexes (ici c'est juste pour créer des tableaux de nombres aléatoires)
import numpy as np

# Pour manipuler efficacement des tables de données dans Python
import pandas as pd

In [2]:
print(np.__version__)

1.14.3


In [3]:
print(pd.__version__)

0.23.4


Pandas est une bibliothèque écrite pour le langage de programmation Python permettant la manipulation et l'analyse des données. Elle propose en particulier des structures de données et des opérations de manipulation de tableaux numériques et de séries temporelles. Pandas est un logiciel libre sous licence BSD.

# 1. DataFrames et Series

Les `DataFrame` et `Series` sont les types les plus utilisés dans `pandas` et il est fondamental de bien les comprendre !

Une `DataFrame` est juste une table de données, avec des lignes et des colonnes. Les données peuvent être de toute sorte : numériques, chaînes de caractères, booléens.

Une `Series` est simplement une colonne de `DataFrame`.

In [4]:
# On construit une DataFrame avec des nombres aléatoires
df = pd.DataFrame(data=np.random.uniform(size=(5, 3)),
                  columns=['Pierre', 'Paul', 'Jacques'],
                  index=['Janvier', 'Février', 'Mars', 'Avril', 'Mai'])

df

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [5]:
type(df)

pandas.core.frame.DataFrame

In [6]:
df['Pierre']

Janvier    0.254889
Février    0.297467
Mars       0.484921
Avril      0.207242
Mai        0.094680
Name: Pierre, dtype: float64

In [7]:
type(df['Pierre'])

pandas.core.series.Series

## Manipulations sur les `DataFrame` et `Series`

In [8]:
df * 2

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.509779,0.966378,1.882518
Février,0.594933,0.384861,1.140232
Mars,0.969842,1.608037,1.436562
Avril,0.414484,0.460122,1.193756
Mai,0.18936,1.081677,1.667786


In [9]:
df['Pierre'] + df['Paul']

Janvier    0.738078
Février    0.489897
Mars       1.288939
Avril      0.437303
Mai        0.635519
dtype: float64

In [10]:
df.mean()

Pierre     0.267840
Paul       0.450107
Jacques    0.732085
dtype: float64

In [11]:
df.mean(axis='columns')

Janvier    0.559779
Février    0.353338
Mars       0.669073
Avril      0.344727
Mai        0.489804
dtype: float64

## Sélection simple (par indice) de lignes et de colonnes

In [12]:
df.iloc[2:5, 1:3]

Unnamed: 0,Paul,Jacques
Mars,0.804019,0.718281
Avril,0.230061,0.596878
Mai,0.540839,0.833893


In [13]:
df.iloc[3:5]

Unnamed: 0,Pierre,Paul,Jacques
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


## Sélection par noms

In [14]:
df.loc['Mai']

Pierre     0.094680
Paul       0.540839
Jacques    0.833893
Name: Mai, dtype: float64

In [15]:
df.loc['Janvier':'Mars']

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281


In [16]:
df.loc['Janvier':'Mars', 'Paul']

Janvier    0.483189
Février    0.192431
Mars       0.804019
Name: Paul, dtype: float64

## Sélections complexes via des conditions

In [17]:
c = (df['Pierre'] >= 0.3)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Mars,0.484921,0.804019,0.718281


In [18]:
c = (df['Pierre'] >= 0.3) & (df['Paul'] < 0.1)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques


# 2. I/O

Depuis et vers `pandas` on peut utiliser du CSV, Excel, SQL, JSON et sans doute d'autres encore.

## CSV

In [19]:
df.to_csv('toto.csv')

In [20]:
help(df.to_csv)

Help on method to_csv in module pandas.core.frame:

to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True, escapechar=None, decimal='.') method of pandas.core.frame.DataFrame instance
    Write DataFrame to a comma-separated values (csv) file
    
    Parameters
    ----------
    path_or_buf : string or file handle, default None
        File path or object, if None is provided the result is returned as
        a string.
    sep : character, default ','
        Field delimiter for the output file.
    na_rep : string, default ''
        Missing data representation
    float_format : string, default None
        Format string for floating point numbers
    columns : sequence, optional
        Columns to write
    header : boolean or list of string, default Tr

## Excel

In [21]:
df.to_excel('toto.xlsx')

In [22]:
help(df.to_excel)

Help on method to_excel in module pandas.core.frame:

to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None) method of pandas.core.frame.DataFrame instance
    Write DataFrame to an excel sheet
    
    
    Parameters
    ----------
    excel_writer : string or ExcelWriter object
        File path or existing ExcelWriter
    sheet_name : string, default 'Sheet1'
        Name of sheet which will contain DataFrame
    na_rep : string, default ''
        Missing data representation
    float_format : string, default None
        Format string for floating point numbers
    columns : sequence, optional
        Columns to write
    header : boolean or list of string, default True
        Write out the column names. If a list of strings is given it is
        assumed to be aliases for the column name

## SQL

In [23]:
from sqlalchemy import create_engine

engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [24]:
df.to_sql("ma_table", connection)

In [25]:
connection.close()

In [26]:
help(df.to_sql)

Help on method to_sql in module pandas.core.generic:

to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None) method of pandas.core.frame.DataFrame instance
    Write records stored in a DataFrame to a SQL database.
    
    Databases supported by SQLAlchemy [1]_ are supported. Tables can be
    newly created, appended to, or overwritten.
    
    Parameters
    ----------
    name : string
        Name of SQL table.
    con : sqlalchemy.engine.Engine or sqlite3.Connection
        Using SQLAlchemy makes it possible to use any DB supported by that
        library. Legacy support is provided for sqlite3.Connection objects.
    schema : string, optional
        Specify the schema (if database flavor supports this). If None, use
        default schema.
    if_exists : {'fail', 'replace', 'append'}, default 'fail'
        How to behave if the table already exists.
    
        * fail: Raise a ValueError.
        * replace: Drop the table be

## Et pour lire ?

C'est le même principe !

In [27]:
pd.read_csv('toto.csv', index_col=0)

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [28]:
pd.read_excel('toto.xlsx')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [29]:
engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [30]:
# Lit une table entière
pd.read_sql_table("ma_table", connection, index_col='index')

Unnamed: 0_level_0,Pierre,Paul,Jacques
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Janvier,0.254889,0.483189,0.941259
Février,0.297467,0.192431,0.570116
Mars,0.484921,0.804019,0.718281
Avril,0.207242,0.230061,0.596878
Mai,0.09468,0.540839,0.833893


In [31]:
# Liste toutes les tables du sqlite
print(engine.table_names())

['ma_table']


In [32]:
for table in engine.table_names():
    print(pd.read_sql_table(table, connection))

     index    Pierre      Paul   Jacques
0  Janvier  0.254889  0.483189  0.941259
1  Février  0.297467  0.192431  0.570116
2     Mars  0.484921  0.804019  0.718281
3    Avril  0.207242  0.230061  0.596878
4      Mai  0.094680  0.540839  0.833893


In [33]:
connection.close()

# 3. Valeurs manquantes

In [47]:
# On construit une DataFrame avec des nombres aléatoires et une case vide
df = pd.DataFrame(data=np.random.uniform(size=(5, 3)),
                  columns=['Pierre', 'Paul', 'Jacques'],
                  index=['Janvier', 'Février', 'Mars', 'Avril', 'Mai'])

df.loc['Février', 'Jacques'] = np.nan
df.loc['Mars', 'Pierre'] = np.nan

df

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,
Mars,,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


## Comment sait-on qu'on a des cases vides ?

In [48]:
df.isnull()

Unnamed: 0,Pierre,Paul,Jacques
Janvier,False,False,False
Février,False,False,True
Mars,True,False,False
Avril,False,False,False
Mai,False,False,False


En résumé (n'oublions pas qu'en Python `True=1` et `False=0`) :

In [49]:
df.isnull().sum()

Pierre     1
Paul       0
Jacques    1
dtype: int64

In [50]:
df.isnull().sum(axis='columns')

Janvier    0
Février    1
Mars       1
Avril      0
Mai        0
dtype: int64

Ou bien :

In [51]:
df.isnull().any(axis='columns')

Janvier    False
Février     True
Mars        True
Avril      False
Mai        False
dtype: bool

In [52]:
df.isnull().all(axis='columns')

Janvier    False
Février    False
Mars       False
Avril      False
Mai        False
dtype: bool

## Comment éliminer des valeurs manquantes ?

Attention : **ce n'est pas toujours la bonne solution !**

In [53]:
# condition que chaque ligne ne contienne pas d'élément vide dans la colonne 'Jacques'
c = df['Jacques'].notnull()
df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Mars,,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [54]:
# condition que chaque ligne ne contienne aucun élément vide
c = df.notnull().all(axis='columns')
df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


## Comment remplacer les valeurs manquantes ?

In [55]:
df.fillna(1.0)

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,1.0
Mars,1.0,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [56]:
df.fillna(method='ffill')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,0.287741
Mars,0.298394,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [57]:
df.fillna(method='bfill')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,0.869777
Mars,0.348545,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


In [59]:
medians = df.median()
print(medians)

df.fillna(value=medians)

Pierre     0.326953
Paul       0.773828
Jacques    0.329133
dtype: float64


Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.305362,0.759026,0.287741
Février,0.298394,0.930921,0.329133
Mars,0.326953,0.140461,0.869777
Avril,0.348545,0.859908,0.03197
Mai,0.97627,0.773828,0.370526


# 4. Séries temporelles

Ce sont juste des `pd.DataFrame` avec des indices temporels.

## Comment les créer ?

Généralement on va les lire dans un fichier ou dans une base de données. Mais voyons comment les créer.

In [69]:
rng = pd.date_range('7/12/2018', periods=20, freq='5S')
rng

DatetimeIndex(['2018-07-12 00:00:00', '2018-07-12 00:00:05',
               '2018-07-12 00:00:10', '2018-07-12 00:00:15',
               '2018-07-12 00:00:20', '2018-07-12 00:00:25',
               '2018-07-12 00:00:30', '2018-07-12 00:00:35',
               '2018-07-12 00:00:40', '2018-07-12 00:00:45',
               '2018-07-12 00:00:50', '2018-07-12 00:00:55',
               '2018-07-12 00:01:00', '2018-07-12 00:01:05',
               '2018-07-12 00:01:10', '2018-07-12 00:01:15',
               '2018-07-12 00:01:20', '2018-07-12 00:01:25',
               '2018-07-12 00:01:30', '2018-07-12 00:01:35'],
              dtype='datetime64[ns]', freq='5S')

In [70]:
ts = pd.Series(np.random.randint(0, 500, len(rng)), index=rng)
ts

2018-07-12 00:00:00    315
2018-07-12 00:00:05    268
2018-07-12 00:00:10    167
2018-07-12 00:00:15    132
2018-07-12 00:00:20    391
2018-07-12 00:00:25    419
2018-07-12 00:00:30    458
2018-07-12 00:00:35    483
2018-07-12 00:00:40      6
2018-07-12 00:00:45    444
2018-07-12 00:00:50    331
2018-07-12 00:00:55    330
2018-07-12 00:01:00    492
2018-07-12 00:01:05    238
2018-07-12 00:01:10    166
2018-07-12 00:01:15    238
2018-07-12 00:01:20    133
2018-07-12 00:01:25     97
2018-07-12 00:01:30    353
2018-07-12 00:01:35    381
Freq: 5S, dtype: int64

## Comment les ré-échantillonner ?

In [73]:
ts.resample('Min').mean()

2018-07-12 00:00:00    312.00
2018-07-12 00:01:00    262.25
Freq: T, dtype: float64