# Import des modules nécessaires

In [2]:
# Pour faire des calculs complexes (ici c'est juste pour créer des tableaux de nombres aléatoires)
import numpy as np

# Pour manipuler efficacement des tables de données dans Python
import pandas as pd

In [3]:
print(np.__version__)

1.14.5


In [4]:
print(pd.__version__)

0.23.1


Pandas est une bibliothèque écrite pour le langage de programmation Python permettant la manipulation et l'analyse des données. Elle propose en particulier des structures de données et des opérations de manipulation de tableaux numériques et de séries temporelles. Pandas est un logiciel libre sous licence BSD.

# 1. DataFrames et Series

Les `DataFrame` et `Series` sont les types les plus utilisés dans `pandas` et il est fondamental de bien les comprendre !

Une `DataFrame` est juste une table de données, avec des lignes et des colonnes. Les données peuvent être de toute sorte : numériques, chaînes de caractères, booléens.

Une `Series` est simplement une colonne de `DataFrame`.

In [11]:
# On construit une DataFrame avec des nombres aléatoires
df = pd.DataFrame(data=np.random.uniform(size=(5, 3)),
                  columns=['Pierre', 'Paul', 'Jacques'],
                  index=['Janvier', 'Février', 'Mars', 'Avril', 'Mai'])

df

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.475468,0.48777,0.104015
Février,0.886622,0.455004,0.034617
Mars,0.064802,0.491446,0.816716
Avril,0.059269,0.465569,0.803816
Mai,0.314085,0.736473,0.333575


In [12]:
type(df)

pandas.core.frame.DataFrame

In [13]:
df['Pierre']

Janvier    0.475468
Février    0.886622
Mars       0.064802
Avril      0.059269
Mai        0.314085
Name: Pierre, dtype: float64

In [14]:
type(df['Pierre'])

pandas.core.series.Series

## Manipulations sur les `DataFrame` et `Series`

In [15]:
df * 2

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.950936,0.97554,0.20803
Février,1.773244,0.910008,0.069234
Mars,0.129605,0.982893,1.633431
Avril,0.118537,0.931138,1.607632
Mai,0.628171,1.472947,0.667151


In [16]:
df['Pierre'] + df['Paul']

Janvier    0.963238
Février    1.341626
Mars       0.556249
Avril      0.524838
Mai        1.050559
dtype: float64

In [17]:
df.mean()

Pierre     0.360049
Paul       0.527253
Jacques    0.418548
dtype: float64

In [18]:
df.mean(axis='columns')

Janvier    0.355751
Février    0.458748
Mars       0.457655
Avril      0.442885
Mai        0.461378
dtype: float64

## Sélection simple (par indice) de lignes et de colonnes

In [20]:
df.iloc[2:5, 1:3]

Unnamed: 0,Paul,Jacques
Mars,0.491446,0.816716
Avril,0.465569,0.803816
Mai,0.736473,0.333575


In [21]:
df.iloc[3:5]

Unnamed: 0,Pierre,Paul,Jacques
Avril,0.059269,0.465569,0.803816
Mai,0.314085,0.736473,0.333575


## Sélection par noms

In [22]:
df.loc['Mai']

Pierre     0.314085
Paul       0.736473
Jacques    0.333575
Name: Mai, dtype: float64

In [23]:
df.loc['Janvier':'Mars']

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.475468,0.48777,0.104015
Février,0.886622,0.455004,0.034617
Mars,0.064802,0.491446,0.816716


In [24]:
df.loc['Janvier':'Mars', 'Paul']

Janvier    0.487770
Février    0.455004
Mars       0.491446
Name: Paul, dtype: float64

## Sélections complexes via des conditions

In [21]:
c = (df['Pierre'] >= 0.3)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
0,0.391794,0.868705,0.366976
2,0.781396,0.077974,0.471961
8,0.35306,0.363255,0.438925


In [22]:
c = (df['Pierre'] >= 0.3) & (df['Paul'] < 0.1)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
2,0.781396,0.077974,0.471961


# 2. I/O

Depuis et vers `pandas` on peut utiliser du CSV, Excel, SQL, JSON et sans doute d'autres encore.

## CSV

In [26]:
df.to_csv('toto.csv')

In [27]:
help(df.to_csv)

Help on method to_csv in module pandas.core.frame:

to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True, escapechar=None, decimal='.') method of pandas.core.frame.DataFrame instance
    Write DataFrame to a comma-separated values (csv) file
    
    Parameters
    ----------
    path_or_buf : string or file handle, default None
        File path or object, if None is provided the result is returned as
        a string.
    sep : character, default ','
        Field delimiter for the output file.
    na_rep : string, default ''
        Missing data representation
    float_format : string, default None
        Format string for floating point numbers
    columns : sequence, optional
        Columns to write
    header : boolean or list of string, default Tr

## Excel

In [28]:
df.to_excel('toto.xlsx')

In [29]:
help(df.to_excel)

Help on method to_excel in module pandas.core.frame:

to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None) method of pandas.core.frame.DataFrame instance
    Write DataFrame to an excel sheet
    
    
    Parameters
    ----------
    excel_writer : string or ExcelWriter object
        File path or existing ExcelWriter
    sheet_name : string, default 'Sheet1'
        Name of sheet which will contain DataFrame
    na_rep : string, default ''
        Missing data representation
    float_format : string, default None
        Format string for floating point numbers
    columns : sequence, optional
        Columns to write
    header : boolean or list of string, default True
        Write out the column names. If a list of strings is given it is
        assumed to be aliases for the column name

## SQL

In [30]:
from sqlalchemy import create_engine

engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [31]:
df.to_sql("ma_table", connection)

In [32]:
connection.close()

In [33]:
help(df.to_sql)

Help on method to_sql in module pandas.core.generic:

to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None) method of pandas.core.frame.DataFrame instance
    Write records stored in a DataFrame to a SQL database.
    
    Databases supported by SQLAlchemy [1]_ are supported. Tables can be
    newly created, appended to, or overwritten.
    
    Parameters
    ----------
    name : string
        Name of SQL table.
    con : sqlalchemy.engine.Engine or sqlite3.Connection
        Using SQLAlchemy makes it possible to use any DB supported by that
        library. Legacy support is provided for sqlite3.Connection objects.
    schema : string, optional
        Specify the schema (if database flavor supports this). If None, use
        default schema.
    if_exists : {'fail', 'replace', 'append'}, default 'fail'
        How to behave if the table already exists.
    
        * fail: Raise a ValueError.
        * replace: Drop the table be

## Et pour lire ?

C'est le même principe !

In [35]:
pd.read_csv('toto.csv', index_col=0)

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.475468,0.48777,0.104015
Février,0.886622,0.455004,0.034617
Mars,0.064802,0.491446,0.816716
Avril,0.059269,0.465569,0.803816
Mai,0.314085,0.736473,0.333575


In [36]:
pd.read_excel('toto.xlsx')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.475468,0.48777,0.104015
Février,0.886622,0.455004,0.034617
Mars,0.064802,0.491446,0.816716
Avril,0.059269,0.465569,0.803816
Mai,0.314085,0.736473,0.333575


In [37]:
engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [39]:
pd.read_sql_table("ma_table", connection, index_col='index')

Unnamed: 0_level_0,Pierre,Paul,Jacques
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Janvier,0.475468,0.48777,0.104015
Février,0.886622,0.455004,0.034617
Mars,0.064802,0.491446,0.816716
Avril,0.059269,0.465569,0.803816
Mai,0.314085,0.736473,0.333575


In [40]:
connection.close()