# Import des modules nécessaires

In [1]:
# Pour faire des calculs complexes (ici c'est juste pour créer des tableaux de nombres aléatoires)
import numpy as np

# Pour manipuler efficacement des tables de données dans Python
import pandas as pd

In [2]:
print(np.__version__)

1.14.5


In [3]:
print(pd.__version__)

0.23.1


Pandas est une bibliothèque écrite pour le langage de programmation Python permettant la manipulation et l'analyse des données. Elle propose en particulier des structures de données et des opérations de manipulation de tableaux numériques et de séries temporelles. Pandas est un logiciel libre sous licence BSD.

# 1. DataFrames et Series

Les `DataFrame` et `Series` sont les types les plus utilisés dans `pandas` et il est fondamental de bien les comprendre !

Une `DataFrame` est juste une table de données, avec des lignes et des colonnes. Les données peuvent être de toute sorte : numériques, chaînes de caractères, booléens.

Une `Series` est simplement une colonne de `DataFrame`.

In [4]:
# On construit une DataFrame avec des nombres aléatoires
df = pd.DataFrame(data=np.random.uniform(size=(5, 3)),
                  columns=['Pierre', 'Paul', 'Jacques'],
                  index=['Janvier', 'Février', 'Mars', 'Avril', 'Mai'])

df

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.645536,0.176716,0.991179
Février,0.735269,0.184118,0.502226
Mars,0.926174,0.190383,0.996167
Avril,0.908391,0.981401,0.042464
Mai,0.445806,0.568057,0.34578


In [5]:
type(df)

pandas.core.frame.DataFrame

In [6]:
df['Pierre']

Janvier    0.645536
Février    0.735269
Mars       0.926174
Avril      0.908391
Mai        0.445806
Name: Pierre, dtype: float64

In [7]:
type(df['Pierre'])

pandas.core.series.Series

## Manipulations sur les `DataFrame` et `Series`

In [8]:
df * 2

Unnamed: 0,Pierre,Paul,Jacques
Janvier,1.291072,0.353432,1.982358
Février,1.470538,0.368235,1.004452
Mars,1.852348,0.380766,1.992335
Avril,1.816782,1.962803,0.084928
Mai,0.891612,1.136115,0.691561


In [9]:
df['Pierre'] + df['Paul']

Janvier    0.822252
Février    0.919387
Mars       1.116557
Avril      1.889793
Mai        1.013864
dtype: float64

In [10]:
df.mean()

Pierre     0.732235
Paul       0.420135
Jacques    0.575563
dtype: float64

In [11]:
df.mean(axis='columns')

Janvier    0.604477
Février    0.473871
Mars       0.704241
Avril      0.644086
Mai        0.453215
dtype: float64

## Sélection simple (par indice) de lignes et de colonnes

In [12]:
df.iloc[2:5, 1:3]

Unnamed: 0,Paul,Jacques
Mars,0.190383,0.996167
Avril,0.981401,0.042464
Mai,0.568057,0.34578


In [13]:
df.iloc[3:5]

Unnamed: 0,Pierre,Paul,Jacques
Avril,0.908391,0.981401,0.042464
Mai,0.445806,0.568057,0.34578


## Sélection par noms

In [14]:
df.loc['Mai']

Pierre     0.445806
Paul       0.568057
Jacques    0.345780
Name: Mai, dtype: float64

In [15]:
df.loc['Janvier':'Mars']

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.645536,0.176716,0.991179
Février,0.735269,0.184118,0.502226
Mars,0.926174,0.190383,0.996167


In [16]:
df.loc['Janvier':'Mars', 'Paul']

Janvier    0.176716
Février    0.184118
Mars       0.190383
Name: Paul, dtype: float64

## Sélections complexes via des conditions

In [17]:
c = (df['Pierre'] >= 0.3)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.645536,0.176716,0.991179
Février,0.735269,0.184118,0.502226
Mars,0.926174,0.190383,0.996167
Avril,0.908391,0.981401,0.042464
Mai,0.445806,0.568057,0.34578


In [18]:
c = (df['Pierre'] >= 0.3) & (df['Paul'] < 0.1)

df.loc[c]

Unnamed: 0,Pierre,Paul,Jacques


# 2. I/O

Depuis et vers `pandas` on peut utiliser du CSV, Excel, SQL, JSON et sans doute d'autres encore.

## CSV

In [19]:
df.to_csv('toto.csv')

In [20]:
help(df.to_csv)

Help on method to_csv in module pandas.core.frame:

to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression=None, quoting=None, quotechar='"', line_terminator='\n', chunksize=None, tupleize_cols=None, date_format=None, doublequote=True, escapechar=None, decimal='.') method of pandas.core.frame.DataFrame instance
    Write DataFrame to a comma-separated values (csv) file
    
    Parameters
    ----------
    path_or_buf : string or file handle, default None
        File path or object, if None is provided the result is returned as
        a string.
    sep : character, default ','
        Field delimiter for the output file.
    na_rep : string, default ''
        Missing data representation
    float_format : string, default None
        Format string for floating point numbers
    columns : sequence, optional
        Columns to write
    header : boolean or list of string, default Tr

## Excel

In [21]:
df.to_excel('toto.xlsx')

In [22]:
help(df.to_excel)

Help on method to_excel in module pandas.core.frame:

to_excel(excel_writer, sheet_name='Sheet1', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, startrow=0, startcol=0, engine=None, merge_cells=True, encoding=None, inf_rep='inf', verbose=True, freeze_panes=None) method of pandas.core.frame.DataFrame instance
    Write DataFrame to an excel sheet
    
    
    Parameters
    ----------
    excel_writer : string or ExcelWriter object
        File path or existing ExcelWriter
    sheet_name : string, default 'Sheet1'
        Name of sheet which will contain DataFrame
    na_rep : string, default ''
        Missing data representation
    float_format : string, default None
        Format string for floating point numbers
    columns : sequence, optional
        Columns to write
    header : boolean or list of string, default True
        Write out the column names. If a list of strings is given it is
        assumed to be aliases for the column name

## SQL

In [23]:
from sqlalchemy import create_engine

engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [24]:
df.to_sql("ma_table", connection)

In [25]:
connection.close()

In [26]:
help(df.to_sql)

Help on method to_sql in module pandas.core.generic:

to_sql(name, con, schema=None, if_exists='fail', index=True, index_label=None, chunksize=None, dtype=None) method of pandas.core.frame.DataFrame instance
    Write records stored in a DataFrame to a SQL database.
    
    Databases supported by SQLAlchemy [1]_ are supported. Tables can be
    newly created, appended to, or overwritten.
    
    Parameters
    ----------
    name : string
        Name of SQL table.
    con : sqlalchemy.engine.Engine or sqlite3.Connection
        Using SQLAlchemy makes it possible to use any DB supported by that
        library. Legacy support is provided for sqlite3.Connection objects.
    schema : string, optional
        Specify the schema (if database flavor supports this). If None, use
        default schema.
    if_exists : {'fail', 'replace', 'append'}, default 'fail'
        How to behave if the table already exists.
    
        * fail: Raise a ValueError.
        * replace: Drop the table be

## Et pour lire ?

C'est le même principe !

In [27]:
pd.read_csv('toto.csv', index_col=0)

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.645536,0.176716,0.991179
Février,0.735269,0.184118,0.502226
Mars,0.926174,0.190383,0.996167
Avril,0.908391,0.981401,0.042464
Mai,0.445806,0.568057,0.34578


In [28]:
pd.read_excel('toto.xlsx')

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.645536,0.176716,0.991179
Février,0.735269,0.184118,0.502226
Mars,0.926174,0.190383,0.996167
Avril,0.908391,0.981401,0.042464
Mai,0.445806,0.568057,0.34578


In [32]:
engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [33]:
# Lit une table entière
pd.read_sql_table("ma_table", connection, index_col='index')

Unnamed: 0_level_0,Pierre,Paul,Jacques
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Janvier,0.645536,0.176716,0.991179
Février,0.735269,0.184118,0.502226
Mars,0.926174,0.190383,0.996167
Avril,0.908391,0.981401,0.042464
Mai,0.445806,0.568057,0.34578


In [36]:
# Liste toutes les tables du sqlite
print(engine.table_names())

['ma_table']


In [37]:
for table in engine.table_names():
    print(pd.read_sql_table(table, connection))

     index    Pierre      Paul   Jacques
0  Janvier  0.645536  0.176716  0.991179
1  Février  0.735269  0.184118  0.502226
2     Mars  0.926174  0.190383  0.996167
3    Avril  0.908391  0.981401  0.042464
4      Mai  0.445806  0.568057  0.345780


In [31]:
connection.close()