# Import des modules nécessaires

In [1]:
# Pour faire des calculs complexes (ici c'est juste pour créer des tableaux de nombres aléatoires)
import numpy as np

# Pour manipuler efficacement des tables de données dans Python
import pandas as pd

In [2]:
print(np.__version__)

1.14.0


In [3]:
print(pd.__version__)

0.22.0


Pandas est une bibliothèque écrite pour le langage de programmation Python permettant la manipulation et l'analyse des données. Elle propose en particulier des structures de données et des opérations de manipulation de tableaux numériques et de séries temporelles. Pandas est un logiciel libre sous licence BSD.

# 1. DataFrames et Series

Les `DataFrame` et `Series` sont les types les plus utilisés dans `pandas` et il est fondamental de bien les comprendre !

Une `DataFrame` est juste une table de données, avec des lignes et des colonnes. Les données peuvent être de toute sorte : numériques, chaînes de caractères, booléens.

Une `Series` est simplement une colonne de `DataFrame`.

In [5]:
# On construit une DataFrame avec des nombres aléatoires
np.random.seed(42)
df = pd.DataFrame(data=np.random.uniform(size=(5, 3)),
                  columns=['Pierre', 'Paul', 'Jacques'],
                  index=['Janvier', 'Février', 'Mars', 'Avril', 'Mai'])

df

Unnamed: 0,Pierre,Paul,Jacques
Janvier,0.37454,0.950714,0.731994
Février,0.598658,0.156019,0.155995
Mars,0.058084,0.866176,0.601115
Avril,0.708073,0.020584,0.96991
Mai,0.832443,0.212339,0.181825


In [None]:
type(df)

In [None]:
df['Pierre']

In [None]:
type(df['Pierre'])

## Manipulations sur les `DataFrame` et `Series`

In [None]:
df * 2

In [None]:
df['Pierre'] + df['Paul']

In [None]:
df.mean()

In [None]:
df.mean(axis='columns')

## Sélection simple (par indice) de lignes et de colonnes

In [None]:
df.iloc[2:5, 1:3]

In [None]:
df.iloc[3:5]

## Sélection par noms

In [None]:
df.loc['Mai']

In [None]:
df.loc['Janvier':'Mars']

In [None]:
df.loc['Janvier':'Mars', 'Paul']

## Sélections complexes via des conditions

In [None]:
c = (df['Pierre'] >= 0.3)

df.loc[c]

In [None]:
c = (df['Pierre'] >= 0.3) & (df['Paul'] < 0.1)

df.loc[c]

In [None]:
c = (df['Pierre'] <= 0.9)

df.loc[c]

# 2. I/O

Depuis et vers `pandas` on peut utiliser du CSV, Excel, SQL, JSON et sans doute d'autres encore.

## CSV

In [None]:
df.to_csv('toto.csv')

In [None]:
help(df.to_csv)

## Excel

In [None]:
df.to_excel('toto.xlsx')

In [None]:
help(df.to_excel)

## SQL

In [None]:
from sqlalchemy import create_engine

engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [None]:
df.to_sql("ma_table", connection)

In [None]:
connection.close()

In [None]:
help(df.to_sql)

## Et pour lire ?

C'est le même principe !

In [None]:
pd.read_csv('toto.csv', index_col=0)

In [None]:
pd.read_excel('toto.xlsx')

In [None]:
engine = create_engine('sqlite:///toto.sqlite')
connection = engine.connect()

In [None]:
pd.read_sql_table("ma_table", connection, index_col='index')

In [None]:
connection.close()