# Mini Tutoriel de Pandas

inspiré par:
* [les tutoriels de Greg Reda](http://www.gregreda.com/2013/10/26/working-with-pandas-dataframes/)
* [Tutoriels de David Rojas](https://bitbucket.org/hrojas/learn-pandas)
* [Financial Analysis in Python](http://nbviewer.ipython.org/github/twiecki/financial-analysis-python-tutorial/blob/master/1.%20Pandas%20Basics.ipynb)
* [Tutoriels de mikhail semeniuk](http://www.bearrelroll.com/2013/05/python-pandas-tutorial/)

Voici aussi la [doc officielle](http://pandas.pydata.org/pandas-docs/stable/index.html)

In [1]:
import pandas as pd
import numpy as np

# Introduction aux DataFrames

Dans Pandas, il y a deux types de classes principalement:
* les `Series`. En gros, il s'agit d'un vecteur de données
* les `DataFrames`. En gros, c'est un tableau de données. Un DataFrame est composé d'autant de Series qu'il y a de variables

Créons un DataFrame:

In [2]:
toyData = pd.DataFrame( {  "name":  ["toto","tata","titi","john","Nina","Oliver"],
                           "age" :  [27,32,10,15,9,None],
                           "height":[1.2,1.1,1.0,1.8,1.6,1.9],
                           "hair":  ["brown","red","red","red","brown","white"]   } )

In [3]:
toyData

Unnamed: 0,age,hair,height,name
0,27.0,brown,1.2,toto
1,32.0,red,1.1,tata
2,10.0,red,1.0,titi
3,15.0,red,1.8,john
4,9.0,brown,1.6,Nina
5,,white,1.9,Oliver


Autres facon d'afficher les données ou des infos sur les données:

    toyData.head(3)
    toyData.dtypes
    toyData.info()
    toyData.describe()

In [4]:
toyData.describe()

Unnamed: 0,age,height
count,5.0,6.0
mean,18.6,1.433333
std,10.358571,0.382971
min,9.0,1.0
25%,10.0,1.125
50%,15.0,1.4
75%,27.0,1.75
max,32.0,1.9


## Sélection des données (colonnes et lignes)

La doc officielle est [ici](http://pandas.pydata.org/pandas-docs/stable/indexing.html)

### Les variables

Pour accéder à une (ou plusieurs) variables, on peut écrire l'une de ces deux formes:

    toyData['hair']
    toyData[[1]]
    toyData[['age','name']]
    
    toyData.loc[:,'hair']           # loc sélectionne une tranche (slice) des lignes et des colonnes
    toyData.loc[:,'name':'height']  # ici, garder toutes les variables de name à height

    
Note:
* si on sélectionne une variable, on obtient une `Series`
* si on sélectionne plusieurs variables du `DataFrame`, Pandas nous renvoie un `DataFrame`

In [25]:
toyData[['hair','name']]

Unnamed: 0,hair,name
0,brown,toto
1,red,tata
2,red,titi
3,red,john
4,brown,Nina
5,white,Oliver


In [9]:
print type(toyData)  ,  type(toyData[["age","name"]])

<class 'pandas.core.frame.DataFrame'> <class 'pandas.core.frame.DataFrame'>


du coup, on peut appeler des functions qui s'appliquent au `DataFrame`, comme
    ``toyData[["hair","name"]].describe()``

### Les lignes

Sélectionner une (ou plusieurs ligne) par son numéro

    toyData.iloc[2]
    toyData.iloc[ [1,3] ]  # sélectionne les lignes 1 et 3
    toyData.iloc[:4]
    toyData.loc[:4]        # si l'index n'a pas été changé, iloc et loc donnent le même résultat

Mais pour sélectionner le kieme élément d'une `Serie` S, il suffit de faire `S[k]`

    toyData.hair[2]

Sélectionner des lignes en fonction des valeurs des variables

In [10]:
toyData.age > 20

0     True
1     True
2    False
3    False
4    False
5    False
Name: age, dtype: bool

In [11]:
toyData[toyData.age > 20] # note: on peut combiner les filtres avec la notation (filtre 1) & (filtre 2)...

Unnamed: 0,age,hair,height,name
0,27,brown,1.2,toto
1,32,red,1.1,tata


**Question:** (pour chacune, proposez plusieurs solutions)
* comment extraire l'age de la première personne ?
* Noms des gens ayant les cheveux rouges et au moins 12 ans ?

In [19]:
print "age de la 1iere personne: ",toyData.iloc[0].age
print "nom des cheveux rouges d'au moins 12 ans: "
print toyData[(toyData.hair == 'red') & (toyData.age >= 12)].name

age de la 1iere personne:  27.0
nom des cheveux rouges d'au moins 12 ans: 
1    tata
3    john
Name: name, dtype: object


**Note:**
* Pour que l'accès aux lignes du tableau de données avec `iloc[]` soit rapide, `Pandas` crée automatiquement un index.
* `iloc[]` accède aux index numériques, mais en général, pour les autres types d'index, on utilise `loc[]`
* On peut créer un index sur n'importe quelle variable, par exemple l'age:

In [None]:
toy2 = toyData.set_index(['age'],drop=False)  # drop signifie que 'age' est gardée dans le tableau, en plus d'être un index
toy2.loc[32]['name']

* On peut aussi créer des index sur plusieurs variables. Dans ce cas, il faut respecter l'ordre de ces variables pour accéder aux données (ici: hair, puis age).

In [21]:
toy3 = toyData.set_index(['hair','age'],drop=False)
toy3

Unnamed: 0_level_0,Unnamed: 1_level_0,age,hair,height,name
hair,age,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
brown,27.0,27.0,brown,1.2,toto
red,32.0,32.0,red,1.1,tata
red,10.0,10.0,red,1.0,titi
red,15.0,15.0,red,1.8,john
brown,9.0,9.0,brown,1.6,Nina
white,,,white,1.9,Oliver


In [22]:
toy3.loc['red'].loc[32]

age         32
hair       red
height     1.1
name      tata
Name: 32.0, dtype: object

## GroupBy and Join (comme en SQL)

In [23]:
tdg = toyData.groupby('hair').agg([np.mean,np.max])
tdg

Unnamed: 0_level_0,age,age,height,height
Unnamed: 0_level_1,mean,amax,mean,amax
hair,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
brown,18.0,27.0,1.4,1.6
red,19.0,32.0,1.3,1.8
white,,,1.9,1.9


In [24]:
tdg['age']['mean']['red'] # ou bien tdg[('age','mean')]['red']

19.0

Faisons maintenant un `join` à la façon SQL entre les deux tableaux, sur la variable `hair`. Pour cela, il faut que les deux tableaux aient pour index `hair`

In [25]:
toyData.set_index('hair',drop=False,inplace=True) #inplace forcera Pandas à agir sur toyData et non pas à renvoyer une nouveau tableau
td = toyData.join(tdg)
td

Unnamed: 0_level_0,age,hair,height,name,"(age, mean)","(age, amax)","(height, mean)","(height, amax)"
hair,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
brown,27.0,brown,1.2,toto,18.0,27.0,1.4,1.6
brown,9.0,brown,1.6,Nina,18.0,27.0,1.4,1.6
red,32.0,red,1.1,tata,19.0,32.0,1.3,1.8
red,10.0,red,1.0,titi,19.0,32.0,1.3,1.8
red,15.0,red,1.8,john,19.0,32.0,1.3,1.8
white,,white,1.9,Oliver,,,1.9,1.9


Un peu de ménage...

In [26]:
td.rename(columns={('age','mean'):'agemean'},inplace=True)
td.index = range(6)
td.loc[:,'age':'agemean']

Unnamed: 0,age,hair,height,name,agemean
0,27.0,brown,1.2,toto,18.0
1,9.0,brown,1.6,Nina,18.0
2,32.0,red,1.1,tata,19.0
3,10.0,red,1.0,titi,19.0
4,15.0,red,1.8,john,19.0
5,,white,1.9,Oliver,


Pour en savoir plus sur `groupby`, `join`, etc.. voir par exemple [ici](http://www.bearrelroll.com/2013/05/python-pandas-tutorial/)