In [2]:
%matplotlib inline

# Formation à Python pour les Statistiques : Jour 1 - Introduction

## Objectifs

* Introduire à l'utilisation de modules python pour les statistiques :
   * Scikit-learn
   * Pandas
   * PyMC
   * Scipy
   * OpenTURNS

## Présentation des sites des principaux modules

http://www.numpy.org/

http://www.scipy.org/

http://pandas.pydata.org/

http://statsmodels.sourceforge.net/

http://scikit-learn.org/stable/

http://pymc-devs.github.io/pymc/

http://orange.biolab.si/

http://www.openturns.org


## Rappels Python

Le langage Python est un langage *interprété* (comme Matlab), ce qui implique donc l'utilisation d'un interpréteur pour traduire le code Python en langage compréhensible par la machine (l'ordinateur)

Il en existe de nombreux, voici une présentation des trois plus utilisés :
1. **Interpréteur de base** : C'est l'interpréteur historique de Python. Il est utilisé pour cette raison. Il est cependant un peu trop rigide pour une utilisation quotidienne !
![intepréteur python.png](./figures/python.png "intepréteur python")

2. **IPython** : Pour Interactive Python. Comme son nom l'indique, il intégre de multiples fonctionnalités à l'interpréteur de base.
On peut noter par exemple :
    * l'ajout des quelques fonctionnalités shell (bash pour linux, dos pour windows), 
    * un opérateur de complétion automatique, 
    * des fonctions magiques (%paste, ...),
    * un accès aux docstrings des objets python, c.à.d leur documentation, via l'opérateur ?,
    * une fonctionnalité de calcul parallèle.
![intepréteur ipython.png](./figures/ipython.png "intepréteur ipython")

3. **IPython Notebook**
Ce n'est pas un interpréteur à proprement parler, il s'agit d'une interface *web* d'IPython. Toutes les fonctionnalités d'IPython sont donc disponibles, avec en sus la possibilité d'intégrer autour du code:
    * divers langages (Latex, Markdown),
    * des figures issues de calculs ou d'une source externe.
Un notebook (format .ipynb) est également exportable tel quel en format html ou pdf.


### Les variables

#### Les types de variables

![types des variables.png](./figures/types_variables.png "types des variables python")

#### Les opérations entre variables numériques

Une opération (multiplication, division, soustraction, addition) entre plusieurs variables numériques donne un résultat dont le type dépend des variables utilisées
![opérations variables.png](./figures/operations_entre_variables.png "opérations entre variables python")

#### Définir des variables

##### Variables simples : 

In [3]:
a = 1
b = 1.
c = 1 + 2 * 1j
d = "variables"

print "Type de a : %s"%type(a)
print "Type de b : %s"%type(b)
print "Type de c : %s"%type(c)
print "Type de d : %s"%type(d)

SyntaxError: invalid syntax (<ipython-input-3-01e7cfc3341d>, line 6)

##### Collections de variables :

In [None]:
a = [1, 2, 3, 4, 5]
b = [] # Liste vide !
c = [element for element in xrange(3)]
d = [[1, 2], [1, 2]]

print 'a = ', a
print 'b = ', b
print 'c = ', c
print 'd = ', d

In [None]:
print "premier élément de a = ", a[0]
print "dernier élément de a = ", a[-1] # Pour l'avant-dernier : a[-2]
print "deux premiers éléments de a = ", a[:2] # ou a[0:2]
print "Parcourir a de 2 en 2 :", a[::2]
print "Parcourir a à partir du dernier élément :", a[::-1]
print "premier élément de d = ", d[0]
print "deuxième élément du premier élément de d = ", d[0][1]

Plusieurs méthodes permettent de modifier une liste et son contenu :
* append : ajoute un terme à la fin de la liste,
* insert : insert un terme à la position voulue,
* remove : supprime la première occurence d'une valeur dans une liste.

Pour concaténer deux listes (possible également avec les tuple), il suffit de les ajouter.

Un dictionnaire est une structure composée de deux éléments :
* Les *keys*,
* et leurs *values*.

Pour créer un dictionnaire :

In [None]:
a = {'Stress' : 35,
     'Unit' : 'MPa'}

b = dict(Stress = 35, Unit = 'MPa')
print "a = ", a
print "b = ", b

In [None]:
a['Stress'] = a['Stress'] * 1e6
a['Unit'] = 'Pa'

print "a = ", a
print "b = ", b

#### Les tests

Les différents types de test disponibles sont :
![tests_python.png](./figures/test_python.png "tests python")

Un test résulte systèmatiquement en un booléen (*True* ou *False*).
Un test peut être composé de plusieurs sous-tests, reliés entre eux par des les opérations logiques *or* (porte où) et *and* (porte et)

### Les instructions "complexes"

En python, une instruction "complexe" est composée :

* Du nom de l'instruction
* Des arguments de l'instruction
* De ":" pour indiquer le début du code concerné par l'instruction
* Du code concerné, indenté. La fin de l'indentation indique la fin du bloc de code concerné.

#### Exécution conditonnelle

On trouve 3 instructions de contrôle : *if, elif, else.*

In [None]:
variable = 1

if variable == 1:
    print 'Good Morning'
elif variable == 2:
    print 'Good Evening'
else:
    print 'Good Night'

#### Les boucles

On trouve deux sortes de boucles en Python :
* boucle *for*
* boucle *while*

In [None]:
for i in range(2, 10, 1):
    a = 2*i
    b = a + i
    print "(2 x %d) + %d = %d" % (i,i,b)

In [None]:
variable = [i for i in range(10) if not i % 2]
print "variable = ", variable
print "type de variable : ", type(variable)

In [None]:
liste = ['Hello', 'How are you doing ?', 'Ok nice, see you later then !']
for string in liste:
    print string

In [None]:
i = 0
while i < 2:
    print 'hello World'
    i += 1 # Un # indique un commentaire, i += 1 signifie que l'on incrémente i de 1

Dans les boucles, trois mots clés pouvant interagir avec celles-ci sont utilisables :

* *pass* : sans effet, parfois utile pour des raisons syntaxiques
* *break* : lorsque ce mot clé est rencontré, la boucle est directement interrompue
* *continue* : lorsque ce mot clé est rencontré, l'exécution de la boucle passe directement à l'itération suivante en ignorant toutes les instructions qui sont après ce mot clé

In [None]:
i = 0
while i < 5:
    if i < 2:
        print 'hello World'
        i += 1
        continue
    if i > 3:
        break
    print 'i = ', i
    i += 1 # Un # indique un commentaire, i += 1 signifie que l'on incrément i de 1

print 'Final : i = ', i

#### La déclaration et l'appel de fonctions

Il peut être utile de définir des fonctions pour utiliser un code de manière récursive. En Python, la syntaxe est la suivante :

    def nom_de_ma_fonction(arguments_de_ma_fonction):
        return resultat_de_ma_fonction
L'indentation sert une nouvelle fois à définir la portée de la commande, ici la fonction.

Ensuite pour appeler cette fonction la syntaxe est :

    nom_de_ma_fonction(arguments_de_ma_fonction)
    

In [None]:
def fonction_puissance(nombre=1, puissance=1):
    return nombre**puissance # ** est l'opérateur de puissance

In [None]:
print "2^3 = ", fonction_puissance(2, 3)

In [None]:
print "2^3 = ", fonction_puissance(2, 3)
print "2^3 = ", fonction_puissance(nombre=2, puissance=3)
print "2^3 = ", fonction_puissance(puissance=3, nombre=2)
print "2^3 = ", fonction_puissance()

Python propose aussi les variables magiques \*args  et \**kwargs. En indiquant ces variables comme arguments d'une fonction, il est possible de passer des arguments supplémentaires ce qui permet d'assouplir et d'étendre la validité d'une définition de fonction.

In [None]:
def listing(premier_argument, *args, **kwargs):
    liste = []
    liste.append(premier_argument)
    for arg in args:
        liste.append(arg)
    for kwarg in kwargs.keys():
        liste.append([kwarg, kwargs[kwarg]])
    return liste

In [None]:
print "un argument : ", listing('argument')
print "deux arguments : ",listing('argument', '*arg', '*arg2')
print "deux arguments et un keyword argument: ",listing('argument', '*arg', karg='**kwargs')

**ATTENTION** : Les espaces de variables ne sont pas partagés en Python. C'est à dire qu'une variable créée dans une fonction n'est pas accessible en dehors de celle-ci. Toutes les variables auxquelles on souhaite accéder doivent être retournées avec la commande *return*.

En revanche une fonction a accès à l'espace de l'interpréteur, ce qui veut dire que toute variable instanciée avant de définir une fonction est accessible par celle-ci sans qu'il ne soit nécessaire de la mettre en argument. 

Il est également possible pour les fonctions très simples de les écrire sous forme d'une *lambda function* suivant la syntaxe :

    fonction = lambda input1, input2, ... : formule

In [None]:
f = lambda x, y : [x*2]*y
print f(4, 3)

#### La déclaration et l'utilisation d'objets

Python est un langage orienté objet, la programmation de ceux-ci suit le même principe que pour les fonctions : c'est très simple.

La syntaxe générique est la suivante :

    class Nom_de_ma_classe(Parents_de_ma_classe):
        def __init__(self, argument1, argument2, *args, **kwargs):
            self.argument1 = argument1
            _argument2 = argument2
            
        def methode_de_ma_classe(self, argument_de_la_methode, *args, **kwargs):
            return resultat_de_la_methode

La liste des subtilités :

* 'Parents_de_ma_classe' est un objet dont hérite 'Nom_de_ma_classe', c'est à dire que l'objet 'Nom_de_ma_classe' aura également tous les arguments et méthodes de l'objet 'Parents_de_ma_classe',
* La fonction __init__ est le constructeur de l'objet : elle est appelée lors de la création de celui-ci,
* A l'intérieur d'un objet, self se réfère à celui-ci. Tous les arguments définis par 'self.' sont accessibles à l'extérieur de l'objet, ainsi que dans toutes les méthodes de l'objet,
* Les arguments définis par '_' sont des arguments privés. Les arguments privés n'existent pas en Python, ceci est une convention de programmation. Ici, '_argument2' est donc notifié comme étant privé, et non accessible de l'extérieur ou par une autre méthode de l'objet
* 'methode_de_ma_classe' est une méthode de l'objet, accessible depuis l'extérieur, qui nécessite ses propres arguments 'argument_de_la_methode'. L'argument 'self' est systèmatiquement transmis sans intervention de l'utilisateur, la méthode a donc accès à tous les arguments définis dans l'objet (devancés par self.) et à toutes les autres méthodes.

In [None]:
class Puissance():
    def __init__(self, puissance):
        self.puissance = puissance
    
    def __call__(self, nombre):
        """
        Cette fonction retourne la puissance du nombre
        """
        return nombre**self.puissance
    
    def methode(self, nombre):
        """
        Cette fonction retourne aussi la puissance du nombre
        """
        return nombre**self.puissance

In [None]:
# Instanciation de l'objet
obj_puissance = Puissance(puissance=2)

# Calcul du carré de 3
print "3^2 = ", obj_puissance(nombre=3)

# Calcul du carré de 3
print "3^2 = ", obj_puissance.methode(nombre=3)


# Accès au paramètre puissance
print "puissance de l'objet = ", obj_puissance.puissance

# Qui peut être changé bien sûr
obj_puissance.puissance = 3
print "puissance de l'objet = ", obj_puissance.puissance


#### Debugging

Les erreurs d'exécution de code arrivent... et sont parfois prévisibles ! Et Python peut les gérer avec les commandes *try* et *except*

In [None]:
variable = range(5)
print "variable = ", variable
a = 1.
for b in variable:
    try:
        print a / b
    except:
        print 'Division par zéro !'

Il est aussi possible d'inspecter l'exécution d'un code en utilisant le module pdb :

In [None]:
import pdb
a = 0
pdb.set_trace()
b = 1

Où, via le notebook, de l'utiliser pour retourner à la dernière exception :

In [None]:
%debug

#### L'utilisation de modules

En Python, un objet peut être programmé dans un script externe (extension .py). 
Pour importer un module les syntaxes possibles sont les suivantes :

    import mon_module
    objet = mon_module.mon_objet(args)
    
    import mon_module as m
    fonction = m.ma_fonction(args)
    
    from mon_module import mon_objet
    objet = mon_objet(args)
    
    from mon_module import *
    objet = mon_objet(args)
    fonction = ma_fonction(args)
    
L'import \* est dans la mesure du possible **à éviter**. De nombreux modules possédent des fonctions aux noms identiques, ce qui peut amener à quelques incohérences ! Dans l'idéal, il est préférable de mettre tous les imports de modules au début pour améliorer la compréhension du code.

Un script peut donc devenir un module utilisable par n'importe quel autre script (sous réserve d'indiquer à Python où chercher !)
Pour cela, on utilise le module *sys*

    import sys
    sys.path.append("localisation/de/mon/script")

## Rappels de numpy

Le module Numpy permet de donner à Python des fonctionnalités de calculs scientifiques proches de Matlab, notamment sur la gestion des tableaux et matrices.
Comme nous l'avons vu, pour importer numpy :

In [None]:
import numpy as np

### Fonctionnalité principale : les numpy arrays

Les numpy array sont des tableaux de nombres ayant un certain nombre de spécificités décrites ci-dessous.

Pour démarrer, il faut instancier un array !

In [None]:
mon_array1 = np.array([]) # array vide

mon_array2 = np.array([1, 2, 3]) # vecteur {1, 2, 3}

mon_array3 = np.array([[1, 2], [2, 1]]) # matrice [1, 2 // 2, 1]

mon_array4 = np.array([[[1, 2], [1, 2]],
                       [[1, 2], [1, 2]]]) # matrice 3D

De nombreux générateurs d'array sont également disponibles

In [None]:
matrice_de_0 = np.zeros((3, 3), dtype=float)
vecteur = np.linspace(1, 9, 9)
vecteur_2 = np.arange(6)
matrice_de_1 = np.ones((5,5))
matrice_identite = np.eye(5)
matrice = vecteur.reshape(3, 3, order='C')

##### Accéder aux éléments d'un array

L'accès à un élément d'un array se fait de la même façon que pour accéder à un élément d'une liste.

In [None]:
print "premier élément de vecteur = ", vecteur[0]
print "dernier élément de vecteur  = ", vecteur[-1] 
print "deux premiers éléments de vecteur  = ", vecteur[:2]
print "Parcourir vecteur  de 2 en 2 :", vecteur[::2]
print "Parcourir vecteur  à partir du dernier élément :", vecteur[::-1]

In [None]:
print "élément (11) de matrice = ", matrice[0, 0]
print "extraction d'une sous-matrice \n", matrice[1:, 1:]
print "extraction d'une sous-matrice \n", matrice[1:, :]

##### Les opérations entre array : le broadcasting

Les opérations entre array suivent une règle appelée le broadcasting. Lorsque cela concerne des array de formes matricielles, les opérations ne sont pas matricielles (nous reviendrons sur ce point)

Voici les régles :


* ![broad1.png](./figures/broad1.png "opérations entre array numpy")

* ![broad2.png](./figures/broad2.png "opérations entre array numpy")

* ![broad3.png](./figures/broad3.png "opérations entre array numpy")

* ![broad4.png](./figures/broad4.png "opérations entre array numpy")

In [None]:
scalaire = 5.
vecteur1 = np.array([0, 1, 2, 3])
vecteur2 = np.array([[0], [1], [2], [3]]) 
# possibilité de le créer en écrivant np.array([0, 1, 2, 3]).reshape(1,4)
#                                     np.atleast_2d(np.array([0, 1, 2, 3])).transpose()

In [None]:
print "vecteur1 + scalaire = \n", vecteur1 + scalaire
print "vecteur2 * scalaire = \n", vecteur2 * scalaire
print "vecteur1 + vecteur2 = \n", vecteur1 + vecteur2
print "vecteur1 * vecteur2 = \n", vecteur1 * vecteur2

Pour réaliser des opérations matricielles, il faut passer par la classe matrix. Avec celle-ci, plus de broadcasting ! On peut facilement passer d'un array à une matrice :

    matrice = np.matrix(array)
    array = np.array(matrice)
    
Une autre option pour le produit matriciel est la fonction dot.

In [None]:
matrice1 = np.matrix([[1, 2, 3], [0, 4, 5], [0, 0, 6]])
array1 = np.array([[1, 2, 3], [0, 4, 5], [0, 0, 6]])
print "matrice1 = \n", matrice1

print "matrice1 * matrice1.T = \n", matrice1*matrice1.T # T permet de transposer. Attention, sur un array 1d ceci n'a
                                                        # aucun impact.
print "matrice1 * matrice1.T = \n", np.dot(array1, array1.T)

## Utilisation de Pandas

Pandas est un module python qui propose un nouveau type de tableau (différent des arrays de Numpy !) qui est beaucoup plus adapté aux structures de données : le *DataFrame*

Un *DataFrame* est une structure ligne colonne pour laquelle chaque colonne correspond à une *Series*

In [None]:
import pandas as pds

### Création d'un dataframe à partir d'un objet Python

In [None]:
liste2d = [[10, 11], [20, 21], [30, 31], [40, 41], [50, 51]]
dictionnaire2d = {'cat. A' : 10, 'cat. A' : 20, 'cat. C' : 30, 'cat. D' : 40, 'cat. E' : np.arange(5)}
array = np.arange(25).reshape((5,5))

In [None]:
dataList = pds.DataFrame(liste)
dataList2d = pds.DataFrame(liste2d)
dataDict = pds.DataFrame(dictionnaire2d, index=['p1', 'p2', 'p3', 'p4', 'p4'])
dataArray = pds.DataFrame(array, index=['x1', 'x2', 'x3', 'x4', 'x5'], columns=['y1', 'y2', 'y3', 'y4', 'y5'])

dataList2 = pds.DataFrame(liste2d, index=['A', 'A', 'cat. C', 'cat. D', 'cat. E'], columns=list('AA'))

dates = pds.date_range('20130101',periods=5)
dataList3 = pds.DataFrame(liste2d, index=dates, columns=list('AB'))

In [None]:
dataList3

### Création d'un dataframe à partir d'un fichier

In [None]:
dataCSV = pds.read_csv('./exemples/example.csv', sep=',', header=None)
dataCSV.head()

In [None]:
dataExcel = pds.read_excel('./exemples/example.xlsx', 'Data', parse_cols='A:M')
dataExcel.fillna(value=2)
dataExcel.head()

### Navigation dans un DataFrame

La navigation dans les *DataFrame* est similaire à la navigation dans un dictionnaire !
On peut naviguer dans les lignes avec 

* leur position
* leur indice (leur *key*)

Pour sélectionner des cellules d'un DataFrame, il existe de nombreux moyens, dont 4 principaux :

* loc : indexation basée uniquement sur les labels. Index et Colonnes.
* iloc : indexation basée uniquement sur la position. Index et Colonnes.
* ix : indexation mixte basée sur les labels et/ou la position. Index et Colonnes
* indexation type array : liste de labels pour les colonnes, liste de positions pour les index.

In [None]:
d = {'one':np.arange(5),
     'three':np.repeat(3,5),
     'two':np.arange(5,10,1),
     'letter':['a','a','b','b','c']}
index = ['first', 'second', 'third', 'fourth', 'fifth']
df = pds.DataFrame(d, index=index)
df

#### Utilisation de loc :

In [None]:
df.loc['first']

In [None]:
df.loc['first':'third']

In [None]:
df.loc['first', 'letter']

In [None]:
df.loc[['first'], ['letter']]

In [None]:
df.loc[['first', 'second'], ['letter']]

In [None]:
df.loc[['letter'], ['first', 'second']]

#### Utilisation de iloc : 

Cherchons à obtenir les mêmes résultats qu'avec loc

In [None]:
df.iloc[0]

In [None]:
df.iloc[0:3]

In [None]:
df.iloc[0,0]

In [None]:
df.iloc[[0],[0]]

In [None]:
df.iloc[0:2, [0]]

In [None]:
df.iloc[[0], [0,1]]

#### Utilisation de ix

ix est un opérateur capable de mixer labels et index.

Six cas peuvent se présenter :

* label et label : le premier label sera identifié comme l'index d'une ligne

In [None]:
df.ix[['first'], ['letter']]

In [None]:
df.ix[['letter'], ['first']]

* label et index : le label sera identifié comme l'index d'une ligne, l'index sera la position de la colonne

In [None]:
df.ix[['first'], [0]]

In [None]:
df.ix[['letter'], [0]]

* index et label : l'index sera identifié comme la position d'une ligne, le label sera associé à la colonne correspondante

In [None]:
df.ix[[0], ['letter']]

In [None]:
df.ix[[0], ['first']]

* index et index : le premier index sera identifié comme la position d'une ligne

In [None]:
df.ix[[0], [1]]

In [None]:
df.ix[[1], [0]]

* label : ce sera le label d'une ligne qui sera recherchée

In [None]:
df.ix[['first']]

In [None]:
df.ix[:, ['letter']]

* index : ce sera la position d'une ligne qui sera recherchée

In [None]:
df.ix[[0]]

In [None]:
df.ix[:, [0]]

#### L'indexation logique

In [None]:
df[df > 2]

In [None]:
df[df['one'] > 2]

In [None]:
df.where(df > 2, -1)

In [None]:
df['two'] = df.ix[:, 2].where(df['two'] > 7, -1)
df

### Fonctions usuelles

In [None]:
df.describe()

In [None]:
df.sort_index(axis=1, ascending=False)

In [None]:
df[df > 2].dropna(how='any') # par ligne

In [None]:
df[df > 2].dropna(how='all') # par colonne

In [None]:
df[df > 2].fillna(value=-1)

#### groupby, apply et les lambda functions

La méthode groupby crée un objet itérable qui regroupe les lignes d'un dataframe selon une caractéristique commune suivant une ou plusieurs colonnes.
La méthode apply d'un dataframe permet d'appliquer une fonction sur ses éléments (d'un groupby, mais aussi d'un dataframe).
Le principal intérêt est d'appliquer une *lambda function* : fonction simple définie par l'utilisateur

    lamba x, y : x*y, x**y
    
*Rappel : tout autre type de fonction (définie par def, ou bien fonction d'un module comme numpy.sin) peut être appliquée de cette façon.*

In [None]:
df['one'].apply(lambda x : str(x)+'_str')

In [None]:
df['one'].apply(np.exp)

In [None]:
group = df.groupby(['letter'])

for key, value in group:
    print value

In [None]:
group[['one', 'two']].apply(lambda x : x.mean() / x.std())

Attention, apply agrège les données ! Pour conserver un DataFrame de même taille, il faut utiliser transform

In [None]:
group[['one', 'two']].transform(lambda x : x.mean() / x.std())

#### Analyse graphique

In [None]:
dataExcel[['Param 9', 'Param 12']].boxplot(rot=90);

In [None]:
dataExcel.groupby('Param 1').aggregate([np.mean, lambda x : 0.05*x])['Param 12'].plot(y='mean', linestyle='--', figsize=(12,12))