# Mutabilité

En Python, il existe ce qu'on appelle des types **mutables** et des types **immutables**. On peut modifier un objet, avec un type mutable, après sa création tandis qu'avec un objet de type immutable on ne peut pas. Par exemple, voici un type immutable:

In [None]:
a = 5
b = a
a = 3
print('a: {}, b: {}'.format(a,b))

et voila un type mutable:

In [None]:
l = [1, 2, 3]
t = l
l[0] = 8
print('l: {}, t: {}'.format(l,t))

On remarque que dans le premier cas le fait de modifier la variable **a** n'a pas modifié la variable **b** alors que dans le second cas une modification de **l** a engendré une modification de **t**. Ainsi il faut faire attention lorsqu'on veut stocker un objet dans un autre, si le premier est de type mutable cela risque de produire des effets indésirables dans votre programme. Pour copier un objet de type mutable sans que cela crée le problème précédent, il existe plusieurs solutions. Par exemple pour une liste, on peut utiliser le slicing **[:]** ou la fonction **list()**.

In [None]:
liste1 = [-0.4, 8, 15]
liste2 = liste1[:]
liste3 = list(liste1)

liste1[0] = 4
print('liste1: {}, liste2: {}, liste3: {}'.format(liste1,liste2,liste3))

Les types immutables sont les int, float, boolean, string, etc... Les types mutables sont en général les conteneurs (sauf pour les tuples) et les types créés par d'autres personnes, c'est à dire les listes, les series, les dataframes, etc... D'ailleurs il existe un type de conteneur très utile dont on n'a pas parlé la dernière fois: l'**array** du module numpy qui consiste en un vecteur ou une matrice (selon les dimensions choisies). Vous l'avez déjà rencontré avec les objets Series et Dataframe du module pandas. En effet, ces derniers permettent de créer des index et d'avoir des noms de colonnes mais les données sont stockées dans des **array**.

In [None]:
import pandas as pd

S = pd.Series([4,2,9])
S.values

Remarquez que la sortie est un objet de type array. Pour construire directement un objet de type array, il suffit la fonction **array()** du module numpy avec comme paramètre une liste de données.

In [None]:
import numpy as np

M = np.array([[4, 7, 9], [9, 5, 2]])
M

Ce type de conteneur est très utile pour faire de l'algèbre linéaire ou pour appliquer certaines fonctions (celles définies dans le module numpy) à un ensemble de valeurs de manière efficace.

In [None]:
Mat = np.ones((3,3))
Vec = np.zeros(3)
Vec[1] = 5
print(Vec)
print(Mat)

res = np.dot(Vec,Mat)
print(res)

res2 = np.cos(Vec)
print(res2)

# Figures

Nous utiliserons le module **matplotlib.pyplot** pour tracer des figures avec Python.

Pour afficher les figures ici dans le notebook, il faut également utiliser l'instruction  **%matplotlib nbagg** quand on importe les différents modules (sinon les figures s'affichent dans une fenêtre à part). Si vous utilisez IDLE, vous n'avez pas besoin de l'instruction **%matplotlib nbagg**. Vous pouvez aussi utiliser l' instruction **%matplotlib inline** pour que les figures s'affichent dans la sortie de la cellule. Par contre, avec cette commande vous n'aurez plus le mode intéractif et il faudra faire les modifications d'une figure dans la même cellule.

In [None]:
%matplotlib nbagg

import matplotlib
import matplotlib.pyplot as plt

Chaque fonction de **pyplot** apporte un changement à la figure *courante*  comme p.ex. 
tracer des lignes, changer la couleur, ajouter une légende, annoter les axes etc. 

Voici un premier exemple pour tracer une courbe:

- La fonction **plt.figure** crée une nouvelle figure (dont le numéro de figure est le nombre passé à la fonction en argument).

- Ensuite, la fonction **plt.plot** crée une courbe qui passe par les points dont les coordonnées sont données en argument par  deux listes. La première liste sont les coordonnées des abscisses, la deuxièmes les  coordonnées des ordonnées. 

Précision pour IDLE :
Si vous utilisez IDLE, une figure n'est affichée que quand vous le 
 demandez explicitement par l'instruction **plt.show()**. C'est-à-dire, on fait d'abord toutes les commandes  **plt.plot**, **plt.setp** etc. et à la fin on appel **plt.show()**. 

In [None]:
plt.figure(1)
plt.plot(range(5),[4,3.6,2.5,3.2,4.1])

Ici, dans le notebook, nous sommes en mode interactif, ce qui veut dire qu'il est possible d'ajouter des éléments supplémentaires ou de modifier les caractéristiques de la figure.

Essayez d'ajouter une autre courbe à la figure par une nouvelle instruction **plt.plot**. La courbe doit passera par les points (2, 3), (0.5, 3.5) et (8, 2).

Pour effacer une figure et  recommencer, il faut arrêter le mode interactif en appuyant sur le bouton bleu en haut à droite de la figure.

Que se passe-t-il si on appelle la fonction **plt.plot** avec une seule liste ? Essayez-le.

In [None]:
plt.plot([3,4,3,4,3,4,3,4,3,4,3])

Les fonctions de matplotlib ne sont pas limitées à des listes comme arguments des fonctions, mais elles  acceptent aussi des  *numpy array*. 

Il est également possible de  tracer plusieurs courbes par un seul appel de la fonction **plt.plot**:

In [None]:
plt.figure(2)
x = np.arange(0., 10., 0.1)
y1 = 2*x
y2 = np.sqrt(x)+6*np.log(x+1)
y3 = x**2-10*x
plt.plot(x,y1, x,y2, x,y3)

### Titre et noms des axes

Maintenant,  ajoutons un titre à la figure et annotons les axes :

In [None]:
plt.title('Titre de la figure')
plt.ylabel(u"Axe des ordonnées")
plt.xlabel("Axe des abscisses")

Rappelez-vous qu'en Python, l'emploi de  lettres avec des accents (à,é,è etc.) dans les chaînes de caractères peut poser des problèmes d'encodage. Pour y remédier, il faut faire précéder la chaîne de caractère par  *u* afin de préciser l'encodage (voir exemple ci-dessus).

Aussi, pour définir une chaîne de caractères contenant des apostrophes comme la phrase *Python, c'est trop cool*, il faut utiliser les guillemets (") et non pas les apostrophes ('). C'est-à-dire, on écrit
*"Python, c'est trop cool"*, parce que *'Python, c'est trop cool'* ne marchera pas.

Changez le titre et les noms des axes de  la dernière figure.

### Couleur, type de ligne, marqueur

Maintenant, nous allons apprendre à modifier la couleur, tracer des points, choisir les symboles représentant des points etc. Cela peut se faire par les options de la fonction **plt.plot**. 

Analysez les  exemples suivants.


In [None]:
plt.figure(3)
x = np.arange(0., 5., 0.1)
y = x**2
plt.plot(x,y)
plt.plot(x,y+1, linewidth=5.0, color='r', linestyle='--')
plt.plot(x,y+2, 'r--')
plt.plot(x,y+3, 'g:')
plt.plot(x,y+4, 'b-.')
plt.plot(x,y+5, 'c^')

Alternativement, on peut utiliser les attributs du graphique pour modifier ses caractéristiques. Ceci est particulièrement pratique  quand on veut tracer plusieurs courbes dans le même style. (Consultez l'aide sur  **matplotlib.lines.Line2D** pour une description complète des attributs http://matplotlib.org/api/lines_api.html#matplotlib.lines.Line2D.)

Voyons comment ça marche en continuant l'exemple ci-dessus :

In [None]:
courbes = plt.plot(x,y+8, x,y+9, x,y+10)
plt.setp(courbes, color='m', linestyle='-.')

In [None]:
courbes2 = plt.plot(x,30-y, x,y-3)
plt.setp(courbes2,color='k', marker = '.',markevery=5, markersize=50,markeredgecolor='g',
         markerfacecolor='w')

Liste de couleurs en **matplotlib**:

- b: blue

- g: green

- r: red

- c: cyan

- m: magenta

- y: yellow

- k: black

- w: white

- et encore plus de couleurs ici : http://matplotlib.org/1.2.1/api/colors_api.html

Liste de types de ligne (*linestyle*):

-  '-' ligne solide

- '--' ligne interrompue

-  ':' ligne pointillée

- '-.' ligne en traits-points

- ' ' rien, pas de ligne

Liste de types de marker (*markerstyle*):

- '.' point

- ',' pixel

- 'o' cercle

- '^' triangle (pointant vers le haut)

- 'v' triagnle (pointant vers le bas)

- '\*' étoile

- '+' plus

- 'x' x

- 's' carré

- 'd' diamond

-  et encore plus ici: http://matplotlib.org/api/markers_api.html#module-matplotlib.markers


### Plusieurs figures dans une fenêtre

Voyons maintenant comment créer plusieurs figures dans une seule fenêtre. Voici un exemple, dont le code est expliqué après :


In [None]:
def f(t):
    return np.exp(-t) * np.cos(2*np.pi*t)

t1 = np.arange(0.0, 5.0, 0.1)
t2 = np.arange(0.0, 5.0, 0.02)

plt.figure(4)
plt.subplot(211)
plt.plot(t1, f(t1), 'bo', t2, f(t2), 'k')

plt.subplot(212)
plt.plot(t2, np.cos(2*np.pi*t2), 'r--')

Tout d'abords, nous avons crée une fonction pour pouvoir l'évaluer sur plusieurs intervalles. Pour ce faire on écrit **def** puis le nom de la fonction (qui apparait en bleu), des parenthèses **(** **)**, les paramètres entre les parenthèses (dans notre cas t) et les deux points **:**. Enfin, on renvoit le résultat avec **return**.

Pour tracer plusieurs figures dans une même fenêtre,  on ouvre d'abord une fenêtre par la fonction **plt.figure**.

Ensuite, on crée la première figure par la fonction **plt.subplot**, et on trace tous les graphiques de la première figure  par des commandes **plt.plot**.

Pour passer à la figures suivante, on appelle encore la fonction **plt.subplot**, puis on trace les graphiques correspondants avec **plt.plot**.

L'unique difficulté pour des figures multiples sont les arguments de la fonction **plt.subplot(lcn)**. Les nombres **l** et **c** indiquent le nombre de figures et comment les-répartir dans la fenêtre. En fait, virtuellement la fenêtre est coupée en  **l** lignes et **c** colonnes définissant les emplacements des différentes figures. Ensuite, **n** est le numéro de la figure actuelle qu'on veut construire (les figures sont numérotées de gauche à droite, du haut en bas). Dans l'exemple ci-dessus on trace  deux figures l'un au-dessous de l'autre. On a alors **l=2** lignes et **c=1** colonne.

Dans l'appel de **plt.subplot**, on peut aussi mettre des virgules entre les arguments. C'est-à-dire les instructions **plt.subplot(3,2,5)** et **plt.subplot(325)** sont équivalentes. En revanche, si un des nombres **l,c,n** dépasse 9, les virgules deviennent obligatoires.

### Légende

Dès qu'on trace plus d'une courbe dans une figure, il est très important de mettre une légende pour expliquer les différents symboles/couleurs. Voici comment faire: 
D'abord on trace ses différentes courbes avec **plt.plot** en ajoutant l'option **label='texte pour la legende'**. Ensuite, on utilise **plt.legend** pour construire une légende.  

In [None]:
plt.figure(5)
plt.plot([1,5,1],'b-', label='la premiere courbe')
plt.plot([5,1,5],'m:o', label=u'la courbe pointillée')
plt.plot(np.arange(0,2,.2),np.arange(0,4,.4),'r^', linewidth=3, label='triangles')
plt.legend()

Pour choisir l'endroit où la légende est placée dans la figure, on utilise l'option **loc** dans **plt.legend(loc=3)** :

- **loc=0** : choix automatique (optimal)

- **loc=1** : en haut à droite

- **loc=2** : en haut à gauche

- **loc=3** : en bas à gauche

- **loc=4** : en bas à droite

- ...

Déplacez la légende dans l'exemple ci-dessus.

### Fermer ses figures 

Pour une bonne gestion de la mémoire, il convient de fermer ses figures quand on a terminé. La commande **plt.close()** ferme la figure courante, **plt.close(m)** ferme la figure numéro **m** et **plt.close('all')** ferme toutes les figures.

In [None]:
plt.close()

In [None]:
plt.close(1)
plt.close(2)

In [None]:
plt.close('all')

# Exercice 1. Neurones (suite)

Reprenons l'exemple des données sur les neurones du notebook NB1. En fait, nous disposons de deux autres séries de mesures du même type. Elles correspondent à des mesures sur des sujets atteints d'une maladie cérébrales, alors que la première série (que nous avons déjà étudiée) provient d'une personne  en bonne santé. 

L'exercice consiste à comparer les trois séries, et de répondre à la question s'il y a une différence significative entre  la personne en bonne santé et les personnes malades.

1.  Les séries de mesures des personnes malades sont disponibles ici : http://www.proba.jussieu.fr/pageperso/rebafka/nerve2.csv
   et ici: http://www.proba.jussieu.fr/pageperso/rebafka/nerve3.csv.
Importer les trois séries de mesures.

2.  Comparer les nombres de mesures par personne.

3. Comparer les moyennes, médianes, écart-types, les quartiles, les valeurs maximales et minimales. Commenter.

4. Pour comparer la distribution des mesures, on veut tracer leur fonctions de répartition. Rappeler la définition de la  fonction de répartition. Quelle information tirée de la représentation  graphique d'une  fonction de répartition ?

5. La  fonction de répartition associée à des observations est une fonction en escalier. Utiliser l'aide ou l'internet pour savoir comment  tracer une fonction en escalier (=*step function* en anglais) avec matplotlib. 

7. Tracer la fonction de répartition de la personne en bonne santé. Représenter-la par une ligne pointillée verte. 
 Ajouter un titre, annoter les axes, et ajouter une légende.
 
7. Tracer   chaque fonction de répartition dans une figure à part (dans un même fenêtre). Veillez à ce que les trois fonctions sont représentées sur le même intervalle. 
Représenter les médianes et les quartiles par des points.

6. Maintenant tracer la fonction de répartition des trois séries dans une même figure et faites tout pour que la figure soit **jolie** et facilement compréhensible pour quelqu'un d'autre : ajouter un titre, annoter les axes, utiliser  des couleurs différentes et ajouter une légende.  

7. Interprétez votre dernière figure et répondez à la question s'il y a une différence significative entre  la personne en bonne santé et les personnes malades.


# Statistique descriptive univariée

### Histogramme

En Python, il y a deux fonctions **hist** pour tracer des histogrammes :

- la fonction **hist** de **pandas** qui s'applique aux **dataframe**

- la fonction **hist** de **matplotlib** qui s'applique aux **array** ou aux séquences d'**array**

Les deux fonctions se distinguent légèrement par leurs options. 

Voyons quelques exemples :

In [None]:
data = pd.DataFrame(np.random.randn(1000,1),columns=['X'])
data.head()

In [None]:
data.hist(normed=True)

L'option **normed=True** est obligatoire pour obtenir un histogramme comme défini dans le cours. Vérifiez ce qui se passe si vous enlevez cette option.

La fonction **hist** de **pandas** a des nombreuses options. Regardez :

In [None]:
help(data.hist)

Voici les options les plus utiles pour nous :

- **normed=True** pour obtenir un vrai histogramme

- **bins** le nombre de sous-intervalles

- **grid** (de type booléan) pour tracer/enlever la  grille 

Dans l'exemple ci-dessus, essayez plusieurs valeurs pour **bins**. Quelle est la meilleure valeur de **bins** ?

Pour des dataframe à plusieurs colonnes :

- **column** le(s) numéro(s) des colonnes pour lesquelles on veut tracer l'histogramme

- **sharex**, **sharey** (de type booléan) pour indiquer si tous les histogrammes doivent être représentés sur la même échelle ou pas

- **by** pour sélectionner une partie du tableau selon les valeurs d'une colonne (voir exemple ci-desssous)

In [None]:
data['Y'] = np.random.binomial(3,.5,1000)
data.head(10)

In [None]:
data.hist(normed=True,sharex=True,sharey=True)

In [None]:
data.hist(column='X',by='Y',normed=True,sharex=True)

Et  maintenant pour comparer, voyons la fonction **hist** de **matplotlib** :

In [None]:
data2 = pd.DataFrame(np.random.randn(500,1)*1.5+2,columns=['Normal'])
data2['Uniform'] = np.random.rand(500,1)
data2['Exponentiel'] = np.random.exponential(2,500)
data2['Poisson'] = np.random.poisson(2,500)
data2.head()

Les paramètres de **plt.hist** sont :

- **normed=True** pour obtenir un vrai histogramme

- **bins** le nombre de sous-intervalles de l'histogramme

- **range** l'intervalle des abscisses

- et pour d'autres options, regardez l'aide :

In [None]:
help(plt.hist)

In [None]:
plt.figure()
plt.subplot(221)
plt.hist(data2['Normal'], normed=True,bins=25)
plt.subplot(222)
plt.hist(data2['Uniform'], normed=True,bins=25)
plt.subplot(223)
plt.hist(data2['Exponentiel'], normed=True,bins=25)
plt.subplot(224)
plt.hist(data2['Poisson'], normed=True,bins=25)

In [None]:
plt.figure()
plt.hist((data2['Normal'],data2['Exponentiel'],data2['Uniform'],data2['Poisson']), normed=True,bins=15)
plt.legend(['Normal','Exponentiel','Uniform','Poisson'])

### Boxplot

Pour tracer des boxplots (ou boîtes à moustaches) on utilise la fonction **boxplot** de **pandas** ou la fonction **boxplot** dans **matplotlib**. 

In [None]:
plt.figure()
bp = data2.boxplot()

Les options de **boxplot** dans **pandas** sont :

- **column** liste de colonnes pour lesquelles on veut tracer un boxplot

- **by** colonne pour faire des groupes 

- **figsize** taille de la figure

- **grid** (de type booléan) pour tracer/enlever la grille

- etc.

In [None]:
data.boxplot(column='X',by='Y')
plt.xlabel(' ')
plt.title(' ')

### QQ-plot

Pour tracer des QQ-plots, nous utiliserons la fonction suivante :

In [None]:
def qqplot(x, y):
    m = min([x.size,y.size])
    alpha = np.linspace(1./float(m),1.,m)
    qx = x.quantile(alpha)
    qy = y.quantile(alpha)
    plt.scatter(qx, qy, marker='o',s=60, facecolors='none', edgecolors='r');    
    plt.plot(qx, qx, '--')

In [None]:
plt.figure()
qqplot(data2['Normal'],data2['Exponentiel'])

In [None]:
plt.figure()
qqplot(data2.loc[0:250,'Uniform'],data2.loc[250:500,'Uniform'])

Comment interpréter la forme des QQ-plots ci-dessus ?

En pratique, on veut souvent savoir si les données suivent une loi normale. On peut alors tracer le QQ-plot des données contre les quantiles théoriques d'une loi normale - en générale de la loi normale standard comme le fait la fonction **qqnorm** défini ci-après. Cette fonction a besoin des quantiles des la loi normale standard que l'on calcule par la fonction **ppf** du package **scipy**.



In [None]:
from scipy.stats import norm
norm.ppf(.95)  # quantile d'ordre 0.95 

In [None]:
def qqnorm(x):
    m = x.size
    alpha = np.linspace(1/(m*1.+1),m*1./(m*1.+1),m)
    qy = x.sort_values()
    qx = norm.ppf(alpha)
    plt.scatter(qx, qy, marker='o',s=60, facecolors='none', edgecolors='r');    
    plt.plot(qx, qx, '--')

In [None]:
plt.figure()
qqnorm(data2['Normal'])

Dans cet exemple nous voyons que les points du QQ-plot s'alignent sur une droite, mais pas sur la première bissectrice. Cela indique que les données suivent une loi normale, mais de paramètres différentes par rapport à la loi normale standard $\mathcal N(0,1)$.

En pratique, il est courant de centrer-réduire les données afin de mieux apprécier le QQ-plot. Cela veut dire que d'abord on transforme les données :

In [None]:
obs_st = data2['Normal']
obs_st = (obs_st-obs_st.mean())/obs_st.std()

Ensuite on trace le QQ-plot de ces données standardisées en comparaison avec la loi normale standard :

In [None]:
plt.figure()
qqnorm(obs_st)

Ce QQ-plot montre bien l'adéquation des données à une loi normale.

# Exercice 2. Représentations d'une distribution

L'exercice porte sur les jeux de données des précédents notebooks.

Toutes les figures doivent être facile à comprendre (pensez à mettre des légendes, annoter les axes, mettre des titres etc.)

1. Choissisez deux poussins par régime et tracer leurs courbes de poids dans un même graphique. Autrement dit, on trace l'évolution du poids de ces poussins dans le temps. 
Utiliser des couleurs différentes pour les différents régimes.

2. Tracer les quatre boxplots du poids  des poussins  au jour 0 par groupe de régime. Que peut-on dire de la composition des groupes au début de l'étude ?

2. Tracer les quatre boxplots du poids  des poussins  au jour 21 par groupe de régime. Interprétez l'effet des différents régimes sur l'évolution du poids des poussins.

3. Tracer les trois histogrammes des neurones  dans une même figure. Comparez les lois des trois échantillons.

4. Calculez pour chaque jeu de données (neurones) les coefficients d'asymétrie et d'aplatissement. Interprétez les résultats. Comment est-ce qu'ils se traduisent sur la figure de la question précédente ?

5. Tracer les  QQ-plots des neurones pour toutes les combinaisons de deux jeux de données possibles. Interprétez les figures.

