# Introduction à Python



## Le Notebook Jupyter

Ce document est un notebook. Le notebook est un document interactif, qui permet de mélanger du texte et des lignes de code (pour nous, c'est du code Python). Il est possible d'exécuter le code, de le modifier, et d'ajouter (ou de supprimer) des cellules de code ou de commentaire. Vous avez la possibilité d'enregistrer les modifications par le bouton correspondant dans la barre à outils en haut (raccourci Ctrl-S).

Pour exécuter le code d'une cellule, il faut d'abord cliquer dans la cellule  pour la sélectionner, puis appuyer sur la fléche vers la droite dans la barre à outils (raccourci Shift-Enter). Exécutez le code de la cellule suivante.


In [None]:
a = 5
b = 2.9
c = True
d = 'Bonjour'

a = 7

a

Vous voyez que  les instructions sont exécutées et le résultat (de la dernière instruction seulement) s'affiche juste en-dessous de la cellule. 

Le signe = permet de définir une variable ou de lui associer une nouvelle valeur si elle a déjà été définie auparavant. Dans la cellule précédente nous avons définit plusieurs variables **a**,**b**,**c** et **d**, puis nous avons affecté une nouvelle valeur à **a** avant de l'afficher.

Les variables **a**,**b**,**c** et **d** sont désormais définies et connues à Python. Dans la suite, vous pouvez les utiliser et travailler avec. Autrement dit, les notebooks sont un moyen pour exécuter du code progressivement. Par exemple affichons **b** dans une autre cellule:

In [None]:
b

In [None]:
b

Au fur et à mesure que vous exécutez des cellules de code, vous voyez apparaître des numéros entre crochets à gauche de la cellule. Ces numéros vous aident à garder une trace de l'ordre dans lequel vous exécutez les cellules. Juste pour voir, revenez à la première cellule de code et modifiez la valeur de **b**. Ensuite, exécutez la troisième cellule. Cela change la sortie de la troisème cellule, mais pas de la deuxième (alors que la valeur de **b** a changé). Les numéros entre chrochets vous permettent donc de vous répérer plus facilement.

Parfois, quand on vient d'exécuter plein de cellules, on perd un peu le contrôle, et on ne sait plus quelles sont les valeurs actuelles des différentes variables. Dans ce cas, il vaut mieux de reprendre à zéro. Pour cela, sélectionnez **Kernel** en haut de la page et choissisez **Restart**. Vous observez que tous les numéros entre crochets disparaissent ainsi que toutes les sorties en-dessous des cellules de code. Un **Restart** du **Kernel** revient alors à supprimer tous les objets créés.

Vous pouvez modifier un notebook comme bon vous semble. Par exemple, pour ajouter une cellule, cliquer sur le symbole **+** dans la barre à outils (raccourci B). Cela crée une nouvelle cellule juste en-dessous de la dernière cellule sélectionnée. Par défaut, il s'agit d'une cellule de code dans laquelle vous pouvez écrire des instructions en Python. Si la nouvelle cellule doit contenir du texte, il suffit de modifier son type par le menu déroulant en changeant **Code** en **Markdown** (raccourci M). Le **Markdown** permet d'écrire du texte, le formatage est très simple. Si cela vous intéresse, double-cliquez sur les cellules de type **Markdown** dans ce notebook pour voir comment ajouter un titre, mettre du texte **en gras** ou *en italique*, créer une liste etc. N'oubliez pas qu'il faut aussi exécuter les cellules **Markdown** en appuyant sur la   flèche vers la droite dans la barre à outils. Vous pouvez aussi copier (raccourci C), couper (raccourci X) et coller (raccourci V) une cellule.

## Types de variables

Chaque variable possède un type qui décrit à quel ensemble appartient la valeur contenue dans cette variable. Par exemple, la variable **a** est de type **int**, ce qui signifie que la valeur contenue dans **a** est un entier relatif.

In [None]:
type(a)

Le type **float** correspond aux nombres réels.

In [None]:
type(b)

Le type **bool** correspond à une variable binaire qui ne contient que **True** ou **False**.

In [None]:
type(c)

Le type **str** correspond aux chaînes de caractères.

In [None]:
type(d)

Une variable peut aussi contenir des structures de données plus complexes. Par exemple, on peut définir une liste d'éléments en utilisant des crochets **[** **]** et en séparant chaque élément par une virgule.

In [None]:
e = [3, 8.4, False, 'b']
e

In [None]:
type(e)

Pour accèder à un élément d'une liste, on utilise aussi des crochets **[** **]** et l'indice correspondant à l'élément. Attention, les indices commencent à **0**. Donc pour accèder au premier élément:

In [None]:
e[0]

Ainsi, pour accèder au **i+1** ième élément, il faut écrire **e[i]**. On peut aussi sélectionner plusieurs éléments en utilisant ce qu'on appelle un **slice**. Cela se présente sous la forme **i:j:k** et signifie que l'on veut tous les éléments associés aux indices allant de **i** (inclus) à **j** (exclu) en faisant des pas de **k**. Par exemple, pour le slice 1:4:2 on obtient les indices 1 et 3 ce qui donne les éléments suivant:

In [None]:
e[1:4:2]

Si on enlève une de ces lettres, alors Python utilise un comportement par défaut qui est le premier indice pour **i**, le dernier indice plus un pour **j** et 1 pour **k**. On peut donc accèder à tous les éléments:

In [None]:
e[:]

Ou juste les 3 premiers:

In [None]:
e[:3]

## Opérations

Il est possible d'utiliser les opérations arithmétiques usuelles entre nos variables.  

Addition:

In [None]:
d + ' le monde'

Soustraction:

In [None]:
a - b

Multiplication:

In [None]:
a * a

Pour la division, il en existe deux. La division euclidienne:

In [None]:
a // 2

La division pour des nombres réels (il faut diviser par un **float**) :

In [None]:
a / 2.

Attention tout de même au fait qu'une opération entre deux variables peut ne pas être définie (ou ne pas retourner le résultat attendu) selon leur type. On ne peut pas diviser une chaîne de charactères par un nombre réel:

In [None]:
'pomme'/3.

Par exemple, multiplier une liste par un entier **i** ne multiplie pas chaque élément de la liste par cet entier mais répète la liste **i** fois:

In [None]:
[1, 2, 3] * 2

On peut aussi faire des tests logiques:

In [None]:
18 > 9.4

In [None]:
True & False

In [None]:
True | False

In [None]:
'a' != 'b'

Le résultat d'un test logique est un booléen qu'on peut donc stocker dans une variable.

In [None]:
t = 47 <= 47
t

## Les fonctions

Une fonction est un objet qui permet d'exécuter plusieurs lignes de codes en une seule commande. Elle peut avoir des paramètres ou non et peut renvoyer des variables ou non. Il existe des fonctions déjà implémentées dans Python et on peut en créer de nouvelles. Lors de ce notebook, nous allons surtout utiliser des fonctions définies par d'autres personnes pour ne pas avoir à réinventer la roue. Nous avons déjà utilisé une fonction précédemment:

In [None]:
type(c)

La fonction **type** prends en paramètre une variable et renvoie le type de cette variable. On remarque donc qu'on utilise une fonction en mettant des paranthèses **(** **)** juste après le nom de la fonction. Les paramètres d'une fonction se mettent entre les parenthèses. Voici d'autres exemples de fonctions existant de base dans Python:

In [None]:
x = -8.3
abs(x)

In [None]:
sum([4,7,13])

In [None]:
pow(x,3)

## Aide en Python

La fonction **help** donne des explications sur une fonction prédéfinie. Exemple : 

In [None]:
help(pow)

## Installer et importer les modules nécessaires

Un module est un fichier (ou un ensemble de fichiers) où est enregistré des fonctions. L'intérêt d'un module est de pouvoir réutiliser ces fonctions sans avoir à les redéfinir à chaque fois: il suffit de l'importer dans notre notebook. Dans ce cours, nous allons travailler avec les quatre modules suivants :
- **numpy** : pour faire des maths
- **matplotlib** : pour tracer des figures
- **pandas** : pour le traitement des données et pour faire des statistiques
- **scikit-learn** : pour faire l'ACP

Si ces modules ne sont pas disponibles sur votre machine personnelle, installez-les.

Au début de chaque session, il est obligatoire d'importer les modules, qu'on utlisera par la suite.

Pour ce notebook, nous n'aurons besoin que des modules **pandas** et **numpy**. Pour les importer, utilisez les instructions de la cellule suivante, 

In [None]:
import pandas as pd
import numpy as np

L'argument **as** permet de donner un surnom plus court au module, on écrira donc maintenant **np** au lieu de **numpy**. Un module peut contenir de nombreux fichiers et il y a souvent une hiérarchie. Ainsi, pour utiliser une fonction il faut préciser le chemin d'accès pour atteindre la fonction. Tout comme un explorateur de fichier utilise des backslash pour naviguer dans la hiérarchie de dossiers, en Python, on utilise des points **.** pour indiquer le chemin d'accès à une fonction. Par exemple, si on veut simuler uniformément un réel entre 0 et 1 avec **numpy**, on va utiliser la fonction **rand** qui se trouve dans **random** en écrivant:

In [None]:
np.random.rand()

Pour connaître toutes les fonctions d'un module, écrivez le nom du module suivi d'un point, ensuite appuyer longtemps sur la touche TAB. Cela fait apparaître une liste avec toutes les fonctions de ce module. 

Essayez pour **np**, ensuite pour **np.random** :

# L'objet *Series* avec Pandas

Les données d'une étude statistique ont typiquement la forme d'une séquence de valeurs observées ou d'un tableau de données (à plusieurs colonnes et plusieurs lignes).
Dans le module Pandas, on utilise les objets **Series** et **Dataframe** pour les données observées.

Une série (**Series**) est une liste de valeurs. 
Voici quelques exemples. 

In [None]:
S1 = pd.Series([1,4,0,7,4,7])
S2 = pd.Series([1.,4,0,7,4,7])
S3 = pd.Series([1.,.5,0,7,4,7],index=list('abczyx'))
S4 = pd.Series(['hello','friends','byebye'])
S5 = pd.Series([True, False,False,True])
S6 = pd.Series([1.,'hello',False,5])

Remarquez que l'on crée un objet **Series** en utilisant la fonction **Series()** et comme paramètre une liste (et éventuellement des indices). Affichez toutes les séries ainsi définies et observez les différents types des éléments de la série. 
 

In [None]:
S1

In [None]:
S2

In [None]:
S3

In [None]:
S4

In [None]:
S5

In [None]:
S6

### Accès aux éléments d'une série

Afficher les valeurs d'une série :

In [None]:
S3.values

Afficher les indices :

In [None]:
S3.index

Le **u** correspond au formatage de la chaîne de caractère.

On affiche certains éléments de la même manière qu'une liste:

In [None]:
S1[2:4]

Pour une série, on peut aussi accèder à certains éléments de plusieurs autres façons. Par exemple, avec une liste d'indices:

In [None]:
S1[[4,1,0]]

On peut aussi utiliser le nom de l'indice pour l'affichage d'un élément :

In [None]:
S3['b']

Afin d'afficher seulement les éléments qui vérifient une certaine condition, par exemple dont les valeurs dépassent 3, on note d'abord que l'instruction suivante crée un série de type logique de même longueur que la série de départ. Plus précisément, la valeur du k-ème élément de cette série est **True** si le k-ème élément de **S1** dépasse 3, sinon elle est **False** :

In [None]:
S1>3

On utilise cette série logique pour extraire les éléments de la série qui vérifient la condition (ici dont les valeurs dépassent 3) :

In [None]:
S1[S1>3]

### Fonctions de base pour les séries

Voici quelques fonctions de base pour les séries. Essayez de les comprendre. Utilisez l'aide de Python si nécessaire. Après chaque commande insérez une cellule de texte dans laquelle vous décrivez la fonction utilisée.

In [None]:
S1.size

In [None]:
S1.prod()

In [None]:
S1.sum()

In [None]:
S1.cumsum()

In [None]:
S1.max()

In [None]:
S1.argmax()

In [None]:
S3.round()

In [None]:
np.ceil(S3)

In [None]:
np.floor(S3)

In [None]:
S1.unique()

In [None]:
S1.sort_values()

In [None]:
S1.sort_index(ascending=False)

In [None]:
S1.isin([1,3,5,7,9])

### Not a number

La valeur **NaN** (Not a number) est utilisé pour indiquer le résultat d'un calcul inadmissible ou pour indiquer des valeurs manquantes (lors d'une importation des données à partir d'un fichier). Par exemple :

In [None]:
np.sqrt(-2)

Essayons de comprendre la fonction **count** :

In [None]:
S2.count()

On dirait que **count** correspond à la longueur de la série.

Remplaçons une valeur de la série par la valeur **NaN** et exécutons **count** de nouveau :

In [None]:
S2[3] = np.inf-np.inf
S2

In [None]:
S2.count()

On observe que la valeur de **S2.count()** a diminué alors que la longueur de la série n'a pas changé. En fait, **count** donne le nombre d'éléments qui ne sont pas de **NaN**.

La fonction **isnull** crée une série de type logique de même longueur que la série de départ en mettant **True** à la place de tous les **NaN** et **False** sinon.

In [None]:
S2.isnull()

La présence de **NaN** dans une série n'est pas forcément génante. Certaines fonctions de Python savent les ignorer. P. ex. :

In [None]:
S2.sum()

Tout de même, on peut souhaiter de nettoyer ses données. Pour supprimer tous les **NaN** d'une série on utilise **dropna** :

In [None]:
S2 = S2.dropna()
S2

### Quelques fonctions de statistique

Que font les fonctions suivantes ? Utilisez l'aide de Python si nécessaire. Introduisez des explications après chaque commande.

In [None]:
S1.mean()

In [None]:
S1.median()

In [None]:
S1.quantile(q=[.25,.5,.75])

In [None]:
S1.var()

In [None]:
S1.std()

In [None]:
S1.std()==np.sqrt(S1.var())

In [None]:
S1.describe()

### Importer des données à partir d'un fichier .csv

En statistique, le plus souvent, il faut importer les données à partir d'un fichier, qui est souvent un fichier en format csv (= comma-separated values).

Le fichier peut se trouver sur votre ordinateur ou il est disponible sur internet. 

Dans les deux cas, on utilise la fonction **pd.read_csv** pour importer les données. 

Le premier argument de **pd.read_csv** est le chemin vers le fichier ou l'URL (= Uniform Resource Locator = adresse web).

Afin d'obtenir un objet de type **Series**, il faut que 
- le fichier .csv ne contient qu'une colonne de valeurs et

- il faut utiliser l'option **squeeze=True** dans l'appel de **pd.read_csv**

## Exercice 1. Neurones

Nous allons travailler sur des données en neuroscience. Nous observons le temps d'attente  entre deux activités de neurones dans le cerveau.
Plus précisément, les données contiennent les intervals de temps entre deux potentiels post-synaptiques miniatures enregistrés à la jonction neuro-musculaire.


1. Les données sont disponible à l'adresse http://www.proba.jussieu.fr/pageperso/rebafka/nerve.csv. Importer les données sous forme d'une **Series**.

2. Vérifier si le fichier contient des valeurs **NaN**. Si oui, supprimer-les.

3. Combien d'observations contient ce jeu de données ?

4. Combien d'observations sont inférieures à 0.1 ? Combien d'observations sont dans l'intervalle [0.1,0.2] ? Et combien sont supérieures à 1 ?

5. Calculer les caractéristiques statistiques de ces données (comme la moyenne, la médiane, les valeurs maximale et minimale, la variance et l'écart-type). 

6. Calculer la moyenne des valeurs maximale et minimale. Ensuite, comparer cette valeur à la moyenne et la médiane. Comment interpréter le fait que ces trois caractéristiques sont assez différentes ?


# Tableaux de données 

Dans le module **pandas**, l'objet **dataframe**  est un tableau de données. 

Un **dataframe** contient des colonnes, qui ont toutes la même longueur, mais qui ne sont pas nécessairement toutes du même type (à l'opposé de **np.array**, où tous les éléments doivent être du même type).

En statistique, les colonnes correspondent aux variables observées et les lignes aux données observées sur différents individus.

Les colonnes peuvent porter des noms (aussi appelés *labels*).

Par défaut, les lignes sont indexées par des entiers ($0,1,\dots$), mais l'utilisateur peut définir les indices comme bon lui semble.

Voici un exemple pour définir un premier **dataframe**.

In [None]:
pd.DataFrame(np.random.rand(6,4))

Maintenant ajoutons les noms de variables :

In [None]:
pd.DataFrame(np.random.rand(6,4), columns=list('ABCD'))

Indexer les lignes différement. Exemple: utiliser des dates comme indice :

In [None]:
dates = pd.date_range('20160126', '20160131')
dates

In [None]:
df = pd.DataFrame(np.random.rand(6,4), index=dates, columns=list('ABCD'))
df

Voici une autre façon de définir un **dataframe** et de nommer les colonnes :

In [None]:
df2 = pd.DataFrame({ 'A' : np.arange(10)*2,
    'B' : pd.Timestamp('20130102'),
    'C' : pd.Series(2.5,index=list(range(10))),
    'D' : np.array([5,3,6,2,9] * 2,dtype='int32'),
    'E' : pd.Categorical(["test","train","test","train","train","train","train","train","train","test"]),
    'F' : list('wiragnuopa') })
df2

Pour obtenir les dimensions du tableau :

In [None]:
df2.shape

Pour obtenir une liste des noms de variables : 

In [None]:
list(df2)

Voir les types des colonnes:

In [None]:
df2.dtypes

Essayer les commandes suivantes et ajoutez de commentaires expliquant ce qui se passent. Utilisez l'aide de Python si nécessaire :

In [None]:
df2.head()

In [None]:
df2.tail(3)

In [None]:
df.index

In [None]:
df2.index

In [None]:
df.columns

In [None]:
df.values

In [None]:
df2.values

In [None]:
df.describe()

In [None]:
df2.describe()

## Accès aux éléments d'un tableau

On utilise les noms des colonnes entre crochets, pour sélectionner des colonnes :

In [None]:
df['C']

In [None]:
df[['A','C']]

On note qu'une colonne d'un dataframe est une série :

In [None]:
type(df['C'])

Il y a différentes façons d'accéder aux lignes (par des numéros des lignes, des indices ou des requêtes) :

In [None]:
df[0:2]

In [None]:
df['20160126':'20160127']

In [None]:
df2[df2['E']=='test']

Pour une sélection plus sophistiquée d'éléments d'un dataframe, il faut utiliser les fonctions **.loc, .iloc** ou **.ix**

- **.loc** quand on utilise les indices des lignes et les labels des colonnes 

- **.iloc** quand on utilise des entiers pour sélectionner les lignes et colonnes

Jouer avec les exemples suivants pour bien comprendre la différence de ces méthodes (p.ex. dans la première instruction remplacez **.loc** par **.iloc** et vérifiez si ça marche encore).

In [None]:
df.loc['20160126':'20160127',['A','B']]

In [None]:
df2.iloc[0:2,0:2]

La méthode **.loc** accepte également un masque booléan (de **True/False**) pour la sélection.

In [None]:
df.loc[df['A']>.6,['B','D']]

## Ajouter une colonne à un tableau

In [None]:
df

In [None]:
df['K'] = np.pi
df

## Fonctions de base pour tableaux
 
La plupart des fonctions que nous avons vues pour les séries s'appliquent également aux dataframes. 

## Trier un tableau

In [None]:
df2.sort_index(axis=0, ascending=False)

In [None]:
df2.sort_index(axis=1, ascending=False)

In [None]:
df2.sort_values(by='F')

## Importer des données d'un fichier .csv

Comme pour les séries, on utilise la fonction **pd.read_csv** pour importer un tableau de données. 

Pour cela, il faut que les données soient représentées sous forme d'un tablau dans le fichier csv, c'est-à-dire que les colonnes sont les variables et les lignes les observations sur différents individus.

Le premier argument de la fonction **pd.read_csv** est le chemin vers le fichier ou l'URL.

Si le symbole qui  sépare les valeurs dans le fichier n'est pas la virgule, il faut précsier le séparateur dans l'appel de **pd.read_csv**. P. ex. si le séparateur est la tabulation, il faut écrire

pd.read_csv(*filepath*, **sep='\t'**)

# Exercice 2. Poussins 

Nous allons analyser des données sur des poussins. Il s'agit de  poussins qui suivent différents régimes alimentaires et qui sont pesés régulièrement. 

1. Importer les données *chicken.csv* disponible à l'adresse http://www.proba.jussieu.fr/pageperso/rebafka/chicken.csv 

2. Combien de variables contient le tableau ?
Déterminer le nombre  de mesures effectuées et le nombre  de poussins dans l'étude ? Combien de régimes y-a t'il ? Déterminer le nombre de poussins par régime. Quelle période est couverte par les observations (combien de jours) ? Est-ce que tous les poussins sont suivis jusqu'à la fin ?

3. Combien de poussins ont un poids final supérieur à 250g ? Inférieur à 200g ?

4. Déterminer le poids maximal/minimal à la naissance/au 10e jours/à la fin. Est-ce  toujours le même poussin qui est le plus/moins lourd ?

5. Calculer le poids moyen des poussins à la naissance et à la fin (au 21e jour) (tous les poussins confondus).

6. Calculer le poids moyen des poussins à la naissance et à la fin (au 21e jour) par régime. Commenter les résultats.

7. Calculer l’écart-type du poids des poussins à la naissance et à la fin (au 21e jour) par régime. Commenter les résultats. 