# Chapitre 2 : Python

Le python est une famille de reptile avec pas de pattes comprenant 10 espèces. Mais Python est un langage de programmation lancé en 1991 par Guido van Rossum, un fan du groupe d'humoriste [Mounty Python](https://www.youtube.com/watch?v=iV2ViNJFZC8). Ce cours est présenté avec la version 3.X de Python.




## Préparer son ordinateur

### Installer Python

Installer et gérer Python sur un ordinateur serait une tâche plutôt ardue si ce n'était de la distribution [Anaconda](https://www.continuum.io/downloads), spécialisée pour le calcul scientifique. Anaconda est distribué librement sur Linux, Windows et OS X. Il existe d'autres distribution Python équivalentes, notamment [Enthought](http://www.enthought.com) et [Python(x,y)](http://python-xy.github.io/). Il est possible de travailler sur Python en mode infonuagique, notamment avec [SageMath](https://cloud.sagemath.com/). Toutefois, l'option nuagique n'est en ce moment pas à la hauteur d'un environnement local en terme d'efficacité, de polyvalence et d'autonomie .

#### Sur Linux 
Que ce soit sur [Ubuntu](https://www.ubuntu.com/), l'une de ses nombreuses dérivées ([Elementary](https://elementary.io/), [Linux Mint](https://linuxmint.com/), [KDE Neon](https://neon.kde.org/), etc.), sous [Debian](https://www.debian.org), [openSUSE](https://www.opensuse.org/), [Arch](https://antergos.com/), [Fedora](https://getfedora.org/) ou autre, les systèmes d'opération Linux sont de bonnes options pour le calcul scientifique. Sur Linux, mieux vaut évitez que la version de Python installé avec Anaconda n'interfère pas avec la (ou les) version utilisée par le système d'opération. Ainsi, lors de l'installation d'Anaconda, refusez que Anaconda soit lancé au démarrage de votre session. Créez plutôt un alias dans le fichier `.bashrc` qui se trouve normalement dans le dossier mère de l'utilisateur, c'est-à-dire `/home/utilisateur` en supposant que `utilisateur` est le nom de l'utilisateur. Puisqu'il y a un point devant le nom du fichier bashrc, il s'agit d'un fichier caché: pour le voir, appuyez sur `ctrl+H`. Vous l'ouvrez, puis vous ajoutez la ligne suivante à la fin du fichier (je suppose que Anaconda est installé dans le répertoire `/home/utilisateur/bin`).

`alias activate_anaconda="source /home/utilisateur/bin/anaconda3/bin/activate root"`

Ainsi, lorsque vous taperez `activate_anaconda` dans un terminal, vous lancerez l'environnement primaire `root` de Anaconda, qui est un environnement virtuel indépendant de la version de Python du système.

#### Sur Windows et sur OS X
Télécharger et installer!

La puissance d'un langage de programmation se mesure par ses extensions. De nombreuses bibliothèques (des collections de classes et de fonctions) ont été développées pour des applications générales de calcul scientifique comme pour des applications particulières. Ces bibliothèques sont ici présentées.

### Modules de base

#### NumPy
NumPy, une contraction de *Numerical Python*, donne accès à de nombreuses fonctions mathématiques et intervient inmanquablement pour effectuer des opérations sur les matrices. La grande majorité des opérations effectuées lors de ce cours fera explicitement ou implicitement (via un autre module s'appuyant sur NumPy) référence à NumPy. NumPy permet notamment:

- de donner accès à des [opérations mathématiques de base](https://docs.scipy.org/doc/numpy/reference/routines.math.html) comme la racine carrée, la trigonométrie, les logarithmes, etc.;
- d'effectuer des opérations rapides sur des matrices multidimentionnelles (ndarray, ou n-dimensionnal array), dont des calculs d'[algèbre linéaire](https://docs.scipy.org/doc/numpy/reference/routines.linalg.html);
- d'effectuer des calculs élément par élément, ligne par ligne, colonne par colonne, etc., grâce à la "vectorisation" - par exemple en additionnant un scalaire à un vecteur, le scalaire sera additionné à tous les éléments du vecteur;
- d'[importer et exporter](https://docs.scipy.org/doc/numpy/reference/routines.io.html) des fichiers de données;
- de [générer des nombres aléatoires](https://docs.scipy.org/doc/numpy/reference/routines.random.html) selon des lois de probabilité.


#### SciPy
Basée sur NumPy, [SciPy](http://www.scipy.org/scipylib/index.html) est une collection de fonctions mathématiques offrant une panoplie d'outil pour le calcul scientifique.  Il simplifie certaines fonctions de Numpy, et  offre des gadgets qui se rendront essentiels pour des opérations courrantes, notamment:

- calcul intégral et résolution de systèmes d'équations différentielles ordinaires
- interpolation entre coordonnées
- traitement et analyse de signal

Un bibliothèque portant le préfixe *scikit* fait partie de la [trousse d'extensions de SciPy](http://scikits.appspot.com/scikits). 

#### pandas
Les données  sont souvent organisées sous forme de tableau, les colonnes représentant les variables mesurées et les lignes représentant les observations. La bibliothèque [pandas](http://pandas.pydata.org/) offre un kit d'outil pour travailler avec des tableaux de données (`DataFrame`) de manière efficace.  Avec une rapidité d'exécution héritée de NumPy, pandas inclut l'approche des bases de données relationnelles (SQL) pour filtrer, découper, synthétiser, formater et fusionner des tableaux.

#### matplotlib
Les graphiques sont des synthèses visuelles de données qui autrement seraient pénibles à interpréter. Bien qu'il ne s'agit pas de la bibliothèque graphique privilégiée pour ce cours (nous privilégirons bokeh et ggplot, présentés plus bas), on ne peut pas utiliser Python en science sans passer par [matplotlib](http://matplotlib.org/), qui permet de représenter des données en 2D virtuellement  de n'importe quelle façon: nuages de points, lignes, boxplots, histogrammes, contours, etc.

### Modules spécialisés

#### SymPy
Le calcul symbolique a une place théorique importante en calcul scientifique. [SymPy](http://www.sympy.org/en/index.html) sera utilisée pour valider des fonctions issues d'équations différentielles.

#### statsmodels
Plus que de la statistique, la bibliothèque [statsmodels](http://statsmodels.sourceforge.net/) est conçue comme accompagnatrice dans l'analyse de données. Elle aidera à effectuer des statistiques comme des analyses de variance, des régressions et des analyses de survie, mais aussi des opérations de prétraitement comme l'imputation de données manquantes.

#### scikit-learn
L'apprentissage automatique (*machine learning* en anglais), permet de détecter des structures dans les données dans l'objectif de prédire une nouvelle occurance, que ce soit un ou plusieurs variables numériques (régression) ou catégorielles (classification). De nombreux algorhitmes sont appelés à être utilisés en sciences de la vie. [scikit-learn](http://scikit-learn.org/stable/#) est une trousse d'outil permettant d'appréhender ces outils complexes de manière efficace, conviviale et cohérente, en plus d'offir la possibilité d'empaqueter des machines d'apprentissage dans des logiciels. La documentation de scikit-learn est d'une rare qualité.

scikit-learn peut aussi être utilisé pour effectuer des classifications non supervisées (classifier des données qui n'ont pas de catégorie prédéterminées), notamment l'analyse de partitionnement (*clustering* en anglais).

#### scikit-bio
[scikit-bio](http://scikit-bio.org/) sera utilisée principalement pour les ordinations, c'est-à-dire l'analyse exploratoire multivariée. Ses possibilités ne s'arrêtent toutefois pas là. Techniquement, la bibliothèque scikit-bio a moins de lien avec scikit-learn qu'avec [QIIME](https://qiime.org/), un logiciel libre dédié à la bioinformatique, une discipline connexe au génie écologique, mais axée sur l'analyse génétique.

#### bokeh
Un graphique est une représentation visuelle de données. Bien que matplotlib un outil essentiel au calcul scientifique avec Python, de nombreuses autres bibliothèques ont été développées pour combler ses lacunes. L'une d'entre elle émerge du transfert de la publication traditionnelle (papier, puis pdf) vers la publication de documents interactifs. [bokeh](http://bokeh.pydata.org/en/latest/) est une bibliothèque qui, parmi d'autres (notamment [plotly](https://plot.ly/) et [mpld3](https://mpld3.github.io/)), offre la possibilité de créer des graphiques intéractifs. Bonus: bokeh est aussi une plateforme de développement de logiciels scientifiques.

#### ggplot

#### SfePy

#### pystan

#### codapy

### Modules manquants sur Python

Malheureusement, Python n'est pas une solution tout en un. Quelques fonctionnalités liées au génie bionumérique n'y sont toujours pas implémentées de manière solide, en particulier la **méta-analyse** et les **géostatistiques**. C'est pourquoi, dans ce cours, ces deux types d'analyse seront  effectuées en R. Python et R étant des langages s'exprimant de manière semblable, et R étant facilement intégrable dans un flux de travail Python, cette approche se fera sans heurt (espérons-le).

#### meta
Bien qu'il existe de nombreux modules disponibles sur R pour la méta-analyse (aggrégation de plusieurs études), Python en est en ce moment exempt. La bibliothèque qui sera utilisée en R pour la méta-analyse sera, simplement, [meta](https://cran.r-project.org/web/packages/meta/index.html). Cette bibliothèque simplifie grandement les opérations et génère des graphiques prêts à être publiés.

#### gstat
L'interpoler spatiale n'est pas une discipline facile. Les bibliothèques de géostatistiques disponibles sur Python sont soit des collections disparates, ou on tout simpleemnt été abandonnées  par leurs développeurs. Heureusement, [gstat](https://cran.r-project.org/web/packages/gstat/index.html), disponible sur R, est activement développée, et offre une collection d'outils d'une convivialité moyenne, mais d'une grande puissance. Les adeptes de l'analyse compositionnelle retrouveront aussi des outils de géostatistiques inclus dans la bibliothèque [compositions](https://cran.r-project.org/web/packages/compositions/index.html).

### Interfaces
On les appelle des interfaces graphiques ou des environnement intégrés de développement et son conçus pour faciliter l'utilisation d'un langage de programmation, souvent pour des applications particulières. Jupyter et Rodeo, tous deux conçus pour le calcul scientifique, ont en commun trois composantes: un éditeur de commande, un moyen d'exécuter les commandes et un afficheur de graphiques.

#### Jupyter lab
Anciennement nommé IPython notebook, puis Jupyter notebook, [Jupyter lab](https://github.com/jupyterlab/jupyterlab) s'inspire d'un format usuelle en science: le carnet de laboratoire. **C'est l'interface que nous allons utiliser lors de ce cours**.

<!--![](images/jupyter-screenshot.png)-->
<img src="https://raw.githubusercontent.com/jupyterlab/jupyterlab/master/jupyter-plugins-demo.gif" width="600">

Jupyter lab fonctionne dans une fenêtre de navigateur internet. Le code est interprété par IPYthon, un interprétateur pour le calcul scientifique sur Python. Chaque cellule peut contenir un texte explicatif (édité en [markdown](https://www.youtube.com/watch?v=6A5EpqqDOdk), un outil de traitement de texte où le formattage est effectué dans texte à l'aide de caractères spéciaux), incluant des équations (écrites en format LaTeX via [MathJax](https://www.mathjax.org/) - il existe des [éditeurs d'équations en ligne](http://www.sciweavers.org/free-online-latex-equation-editor)), ou des morceaux de code. Par ailleurs, ces notes de cours sont rédigées dans un carnet Jupyter lab.

Bien qu'il soit à mon avis suffisamment stable pour être utilisé quotidiennement, Jupyter lab est toujours en version de développement. Jupyter notebook est installé par défaut avec Anaconda.

#### Autres
L'interface de Rodeo comprend des fenêtres pour l'édition de code, pour interprétateur IPython, pour la session de travail et pour afficher les graphiques. En fait, il imite l'interface de RStudio pour R. C'est une solution visuellement élégante et moderne, mais  pas aussi complète que Spyder.

Spyder est un acronyme pour "Scientific PYthon Development EnviRonment". Si vous avez installé Anaconda, [Spyder](https://github.com/spyder-ide/spyder) est déjà installé sur votre ordiateur. Il est comparable à Rodeo, mais est plus ancien, plus complet, mais aussi plus complexe. 

Il existe aussi plusieurs autres environnements de développement en mode libre ([Atom/Ninteract](https://github.com/nteract/nteract), [Eclipse/PyDev](http://www.pydev.org/), [Komodo IDE](http://www.activestate.com/komodo-ide), [Lighttable](http://lighttable.com/), [Ninja IDE](http://ninja-ide.org/home/), [PyCharm](https://www.jetbrains.com/pycharm/)) que vous pourrez explorer. Mais certaines préféreront seulement utiliser un bon éditeur texte ([Atom](https://atom.io/), [Brackets](http://brackets.io/), [LighttTable](http://lighttable.com/), [Notepad++](https://notepad-plus-plus.org/), etc.) accompagné d'un terminal sous [IPython](http://ipython.org/). 

## Astuces pour utiliser Jupyter

### Cellule markdown

Formatter un texte en markdown est relativement facile. Vous utiliserez sans doute ces outils:

# Titre 1
## Titre 2
###### Titre 6

Formater du `code alligné`. Ou bien un

```
paragraphe dédié au code
```

Liste à puce
- item 1
- item 2
    - item 2.1
        - item 2.1.1

Liste numérotée
0. item 1
0. item 2
    0. item 2.1
        0. item 2.1.1

Texte emphasé en *italique* ou en **gras**.

[Hyperlien](www.python.org)

Insérer une image
![]()

Insérer une équation

$c = \sqrt \left( a^2 + b^2 \right)$

| Symbole | Format |
| --- | ---|
| Titre 1 | \# Titre 1|
| Titre 2 | \## Titre 2|
| Titre 6 | \###### Titre 6|
| code ligne | \`code\`|
| code paragraphe | \`\`\`code\`\`\`|
| Items de liste à puce | \- item avec indentation pour les sous-items |
| Items de liste numérotée | 0. item avec indentation pour les sous-items |
| Italique | Texte emphasé en \*italique\* |
| Gras | Texte emphasé en \*\*gras\*\* |
| Hyperlien | Créer un \[lien\](https://python.org) |
| Image | Insérer une image \!\[\](....png) |
| Équation | Insérer une équation en format LaTeX \$c = \sqrt \left( a^2 + b^2 \right)\$ |

### Cellule IPython

Nous explorerons Python dans le prochain chapitre. Cette section ne fait que présenter Jupyter, où les calculs sont effectués dans des cellules IPython.

In [1]:
2.5 + 2.5

5.0

## Premiers pas avec Python

### Le gestionnaire `conda`

Une fois que Anaconda est installé, l'[installation de modules](http://conda.pydata.org/docs/using/pkgs.html) et des [environnements virtuel](http://conda.pydata.org/docs/using/envs.html) devient possible avec le gestionnaire `conda`. Cette section ne présente qu'un aperçu de ses capacités, basé sur ce dont vous aurez besoin pour ce cours. Pour plus d'information, consultez le [guide](http://conda.pydata.org/docs/intro.html).

### Installer des environnements virtuels
Vous voilà en train de travailler sur des données complexes qui demandent plusieurs opérations. Vous avez l'habitude, à toutes les semaines, de lancer `conda update --all` pour mettre à jour les modules, ce qui corrige les bogues et ajoute des fonctionnalités. L'équipe de développement d'un module a décidé de modifier, pour le mieux, une fonction. Vous n'êtes pas au courant de ce changement et vous passez deux jours à cherche ce qui cause ce message d'erreur dans vos calculs. Vous envoyez votre fichier de calcul à votre collègue qui n'a pas mis à jour ce module, puis vos corrections lui causent des problèmes. Croyez-moi, ça arrive souvent.

Les environnements virtuels sont là pour éviter cela. Il s'agit d'un répertoire dans lequel Python ainsi que ses modules sont isolés. Pour un projet spécifique, vous pouvez créer un environnement virtuel sous Python 2.7.9 et installer des versions de modules spécifiques sans les mettre à jour. Ça permet d'une part de travailler avec des outils qui ne changent pas en cours de projet, et d'autre part à travailler entre collègues avec les mêmes versions.

Pour créer un environnement nommé `fertilisation_laitue` incluant Python en version 2.7.9 et le module `statsmodels` version 0.6.0, lancez:

```
conda create -n fertilisation_laitue python=2.7.9
```

Le répertoire de projet sera automatiquement installé dans le répertoire `envs` de votre installation de Anaconda. OÙ SUR MAC ET WINDOWS?

Pour activer cet environnement, sous Linux et en OS X:

```
source activate fertilisation_laitue
```

Sous Windows:

```
activate fertilisation_laitue
```

Depuis l'environnement virtuel, vous pouvez installer les modules dont vous avez besoin, en spécifiant la version. Par exemple,

```
conda install statsmodels=0.6.0
```

Depuis votre environnement virtuel (y compris l'environnement `root`), vous pouvez aussi lancer Jupyter, une interface qui vous permettra d'intéragir de manière conviviale avec Python.


### Installer des modules

Sans module, Python ne sera pas un environnement de calcul scientifique appréciable. Heureusement, il existe des modules pour faciliter la vie des scientifiques qui désirent calculer des opérations simples comme des moyennes et des angles, ou des opérations plus compliquées comme des intégrales et des algorithmes d'intelligence artificielle. Plusieurs modules sont installés par défaut avec Anaconda. Pour lister l'ensemble des modules installés dans un environnement, ouvrez un terminal et lancez:

```
conda list
```

**Note**: Sur Linux, si vous avez créé un alias tel que recommandé, il faudra d'abord activer anaconda avec la commande `activate_anaconda`.

Les modules sont téléchargés et installés depuis des dépôts, qui sont des répertoires, situés sur un serveur, où sont déposés des fichiers à télécharger. L'entreprise [Continuum Analytics](https://www.continuum.io/), qui développe et supporte Anaconda, offre ses propres dépôts. Par défaut, `statsmodels` sera téléchargé depuis les dépôts par défaut si vous lancez:

```
conda install statsmodels
```

Il est préférable d'utiliser le dépôt communautaire [conda-forge](https://conda-forge.github.io/) plutôt que les dépôts officiels de Continuum Analytics. Sur conda forge, davantage de modules sont disponibles, à jour et d'une qualité contrôlée.

```
conda config --add channels conda-forge
```

Par la suite, tous les modules seront téléchargés depuis conda-forge. Pour effectuer une mise à jour de tous les modules, lancez:

```
conda update --all
```

Maintenant, préparons-nous au cours en créant un environnement virtuel qui incluera la dernière version de Python compatible avec NumPy (3.5). Précédemment, nous avions fait cela en deux étapes: (1) créer l'environnement, puis (2) installer les bibliothèques. Nous pouvons tout aussi bien le faire d'un coup. Je nomme arbitrairement l'environnement `ecolopy`.

```
conda create -n ecolopy numpy scipy pandas matplotlib sympy statsmodels scikit-learn scikit-bio bokeh ggplot sfepy jupyterlab
```

Activons l'environnement (Linux et OS X: `source activate ecolopy`, Windows: `activate ecolopy`), puis installons les bibliothèques nécessaires. Puisque j'utilise Linux,

```
source activate ecolopy
```

Lançons Jupyter lab. Cela ouvrira une nouvelle page de navigateur internet avec l'interface de travail Jupyter.

```
jupyter lab
```

### Introduction au langage Python

...

p. 385

`grenouille.saute`