# Chapitre 2 : La science des données avec `R`

Un projet en science des données comprends trois grandes étapes. D'abord, vous devez **collecter des données** et vous les compilez adéquatement. Cela peut consister à télécharger des données existantes, exécuter un dispositif expérimental ou effectuer une recensement (étude observationnelle). Compiler les données dans un format qui puisse être importé est une tâche souvent longue et fastidieuse. Puis, vous **investiguez les données** collectées, c'est-à-dire vous les visualisez, vous appliquez des modèles et testez des hypothèses. Enfin, la **communication des résultats** consiste à présenter les connaissances qui émerge de votre analyse sous forme visuelle et narrative, *avec un langage adapté à la personne qui vous écoute*, qu'elle soit experte ou novice, réviseure de revue savante ou administratrice. [Grolemund et Wickham (2018)](http://r4ds.had.co.nz/introduction.html) propose la structure d'analyse suivante, avec de légères modifications de ma part.

![](images/science-des-donnees-flow_.png)

Le grand cadre spécifie **Programmer**. Oui, vous aurez besoin d'écrire du code. Mais comme je l'ai indiquer dans le premier chapitre, ceci n'est pas un cours de programmation et je préférerai les approches intuitives.

À la fin de ce chapitre, vous devrez:

0. contextualiser la science des données par rapport aux statistiques,
0. être en mesure de vous lancer dans un environnement de programmation `R`,
0. être en seure d'effectuer des opérations d'une seule ligne en `R`, et
0. installer et charger des modules.

## Statistiques ou Science des données?

Selon [Whitlock et Schluter (2015)](http://whitlockschluter.zoology.ubc.ca/), la statistique est l'*étude des méthodes pour décrire et mesurer des aspects de la nature à partir d'échantillon*. Pour [Grolemund et Wickham (2018)](http://r4ds.had.co.nz/introduction.html), la science des données est *une discipline exitante permettant de transformer des données bruttes en compréhension, perspectives et connaissances*. Oui, *exitante*! La différence entre les deux champs d'expertise est subtile, et certaines personnes n'y voient qu'une différence de ton.

<blockquote class="twitter-tweet" data-lang="fr"><p lang="en" dir="ltr">Data Science is statistics on a Mac.</p>&mdash; Big Data Borat (@BigDataBorat) <a href="https://twitter.com/BigDataBorat/status/372350993255518208?ref_src=twsrc%5Etfw">27 août 2013</a></blockquote>
<script async src="https://platform.twitter.com/widgets.js" charset="utf-8"></script>

Confinées à ses applications traditionnelles, les statistiques sont davantage vouées à la définition de dispositifs expérimentaux et à l'exécution de tests d'hypothèses, alors que la science des données est moins linéaire, en particulier dans sa phase d'analyse, où de nouvelles questions (donc de nouvelles hypothèses) peuvent être posées au fur et à mesure de l'analyse. Cela arrive généralement davantage lorsque l'on fait face à de nombreuses observations sur lesquelles ne nombreux paramètres sont mesurés.

La quantité de données et de mesures auquelles nous avons aujourd'hui accès grâce aux technologies de mesure et de stockage relativement peu dispendieux rend la science des données une discipline particulièrement attrayante, pour ne pas dire [sexy](https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century).

## Organiser son environnement de travail en `R`

*R* est la 18ième lettre de l'alphabet latin. Mais [`R`](https://www.r-project.org) est un langage de programmation dérivé du langage `S`, qui fut initialement lancé en 1976. 

<img src="images/R_logo.svg.png">

`R` figure parmi [les langages de programmation les plus utilisés au monde](https://www.tiobe.com/tiobe-index/). Bien qu'il soit basé sur les langages statiques C et Fortran, `R` est un langage dynamique, c'est à dire que le code peut être exécuté ligne par ligne ou bloc par bloc: un avantage majeur pour des activités qui nécessitent des intéractions fréquentes. Bien que `R` soit surtout utilisé pour le calcul statistique, il s'impose de plus en plus comme outil privilégié en sciences des données en raison des récents développements de modules d'analyse, de modélisation et de visualisation, dont plusieurs seront utilisés dans ce manuel.

### Préparer son flux de travail

Il existe de nombreuses manières d'utiliser `R`. Parmi celles-ci, j'en couvrirai 3:

- Installation classique
- Installation avec Anaconda
- Utilisation de Azure Notebooks

### Installation classique

Sur Windows ou Mac, dirigez-vous [ici](https://cloud.r-project.org/), téléchargez et installez. Sur Linux, ouvrez votre gestionnaire d'application, chercher `r-base` (Ubuntu, Debian), `R-base` (openSuse) ou `R-core` (Fedora) et installez-le (asurez-vous que les librairies suivantes sont aussi installées: `gcc`, `gcc-fortran`, `gcc-c++` et `make`), vous aurez peut-être besoin d'installer des librairies supplémentaires pour faire fonctionner certains modules.

> **Note**. Les modules présentés dans ce cours devraient être disponibles sur Linux, Windows et Mac. Ce n'est pas le cas pour tous les modules `R`. La plupart fonctionnent néanmoins sur Linux, dont les systèmes d'opération (je recommande [Ubuntu](https://www.ubuntu.com/download/desktop) ou l'une de ses dérivées) sont de bonnes options pour le calcul scientifique.

À cette étape, `R` devrait fonctionner dans un interprétateur de commande . Si vous lancez `R` dans un terminal (chercher `cmd` dans le menu si vous êtes sur Windows), vous obtiendrez quelque chose comme ceci. 

<center><img src="images/terminal-prompt.png" width=800></center>

Le symbole `>` indique que `R` attend que vos instructions. Vous voilà dans un état méditatif devant l'indéchiffrable vide du terminal. Afin de travailler dans un environnement de travail plus convivial, je recommande l'installation de l'interface [`RStudio`](https://www.rstudio.com/products/rstudio/download/), gratuite et open source: téléchargez l'installateur et suivez les intructions. `RStudio` ressemble à ceci.

<center><img src="images/rstudio.png" width=800></center>

En haut à droite se trouve un menu *Project (None)*. Il s'agit d'un menu de vos projets. Je recommande d'utiliser ces projets avec RStudio, qui vous permettront de mieux gérer vos environnements de travail, en particulier en lien avec les chemins vers de vos données, graphiques, etc., que vous pouvez gérer relativement à l'emplacement de votre dossier de projet plutôt qu'à l'emplacement des fichiers sur votre machine.

- En haut à gauche, vous avez vos feuilles de calcul, qui apparaîtront en tant qu'onglets. Je recommande de prendre en main les `R notebooks`, dans lesquels vous pouvez écrire du texte en format [*Markdown*](https://github.com/adam-p/markdown-here/wiki/Markdown-Here-Cheatsheet) (dont il sera question plus loin) entre des blocks de code. Ceci vous permet de détailler votre flux de travail.
- En bas à gauche apparait la Console, où vous voyez les commandes envoyées à `R` ainsi que ses sorties. Si vous travaillez en format *notebook*, vous n'en aurez probablment pas besoin.
- En haut à droite, les différents onglets indiquent où vous en êtes dans vos calculs. En partoiculier, la liste sous *Environment* indique les objets qui ont été générés jusqu'alors.
- En bas à droite, on retrouve des onglets de nature variés. *Files* contient les sous-dossiers et fichiers du dossier de projet. `Plots` est l'endroit où apparaîtront vos graphiques. `Packages` contient la liste des modules déjà installés, ainsi qu'un outil de gestion des modules pour leur installation, leur désinstallation et leur mise à jour. `Help` affiche les fiches d'aide des fonctions (pour obtenir de l'aide sur une fonction dans `RStudio`, surlignez la fonction dans votre feuille de calcul, puis appuyez sur `F1`). Enfin, l'onglet `Viewer` affichera les sorties HTML, en particulier les graphiques intéractifs que vous générerez par exemple avec le module `plotly`.


#### R notebooks

Les `R notebooks` offrent une approche de programmation littéraire, c'est-à-dire que vous écrivez votre code comme vous écrivez une article, une thèse ou une histoire. Cette approche permet de partager plus facilement vos codes, que ce soit avec une équipe de travail ou à la communauté scientifitque pour accompagner un article scientifique en tant que matériel supplémentaire. Lorsque vous créez un notebook (`File > New file > R notebook`), les instructions de base apparaissent. Ajoutons que pour lancer du code ligne par ligne, vous pouvez surligner le code en question ou placez le curseur sur la ligne à exécuter, puis taper `Ctrl + Enter`. La sortie de `R` apparaîtra sous le bloc de code. Dans votre texte, vous pouvez ajouter des équations mathématiques en format *Mathjax* inspiré du format Latex, par exemple `$a = \sum_{i=1}^n x_i^2$` sera affiché comme $a = \sum_{i=1}^n x_i^2$ (pour aider dans l'édition d'équation, vous pouvez utiliser un [éditeur dans les nuages](http://www.sciweavers.org/free-online-latex-equation-editor)). Pour les titres, les caractères gras, l'insertion d'image, les hyper-liens, les tableaux, etc., référez-vous à la documentation de [*Markdown*](https://github.com/adam-p/markdown-here/wiki/Markdown-Here-Cheatsheet).

Si votre environnement de travail était un avion, `R` serait le moteur et `RStudio` serait le cockpit!

![](https://media.giphy.com/media/GmaV9oet9MAmI/giphy.gif)

## Installation avec Anaconda

Si vous cherchez une trousse complète d'analyse de données, comprenant `R` et `Python`, vous pourrez préférer [Anaconda](https://www.anaconda.com/download/#linux). Une fois installée, vous pourrez isoler une environnement de travail sur `R`, ou même isoler des environnements de travail particuliers pour vos projets. Une manière conviviale de créer des environnements de travail est de passer par l'interface *Anaconda navigator*, que vous lancerez soit dans le menu Windows, soit en ligne de commande `anaconda-navigator` sous Mac et Linux, puis d'installer `r-essentials`, `rstudio` et `jupyterlab` dans l'onglet *Environment*. Vous pourrez aussi installer `RStudio` et `Jupyter lab` via l'onglet *Home* de `Anaconda navigator`. Dans l'environnement de base, installez le package `nb_conda_kernels` pour vous assurer que tous les noyaux (`R`, `Python`, etc.) installés dans les environnements de travail soient automatiquement accessibles dans Jupyter.

<center><img src="images/anaconda-navigator.png" width=800></center>

`Jupyter lab` est une interface notebook semblable à `R notebook`. C'est justement sous `Jupyter lab` qu'est rédigé ce document. À vrai dire, l'utilisation de `R` en Anaconda n'est pas tout à fait au point, et pourrait poser problème pour l'installation de certains modules. Si vous optez pour cette option, préparez-vous à avoir à bidouiller un peu.

### Utilisation de Azure notebooks

Microsoft rend disponible gratuitement un service de notebook en ligne nommé [Azure notebooks](https://notebooks.azure.com/). Vous y aurez accès avec un compte Exchange (par exemple, votre IDUL de l'Université Laval) ou bien avec un compte Microsoft (Outlook, Skype, Hotmail, etc.). Microsoft Azure fonctionne avec Anaconda, et hérite de certaines difficultés à installer des packages. Avantages majeurs: tout fonctionne dans les nuages, donc (1) vous pouvez obtenir des performances intéressantes même si avec un processeur agé ou bas de gamme et (2) vous n'avez rien à installer sur votre machine. Désavantages majeurs: (1) vous devez être conecté à internet et (2) vous devrez installer vos modules à chaque fois que vous vous connecterez pour débuter une session de calcul. Apparamment, l'option de travail collaboratif sur un même notebook est [en cours de développement](https://github.com/Microsoft/AzureNotebooks/issues/6#issuecomment-346531536).

<center><img src="images/azure-notebook.png" width=800></center>



## Premiers pas avec `R`

`R` ne fonctionne pas avec des menus, en faisant danser une souris sous une musique de clics. Vous devrez donc entrer des commandes avec votre clavier, que vous apprendrez par coeur au fur et à mesure, ou que vous retrouverez en lançant des recherches sur internet. Par expérience personnelle, lorsque je travaille avec `R`, j'ai toujours un navigateur ouvert prêt à recevoir une question.

Pour l'instant, ouvrez seulement un interprétateur de commande, et lancez `R`. Voyons si `R` est aussi libre qu'on le prétend.

> "La liberté, c’est la liberté de dire que deux et deux font quatre. Si cela est accordé, tout le reste suit." - George Orwell, 1984

In [2]:
2+2

Et voilà.

<img width="200" src="images/braveheart224.png">

Les opérations mathématiques sont effectuées telles que l'on devrait s'attendre.

In [3]:
67.1-43.3

In [4]:
2*4

In [5]:
1/2

L'exposant peut être noté `^`, comme c'est le cas dans *Excel*, ou `**` comme c'est le cas en `Python`.

In [6]:
2**4

In [7]:
2^4

In [30]:
1 / 2 # les espaces ne signifie rien ici

`R` ne lit pas ce qui suit le caractère `#`. Cela vous laisse l'opportunité de commenter un code comprenant une qéquence de plusieurs lignes. Remarquez également que la dernière opération comporte des espaces entre les nombres et l'opérateur `/`. Dans ce cas (ce n'est pas toujours le cas), les espaces ne signifient rien: ils aident seulement à éclaircir le code. Il existe des guides pour l'écriture de code en `R`. Je recommande le guide de style de [Hadley Wickahm](http://adv-r.had.co.nz/Style.html).

Assigner des objets à des variables est fondamental en programmation. En `R`, on assigne traditionnellement avec la flèche `<-`, mais vous verrez parfois le `=`, quiest davantage utilisé comme standard dans d'autres langages de programmation. Par exemple.

In [8]:
a <- 3

Techniquement, `a` pointe vers le nombre entier 3. Conséquemment, on peut effectuer des opérations sur `a`.

In [10]:
a * 6

In [11]:
A + 2

ERROR: Error in eval(expr, envir, enclos): objet 'A' introuvable


Le message d'erreur nous dit que `A` n'est pas défini. Sa version minuscule, `a`, l'est pourtant. La raison est que `R` considère la *case* dans la définition des objets. Utiliser la mauvaise case mène donc à des erreurs.

En général, le nom d'une variable doit toujours commencer par une lettre, et ne doit pas contenir de caractères réservés (espaces, `+`, `*`). Dans la définition des variables, plusieurs utilisent des symboles `.` pour délimiter les mots, mais la barre de soulignement `_` est à préférer. En effet, dans d'autres langages de programmation comme `Python`, le `.` a une autre signification: son utilisation est à éviter autant que possible.

In [11]:
rendement_arbre = 50 # pomme/arbre
nombre_arbre = 300 # arbre
nombre_pomme = rendement_arbre * nombre_arbre
nombre_pomme

Comme chez la plupart des langages de prorgammation, `R` respecte les conventions des [priorités des opérations mathéatiques](https://fr.wikipedia.org/wiki/Ordre_des_op%C3%A9rations).

In [14]:
10 - 9 ^ 0.5 * 2

### Types de données

Jusqu'à maintenant, nous n'avons utilisé que des **nombres entiers** (*integer* ou `int`) et des **nombres réels** (*numeric* ou `float64`). `R` inclut d'autres types. La **chaîne de caractère** (*string* ou *character*) contient un ou plusieurs symboles. Elle est définie entre des double-guillemets `" "` ou des apostrophes `' '`. Il n'existe pas de standard sur l'utilisation de l'un ou de l'autre, mais en règle générale, on utilise les apostrophe pour les experssions courtes, contenant un simple mot ou séquence de lettres, et les guillements pour les phrases. Une raison pour cela: les guillemets sont utiles pour insérer des apostrophes dans une chaîne de caractère.

In [33]:
a = "L'ours"
b = "polaire"
paste(a, b)

On *colle* `a` et `b` avec la fonction `paste`. Notez que l'objet `a` a été défini précédemment. Il est possible en `R` de réassigner une variable, mais cela peut porter à confusion, jusqu'à générer des erreurs de calcul si une variable n'est pas assigné à l'objet auquel on voulait référer.

Combien de caractères contient la chaîne `"L'ours polaire"`? `R` sait compter. Demandons-lui.

In [35]:
c = paste(a, b)
nchar(c)

Quatorze, c'est bien cela (comptez "L'ours polaire", en incluant l'espace). Comme `paste`, `nchar` est une fonction incluse par défaut dans l'environnement de travail de `R`: plus précisément, ces fonctions sont incluses dans le module `base`, inclut par défaut lorsque `R` est lancé. La fonction est appelée en écrivant `nchar()`. Mais une fonction de quoi? Des *arguments*, qui se trouvent entre les parenthèses. Dans ce cas, il y a un seul argument: `c`.

En calcul scientifique, il est courrant de lancer des requêtes sur si une résultat est vrai ou faux.

In [39]:
a = 17
print(a < 10)
print(a > 10)
print(a == 10)
print(a != 10)
print(a == 17)
print(!(a == 17))

[1] FALSE
[1] TRUE
[1] FALSE
[1] TRUE
[1] TRUE
[1] FALSE


Je viens d'introduire un nouveau type de donnée: les données booléennes (*boolean*, ou `logical`), qui ne peuvent prendre que deux états - `TRUE` ou `FALSE`. En même temps, j'ai utilisé la fonction `print` parce que dans mon carnet, seule la dernière opération permet d'afficher le résultat. Si l'on veut forcer une sortie, on utilise `print`. Puis, on a vu plus haut que le symbole `=` est réservé pour assigner des objets: pour les tests d'égalité, on utilise le double égal, `==`, ou `!=` pour la non égalité. Enfin, pour inverser une donnée de type booléenne, on utilise le point d'exclamation `!`.

### Les collections de données

Les exercices précédents ont permis de présenter les types de données offerts par défault sur Python qui sont les plus importants pour le calcul scientifique: `int` (*integer*, ou nombre entier), `numeric` (nombre réel), `character` (*string*, ou chaîne de caractère) et `logical` (booléen). D'autres s'ajouterons tout au long du cours, comme les unités de temps (date-heure), les catégories () et les géométries (points, linges, polygones) géoréférencées.

Lorsque l'on procède à des opérations de calcul en science, nous utilisons rarement des valeurs uniques. Nous préférons les oragniser et les traiter en collections. Par défaut, `R` offre quatre types importants: les **vecteurs**, les **matrices**, les **listes** et les **tableaux**.

#### Vecteurs

D'abord, les **vecteurs** sont une série de variables d'un seul type. Un vecteur est délimité par la fonction `c( )` (`c` pour **c**oncaténation). Les éléments de la liste sont séparés par des virgules.

In [48]:
espece = c('Petromyzon marinus', 'Lepisosteus osseus', 'Amia calva', 'Hiodon tergisus')
espece

Pour accéder aux éléments d'une liste, appelle la liste suivie de la position de l'objet désiré entre crochets. Fait important qui reviendra tout au long du cours: en Python, l'indice du premier élément est zéro.

In [50]:
print(espece[1])
print(espece[2])
print(espece[1:3])
print(espece[c(1, 3)])

[1] "Petromyzon marinus"
[1] "Lepisosteus osseus"
[1] "Petromyzon marinus" "Lepisosteus osseus" "Amia calva"        
[1] "Petromyzon marinus" "Amia calva"        


On peut noter que le premier élément de la liste est noté `1`, et non `0` comme c'est le cas de la plupart de langages. Le raccourcis `1:3` crée une liste de nombres entiers de `1` à `3` inclusivement, c'est-à-dire l'équivalent de `c(1, 2, 3)`. En effet, on crée une liste d'indice pour soutirer des éléments d'une liste. On peut utiliser le symbole de soustraction pour retirer un ou plusieurs éléments d'un vecteur.

In [52]:
print(espece[-c(1, 3)])

[1] "Lepisosteus osseus" "Hiodon tergisus"   


Pour ajouter un élément à notre liste, on peut utiliser la fonction `c( )`.

In [53]:
espece = c(espece, "Cyprinus carpio")
espece

Notez que l'on efface l'objet `espece` par une contaténation de l'objet `espèce`, précédemment défini, et d'un autre élément. 

 En lançant `espece[6] = "Lepomis gibbosus"`, il est possible de changer une élément de la liste.

In [56]:
espece[3] = "Lepomis gibbosus"
espece

#### Matrices

Une **matrice** est un vecteur de dimension plus élevée que 1. En écologie, on dépasse rarement la deuxième dimension, quoi que les matrices en `N` dimensions soient courrantes en modélisation mathématique. Je ne considérerai pour le moment que des matrices `2D`. Comme c'est la cas des vecteurs, les matrices contiennent des valeurs de même type. En `R`, on peut attribuer aux matrices `2D` des noms de ligne et de colonne.

In [57]:
mat = matrix(c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12), ncol=3)
mat

0,1,2
1,5,9
2,6,10
3,7,11
4,8,12


In [59]:
colnames(mat) = c('A', 'B', 'C')
rownames(mat) = c('site_1', 'site_2', 'site_3', 'site_4')
mat

Unnamed: 0,A,B,C
site_1,1,5,9
site_2,2,6,10
site_3,3,7,11
site_4,4,8,12


In [68]:
print(array(1:24, dim=c(3,4,2)))

, , 1

     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12

, , 2

     [,1] [,2] [,3] [,4]
[1,]   13   16   19   22
[2,]   14   17   20   23
[3,]   15   18   21   24



#### Listes

Les **listes** ressemblent aux vecteurs, mais:

0. elles peuvent même contenir des variables de types hétérogènes: ellespeuvent même inclure d'autres listes.
0. chacun des éléments de la liste peut être identifié par une clé

Les **tuples**, définis `tuple` par Python, différent des listes du fait que ses éléments ne peuvent pas être modifiés. Un tuple est délimité par des parenthèses `( )`, et comme chez la liste,  ses éléments sont séparés par des virgules. Les tuples sont moins polyvalents que les listes. Vous les utiliserez probablement rarement, et surtout comme arguments dans certaines fonctions en calcul scientifique.

In [17]:
espece = ('Petromyzon marinus', 'Lepisosteus osseus', 'Amia calva', 'Hiodon tergisus')
espece[2] = "Lepomis gibbosus"
espece

TypeError: 'tuple' object does not support item assignment

Les **dictionnaires**, ou `dict`, sont des listes dont chaque élément est identifié par une clé. Un dictionnaire est délimité par des accolades sous forme `mon_dict = {'clé1': x, 'clé2': y, 'clé3': z }`. On appelle un élément par sa clé entre des crochets, par exemple `mon_dict['clé1']`.

Le `dict` se rapproche d'un tableau: nous verrons plus tard que le format de tableau (offert dans un module complémentaire) est bâti à partir du format `dict`. Contrairement à un tableau où les colonnes contiennent toutes le même nombre de lignes, chaque élément du dictionnaire est indépendant des autres.

In [21]:
tableau = {'espece': ['Petromyzon marinus', 'Lepisosteus osseus', 'Amia calva', 'Hiodon tergisus'], 'poids': [10, 13, 21, 4], 'longueur': [35, 44, 50, 8]}
print('Mon tableau: ', tableau)
print('Mes espèces:',  tableau['espece'])
print('Noms des clés (ou colonnes):',  tableau.keys())

Mon tableau:  {'poids': [10, 13, 21, 4], 'espece': ['Petromyzon marinus', 'Lepisosteus osseus', 'Amia calva', 'Hiodon tergisus'], 'longueur': [35, 44, 50, 8]}
Mes espèces: ['Petromyzon marinus', 'Lepisosteus osseus', 'Amia calva', 'Hiodon tergisus']
Noms des clés (ou colonnes): dict_keys(['poids', 'espece', 'longueur'])


### Les fonctions (ou *méthodes*)

Plus haut, j'ai présenté les fonctions `len` et `append`. Une myriade de fonctions sont livrées par défaut avec Python. Mais il en manque aussi cruellement.


In [18]:
sqrt(2)

NameError: name 'sqrt' is not defined

Message d'erreur: la commande `sqrt` n'est pas définie. 

> Quoi, Python n'est pas foutu de calculer une racine carrée?

Par défaut, non.

![](https://media.giphy.com/media/BuXP669E4ewLe/giphy.gif)

Mais!

De nombreuses extensions (les *modules*) permettent de combler ces manques. Nous aborderons ça un peu plus loin dans ce chapitre. Pour l'instant, exerçons-nous à créer notre propre fonction de racine carrée.

In [20]:
def racine(x, n=2):
    r = x**(1/n)
    return r

En Python, `def` est le mot-clé pour définir une fonction. Suit ensuite, après un espace, le nom que vous désirez donner à la fonction: `racine`. Les arguments de la fonction suivent entre les parenthèses. Dans ce cas, `x` est la valeur de laquelle on veut extraire la racine et `n` est l'ordre de la racine. L'agument `x` n'a pas de valeur par défaut: elle doit être spécifiée pour que la fonction fonctionne. La mention `n=2` signifie que si la valeur de `n` n'est pas spécifiée, elle prendra la valeur de 2 (la racine carrée). Pour marquer la fin de la définition et le début de la suite d'instructions, on utilise les deux points `:`, puis un retour de ligne. Une indentation (ou retrait) de quatre barres d'espacement signifie que l'on se trouve à l'intérieur de la suite d'instructions, où l'on calcule une valeur de `r` comme l'exposant de l'inverse de l'ordre de la racine. La dernière ligne indique ce que la fonction doit retourner.

In [21]:
print(racine(9))
print(racine(x=9))
print(racine(8, 3))
print(racine(x=8, n=3))

3.0
3.0
2.0
2.0


S'ils ne sont pas spécifiés, Python comprend que les arguments sont entrés dans l'ordre défini dans la fonction. En entrant `racine(9)`, Python comprend que le `9` est attribué à `x` et donne à `n` sa valeur par défaut, `2`. Ce qui est équivalent à entrer `racine(x=9)`. Les autres entrées sont aussi équivalentes, et extraient la racine cubique. S'il se peut qu'il y ait confusion entre les arguments nommés et ceux qui ne le sont pas, Python vous retournera un message d'erreur. Règle générale, il est préférable pour la lisibilité du code de nommer les arguments plutôt que de les spécifier dans l'ordre.

Supposons maintenant que vous avez une liste de données dont vous voulez extraire la racine.

In [22]:
data = [3.5, 8.1, 10.2, 0.5, 5.6]
racine(x=data, n=2)

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'float'

Oups. Python vous dit qu'il y a une erreur, et vous indique avec une flèche `---->` à quelle ligne de notre fonction elle est encourrue. Les exposants `**` (on peut aussi utiliser la fonction `pow`) ne sont pas applicables aux listes. Une solution est d'appliquer la fonction à chaque élément de la liste avec une **ittération**. On verra plus tard des manières plus efficaces de procéder. Je me sers de ce cas d'étude pour introduire les boucles ittératives.

### Les boucles

Les boucles permettent d'effectuer une même suite d'opérations sur plusieurs objets. Pour faire suite à notre exemple:

In [26]:
racine_data = []
for i in [0, 1, 2, 3, 4]:
    r = racine(x=data[i], n=2)
    racine_data.append(r)

racine_data

[1.8708286933869707,
 2.8460498941515415,
 3.1937438845342623,
 0.7071067811865476,
 2.3664319132398464]

Nous avons d'abord créé une liste vide, `racine_data`. Ensuite, pour (**`for`**) chaque indice de la liste (`i in [0, 1, 2, 3, 4]`), nous demandons à Python d'effectuer la suite d'opération qui suit le `;` et qui est indentée de quatre espaces. Dans la suite d'opération, calculer la racine carrée de `data` à l'indice `i`, puis l'ajouter à la liste `racine_data`. Au lieu d'entrer une liste `[0, 1, 2, 3, 4]`, on aurait pu utiliser la fonction `range` et lui assigner automatiquement la longueur de la liste.

In [27]:
racine_data = []
for i in range(len(data)):
    r = racine(x=data[i], n=2)
    print('Racine carrée de ', data[i], ' = ', r)
    racine_data.append(r)

Racine carrée de  3.5  =  1.8708286933869707
Racine carrée de  8.1  =  2.8460498941515415
Racine carrée de  10.2  =  3.1937438845342623
Racine carrée de  0.5  =  0.7071067811865476
Racine carrée de  5.6  =  2.3664319132398464


La fonction `range` retourne une séquence calculée au besoin. Elle est calculée si elle est évoquée dans une boucle ou en lançant `list`.

In [28]:
print(range(len(data)))
print(list(range(len(data))))
print(range(2, len(data)))
print(list(range(2, len(data))))

range(0, 5)
[0, 1, 2, 3, 4]
range(2, 5)
[2, 3, 4]


Première observation, si un seul argument est inclus, `range` retourne une séquence partant de zéro. Seconde observation, la séquence se termine en excluant l'argument. Ainsi, `range(2,5)` retourne la séquence [2, 3, 4]. En spécifiant la longueur de data comme argument, la séquence `range(5)` retourne la liste `[0, 1, 2, 3, 4]`, soit les indices dont nous avons besoin pour itérer dans la liste.

Les boucles `for` vous permettront par exemple de générer en peu de temps 10, 100, 1000 graphiques (autant que vous voulez), chacun issu de simulations obtenues à partir de conidtions initiales différentes, et de les enregistrer dans un répertoire sur votre ordinateur. Un travail qui pourrait prendre des semaines sur Excel peut être effectué en Python en quelques secondes.

Un second outil est disponible pour les itérations: les boucles **`while`**. Elles effectue une opération tant qu'un critère n'est pas atteint. Elles sont utiles pour les opérations où l'on cherche une convergence. Je les couvre rapidement puisque'elles sont rarement utilisées dans les flux de travail courrants. En voici un petit exemple.

In [29]:
x = 100
while (x > 1.1):
    x=racine(x)
    print(x)

10.0
3.1622776601683795
1.7782794100389228
1.333521432163324
1.1547819846894583
1.0746078283213176


Nous avons inité x à une valeur de 100. Puis, tant que (`while`) le test `x > 1.1` est vrai, attribuer à `x` la nouvelle valeur calculée en extrayant la racine de la valeur précédente de `x`. Enfin, indiquer la valeur avec `print`.

Explorons maintenant comment Python réagit si on lui demande de calculer $\sqrt{-1}$.

In [30]:
racine(x=-1, n=2)

(6.123233995736766e-17+1j)

D'abord, Python ne retourne pas de message d'erreur, mais un nouveau type de donnée: le nombre imaginaire. Puis, `6.123233995736766e-17` n'est pas zéro, mais très proche. La résolution des calculs étant numérique, on obeserve parfois de légères déviations par rapport aux solutions mathématiques.

Si pour un cas particulier, on veut éviter que notre fonction retourne un nombre imaginaire, comment s'y prendre? Avec une **condition**.

### Conditions: `if`, `elif`, `else`

> `Si la condition 1 est remplie, effectuer une suite d'instruction 1. Si la condition 1 n'est pas remplie, et si la condition 2 est remplie, effectuer la suite d'instruction 2. Sinon, effectuer la suite d'instruction 3.`

Voilà comment on exprime une suite de conditions. Pour notre racine d'un nombre négatif, on pourrait procéder comme suit.

In [31]:
def racine_positive_nn(x, n=2):
    if x<0:
        raise ValueError("x est négatif")
    elif x==0:
        raise ValueError("x est nul")
    else:
        r = x**(1/n)
        return r

La racine positive et non-nulle (`racine_positive_nn`) comprend les mot-clés `if` (si), `elif` (une contration de *else if*) et `else` (sinon). `ValueError` est une fonction pour retourner un message d'erreur lorsqu'elle est précédée de `raise`. Comme c'est le cas pour `def` et `for`, les instructions des conditions sont indentées. Notez la double indentation (8 espaces) pour les instructions des conditions. Alors que la plupart des langages de programmation demandent d'emboîter les instructions dans des parenthèses, accolades et crochets, Python préfère nous forcer à bien indenter le code (ce que l'on devrait faire de toute manière pour améliorer la lisibilité) et s'y fier pour effectuer ses opérations.

In [32]:
racine_positive_nn(x=-1, n=2)

ValueError: x est négatif

In [33]:
racine_positive_nn(x=0, n=2)

ValueError: x est nul

In [34]:
racine_positive_nn(x=4, n=2)

2.0

### Charger un module

Le module `numpy`, installé par défaut avec Anaconda, est une boîte d'outil de calcul numérique populée par de nombreuses foncions mathématiques. Dont la racine carrée.

In [1]:
import numpy as np
np.sqrt(9)

3.0

In [36]:
from numpy import sqrt
sqrt(9)

3.0

La plupart des fonctions que vous aurez à construire seront vouées à des instructions spécialisées à votre cas d'étude. Pour la plupart des opérations d'ordre générale (comme les racines carrées, les tests statistiques, la gestion de matrices et de tableau, les graphiques, les modèles d'apprentissage, etc.), des équipes ont déjà développé des fonctions nécessaires à leur utilisation, et les ont laissées disponibles au grand public. L'introduction à Python se termine là-dessus.

Comme une langue, on n'apprend à s'exprimer en un langage informatique qu'en se mettant à l'épreuve, ce que vous ferez tout au long de ce cours.

Prenons une pause de Python et passons à des technicalités.

## L'environnement de travail

### Le gestionnaire `conda`

Une fois que Anaconda est installé, l'[installation de modules](http://conda.pydata.org/docs/using/pkgs.html) et des [environnements virtuel](http://conda.pydata.org/docs/using/envs.html) devient possible avec le gestionnaire `conda`. Cette section ne présente qu'un aperçu de ses capacités, basé sur ce dont vous aurez besoin pour ce cours. Pour plus d'information, consultez le [guide](http://conda.pydata.org/docs/intro.html).

### Installer des modules

Sans module, Python ne sera pas un environnement de calcul scientifique appréciable. Heureusement, il existe des modules pour faciliter la vie des scientifiques qui désirent calculer des opérations simples comme des moyennes et des angles, ou des opérations plus compliquées comme des intégrales et des algorithmes d'intelligence artificielle. Plusieurs modules sont installés par défaut avec Anaconda. Pour lister l'ensemble des modules installés dans un environnement, ouvrez un terminal (si vous vous trouvez dans une session Python, vous devez quitter par la commande `quit()`) et lancez:

```
conda list
```

Les modules sont téléchargés et installés depuis des dépôts en ligne. L'entreprise [Continuum Analytics](https://www.continuum.io/), qui développe et supporte Anaconda, offre ses propres dépôts. Par défaut, le module `statsmodels` (que nous utiliserons pour certaines opérations) sera téléchargé depuis les dépôts par défaut si vous lancez:

```
conda install statsmodels
```

Il est préférable d'utiliser le dépôt communautaire [conda-forge](https://conda-forge.github.io/) plutôt que les dépôts officiels de Continuum Analytics. Sur conda-forge, davantage de modules sont disponibles, ceux-ci sont davantage à jour et leur  qualité est contrôlée.

```
conda config --add channels conda-forge
```

Par la suite, tous les modules seront téléchargés depuis conda-forge. Pour effectuer une mise à jour de tous les modules, lancez:

```
conda update --all
```

### Installer des environnements virtuels
Vous voilà en train de travailler sur des données complexes qui demandent plusieurs opérations. Vous avez l'habitude, à toutes les semaines, de lancer `conda update --all` pour mettre à jour les modules, ce qui corrige les bogues et ajoute des fonctionnalités. L'équipe de développement d'un module a décidé de modifier, pour le mieux, une fonction. Vous n'êtes pas au courant de ce changement et vous passez deux jours à cherche ce qui cause ce message d'erreur dans vos calculs. Vous envoyez votre fichier de calcul à votre collègue qui n'a pas mis à jour ce module, puis vos corrections lui causent des problèmes. Croyez-moi, ça arrive souvent.

Les environnements virtuels sont là pour éviter cela. Il s'agit d'un répertoire dans lequel Python ainsi que ses modules sont isolés. Pour un projet spécifique, vous pouvez créer un environnement virtuel sous Python 2.7.9 et installer des versions de modules spécifiques sans les mettre à jour. Ça permet d'une part de travailler avec des outils qui ne changent pas en cours de projet, et d'autre part à travailler entre collègues avec les mêmes versions.

Pour créer un environnement nommé `fertilisation_laitue` incluant Python en version 2.7.9 et le module `statsmodels` version 0.6.0, lancez:

```
conda create -n fertilisation_laitue python=2.7.9
```

Le répertoire de projet sera automatiquement installé dans le répertoire `envs` de votre installation de Anaconda.

Pour activer cet environnement, sous Linux et en OS X:

```
source activate fertilisation_laitue
```

Sous Windows:

```
activate fertilisation_laitue
```

Depuis l'environnement virtuel, vous pouvez installer les modules dont vous avez besoin, en spécifiant la version. Par exemple,

```
conda install statsmodels=0.6.0
```

Depuis votre environnement virtuel (y compris l'environnement `root`), vous pouvez aussi lancer Jupyter, une interface qui vous permettra d'intéragir de manière conviviale avec Python.

À titre d'exemple, préparons-nous au cours en créant un environnement virtuel qui incluera la version de Python 3.5. Précédemment, nous avions fait cela en deux étapes: (1) créer l'environnement, puis (2) installer les bibliothèques. Nous pouvons tout aussi bien le faire d'un coup. Je nomme arbitrairement l'environnement `ecolopy`.

```
conda create -n ecolopy numpy scipy pandas matplotlib jupyterlab
```

Activons l'environnement (Linux et OS X: `source activate ecolopy`, Windows: `activate ecolopy`), puis installons les bibliothèques nécessaires. Puisque j'utilise Linux,

```
source activate ecolopy
```

Pour partager un environnement de travail avec des collègues ou avec la postérité, vous pouvez générer une liste de prérequis via `conda list -e > req.txt`, à partir de laquelle quiconque utlise Anaconda pourra créer un environnement virtuel identique au vôtre via `conda create -n ecolopy environment --file req.txt`.

Pour tester l'environnement, lancez python!

```
python
```

Pour ce cours, vous êtes libres de générer un environnement de travail ou de travailler dans l'environnement par défaut (nommé `root`).

La première ligne importe le module NumPy (`numpy`) et en crée une instance dont on choisi optionnellement le nom: `np` (utilisé conventionnellement pour `numpy`). Ce faisant, on appelle `numpy` et on le lie avec `np`. Ainsi, on peut aller chercher l'instance `sqrt` de `np` avec `np.sqrt()`. Si l'on ne cherche qu'à importer la fonction sqrt et que l'on ne comte pas utiliser le tout NumPy:

De nombreux modules seront utilisés lors de ce cours. La section suivante vise à les présenter brièvement.

### Modules de base

#### NumPy
NumPy, une contraction de *Numerical Python*, donne accès à de nombreuses fonctions mathématiques et intervient inmanquablement pour effectuer des opérations sur les matrices. La grande majorité des opérations effectuées lors de ce cours fera explicitement ou implicitement (via un autre module s'appuyant sur NumPy) référence à NumPy. NumPy permet notamment:

- de donner accès à des [opérations mathématiques de base](https://docs.scipy.org/doc/numpy/reference/routines.math.html) comme la racine carrée, la trigonométrie, les logarithmes, etc.;
- d'effectuer des opérations rapides sur des matrices multidimentionnelles (ndarray, ou n-dimensionnal array), dont des calculs d'[algèbre linéaire](https://docs.scipy.org/doc/numpy/reference/routines.linalg.html);
- d'effectuer des calculs élément par élément, ligne par ligne, colonne par colonne, etc., grâce à la "vectorisation" - par exemple en additionnant un scalaire à un vecteur, le scalaire sera additionné à tous les éléments du vecteur;
- d'[importer et exporter](https://docs.scipy.org/doc/numpy/reference/routines.io.html) des fichiers de données;
- de [générer des nombres aléatoires](https://docs.scipy.org/doc/numpy/reference/routines.random.html) selon des lois de probabilité.


#### SciPy
Basée sur NumPy, [SciPy](http://www.scipy.org/scipylib/index.html) est une collection de fonctions mathématiques offrant une panoplie d'outil pour le calcul scientifique.  Il simplifie certaines fonctions de Numpy, et  offre des gadgets qui se rendront essentiels pour des opérations courrantes, notamment:

- calcul intégral et résolution de systèmes d'équations différentielles ordinaires
- interpolation entre coordonnées
- traitement et analyse de signal

Note. Un bibliothèque portant le préfixe *scikit* fait partie de la [trousse d'extensions de SciPy](http://scikits.appspot.com/scikits). 

#### pandas
Les données  sont souvent organisées sous forme de tableau, les colonnes représentant les variables mesurées et les lignes représentant les observations. La bibliothèque [pandas](http://pandas.pydata.org/) offre un kit d'outil pour travailler avec des tableaux de données (`DataFrame`) de manière efficace.  Avec une rapidité d'exécution héritée de NumPy, pandas inclut l'approche des bases de données relationnelles (SQL) pour filtrer, découper, synthétiser, formater et fusionner des tableaux.

#### matplotlib
Les graphiques sont des synthèses visuelles de données qui autrement seraient pénibles à interpréter. Malgré les récents développements en visualisation sur Python, [`matplotlib`](http://matplotlib.org/) reste la bibliothèque de base pour la présentation de graphiques: nuages de points, lignes, boxplots, histogrammes, contours, etc. Il y en a d'autres comme `altair`, `seaborn` et `bokeh`, qui vous seront présentées au moment opportun.

### Modules spécialisés: <<<À AJUSTER À LA FIN>>>

#### `SymPy`
Le calcul symbolique a une place théorique importante en calcul scientifique. [`SymPy`](http://www.sympy.org/en/index.html) sera utilisée pour valider des fonctions issues d'équations différentielles.

#### `statsmodels`
Plus que de la statistique, la bibliothèque [`statsmodels`](http://statsmodels.sourceforge.net/) est conçue comme accompagnatrice dans l'analyse de données. Elle aidera à effectuer des statistiques comme des analyses de variance, des régressions et des analyses de survie, mais aussi des opérations de prétraitement comme l'imputation de données manquantes.

#### `scikit-learn`
L'apprentissage automatique (*machine learning* en anglais), permet de détecter des structures dans les données dans l'objectif de prédire une nouvelle occurance, que ce soit un ou plusieurs variables numériques (régression) ou catégorielles (classification). De nombreux algorhitmes sont appelés à être utilisés en sciences de la vie. [`scikit-learn`](http://scikit-learn.org/stable/#) est une trousse d'outil permettant d'appréhender ces outils complexes de manière efficace, conviviale et cohérente, en plus d'offir la possibilité d'empaqueter des machines d'apprentissage dans des logiciels. La documentation de scikit-learn est d'une rare qualité. `scikit-learn` peut aussi être utilisé pour effectuer des classifications non supervisées (classifier des données qui n'ont pas de catégorie prédéterminées), notamment l'analyse de partitionnement (*clustering* en anglais).

#### `scikit-bio`
[`scikit-bio`](http://scikit-bio.org/) sera utilisé principalement pour l'analyse compositionnelle et pour l'ordination. Ses possibilités ne s'arrêtent toutefois pas là. Techniquement, la bibliothèque `scikit-bio` a moins de lien avec `scikit-learn` qu'avec [`QIIME`](https://qiime.org/), un logiciel libre dédié à la bioinformatique, une discipline connexe au génie écologique, mais axée sur l'analyse génétique.

#### `bokeh`
Un graphique est une représentation visuelle de données. Bien que matplotlib un outil essentiel au calcul scientifique avec Python, de nombreuses autres bibliothèques ont été développées pour combler ses lacunes. L'une d'entre elle émerge du transfert de la publication traditionnelle (papier, puis pdf) vers la publication de documents interactifs. [`bokeh`](http://bokeh.pydata.org/en/latest/) est une bibliothèque qui, parmi d'autres (notamment [`plotly`](https://plot.ly/) et [`mpld3`](https://mpld3.github.io/)), offre la possibilité de créer des graphiques intéractifs. Bonus: bokeh est aussi une plateforme de développement de logiciels scientifiques.

#### `ggplot`
**gg**, pour Grammar of Graphics. C'est avant tout un langage pour exprimer le passage de la donnée à sa représentation graphique. Le module `ggplot2` est l'un des plus prisés du langage `R`. Un groupe de travail a heureusement planché sur une [version Python](http://ggplot.yhathq.com/), moins complète mais hautement utile pour tracer des graphiques de manière conviviale autant pour l'exploration de données que pour la publication.

#### `SfePy`
[*Simple Finite Elements with Python*](http://sfepy.org/) est un gros module conçu pour appréhender de la manière la plus simple possible la modélisation d'équations différentielles partielles par éléments finis. Cette méthode, largement utilisée en ingénierie, sera utile pour modéliser une panoplie de mécanismes déterministes: les transferts d'énergie, l'écoulement de l'eau, le transport des solutés et la dispersion des espèces.

#### `lifelines`
Combien de temps reste-t-il avant un événment? C'est la question que pose l'analyste de survie. [`lifelines`](https://lifelines.readthedocs.io/en/latest/) est un module Python conçu exactement pour cela.

### Interfaces
On les appelle des interfaces graphiques ou des environnement intégrés de développement et son conçus pour faciliter l'utilisation d'un langage de programmation, souvent pour des applications particulières. Utiliser Python uniquement dans un terminal n'est pas très pratique pour garder la trace des calculs. Comme la plupart des interfaces conçus pour le calcul scientifique, Jupyter comporte trois composantes: un éditeur de commande, un moyen d'exécuter les commandes et un afficheur de graphiques.

#### Jupyter
##### Jupyter lab
Anciennement nommé IPython notebook, puis Jupyter notebook, [Jupyter lab](https://github.com/jupyterlab/jupyterlab) s'inspire d'un format usuelle en science: le carnet de laboratoire.

<!--![](images/jupyter-screenshot.png)-->
<img src="https://raw.githubusercontent.com/jupyterlab/jupyterlab/master/jupyter-plugins-demo.gif" width="600">

Jupyter lab fonctionne dans une fenêtre de navigateur internet. Le code est interprété par IPython, un interprétateur pour le calcul scientifique sur Python. Chaque cellule peut contenir un texte explicatif (édité en [markdown](https://www.youtube.com/watch?v=6A5EpqqDOdk), un outil de traitement de texte où le formattage est effectué dans texte à l'aide de caractères spéciaux), incluant des équations (écrites en format LaTeX via [MathJax](https://www.mathjax.org/) - il existe des [éditeurs d'équations en ligne](http://www.sciweavers.org/free-online-latex-equation-editor)), ou des morceaux de code. Par ailleurs, ces notes de cours sont rédigées dans des carnets Jupyter.

##### nteract
Afin de libérer Jupyter du navigateur web, une équipe a développé le logiciel [nteract](https://nteract.io), une version épurée de Jupyter en format d'application bureau. **C'est l'interface que nous allons utiliser lors de ce cours**. Téléchargez l'installateur et installez!

#### Autres
L'interface de [Rodeo](https://www.yhat.com/products/rodeo) comprend des fenêtres pour l'édition de code, pour interprétateur IPython, pour la session de travail et pour afficher les graphiques. En fait, il imite l'interface de RStudio pour R. C'est une solution visuellement élégante et moderne, mais  pas aussi complète que Spyder.

Spyder est un acronyme pour "Scientific PYthon Development EnviRonment". Si vous avez installé Anaconda, [Spyder](https://github.com/spyder-ide/spyder) est déjà installé sur votre ordiateur. Il est comparable à Rodeo, mais est plus ancien, plus complet, mais aussi plus complexe. 

Il existe aussi plusieurs autres environnements de développement en mode libre ([Atom/Hydrogen](https://github.com/nteract/hydrogen), [Eclipse/PyDev](http://www.pydev.org/), [Komodo IDE](http://www.activestate.com/komodo-ide), [Lighttable](http://lighttable.com/), [Ninja IDE](http://ninja-ide.org/home/)). Mais certaines préféreront seulement utiliser un bon éditeur texte ([Atom](https://atom.io/), [Brackets](http://brackets.io/), [LighttTable](http://lighttable.com/), [Notepad++](https://notepad-plus-plus.org/), etc.) accompagné d'un terminal sous [IPython](http://ipython.org/). 

## Astuces pour utiliser Jupyter

Ce manuel est créé avec Jupyter. En double-cliquant dans ses cellules de texte, vous aurez accès au code *markdown*, un langage HTML simplifié permettant d'insérer des titres, des tableaux, des emphases en italique et en gras, des équations, des liens, des citations, des encadrés, des listes, etc.

### Cellule markdown

Formatter un texte en markdown est relativement facile. Vous utiliserez sans doute ces outils:

```
# Titre 1
## Titre 2
###### Titre 6

Formater du `code alligné`. Ou bien un

\```
paragraphe dédié au code
\```

Liste à puce
- item 1
- item 2
    - item 2.1
        - item 2.1.1

Liste numérotée
0. item 1
0. item 2
    0. item 2.1
        0. item 2.1.1

Texte emphasé en *italique* ou en **gras**.

[Hyperlien](www.python.org)

Insérer une image
![]()

Insérer une équation en ligne: $\alpha + \beta$. Ou en un paragraphe:

$$ c = \sqrt{\left( a^2 + b^2 \right)} $$

| Symbole | Format |
| --- | ---|
| Titre 1 | \# Titre 1|
| Titre 2 | \## Titre 2|
| Titre 6 | \###### Titre 6|
| code ligne | \`code\`|
| code paragraphe | \`\`\`code\`\`\`|
| Items de liste à puce | \- item avec indentation pour les sous-items |
| Items de liste numérotée | 0. item avec indentation pour les sous-items |
| Italique | Texte emphasé en \*italique\* |
| Gras | Texte emphasé en \*\*gras\*\* |
| Hyperlien | Créer un \[lien\](https://python.org) |
| Image | Insérer une image \!\[\](....png) |
| Équation | Insérer une équation en format LaTeX \$c = \sqrt \left( a^2 + b^2 \right)\$ |
```

### Cellule de code

Il était suggéré au cours de ce chapitre d'entrer les commandes dans un terminal. À partir d'ici, il sera préférable d'utiliser un notebook à partir d'ici, et d'excécuter les calculs dans des cellules de code.

In [2]:
a = 5/2
a

2.5