# Introduction au calcul numérique avec Python

![](images/midjourney-old-snake.png)

<small>Créé avec Midjourney. A representation of a snake in a biology book of the 19th century, with subtile futuristic elements of numerical computing.</small>

Excel est utile pour consigner de petits ensembles de données, effectuer des analyses de base et générer des graphiques simples. Mais avec Excel, la probabilité de commettre des erreurs grandit rapidement avec la complexité des calculs. De plus, les journaux scientifiques demandent de plus en plus que les données et les calculs  fournis avec le manuscrit. D'autre part, les firmes de consultation demandent souvent que les calculs soient audités par des tiers pour s'assurer de leur exactitude. Or, Excel a aussi le défaut d'être difficile à auditer.

Tout cela peut être heureusement corrigé par des langages de programmation, dont l'utilisation s'est démocratisée avec les outils de calcul en ligne. Ainsi, des plateformes comme [Deepnote](deepnote.com), [Hex](hex.tech), [Google colab](colab.research.google.com), [Obsersable](observablehq.com) et [plusieurs autres](datasciencenotebook.org) offrent des forfaits gratuits (avec options payantes pour une utilisation intensive) pour le calcul en différents langages de programmation.

En ce moment, les langages les plus utilisés pour le calcul numérique et la science des données sont [Python](python.org/) et [R](r-project.org). Alors que Python est un langage de programmation générique servant autant à programmer de l'apprentissage machine qu'un agenda, R est orienté vers l'analyse de données. Pour ce cours, nous utiliserons Python, dont l'utilisation est plus courante en génie. D'autres langages sont aussi utilisés en calcul numérique, comme SQL pour la gestion des données et Javascript pour la création d'interfaces interactifs pour l'exploration de données.

## Premiers pas

Cette feuille de calcul comprend des cellules de texte et des cellules de code, ce qu'on appelle de la *programmation littéraire*. Les cellules de texte sont écrites en format Markdown, une manière [*très* simple](https://www.markdownguide.org/cheat-sheet/) d'écrire avec une mise en forme de base.

Pour la partie code, c'est un peu comme dans Excel, sauf que des noms de variable remplacent les noms des cellules:

In [1]:
a = 2
b = 4
a + b

6

En Python, on peut créer des listes de nombres, de caractères, de n'importe quoi, en utilisant des crochets.

In [2]:
a = [1, 2, 3]

Les messages d'erreur sont inévitables, même pour les pros. Ce qui fait la différence entre novices et experts, c'est que les experts savent rapidement comment régler un problème, et ça inclut la capacité à comprendre les messages d'erreur et à corriger la situation. Disons que vous voulez ajouter `1` à chaque élément de la liste.  

In [3]:
a + 1

TypeError: can only concatenate list (not "int") to list

La variable `a` étant une liste, Python s'attend à ce qu'on ajoute une liste à une liste. 

In [4]:
a + [1]

[1, 2, 3, 1]

Le bogue le plus insidieux est celui qui ne génère pas d'erreur, mais effectue la mauvaise opération. Rappelez-vous que Python est un langage de programmation générique: il ne sait pas que vous voulez effectuer une opération mathématique. Pour ajouter de nouvelles capacités à Python, nous devons importer des modules (aussi appelés librairies, et *packages* en anglais). Pour les calculs sur des matrices et les opérations de mathématiques, nous avons besoin du module *Numpy*, que nous importons avec l'alias de notre choix: par convention, nous prenons `np`, puis nous spécifions que `a` est un vecteur, sur lequel nous effectuerons notre opération sans problème.

In [5]:
import numpy as np
np.array(a) + 1

array([2, 3, 4])

Il existe de nombreux modules en Python, certains très spécialisés, d'autres plus génériques. Certains viennent par défaut avec la distribution Python que vous utiliserez, d'autres devront être installés. Voici une liste bien personnelle de modules.

- [Pandas](pandas.pydata.org). Vous trouverez ce module pour gérer des tableaux dans beaucoup de tutoriels. Pour effectuer des filtres et des sélections de colonnes, nous utiliserons l'interface de Noteable, ainsi que [Polars](pola.rs), un outil conçu pour moderniser *Pandas*.
- [Matplotlib](matplotlib.org). Vous le verrezn également dans plein de tutoriels. Mais pour les graphiques, nous utiliserons d'abord les outils de Noteable, puis mon module graphique préféré: [Lets-plot](lets-P.org).
- [Scipy](scipy.org). Une collection d'outils pour le calcul scientifique, complémentaire à Numpy. Nous ne l'utiliserons pas tellement de manière directe, mais vous le verrez dans bien des tutoriels. *Scipy* contient entre autre des [fonctions d'optimisation](https://docs.scipy.org/doc/scipy/reference/optimize.html) bien plus performantes que le *Solveur* de Excel.
- [Statsmodels](statsmodels.org). Pour tout ce qui est statistiques fréquentielles (avec p-values). Je préfère les statistiques bayésiennes avec [PyMC](pymc.io), mais c'est plus compliqué.
- [Scikit-Learn](lets-plot.org). Un trousse d'outils pour l'apprentissage machine que nous utiliserons. Elle est regardée de haut par les experts, mais reste utile tant dans le monde académique grâce à sa fantastique documentation que pour créer des modèles professionnels. Néanmoins, les experts utilisent davantage les modules [Tensorflow](tensorflow.org) et [Pytorch](pytorch.org).

L'introduction ne fait qu'effleurer la programmation. Truc de pro, ayez toujours tout proche un onglet pour y rechercher vos messages d'erreur. Ça vous aidera, en particulier s'il vous dirige vers des sites comme [StackOverflow](stackoverflow.com) ou [Cross Validated](stats.stackexchange.com), où les réponses à des questions sont notées. De plus en plus, je pose des questions directement à ChatGPT, mais sachez qu'en ce moment (2023-07-07), il ne peut pas répondre à des questions sur des modules datant d'après 2021.