# Introduction à Python -- Partie 3: Modules et librairies

Matériel de cours rédigé par Pascal Germain, 2019

*********************

## Le module `math`

In [None]:
import math

In [None]:
math.sqrt(10)

In [None]:
math.exp(10)

In [None]:
math.log?

In [None]:
math.log(100, 10)

In [None]:
math.pi

In [None]:
math.e

Appuyer sur *TAB* après `math.` pour accéder à la liste des fonctions et constantes du module:

In [None]:
math.

In [None]:
from math import sqrt, exp, log, pi

In [None]:
sqrt(exp(log(pi**2)))

In [None]:
pi=22/7 # Attention aux conflits!
print(pi)

In [None]:
from math import pi as rapport_circonference_diametre

rapport_circonference_diametre

## La librairie `matplotlib` et son module `pyplot`

Une *librairie* est une collection de *modules*. Par exemple, la liste de tous les modules de la librairie `matplotlib` peut être consultée ici: 

https://matplotlib.org/py-modindex.html

Cela étant dit, nous utiliserons typiquement les modules de `matplotlib` par l'intermédiaire d'un seul, `pyplot`, qui permet de créer et d'afficher des graphiques.

**Notez bien**: La première ligne de la  cellule ci-dessous (`%matplotlib inline`) est une «commande magique» que l'on utilisera seulement dans les «jupyter notebook» pour s'assurer que les graphiques générés par la librairie `matplotlib` s'affichent à l'intérieur de la page.

In [None]:
%matplotlib inline
from matplotlib import pyplot

In [None]:
valeurs_x = range(1, 100)
valeurs_y = [sqrt(x) for x in valeurs_x]
pyplot.plot(valeurs_x, valeurs_y)

Une convention répendue est d'importer le module `pyplot` en utilisant l'abréviation `plt`.

In [None]:
%matplotlib inline
from matplotlib import pyplot as plt

# De manière équivalente, on pourrait écrire: 
# import matplotlib.pyplot as plt

Dans une cellule de code Jupyter, on peut regroupper plusieurs appels à `pyplot` pour modifier les propriétés d'un graphique ou superposer plusieurs courbes.

In [None]:
plt.figure(figsize=(16, 4))
valeurs_x = range(1, 100)

plt.scatter(valeurs_x, valeurs_y, label='racine carré')
plt.scatter(valeurs_x, [log(x) for x in valeurs_x], label='logarithme')
plt.legend();

Le module `pyplot` permet de créer une grande variété de graphiques. Plusieurs exemples sont illustrés ici:

https://matplotlib.org/2.2.3/gallery/index.html#pyplots-examples

## Création de son propre module

Pour créer son propre module, il suffit de créer un fichier du nom du module désiré, suivit de l'extension `.py`, dans notre répertoire de travail. Ce fichier contiendra toutes les classes ou fonctions du module. 

Par exemple, si vous créer un fichier nommé `algebre_maison.py` dans le même répertoire que le présent "notebook", puis que vous y copier le code de la classe `vecteur` contenu dans le "notebook" précédent, vous pourrez exécuter le code suivant.

In [None]:
from algebre_maison import vecteur

In [None]:
vecteur?

In [None]:
vec = vecteur(5, 2)

In [None]:
vec.elements

In [None]:
type(vec)

## La Librairie `NumPy`

Le fait que Python est un langage *interprété* (plutôt que *compilé*) et que le type des variables soit inféré à l'exécution facilite l'écriture du code, mais cela se fait au détriment de la vitesse d'exécution. Cela pourrait être un obstacle majeur à l'utilisation de Python pour effectuer des calculs scientifiques.

La librairie NumPy permet de manipuler des vecteurs et des matrices très efficacement.

In [None]:
import numpy as np

### Vecteurs NumPy

In [None]:
vecteur_v = np.array([2, 5, 3, 5, 1])
vecteur_v

In [None]:
print(vecteur_v)

In [None]:
type(vecteur_v)

In [None]:
vecteur_v.dtype

In [None]:
vecteur_u = np.array([2, 5, 3.0, 5, 1])
vecteur_u

In [None]:
vecteur_u.dtype

In [None]:
vecteur_v[2]

In [None]:
vecteur_v[2] = 0
print(vecteur_v)

In [None]:
vecteur_v[3] = 5.6

In [None]:
vecteur_v

In [None]:
vecteur_v[2:5]

In [None]:
vecteur_v[2:5] = 6
vecteur_v

In [None]:
vecteur_v + 1

In [None]:
vecteur_v + vecteur_u

In [None]:
vecteur_v * 2

In [None]:
vecteur_v * vecteur_u

In [None]:
vecteur_v @ vecteur_u

In [None]:
np.dot(vecteur_v, vecteur_u)

In [None]:
np.sqrt(vecteur_v)

In [None]:
np.exp(vecteur_v)

In [None]:
valeurs_x = np.arange(1, 100)
valeurs_x

In [None]:
%matplotlib inline
from matplotlib import pyplot as plt
plt.figure(figsize=(16, 4))
plt.scatter(valeurs_x, np.sqrt(valeurs_x), label='racine carré')
plt.scatter(valeurs_x, np.log(valeurs_x), label='logarithme')
plt.legend()

In [None]:
np.shape(valeurs_x)

In [None]:
valeurs_x.shape

In [None]:
np.ones(10)

In [None]:
np.zeros(10)

In [None]:
np.linspace?

In [None]:
espace_lineaire = np.linspace(1, 10, 10)
espace_lineaire

In [None]:
np.logspace?

In [None]:
espace_logarithmique = np.logspace(0, 1, 10)
espace_logarithmique

In [None]:
plt.scatter(espace_lineaire, espace_lineaire, label='lineaire')
plt.scatter(espace_lineaire, espace_logarithmique, label='logarithme')
plt.legend()

#### Comparons le temps d'exécution d'un produit scalaire exprimé avec des *list* python et des *array* numpy

In [None]:
def produit_scalaire(vecteur_a, vecteur_b):
    return sum([a*b for a,b in zip(vecteur_a, vecteur_b)])

In [None]:
vecteur_liste = [1.] * 10
vecteur_liste

In [None]:
produit_scalaire(vecteur_liste, vecteur_liste)

In [None]:
vecteur_numpy = np.ones(10)
vecteur_numpy

In [None]:
np.dot(vecteur_numpy, vecteur_numpy)

In [None]:
%%timeit?

In [None]:
%%timeit
vecteur_liste = [1.] * 1000
produit_scalaire(vecteur_liste, vecteur_liste)

In [None]:
%%timeit
vecteur_numpy = np.ones(1000)
np.dot(vecteur_numpy, vecteur_numpy)

### Matrices NumPy

In [None]:
matrice_M = np.array([[2, 5, 3, 5, 1], [1, 3, 3, 2, 8], [1, 2, 3, 2, 1]])
matrice_M

In [None]:
type(matrice_M)

In [None]:
print(matrice_M)

In [None]:
np.shape(matrice_M)

In [None]:
print(matrice_M.T)
np.shape(matrice_M.T)

In [None]:
matrice_M[1,3]

In [None]:
matrice_M[:,3]

In [None]:
matrice_M[1,:]

In [None]:
matrice_M[0:2,0:3]

In [None]:
matrice_M + 10

In [None]:
.33 * matrice_M

In [None]:
matrice_M ** 2

In [None]:
vecteur_v = np.array([2, 5, 3, 5, 1])
matrice_M + vecteur_v

In [None]:
vecteur_v + matrice_M

In [None]:
matrice_M * vecteur_v

In [None]:
vecteur_v * matrice_M

In [None]:
matrice_M + matrice_M * vecteur_v

In [None]:
matrice_M @ vecteur_v

In [None]:
vecteur_v @ matrice_M

In [None]:
vecteur_v @ matrice_M.T

In [None]:
matrice_M @ matrice_M.T

In [None]:
matrice_M.T @ matrice_M

In [None]:
np.diag(matrice_M.T @ matrice_M)

In [None]:
np.zeros((3,2))

In [None]:
np.ones((4,3))

In [None]:
np.eye(4)

### Algèbre linéaire (`numpy.linalg`) 

In [None]:
np.linalg?

In [None]:
from numpy.linalg import det, inv

In [None]:
a = np.array([1,2,3,3,2,1,5,0,5]).reshape(3,3)
a

In [None]:
det?

In [None]:
det(a)

In [None]:
inv?

In [None]:
inv(a)

In [None]:
a @ inv(a)

In [None]:
np.allclose?

In [None]:
np.allclose(a @ inv(a), np.eye(3))

### Nombres aléatoires (`numpy.random`)

In [None]:
np.random?

In [None]:
np.random.rand()

In [None]:
np.random.rand(5)

In [None]:
np.random.rand(5,3)

In [None]:
def produit_scalaire_aleatoire(taille_vecteurs, seed=None):
    if seed is not None:
        np.random.seed(seed)
    a = np.random.rand(taille_vecteurs)
    b = np.random.rand(taille_vecteurs)
    return a @ b

In [None]:
for i in range(5):
    print(i, produit_scalaire_aleatoire(10))

In [None]:
for i in range(5):
    print(i, produit_scalaire_aleatoire(10, seed=42))

In [None]:
np.random.randn()

In [None]:
np.random.randn(5)

In [None]:
np.random.randn(5,3)

In [None]:
plt.hist(np.random.randn(10000), 100);

In [None]:
np.random.randint(10)

In [None]:
np.random.randint(10, size=5)

In [None]:
np.random.randint(10, size=(5,3))

****************
****************
# Exercices


### Préambule

La fonction suivante retourne un petit ensemble de $n$ données sous la forme d'une matrice $X\in\mathbb{R}^{n\times 2}$ et d'un vecteur $Y\in \mathbb{R}^n$.

Chaque paire $(x,y)$ est telle que $x = (x', 1)$ et $y= m \,x' + b + z\,\epsilon$, où $x'$ est tiré aléatoirement dans l'intervalle $[-5,5]$ avec probabilité uniforme, et $\epsilon\sim N(0,1)$ est un bruit gaussien.

In [None]:
def generer_donnees(coef_m, coef_b, coef_z, nb=10, seed=None):
    if seed is not None:
        np.random.seed(seed)
        
    x = np.ones((nb, 2))
    x[:,0] = 10 * np.random.rand(nb) - 5
   
    coefs = np.array([coef_m, coef_b])
    epsilon = coef_z * np.random.randn(nb)
    y = x @ coefs + epsilon
    
    return x, y

Générons des données et illustrons-les sur une figure.

In [None]:
m = 3
b = -5
z = 4
random_seed = 41

data_x, data_y = generer_donnees(m, b, z, 20, seed=random_seed)

In [None]:
data_x

In [None]:
data_y

In [None]:
plt.figure(figsize=(8,8))
plt.scatter(data_x[:,0], data_y)
xlim = np.array([-6, 6])
plt.plot(xlim, xlim*m + b, '--', label='m x + b')
plt.legend()

### Exercice 1

On vous demande d'écrire l'expression python qui permet d'estimer les coefficients $m$ et $b$ qui ont servi à générer les les données à l'aide de la méthode des *moindres carrés*, c'est-à-dire de calculer:

$$ \left[ \begin{align}m\\b\end{align} \right] = (X^T X)^{-1} X^T Y\,.$$

In [None]:
def moindre_carres(x, y):
    solution = np.zeros(x.shape[1]) # Remplacer "np.zeros(x.shape[1])" par la bonne expression
    return solution

Le code suivant permet d'illustrer votre réponse.

In [None]:
plt.figure(figsize=(8,8))
solution = moindre_carres(data_x, data_y)
plt.scatter(data_x[:,0], data_y)
xlim = np.array([-6, 6])
plt.plot(xlim, xlim*m + b, '--', label='m x + b')
plt.plot(xlim, xlim*solution[0] + solution[1], 'k', label='moindre carrés')
plt.legend()

### Exercice 2

On vous demande maintenant d'écrire la fonction qui calcule la solution des moindres carrés régularisés, c'est-à-dire:

$$ \left[ \begin{align}m\\b\end{align} \right] = (X^T X + \rho \mathrm{I})^{-1} X^T Y\,,$$
où $\rho \in \mathbb{R}$ est un paramètre de régularisation.

In [None]:
def moindre_carres_regularisee(x, y, rho=1):
    solution = np.zeros(x.shape[1]) # Remplacer "np.zeros(x.shape[1])" par la bonne expression
    return solution

Le code suivant permet d'illustrer votre réponse, pour $\rho \in \{0, 5, 10, 100, 1000\}$.

In [None]:
plt.figure(figsize=(8,8))
plt.scatter(data_x[:,0], data_y)
xlim = np.array([-6, 6])
plt.plot(xlim, xlim*m + b, '--', label='m x + b')

for i, rho in enumerate([0, 5, 10, 100, 1000]):
    solution = moindre_carres_regularisee(data_x, data_y, rho)
    plt.plot(xlim, xlim*solution[0] + solution[1], 'k', linewidth=i+1, alpha=.2*(5-i),
             label=f'moindre carrés regularisé (rho={rho})')


plt.legend()