- Tous les notebooks sont accesibles aussi [ici](https://github.com/thalitadru/CoursNNDL)

# Bibliothèques indispensbles en Python
Pour traviller avec le machine learning ou la data science en Python, il y a certaines bibliothèques incontournables:
- [NumPy](https://numpy.org) pour les arrays N-dimensionnels et l'algèbre lineaire (eventuellement associé a [SciPy](https://scipy.org))
- [Matplotlib](https://matplotlib.org) pour générer des graphiques (ou autres bibliothèques similaires comme [Plotly](https://plotly.com/python/))
- [Pandas](https://pandas.org) pour la manipulation de tableaux de données -- les Data Frames
- [Scikit-learn](https://scikit-learn.org) pour réaliser facilement des pipelines de ML

Dans ce notebook on va introduire de façon résumé des fondamentaux sur deux de ces bibliothèques: **NumpPy** et **Matplotlib**. On se servira aussi de **Pandas** en ce qui concerne la visualisation de données.

In [None]:
import numpy as np
import matplotlib

## Vecteurs et matrices sur NumPy

Numpy va nous permettre de créer des matrices et vecterus, et de faire des operations mathématiques assez facilement. On peut créer des tableaux de la taille qu'on veut. Un vecteur d'une seulle dimension se fait ainsi:

In [None]:
np.array([1, 2, 3])

Ce vecteur n'est ni ligne ni colonne, car il a une seule dimension. On peut le voir dans l'attribut `ndim`

In [None]:
np.array([1, 2, 3]).ndim

On peut creer un vrai vecteur-ligne de la façon suivante:

In [None]:
np.array([[1, 2, 3]])

Et un vecteur colonne de façon similaire

In [None]:
np.array([[1], [2], [3]])

Une façon plus courte de l'écrire est de l'écrire en ligne et ensuite demander son transposé.

In [None]:
np.array([[1, 2, 3]]).T

Avec la même fonction on peut creer une matrice

In [None]:
np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])

Tout ces tableaux sont des objets de la classe `ndarray`

In [None]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9], [10, 11, 12]])
v = np.array([[2, 2, 2, 2]]).T

In [None]:
print(M)
print(type(M))

In [None]:
print(v)
print(type(v))

### Vérifier la taille avec `shape`

On peut verifier la taille d'un vecteur ou matrice en regardant leur variable `shape`.

In [None]:
M.shape

Cela nous dit que M a 4 lignes et 3 colonnes. L'ordre est toujours ligne puis colonne.

In [None]:
v.shape

Cela nous dit que v a 4 lignes et une colonne (donc un vecteur colone)

### Indexing des arrays

On peut indexer une matrice sur ses lignes et/ou ses collones de differentes façons.

In [None]:
M

In [None]:
M[:, 1]

In [None]:
M[1, :]

In [None]:
M[2, 1]

Le `:` sert a marquer qu'on prendra toutes les élemends dans cette dimension. On l'utilise aussi pour realiser du slicing sur l'array (l'indice de fin n'est pas inclus)

In [None]:
M[0:2, 1:2]

On peut laisser une des positions vides pour signifier le début ou la fin de l'array.

In [None]:
M[:2, 1:]

Comme dans les listes python, on peut aussi:
- utiliser des indices negatifs qui sont décomptés de la fin de l'array.
- donner un range d'indices avec un pas différent de un.

In [None]:
M[::-1, :-1]

In [None]:
M[::2, :]

In [None]:
M[::2, :]

### Applatir (vectoriser) un array

On peut vectoriser l'array de plusieurs façons

In [None]:
M.ravel()

In [None]:
M.flatten()

### Opérations le long d'une ligne ou colonne

On peut réaliser des opérations qui combinent les élements des lignes ou des colonnes d'une matrice: la somme `sum`, la moyenne `mean`, la variance `std`, le `max` ou le `min`.

Prennons par exemple une matrice de 1s de taille 3x5:


In [None]:
A = np.ones((3, 5))
A

Si on veut sommer au long de chaque colonne, on peut faire le suivant:

In [None]:
A.sum(axis=0)

In [None]:
np.sum(A, axis=0)

Si on veut le faire au long de chaque ligne, on utilise `axis=1`

In [None]:
A.sum(axis=1)

In [None]:
np.sum(A, axis=1)

Le même se fait pour les autres opperations. Par example la moyenne:

In [None]:
A.mean(axis=0)

In [None]:
A.mean(axis=1)

### Produit de matrices

On peut aussi faire un produit de matrices ou de vecteurs. Par exemple, je veux calculer le produit de $v^T M$, je peux le faire avec la fonction `np.dot`. Cela doit nous retourner un vecteur-ligne de taille 1x3.

In [None]:
np.dot(v.T, M)

On peut aussi faire $M^T v$. Cela doit nous retourner un vecteur-colonne de taille 3x1.

In [None]:
np.dot(M.T, v)

Le produit entre deux matrices peut se faire soit avec `np.dot` soit avec `np.matmul`

In [None]:
np.matmul(M, M.T)

In [None]:
np.dot(M, M.T)

### Multiplication élement à élement et le Broadcasting

Un autre opération utile est la multiplication élément à élement. Pour l'éxemplifier, on va créer d'abord une matrice pleine de 1s:

In [None]:
A = np.ones(
    (3, 3)
)  # on met ici la taille de la matrice que l'on souhaite, ici 3x3, representé (3,3)
A

Disons que l'on veuille multiplier la premiere ligne par 1, la deuxiéme par 2, et ainsi de suite. On peut creer un vecteur avec ces coeficients de la façon suivante:

In [None]:
x = np.array([[1, 2, 3]]).T
x

On peut aussi utiliser la mèthode `np.arange` que nous fournit un vecteur avec une suite de valeurs demandée:

In [None]:
x = np.arange(
    1, 3 + 1
)  # le vecteur sera rempli de chiffres de start à stop-1, pour cela il faut dire de 1 a 3+1
x

Par contre ici on reçoit un vector de dimension 1. 

In [None]:
x.shape

**Reshape**

Pour le metre en mode ligne ou colone il faut adapter sa taille (`shape`). Pour cela on peur utiliser la fonction/methode `reshape`.
Son argument est une tuple contenant les nouvelles dimenssions du tableau. On peut mêtre `-1` sur une dimension si on veut que Numpy la recalcule automatiquement en fonction des autres.

Pour transformer `x` dans un vecteur ligne ou colonne, on peut mettre `1` sur la dimension correspondante, et `-1` sur l'autre dimension: Numpy se chargera donc de l'adapter à la quantité d'élements du tableau.

In [None]:
x = x.reshape((1, -1))
x

In [None]:
x = x.reshape((-1, 1))
x

Vous pouvez également le faire avec `np.newaxis`:

In [None]:
x = np.arange(1, 3 + 1)
x[np.newaxis, :]

In [None]:
x = np.arange(1, 3 + 1)
x[:, np.newaxis]

Maintenant on peut réaliser la multiplication de la façon suivante:

In [None]:
A * x

Remarquez que chaque ligne a été multiplié par un des termes du vector. Ça arrive parce que x est en forme colonne. Pour le faire pour chaque ligne on peut transposer x:

In [None]:
A * x.T

### Opérations avec scalaires

Opérations avec des scalaires sont faites directement. 

In [None]:
A

In [None]:
A + 1

In [None]:
3 * A

In [None]:
x

In [None]:
x - 1

### Autres opérations élement à élement

In [None]:
x + x

In [None]:
x * x

## Faire des plots sur Matplotlib avec pyplot

Matplotlib a differentes APIs pour acceder à ces fonctionalités selon un paradigme objet ou fonctionnel.
Je démare ici par introduire l'API `pyplot`.


In [None]:
import matplotlib.pyplot as plt

### Plotter une ligne
On peut plotter un array contre un autre avec `plt.plot`

In [None]:
x = np.linspace(0, 10, 50)  # 50 points entre 0 et 10
y = np.sin(x)
plt.plot(x, y)

On peut également plotter les élements d'un array sans donner un axe horizontal specifique (l'axe `x`). Dans ce cas, l'axe horizontal correspondra à l'ordre des éléments d'ans l'array

In [None]:
plt.plot([4, 5, 1, 2, 6])

#### **Exercice**

Créez un graphique de la fonction tangente hyperbolique (tanh).

### Plotter plusieurs lignes
Plusierus plots peuvent etre rajoutés sur la même figure:

In [None]:
plt.plot(x, y)
# deuxieme plot
y2 = np.cos(x)
plt.plot(x, y2)

#### **Exercice**

Créez un graphique de la fonction tanh et de la fonction sigmoïde 

### Plotter des points
Il est possible de plotter uniquement des points sans lignes qui les relient avec la fonction `plt.scatter`

In [None]:
plt.scatter(x, y)
plt.scatter(x, y2)

### Plusieurs plots sur une seule figure

On peut s'utiliser de la fonction `plt.subplot` pour diviser une figure en subplots.
Voici un exemple qui appelle d'autres types de plot: `bar` et `stem`.


In [None]:
plt.subplot(2, 2, 1)
plt.plot(x, y)
plt.subplot(2, 2, 2)
plt.stem(x, y)
plt.subplot(2, 2, 3)
plt.scatter(x, y)
plt.subplot(2, 2, 4)
plt.bar(x, y)

#### **Exercice**

Créez un graphique de la fonction tanh et de la fonction sigmoïde sur deux subplots séparés.

### Mise en format

Il existent plusieurs arguments optionnels pour la mise en format des lignes. En particulier, on peut leur donner des éttiquettes `label` pour créer une legende à la fin avec `plt.legend()`.

In [None]:
x = np.linspace(0, 10, 25)  # 25 points entre 0 et 10
y = np.sin(x)
plt.plot(x, y, label="sinus", marker="+", linestyle="dashed", markersize=10)
# deuxieme plot
y2 = np.cos(x)
plt.plot(x, y2, label="cosinus", marker="v", linestyle="dotted", markersize=6)
# legende
plt.legend()

On peut donner aussi des éttiquettes sur les axes et un titre au plot:

In [None]:
x = np.linspace(0, 10, 50)  # 50 points entre 0 et 10
y = np.sin(x)
plt.plot(x, y, label="sinus")
# deuxieme plot
y2 = np.cos(x)
plt.plot(x, y2, label="cosinus")
# legende
plt.legend()
# ettiquettes et titre
plt.xlabel("x")
plt.ylabel("f(x)")
plt.title("Fonctions sin(x) et cos(x)")

De façon analogue à `title` et `legend`, il existen des fonctions pour formater d'autres élements de la figure. Cette image montre le nom des principaux éléments:

![Anatomie d'un plot](https://matplotlib.org/stable/_images/anatomy.png)

#### **Exercice**
Créez une figure avec des graphiques pour les fonctions d'activation suivantes:
- tanh
- sigmoide
- heaviside
- ReLU

Faites la mise en format pour que chaque courbe soit facilement identifiable.

### Axes et Figure: API orienté objets de Matplotlib

Un plot est une `Figure` qui contient un ou plusieurs `Axes`. On peut les acceder avec `plt.gcf()` et `plt.gca()`

In [None]:
plt.plot(x, y)
ax = plt.gca()
fig = plt.gcf()
ax, fig

#### Classe `Axes`
On peut rajouter un plot en appelant la methode sur l'objet `Axes`: `ax`

In [None]:
plt.plot(x, y)
ax = plt.gca()
fig = plt.gcf()

y2 = np.cos(x)
ax.plot(x, y2)

On peut creer une figure et rajouter des axes explicitment. L'objet `ax` sera alors le point d'entrée pour l'API orienté objets de matplotlib.

In [None]:
fig = plt.figure()
fig, ax = plt.subplots()
# line plots
ax.plot(x, y, label="sinus")
ax.plot(x, y2, label="cosinus")
# legende
ax.legend()

#### Création de subplots
Avec cette API on peut créer des subplots sur une seule figure (chaque un correspondant à un objet `Axes`).

In [None]:
# creation de figure
fig = plt.figure()
# creation des axes
fig, axs = plt.subplots(1, 2)  # nombre de lignes: 1, nombre de colonnes: 2
# separation des axes en deux variables
ax1, ax2 = axs
# plots
ax1.plot(x, y, label="sinus")
ax2.plot(x, y2, label="cosinus")
# titres
ax1.set_title("sin(x)")
ax2.set_title("cos(x)")
# augmenter la largeur de la figure
fig.set_figwidth(10)

## Génération de nombres aleatoires sur Numpy
Le sous module `np.random` permet d'obtenir des arrays de nombres aléatoires de differentes formes. On peut faire appel aux fonction directement sur le sous module:

In [None]:
np.random.rand(10)

### Random seed
L'appel depuis `np.random` fait appel au generateur de chiffrfes aleatoires (RNG) par default, dans l'état qu'il est acctuellement.

Pour garantier la reproducibilité des chiffres aléatoires, il est important de garder une reference vers le RNG utilisé pour les generer. Cela pour se faire en definissant une random seed qui sera repeté:

In [None]:
# un RNG avec seed=10
np.random.seed(10)
np.random.rand(10)

In [None]:
# un autre RNG avec seed=1
np.random.seed(1)
np.random.rand(10)

In [None]:
# on reproduit les resultats du RNG avec seed=10
np.random.seed(10)
np.random.rand(10)

### Objet RandomState
On peut aussi sauvegarder l'objet correspondant au RNG avec la fonction `np.random.RandomState(seed)`:

In [None]:
rng = np.random.RandomState(10)
rng.rand(10)

Quand on fait des operations entre des matrices ou vecteurs de même taile, cela se fait élement à element:

## Example: plot d'une fonction de deux variables

Ici on va générer des coordonées en deux dimensions de façon aléatoire, à l'aide d'un RNG:

In [None]:
# Make data
rng = np.random.RandomState(0)
m = 800
x1 = rng.rand(m)
x2 = rng.rand(m)
x = np.stack([x1, x2]).T

On peut ensuite calculer une fonction de ces deux variables. Ici par exemple une fonction bi-lineaire:

In [None]:
y = 3 * x1 - 5 * x2 + 8

In [None]:
x1.shape, x2.shape, x.shape, y.shape

In [None]:
import matplotlib.cm as cm

plt.subplot(1, 3, 1)
plt.title("x2 contre x1 - y en couleurs")
plt.scatter(x1, x2, c=y, cmap=cm.coolwarm)
plt.colorbar()
plt.xlabel("x1")
plt.ylabel("x2")

plt.subplot(1, 3, 2)
plt.title("y contre x1")
plt.scatter(x1, y, c=y, cmap=cm.coolwarm)
plt.xlabel("x1")
plt.ylabel("y")

plt.subplot(1, 3, 3)
plt.title("y contre x2")
plt.scatter(x2, y, c=y, cmap=cm.coolwarm)
plt.xlabel("x2")
plt.ylabel("y")

plt.gcf().set_size_inches(16, 4)

## Plots avec Pandas DataFrame
Références:
- [10 min to Pandas](https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html)
- [Visualization (pandas user guide)](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)

### Importation d'un jeu de données d'exemple

In [None]:
from sklearn.datasets import load_iris

dataset = load_iris()

In [None]:
print(dataset.DESCR)

In [None]:
dataset.data

In [None]:
dataset.target

### DataFrame

In [None]:
df = pd.DataFrame(data=dataset.data, columns=dataset.feature_names)
df

#### Rajouter une colonne

In [None]:
label_ids = pd.Series(dataset.target)
df["Label"] = pd.Series(dataset.target)
df

In [None]:
labels = dataset.target_names[dataset.target]

In [None]:
df["Label"] = pd.Series(labels)
df

#### Group by et pivot_table

In [None]:
dfg = df.groupby("Label")
dfg.describe()

In [None]:
pt1 = df.pivot_table(columns="Label", aggfunc=np.mean)
pt1

In [None]:
pt1.plot()

In [None]:
pt2 = df.pivot_table(index="Label", aggfunc=np.mean)
pt2

In [None]:
pt2.T

In [None]:
pt2.plot()

### Line plot des colonnes

In [None]:
df.plot(figsize=(15, 3))

In [None]:
df.plot(figsize=(15, 3), marker="o", linestyle="none")

### Histograme des colonnes

In [None]:
df.hist()

In [None]:
dfg.hist(layout=(1, 4), figsize=(15, 3))

### Bar plot

In [None]:
df.plot.bar(x="Label", layout=(1, 3), figsize=(25, 3), stacked=True)

In [None]:
pt.plot.bar(layout=(1, 3), figsize=(25, 3), stacked=True)

### Box plots

In [None]:
df.boxplot(by="Label", layout=(1, 4), figsize=(15, 5))

### Scatter plots

In [None]:
df.plot.scatter(
    x="sepal width (cm)", y="petal width (cm)", c=label_ids + 1, cmap="viridis"
)

## Avancé: Plots en 3D avec matplotlib

L'API de plots 3D n'est pas aussi bien supporté que celle pour les plots 2D. On peut l'utiliser à l'aide de l'import suivant:

In [None]:
from mpl_toolkits.mplot3d import Axes3D

%matplotlib inline

In [None]:
# Make data
rng = np.random.RandomState(0)
m = 800
x1 = rng.rand(m)
x2 = rng.rand(m)
x = np.stack([x1, x2]).T

In [None]:
y = 3 * x1 - 5 * x2 + 8

On peut creer une figure comme avant. Ensuite, il faut rajouter à cetter figure un Axes3D, sur lequel on fera les plots.

In [None]:
fig = plt.figure()
# créer un axe 3D
ax = fig.add_subplot(111, projection="3d", azim=50, elev=25)
# créer le plot
dots = ax.scatter(x1, x2, y, c=y, cmap=cm.coolwarm)
# rajouter barre de couleurs
fig.colorbar(dots)

On peut ploter une surface `plot_trisurf`. Des triangles sont générés en réliant les points de façon a creer la surface affiché.

In [None]:
fig = plt.figure()
# créer un axe 3D
ax = fig.add_subplot(111, projection="3d", azim=70, elev=25)
# créer un plot de surface
surf = ax.plot_trisurf(
    x1, x2, y, cmap=cm.coolwarm, edgecolor="white", linewidth=0.2, antialiased=True
)
# rajouter barre de couleurs
fig.colorbar(surf)
# augmenter la figure pour mieux voir
fig.set_size_inches((12, 8))

### Example de plot d'une courbe en 3D
Travaillons maintenant avec une nouvelle fonction de deux variables:

In [None]:
x1 = np.arange(-3, 3, 0.1)
x2 = np.arange(-3, 3, 0.1)
y_fun = lambda x1, x2: (x1) ** 2 + (x2 - 3) ** 2
y = y_fun(x1, x2)

In [None]:
plt.subplot(1, 3, 1)
plt.scatter(x1, y, cmap=cm.coolwarm)
plt.title("y contre x1")
plt.subplot(1, 3, 2)
plt.scatter(x2, y, cmap=cm.coolwarm)
plt.title("y contre x2")

plt.subplot(1, 3, 3)
plt.scatter(x1, x2, c=y, cmap=cm.coolwarm)
plt.title("y en couleurs sur x1 contre x1")


plt.gcf().set_size_inches((12, 4))

In [None]:
fig = plt.figure()
ax = fig.gca(projection="3d", azim=30, elev=25)
ax.plot(x1, x2, y)

### Exemple de plot de surface avec contours
Pour un plot de surface, on a besoin que les arrays aient 2 dimensions. 
x1 et x2 doivent former la grille de coordonées (x1,x2).
La fonction `np.meshgrid` permet ee générer cette grille. 

In [None]:
x1 = np.arange(-np.pi, np.pi, 0.1)
x2 = np.arange(-np.pi, np.pi, 0.1)
X1, X2 = np.meshgrid(x1, x2)

In [None]:
fig = plt.figure()
plt.subplot(1, 2, 1)
plt.contourf(x1, x2, X1, cmap=cm.coolwarm, levels=20)
plt.title("Grille - coordonées x1")
plt.subplot(1, 2, 2)
plt.title("Grille - coordonées x2")
plt.contourf(x1, x2, X2, cmap=cm.coolwarm, levels=20)
fig.set_size_inches((8, 4))

Ensuite, on doit évaluer la fonction qu'on veut afficher sur ces coordonées. Par exemple la fonction Z suivante:

In [None]:
z_fun = lambda x1, x2: np.sin(2 * x1) + np.cos(x2)
Z = z_fun(X1, X2)

Z est une fonction établi sur un domaine 2D. On peut la visualiser avec un plot de contours:

In [None]:
fig = plt.figure()
# plot de contours rempli contouref
plt.contourf(x1, x2, Z, cmap=cm.coolwarm, levels=20)
# mise en format
plt.title("Valeurs de Z sur le plan x1 x x2")
plt.xlabel("x1")
plt.ylabel("x2")
fig.set_size_inches((4, 4))

 On peut aussi la visualiser en 3D avec un plot de surface.

In [None]:
fig = plt.figure()
ax = fig.gca(projection="3d", azim=45, elev=40)

surf = ax.plot_surface(
    X1,
    X2,
    Z,
    rcount=50,
    ccount=50,  # nombre de points utilisés pour generer la surface
    alpha=0.6,  # transparence
    linewidth=0.3,
    edgecolor="white",  # grille sur la surface
    cmap=cm.coolwarm,
)  # colormap de la surface

ax.set_xlabel("x1")
ax.set_ylabel("x2")
ax.set_zlabel("Z")

fig.colorbar(surf)

fig.set_size_inches(9, 5)

On peut rajouter a ce plot des plots de contour de Z projecté sur les axes x1 et x2

In [None]:
fig = plt.figure()
ax = fig.gca(projection="3d", azim=40, elev=25)

limZ = 4
limX = 4
limY = 4
ax.plot_surface(
    X1, X2, Z, rcount=50, ccount=50, alpha=0.3, linewidth=0.2, edgecolor="white"
)
cset = ax.contour(X1, X2, Z, zdir="z", offset=-limZ, cmap=cm.coolwarm)
cset = ax.contour(X1, X2, Z, zdir="x", offset=-limX, cmap=cm.coolwarm)
cset = ax.contour(X1, X2, Z, zdir="y", offset=-limY, cmap=cm.coolwarm)

ax.set_xlabel("x1")
ax.set_xlim(-limX, limX)
ax.set_ylabel("x2")
ax.set_ylim(-limY, limY)
ax.set_zlabel("Z")
ax.set_zlim(-limZ, limZ)
fig.set_size_inches(9, 5)