---
# **NumPy pour la Data Science**
## **Opération sur les arrays Numpy**
---
## **1. Opérateurs arithmétiques**

Numpy permet de faire des opérations mathématiques sur des tableaux de manière optimisée :

- Appliquer une des opérations arithmétiques de base (`/`, `*`, `-`, `+`, `**`) entre un tableau et une valeur, appliquera l'opération à **chacun des éléments** du tableau.
- Il est également possible de faire une opération arithmétique **entre deux tableaux**. Cela appliquera l'opération **entre chaque paire d'éléments**.

```python
# Création de deux arrays à 2 valeurs
a = np.array([4, 10])
b = np.array([6, 7])   

# Multiplication entre deux arrays
print(a * b)
>>> [24 70]
```

- **(a)** Importer le package **`numpy`** sous le nom **`np`**.
- **(b)** Créer un array de dimensions 10x4 rempli de 1.
- **(c)** À l'aide d'une boucle `for` et de la fonction `enumerate`, multiplier chaque ligne par son indice. Afin de modifier la matrice, il faut que vous y accédiez par indexation.

In [2]:
# A
import numpy as np

# B
array = np.ones((10, 4))

# C
for i, ligne in enumerate(array):
  array[i] = ligne * i

print(array)

[[0. 0. 0. 0.]
 [1. 1. 1. 1.]
 [2. 2. 2. 2.]
 [3. 3. 3. 3.]
 [4. 4. 4. 4.]
 [5. 5. 5. 5.]
 [6. 6. 6. 6.]
 [7. 7. 7. 7.]
 [8. 8. 8. 8.]
 [9. 9. 9. 9.]]


Comme expliqué plus haut, l'opérateur `*` permet d'obtenir le produit élément par élément entre arrays.

Par exemple :

![matrix](https://github.com/diaBabPro/colabs/blob/main/matrix.PNG?raw=true)

Le produit matriciel, au sens mathématique du terme, peut être effectué grâce à la méthode **`dot`** d'un array `numpy` :
```python
# Création de deux arrays de dimensions 2x2
M = np.array([[5, 1],
              [3, 0]])

N = np.array([[2, 4],
              [0, 8]])

# Produit matriciel entre les deux arrays
print(M.dot(N))
>>> [[10 28]
    [ 6 12]]
```
En effet, le produit matriciel est rappelé ci-dessous :

![matrix2](https://github.com/diaBabPro/colabs/blob/main/matrix2.PNG?raw=true)

Alors :


![matrix3](https://github.com/diaBabPro/colabs/blob/main/matrix3.PNG?raw=true)

On se donne la matrice suivante :

![matrix4](https://github.com/diaBabPro/colabs/blob/main/matrix4.PNG?raw=true)

- **(d)** Définir une fonction `puissanceA` prenant en argument un entier `n` supérieur à 1. Cette fonction devra calculer et retourner  $𝐴^𝑛$
  au sens du produit matriciel.
- **(e)** Calculer et afficher  $𝐴^2$
 ,  $𝐴^3$
  et  $𝐴^4$
 . Arrivez-vous à deviner une formule générale pour  $𝐴^𝑛$
  ?

In [7]:
# D
def puissanceA(n):
  A = np.array([[1, -1],
                [-1, 1]])
  if n == 1:
    return A
  for i in range(1, n):
    A = A.dot(A)
  return A

# E
print(puissanceA(2), "\n")
print(puissanceA(3), "\n")
print(puissanceA(4), "\n")

# Formule générale pour A^n (à faire)
def puissanceA_generale(n):
  A = np.array([[1, -1],
                [-1, 1]])
  return A

[[ 2 -2]
 [-2  2]] 

[[ 8 -8]
 [-8  8]] 

[[ 128 -128]
 [-128  128]] 



Dans un plan à deux dimensions, les rotations autour de l'origine sont représentées par les matrices de la forme :

![matrix5](https://github.com/diaBabPro/colabs/blob/main/matrix5.PNG?raw=true)

où  $𝜃$ définit l'angle de la rotation **en radian**.

Ainsi, la rotation d'un point qui se trouve aux coordonnées  $x = \begin{pmatrix} x_1 \\ x_2 \end{pmatrix}$ se calcule grâce à la formule  $𝑥̃ =𝐴(𝜃)𝑥$.

 - **(f)** Définir une fonction `rotation_matrix` prenant en argument un nombre $𝜃$ (`theta`) et retournant la matrice  $𝐴(𝜃)$ associée.
  > Vous pourrez calculer les fonctions  *cos* et  *sin* à l'aide des fonctions `np.cos` et `np.sin` de numpy.

 - **(g)** Soit un point  $𝑥=\begin{pmatrix}1\\1\end{pmatrix}$
 . Calculer et afficher  $𝐴(𝜋)𝑥$
 , ce qui est équivalent à une rotation de 180º autour de l'origine.

> Vous avez accès à la constante  $𝜋$
  avec la commande `np.pi`.

- **(h)** Montrer que  $𝐴(\frac{𝜋}{4})𝐴(3\frac{𝜋}{4})𝑥=𝐴(𝜋)𝑥$.

- **(i)** De manière générale, pour n'importe quels angles,  $𝐴(𝜃1)𝐴(𝜃2)𝑥=𝐴(𝜃1+𝜃2)𝑥$
 . Pourquoi est-ce le cas ?

In [None]:
# Insérez votre code ici

## **2. Broadcasting entre une matrice et une valeur**

Lorsque l'on effectue une opération entre des éléments de dimensions différentes, Numpy effectue ce que l'on appelle du Broadcasting pour comprendre l'opération et l'exécuter.

Le terme broadcasting (diffusion en français) est employé car un des array est "diffusé" sur l'array de dimensions plus grandes pour que les deux arrays aient des dimensions compatibles.
Cette définition sera illustrée dans la suite.

Dans cette partie, nous essaierons de comprendre les règles du broadcasting dans les cas suivants :

- Opération entre une matrice et une constante.
- Opération entre une matrice et un vecteur.

Une opération arithmétique telle que l'addition entre une matrice et une constante n'a pas de sens mathématiquement.
Avec Numpy, la règle de broadcasting dans ce cas-là est de faire l'opération avec la constante pour chaque terme de la matrice.

![matrix6](https://github.com/diaBabPro/colabs/blob/main/matrix6.PNG?raw=true)
![matrix7](https://github.com/diaBabPro/colabs/blob/main/matrix7.PNG?raw=true)

Ce qui se passe réellement est que la constante  𝑐
  est transformée en une matrice  𝐶
  de mêmes dimensions que  𝑀
  :

$c \begin{array} {c}broadcasting\\ ⟶\end{array} C \begin{pmatrix} c & c & c \\ c & c & c \end{pmatrix}$

Ainsi,  𝑀+𝐶
  est bien défini mathématiquement et peut être calculé avec les opérations de base de numpy.


## **3. Broadcasting entre une matrice et un vecteur**

De même, numpy nous permet d'effectuer des opérations arithmétiques entre une matrice et un vecteur.
Néanmoins, il existe certaines **contraintes** qui déterminent si le vecteur peut être broadcasté en dimensions **compatibles** avec la matrice.

Afin de déterminer si les dimensions du vecteur et de la matrice sont compatibles, numpy va comparer chaque dimension des deux arrays et déterminer si :

- les dimensions sont égales.
- une des dimensions vaut 1.

Si pour chaque dimension, une de ces conditions est vérifiée, alors les dimensions sont compatibles et l'opération a été comprise.
Sinon, une erreur `ValueError: operands could not be broadcast together` s'affichera.

Soient :

$ M = \begin{pmatrix} 3&1&2 \\-2&1&5 \end{pmatrix}, v = \begin{pmatrix} 2 \\ 5 \end{pmatrix}$

**Est-ce que  𝑀
  et  𝑣
  ont des dimensions compatibles pour le broadcasting ?**

  - 𝑀
  est une matrice de dimensions 2x3.
  - 𝑣
  est un vecteur à 2 éléments, mais numpy va plutôt voir  𝑣
  comme une **matrice de dimensions 2x1**, c'est-à-dire une matrice à deux lignes et une colonne.
  - La première dimension de  𝑀
  et  𝑣
  vaut 2 : la condition de compatibilité est vérifiée pour cette dimension.
  - La deuxième dimension de  𝑀
  vaut  3
  et celle de  𝑣
  vaut 1 : la condition de compatibilité est toujours vérifiée car une des dimensions vaut 1.

  𝑀
  et 𝑣
 **ont donc des dimensions compatibles.**

 **Le vecteur  𝑣
  sera alors broadcasté sur la dimension où la dimension de  𝑣
  vaut 1.**

  Dans notre cas, c'est la dimension des **colonnes**.
Le broadcasting de  𝑣
  sera donc donné par :

  $𝑣 = \begin{pmatrix} 2 \\5 \end{pmatrix} \begin{array} {c}broadcasting\\ ⟶\end{array} V = \begin{bmatrix} 𝑣 & 𝑣 & 𝑣 \end{bmatrix} = \begin{pmatrix} 2 & 2 & 2 \\ 5 & 5 & 5 \end{pmatrix}$

  Le résultat de  𝑀∗𝑣
  sera alors donné par :

  
  $M * 𝑣 \begin{array} {c}broadcasting\\ ⟶\end{array} M * V = \begin{pmatrix} 3*2 & 1*2 & 2*2 \\ -2*5 &1*5 & 5*5 \end{pmatrix} = \begin{pmatrix} 6 & 2 & 4 \\ -10 & 5 & 25 \end{pmatrix}$

  Supposons maintenant que nous avons un vecteur ligne $𝑢=\begin{pmatrix} 3& 4\end{pmatrix}$.

  Pour numpy, ce vecteur a les dimensions 1x2 (une ligne et 2 colonnes).
Les vecteurs  𝑢
  et  𝑣
  sont compatibles pour le broadcasting car sur chaque dimension un des vecteurs a une dimension égale à 1.

  Comment et sur qui s'effectue le broadcasting dans ce cas-là ?

Le broadcasting s'effectuera sur les deux vecteurs et la matrice résultante du broadcasting aura la plus grande dimension entre les deux vecteurs :

$𝑣 = \begin{pmatrix} 2 \\5 \end{pmatrix} \begin{array} {c}broadcasting\\ ⟶\end{array} V = \begin{pmatrix} 2 & 2  \\ 5 & 5 \end{pmatrix}$
et
$𝑢 = \begin{pmatrix} 3 & 4 \end{pmatrix} \begin{array} {c}broadcasting\\ ⟶\end{array} U = \begin{pmatrix} 3 & 4  \\ 3 & 4 \end{pmatrix}$

Ainsi, le résultat de  𝑣+𝑢
  est donné par :

$𝑣 + 𝑢 = \begin{pmatrix} 2 \\5 \end{pmatrix} + \begin{pmatrix} 3 & 4 \end{pmatrix}\begin{array} {c}broadcasting\\ ⟶\end{array} V + U = \begin{pmatrix} 2 & 2 \\ 5 & 5 \end{pmatrix} + \begin{pmatrix} 3 & 4 \\ 3 & 4 \end{pmatrix}  = \begin{pmatrix} 5 & 6 \\ 8 & 9 \end{pmatrix}$

Ces règles nous permettent de comprendre et prédire le résultat d'une opération entre deux arrays qui n'ont pas la même shape.
Elles seront utiles pour l'exercice suivant :

La normalisation **Min-Max** est une méthode qui s'utilise pour **rééchelonner les variables d'une base de données dans la plage**  $[0,1]$.

Supposons que notre base de données contienne 3 individus et 2 variables :

- Jacques : 24 ans, de taille 1.88m.
- Mathilde : 18 ans, de taille 1.68m.
- Alban : 14 ans, de taille 1.65m.
Ces données peuvent être représentées par la matrice :

$ X = \begin{pmatrix} 24 & 1,88 \\ 18 & 1,68 \\ 14 & 1,65 \end{pmatrix}$

Chaque ligne correspond à un individu, et chaque colonne correspond à une variable.
Ce format est le format standard des bases de données.

Nous voulons comparer les écarts d'âge aux écarts de taille entre les individus. Néanmoins, les variables de cette base n'ont pas la même échelle, il faut donc utiliser la normalisation Min-Max pour que les variables aient la même échelle.

On note  𝑋𝑖,𝑗
  la valeur de la variable  𝑗
  pour l'individu  𝑖
  et  𝑋:,𝑗
  la colonne de la variable  𝑗
 .

La normalisation Min-Max va produire une nouvelle matrice $\tilde{𝑋}$
  telle que pour chaque entrée de la matrice  𝑋
 :
 $\tilde{𝑋} 𝑖,𝑗=\frac{𝑋𝑖,𝑗−min(𝑋:,𝑗)}{max(𝑋:,𝑗)−min(𝑋:,𝑗)}$

 Ainsi, pour implémenter la normalisation Min-Max il suffit :
 - Pour chaque colonne  𝑋:,𝑗 , calculer  min(𝑋:,𝑗) et  max(𝑋:,𝑗).
 - Pour chaque élément  𝑋𝑖,𝑗 de la colonne, calculer  $\tilde{𝑋}$ 𝑖,𝑗.

 Par défaut, une boucle for sur  𝑋
  va parcourir les lignes de  𝑋
 .
Afin de parcourir les colonnes de  𝑋
 , il suffit de parcourir les lignes de la **transposée** de  𝑋
 , que l'on note  $𝑋^𝑇$.

 $X^T = \begin{pmatrix}24&18&14 \\ 1.88 & 1.68 & 1.65\end{pmatrix}$

 La transposition d'un array s'obtient avec son attribut `T` :  $𝑋^𝑇$
  = `X.T`.

  - **(a)** Définir une fonction nommée `normalisation_min_max` prenant en argument une matrice  $𝑋$
  et qui retournera  $\tilde{𝑋}$
 .
 - **(b)** Appliquer la normalisation Min-Max sur  $𝑋$
 . Vous devriez obtenir à deux décimales près la matrice suivante :

 $\tilde{X} = \begin{pmatrix}1 & 1 \\ 0.4 & 0.13 \\ 0 & 0 \end{pmatrix}$

In [None]:
# Insérez votre code ici

## **4. Les méthodes statistiques**

En plus des opérations mathématiques courantes, les arrays numpy disposent également de plusieurs [méthodes](https://docs.scipy.org/doc/numpy-1.12.0/reference/arrays.ndarray.html#array-methods) pour des opérations plus complexes sur les arrays.

Une des opérations les plus utilisées est le calcul d'une moyenne à l'aide de la méthode `mean` d'un array :
```python
A = np.array([[1, 1, 10],
              [3, 5, 2]])

# Calcul de la moyenne sur TOUTES les valeurs de A
print(A.mean())
>>> 3.67

# Calcul de la moyenne sur les COLONNES de A
print(A.mean(axis = 0))
>>> [2. 3. 6.]

# Calcul de la moyenne sur les LIGNES de A
print(A.mean(axis = 1))
>>> [4. 3.33]
```
L'argument **`axis`** détermine **quelle dimension sera parcourue** pour calculer la moyenne :
- `axis = 0` signifie que la dimension parcourue sera celle des lignes, ce qui signifie que le résultat sera **la moyenne de chaque colonne**.
- `axis = 1` signifie que la dimension parcourue sera celle des colonnes, ce qui signifie que le résultat sera **la moyenne de chaque ligne**.

![mean_axis](https://github.com/diaBabPro/colabs/blob/main/mean_axis.png?raw=true)

L'argument `axis revient `**très souvent** pour les opérations sur les matrices, et **pas que pour Numpy**. Il est très important de comprendre son effet.

Il existe d'autres méthodes statistiques qui se comportent comme la méthode **`mean`**, telles que :

- **`sum`** : Calcule la somme des éléments d'un array.
- **`std`** : Calcul de l'écart type.
- **`min`** : Trouve la valeur **minimale** parmis les éléments d'un array.
- **`max`** : Trouve la valeur **maximale** parmis les éléments d'un array.
- **`argmin`** : Renvoie l'indice de la valeur **minimale**.
- **`argmax`** : Renvoie l'indice de la valeur **maximale**.

Ces méthodes ne sont pas utiles pour les bases de données si on ne renseigne pas de valeur pour l'argument axis.

En général, nous utiliserons la valeur axis = 0 pour obtenir le résultat pour chaque colonne, c'est-à-dire pour chaque variable de la base de données.

Ainsi, nous pouvons calculer la normalisation Min-Max très rapidement à l'aide des méthodes min et max et du broadcasting :

```python
X_tilde = (X - X.min(axis = 0)) / (X.max(axis = 0) - X.min(axis = 0))

print(X_tilde)
>>> [[1.         1.        ]
    [0.4        0.13043478]
    [0.         0.        ]]
```

L'[Erreur Quadratique Moyenne](https://en.wikipedia.org/wiki/Mean_squared_error) est une métrique permettant de quantifier l'erreur de prédiction obtenue par un modèle de régression. Cette notion sera vue en plus de détails dans la suite de votre formation.

La formule de l'erreur quadratique moyenne, abrégée par $MSE$
  pour *mean squared error*, se calcule avec la formule suivante :

  $ \text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (\hat{y}_i - y_i)^2$

  où :

- $\hat{y}$ et $𝑦$ sont des vecteurs de dimensions 𝑛.
- $\hat{y}$ est donné par le produit matriciel entre une matrice $𝑋$
 et un *vecteur de régression* * $𝛽, ie$ :

 $\hat{y}=𝑋𝛽$

 Dans le cas de la régression linéaire, l'objectif de l'erreur quadratique moyenne est de trouver le vecteur de régression  $𝛽$
  qui **minimise** cette erreur.

  - **(a)** Définir une fonction nommée `mean_squared_error` prenant en argument une matrice `X`, un vecteur `beta` et un vecteur `y` et qui, **sans boucle `for`**, retourne l'erreur quadratique moyenne associée.

In [None]:
# Insérez votre code ici

Notre base de données contenait 3 individus et 2 variables :
- Jacques : 24 ans, de taille 1.88m.
- Mathilde : 18 ans, de taille 1.68m.
- Alban : 14 ans, de taille 1.65m.

Nous allons essayer de trouver un modèle capable de **prédire la taille d'un individu à partir de son âge**.
Ainsi, on définit :

$X = \begin{pmatrix}24 \\ 18 \\ 14\end{pmatrix}$
$Y = \begin{pmatrix}1.88 \\ 1.68\\ 1.65\end{pmatrix}$

Notre objectif sera de trouver un  $𝛽∗$
  optimal tel que :
  
  $𝑦≈𝑋𝛽∗$

- **(b)** Pour `beta` prenant les valeurs 0.01, 0.02, ..., 0.13, 0.14 et 0.15, calculer la  $MSE$
  associée à l'aide de la fonction `mean_squared_error` définie précédemment. Stocker les valeurs dans une liste.
  > - Pour créer la liste `[0.01, 0.02, ..., 0.13, 0.14, 0.15]`, vous pouvez utiliser la fonction `np.linspace` dont la signature est similaire à la fonction `range` :
  ```python
  print(np.linspace(start = 0.01, stop = 0.15, num = 15))
>>> [0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.1  0.11 0.12 0.13 0.14 0.15]
  ```
  - L'argument `num` permet de définir **le nombre d'éléments désiré** entre `start` et `stop`. **Il ne s'agit pas du pas entre deux valeurs consécutives**.

In [None]:
X = np.array([24,
              18,
              14])

y = np.array([1.88,
              1.68,
              1.65])

# Insérez votre code ici

- **(c)** Convertir la liste contenant les  $MSE$
  en un array numpy.
- **(d)** Déterminer le  $𝛽∗$
  qui minimise la  $MSE$
  à l'aide de la méthode `argmin`.

In [None]:
# Insérez votre code ici

- **(e)** Quelles sont les tailles prédites par ce  $𝛽∗$
  optimal ? Les tailles prédites par le modèle sont données par le vecteur  $𝑦̂ =𝑋𝛽∗$
 .
- **(f)** Comparer les tailles prédites aux vraies tailles des individus. Vous pourrez par exemple calculer l'écart moyen entre les prédictions et les vraies valeurs à l'aide de la valeur absolue (`np.abs`).

In [None]:
# Insérez votre code ici