<a href="https://colab.research.google.com/github/AureohDev/Tech_Lead_Exos/blob/main/Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Numpy  

_________________________________

## Durée du cours  
**1h**

_________________________________

## Contexte
### Pré-requis
- Connaissance de la syntaxe Python 
- Connaissance de la programmation orientée objet en Python 
- Mathématique niveau lycée 
- De la bonne humeur et de la motivation 🚀


NumPy est une extension du langage de programmation Python, **destinée à manipuler des matrices ou tableaux multidimensionnels ainsi que des fonctions mathématiques opérant sur ces tableaux.**
Plus précisément, cette bibliothèque logicielle libre et open source fournit de multiples fonctions permettant notamment de créer des vecteurs, matrices et polynômes.
NumPy est la base de SciPy, un regroupement de bibliothèques Python autour du calcul scientifique. 

_________________________________

## Sommaire 
* [Installer numpy](#install)
* [La gestion des tableaux](#tab)
* [Les opérations et fonctions principales de la librairie](#functions)
* [Les statistiques de base](#stats)



## <a id=#install>Installer numpy()</a>

### Vérifier déjà que vous n'avez pas numpy avec `pip list` : 
Avant d'installer numpy, on peut vérifier si il est présent sur votre machine avec la commande suivante :
```
pip list 
```
Si numpy ne s'affiche pas c'est qu'il n'est pas installé. 

### Installation avec `pip`

Vous pouvez installer numpy de plusieurs manières. 

Manuellement depuis votre terminal lancer la commande suivante :  
```bash 
pip install numpy
```
ou si vous êtes dans un notebook 
```python 
!pip install numpy 
```
Vous pouvez vérifier votre installation en tapant dans votre notebook la ligne de commande : 
```python
import numpy as np
```

Si la cellule s'execute et passe à la suivante c'est que numpy est bien présent sur votre machine. Dans le cas contraire vous allez avoir une erreur du type `Not Found`. 

In [None]:
import numpy as np 

## <a id=#tab>La gestion des tableaux avec numpy</a>

In [None]:
a = np.array([1.7,2.8,3])
a

array([1.7, 2.8, 3. ])

In [None]:
a.dtype

dtype('float64')

In [None]:
a = np.array([1,2.8,3,'s'])
a

array(['1', '2.8', '3', 's'], dtype='<U32')

In [None]:
a.dtype

dtype('<U32')

Le caractère `U` est l'abréviation de *Unicode String* 🤓

In [None]:
m = np.array([[1, 2], [3, 4]])
m

array([[1, 2],
       [3, 4]])

In [None]:
#array avec une dimension minimum 
m2 = np.array([1, 2, 3,4,5], ndmin = 2) 
m2

array([[1, 2, 3, 4, 5]])

In [None]:
#array[ligne][col]
m[0][1]

2

In [None]:
#modif
print ("Avant {}".format(m))
m[0][1] = 9
print ("Après {}".format(m))

Avant [[1 2]
 [3 4]]
Après [[1 9]
 [3 4]]


In [None]:
m.shape

(2, 2)

In [None]:
m2.shape = (5,1)
m2

array([[1],
       [2],
       [3],
       [4],
       [5]])

In [None]:
m2.reshape(1,5)

array([[1, 2, 3, 4, 5]])

In [None]:
#3d
c = np.arange(24).reshape(2,3,4); c

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]],

       [[12, 13, 14, 15],
        [16, 17, 18, 19],
        [20, 21, 22, 23]]])

In [None]:
#dimension de l'array
c.ndim, m.ndim

(3, 2)

### Sélection d'une partie d'un array 

Soit `ar` un array 2d tel que :
```python
ar = numpy.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
```
alors : 
- `ar[1:3,0:2]` : récupère le sous-array des lignes 2 et 3, et des colonnes 1 et 2.
- `ar[1,:]` : renvoie la 2ème ligne, mais l'array renvoyée n'a plus qu'une seule dimension 
- `ar[1:2,:]` : renvoie aussi la 2ème ligne, mais en conservant les 2 dimensions)
- `ar[:,-1]` : renvoie la dernière colonne

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])
a[0:2]

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
a[-1]

array([4, 5, 6])

In [None]:
a[:]

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
#sous-array 2d des 2 premières lignes et 2 premières colonne
a[0:2,0:2] 

array([[1, 2],
       [4, 5]])

In [None]:
#on peut filtrer par valeur 
a == 2

array([[False,  True, False],
       [False, False, False]])

### Opérations sur les tableaux 

⚠️ shape de vos tableaux ⚠️

In [None]:
A = np.array([[1,1],[0,1]])
B = np.array([[2,0],[3,4]])
A,B

(array([[1, 1],
        [0, 1]]),
 array([[2, 0],
        [3, 4]]))

In [None]:
A+B

array([[3, 1],
       [3, 5]])

In [None]:
A-B

array([[-1,  1],
       [-3, -3]])

In [None]:
A*B

array([[2, 0],
       [0, 4]])

In [None]:
A/B

  A/B


array([[0.5 ,  inf],
       [0.  , 0.25]])

In [None]:
#produit matricielle
A.dot(B)

array([[5, 4],
       [3, 4]])

### Les fonctions mathématiques de base 
La plupart des méthodes numpy s'opérant sur des tableaux, elles partagent souvent l'argument `axis` où `axis=1` fait référence aux lignes et `axis=0` aux colonnes. 

In [None]:
#min et max 
a = np.array([1.7,2.8,3])
a.min(), a.max()

(1.7, 3.0)

In [None]:
a.argmax(),a.argmin()

(2, 0)

In [None]:
#moyenne 
a.mean()

2.5

In [None]:
#somme
b=np.array([[1, 2], [3, 4]])
b.sum(axis=0)

array([4, 6])

In [None]:
b.sum(axis=1)

array([3, 7])

In [None]:
#somme cumulée
np.array([1,2,3,4]).cumsum() 

array([ 1,  3,  6, 10], dtype=int32)

In [None]:
b.cumsum(axis=1)

array([[1, 3],
       [3, 7]], dtype=int32)

In [None]:
#position du max
np.argmax(b,axis=1)

array([1, 1], dtype=int64)

#### Plus de fonctions mathématiques 
- `np.exp`, `np.log` : exponentielle, logarithme (base e)
- `np.log10` : logarithme en base 10
- `np.sqrt` : racine carrée
- `np.square` : carrés
- `np.sin`, `np.cos` et `np.tan` : les fonctions trigonométriques classiques, avec un argument en radians
- [Encore pleins de choses](https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.math.html) 👀

## <a id="functions">Les fonctions principales de la librairie </a>

In [None]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [None]:
np.arange( 0, 2, 0.3 )

array([0. , 0.3, 0.6, 0.9, 1.2, 1.5, 1.8])

In [None]:
np.arange(10).reshape(5,2)

array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])

In [None]:
#permet de construire des array répétés :
np.tile(7, 3)

array([7, 7, 7])

In [None]:
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [None]:
np.ones((2,3,4), dtype='int8')

array([[[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]],

       [[1, 1, 1, 1],
        [1, 1, 1, 1],
        [1, 1, 1, 1]]], dtype=int8)

In [None]:
#numpy.eye permet aussi de faire des diagonales autre que la diagonale principale 
np.eye(3, 3, 1)
#avec numpy.eye(3, 3, -1), on aurait la sous-diagonale
#avec numpy.eye(3, 3, 2), on aurait un 1 en haut à droite

array([[0., 1., 0.],
       [0., 0., 1.],
       [0., 0., 0.]])

In [None]:
np.diag(np.array([1, 4])) #crée une matrice diagonale avec la diagonale indiquée en array 

array([[1, 0],
       [0, 4]])

In [None]:
np.linspace(0, 2, 9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [None]:
x = np.linspace(0, 2*np.pi, 100)
#exemple avec la fonction sinus
f = lambda x : np.sin(x)
f(x)

array([ 0.00000000e+00,  6.34239197e-02,  1.26592454e-01,  1.89251244e-01,
        2.51147987e-01,  3.12033446e-01,  3.71662456e-01,  4.29794912e-01,
        4.86196736e-01,  5.40640817e-01,  5.92907929e-01,  6.42787610e-01,
        6.90079011e-01,  7.34591709e-01,  7.76146464e-01,  8.14575952e-01,
        8.49725430e-01,  8.81453363e-01,  9.09631995e-01,  9.34147860e-01,
        9.54902241e-01,  9.71811568e-01,  9.84807753e-01,  9.93838464e-01,
        9.98867339e-01,  9.99874128e-01,  9.96854776e-01,  9.89821442e-01,
        9.78802446e-01,  9.63842159e-01,  9.45000819e-01,  9.22354294e-01,
        8.95993774e-01,  8.66025404e-01,  8.32569855e-01,  7.95761841e-01,
        7.55749574e-01,  7.12694171e-01,  6.66769001e-01,  6.18158986e-01,
        5.67059864e-01,  5.13677392e-01,  4.58226522e-01,  4.00930535e-01,
        3.42020143e-01,  2.81732557e-01,  2.20310533e-01,  1.58001396e-01,
        9.50560433e-02,  3.17279335e-02, -3.17279335e-02, -9.50560433e-02,
       -1.58001396e-01, -

#### La copie et concaténation de tableaux avec `copy()` et `stack()`

In [None]:
#copy 
cop = x.copy()

In [None]:
#concatenation 
np.stack([x[0:10],x[-10:]])

array([[0.        , 0.06346652, 0.12693304, 0.19039955, 0.25386607,
        0.31733259, 0.38079911, 0.44426563, 0.50773215, 0.57119866],
       [5.71198664, 5.77545316, 5.83891968, 5.9023862 , 5.96585272,
        6.02931923, 6.09278575, 6.15625227, 6.21971879, 6.28318531]])

### La génération de nombre aléatoire 

La production de nombre aléatoire est un vaste sujet, je vous renvoie à l'excellent [article wikipedia](https://fr.wikipedia.org/wiki/Générateur_de_nombres_aléatoires) sur les générateurs de nombre aléatoire. On utilisera comme générateur de nombre aléatoire [numpy.random](https://docs.scipy.org/doc/numpy-1.15.0/reference/routines.random.html) 🤓


In [None]:
rd = np.random
#array 1d de 4 nombres d'une distribution gaussienne normalisée
rd.rand(4)

array([0.61438786, 0.91253404, 0.13496974, 0.81508519])

In [None]:
#array 2d de 4 x 2 nombres d'une distribution gaussienne standard
rd.randn(4,2)

array([[ 0.0537792 ,  1.06549928],
       [-1.76982395,  0.88402037],
       [ 0.43927112,  0.25510008],
       [-0.5763851 , -0.13300346]])

In [None]:
#array 1d de 10 nombres entiers entre 1 et 5, 5 exclus
rd.randint(0,5,10)

array([2, 2, 0, 1, 2, 1, 1, 1, 2, 0])

In [None]:
#renvoie 4 valeurs aléatoires dans l'intervalle [0;1[ 
rd.ranf(4)

array([0.29876581, 0.54563206, 0.61221037, 0.83226819])

## <a id="stats">Les statistiques de base</a>

La statistique est une branche des mathématiques qui consiste à étudier des phénomènes par la collecte de données, leur traitement, leur analyse, l'interprétation des résultats et leur présentation afin de rendre les données compréhensibles par tous. C'est à la fois une science, une méthode et un ensemble de techniques.
Comme beaucoup de Sciences, elle possède une composante théorique ainsi qu'une composante appliquée. La composante théorique s'appuie sur la théorie des probabilités et forme avec cette dernière, les sciences de l'aléatoire. La statistique appliquée est utilisée dans presque tous les domaines aujourd'hui : ingénierie, management, économie, politique, biologie, informatique, etc. 
Définition de [wikipedia](https://fr.wikipedia.org/wiki/Statistique)

**« Parmi les thèmes à propos desquels les statisticiens ne sont pas d'accord, se trouve la définition de leur science.»**
, *Maurice Kendall* 

Avant de se lancer nous devons fixer quelques mots de vocabulaire. En effet, il est nécessaire de bien formaliser notre vocabulaire au début afin de ne pas se retrouver bloqué sur des "*termes techniques*".


### Vocabulaire 


#### La population et les individus  
La population est l’ensemble des individus (ou un individu est une unité statistique) auxquels on décide de sintériser. Sa taille, habituellement désignée par `N`, est grande, ou même infinie. Le choix de la population étudiée dépend du problème qui est à l’origine de la démarche statistique, et de la façon dont on décide de le traiter.
Définition de [wikipedia](https://fr.wikipedia.org/wiki/Population).


#### Statistique   
Une statistique est un nombre, un chiffre calculé à partir d’une population dans l'optique de rendre compte d'un certain aspect de cette même population est une statistique. La moyenne et la variance sont des statistiques. 


#### Les variables 

Dans les mathématiques supérieures et en logique, une variable est un symbole représentant, a priori, un objet indéterminé. On peut cependant ajouter des conditions sur cet objet, tel que l'ensemble ou la collection le contenant. On peut alors utiliser une variable pour marquer un rôle dans un prédicat, une formule ou un algorithme, ou bien résoudre des équations et d'autres problèmes. En statistique une variable peut aussi représenter une qualité. Elle peut être quantitative ou qualitative.
Définition de [wikipedia](https://fr.wikipedia.org/wiki/Variable_(mathématiques)).

* Une variable **quantitative** est une variable Ce lien renvoie vers une page d'homonymie qui reflète une notion de grandeur, c'est-à-dire si les valeurs qu'elle peut prendre sont des nombres. Une grandeur quantitative est souvent exprimée avec une unité de mesure qui sert de référence. Définition de [wikipedia](https://fr.wikipedia.org/wiki/Variable_quantitative).

* Une variable **qualitative**, une variable catégorielle, ou bien un facteur est une variable qui prend pour valeur des modalités, des catégories ou bien des niveaux, par opposition aux variables quantitatives qui mesurent sur chaque individu une quantité. Définition de [wikipedia](https://fr.wikipedia.org/wiki/Variable_catégorielle).


#### Médiane 
En théorie des probabilités et en statistiques, la médiane d'un ensemble de valeurs (échantillon, population, distribution de probabilités) est une valeur x qui permet de couper l'ensemble des valeurs en deux parties égales : mettant d'un côté une moitié des valeurs, qui sont toutes inférieures ou égales à x et de l'autre côté l'autre moitié des valeurs, qui sont toutes supérieures ou égales à x (s'il y a un nombre impair de valeurs, la valeur centrale sera mise des deux côtés). Définition de [wikipedia](https://fr.wikipedia.org/wiki/Médiane_(statistiques)).

#### Quantiles
En statistiques et en théorie des probabilités, les quantiles sont les valeurs qui divisent un jeu de données en intervalles contenant le même nombre de données. Définition de [wikipedia](https://fr.wikipedia.org/wiki/Quantile).


#### La variance $V(X)$ et sa racine carrée, l’écart-type $\sigma(X)$ 
En statistique et en théorie des probabilités, la variance est une mesure de la dispersion des valeurs d'un échantillon ou d'une distribution de probabilité. L’écart-type est sa racine carrée, il est souvent noté $\sigma$ *(la lettre grec sigma)*. Ce sont des statistiques de dispersion. On appelle $\sigma(X)$ la variance du vecteur $X=(x_1,...,x_i,...x_n)$ elle s'écrit de la façon suivante : 

$${\sigma(X)}=\frac1n\sum_{i=1}^n(x_i-m)^2$$

Définition de [wikipedia](https://fr.wikipedia.org/wiki/Variance_(mathématiques)).
Elle se calcule avec la fonction `std(X)`.


#### Espérance mathématique
En théorie des probabilités, l'espérance mathématique d'une variable aléatoire réelle est, intuitivement, la valeur que l'on s'attend à trouver, en moyenne, si l'on répète un grand nombre de fois la même expérience aléatoire. Elle se note pour une variable X : $$\operatorname {E}(X)$$

Définition de [wikipedia](https://fr.wikipedia.org/wiki/Espérance_mathématique). 
Elle se calcule avec la fonction `mean(X)`.


#### La covariance 
La covariance entre deux variables $X$ et $Y$ est un nombre (une statistique) permettant de quantifier leurs écarts conjoints par rapport à leurs espérances respectives. Elle s'écrit $\operatorname {cov}(X,Y)$

$$\operatorname {cov}(X,Y)\equiv \operatorname {E}[(X-\operatorname {E}[X])\,(Y-\operatorname {E}[Y])]$$

Définition de [wikipedia](https://fr.wikipedia.org/wiki/Covariance).
Elle se calcule avec la fonction `cov(X,Y)`.

#### La corrélation 
En probabilités et en statistique, la corrélation entre plusieurs variables aléatoires ou statistiques est une notion de liaison qui contredit leur indépendance.

Elle s'écrit tel que : 

$$cor(X, X) = \frac{cov(X, Y)}{\sigma(X)\sigma(X)}$$

Définition de [wikipedia](https://fr.wikipedia.org/wiki/Corrélation_(statistiques)).
Elle se calcule avec la fonction `correlate(X,Y)`. 

## Ressources en +

- La [documentation officielle](https://docs.scipy.org/doc/numpy-1.13.0/reference/) 
- Le cours très complet des écoles [EPFL-ENAC](https://enacit.epfl.ch/cours/python/scientifique/numpy.html)
- Portail wikipedia des mathématiques [ici](https://fr.wikipedia.org/wiki/Portail:Mathématiques) 
- Résumé synthétique wiki sur les statistiques de base avec Numpy [ici](https://fr.wikibooks.org/wiki/Python_pour_le_calcul_scientifique/Statistiques) 