# Numpy
Documentation  : https://numpy.org/doc/stable/reference/index.html
#### Sommaires :
* [1](#1) : Les bases de numpy
    * [1.1](#1.1) : Principaux générateurs de tableaux ndarray 
    * [1.2](#1.2) : Attributs importants
    * [1.3](#1.3) : Méthodes importantes
* [2](#2) : Indexing et slicing
    * [2.1](#2.1) : Indexing et sclicing
    * [2.2](#2.2) : Boolean indexing
* [3](#3) : Mathématiques et statistiques
    * [3.1](#3.1) : Méthodes mathématiques de base
    * [3.2](#3.2) : Statistiques
        * [3.2.1](#3.2.1) : Méthodes statistiques de base
        * [3.2.2](#3.2.2) : Corrélation de Pearson
        * [3.2.3](#3.2.3) : Correction de Dataset
    * [3.3](#3.3) : Algèbre linéaire

In [1]:
import numpy as np

# 1. Les bases de numpy
### 1.1. Principaux générateurs de tableaux ndarray <a class="anchor" id="1.1"></a>
* générateurs par défaut : **np.array()**
* générateur 1D : **np.linspace()**,  **np.arange()**
* générateur nD : **np.zeros()**, **np.ones()**, **np.random.randn()**, **np.random.rand()**, **np.random.randint()**
* générateur particulier : **np.eye()** 

In [2]:
A = np.array([[1, 2, 3], [4, 5, 6]]) # Converti des listes (ou autres objets) en tableau ndarray

B = np.linspace(1,10, 10) # np.linspace(début,fin,nombre)
C = np.arange(0, 10, 2) # np.arange(début,fin,pas)

D = np.zeros((2, 3)) # tableau de 0 aux dimensions 2x3
E = np.ones((2, 3)) # tableau de 1 aux dimensions 2x3
F = np.random.randn(2, 3) # tableau aléatoire (distribution normale) aux dimensions 2x3
G = np.random.rand(2, 3) # tableau aléatoire (distribution uniforme) aux dimensions 2x3
H = np.random.randint(0, 10, [2, 3]) # tableau d'entiers aléatoires de 0 a 10 et de dimension 2x3

I = np.eye(4) # Matrice diagonale aux dimensions 4x4

L'argument **dtype=** permet de définir le type d'objet et la place occuper sur la mémoire

In [3]:
A = np.ones((2, 3), dtype=np.float16) # type float de 16 bits 

### 1.2. Attributs importants <a class="anchor" id="1.2"></a>
* **.size** : nombre d'éléments dans un tableau
* **.shape** : dimensions d'un tableau (sous forme de tuple)

In [4]:
A = np.zeros((2, 3)) # Création d'un tableau de 0 aux dimensions 2x3

print("nombre d'éléments de A: ", A.size)
print("shape de A: ", A.shape)
print("nombre de ligne de A: ", A.shape[0])

nombre d'éléments de A:  6
shape de A:  (2, 3)
nombre de ligne de A:  2


### 1.3. Méthodes importantes <a class="anchor" id="1.3"></a>
* **.reshape()** : pour redimensionner un tableau
* **.ravel()** : pour applatir un tableau (qu'il ne fasse plus qu'une dimension)
* **.squeeze()** : quand une dimension est égale a 1, cette dimension disparait
* **np.concatenate()** : assemble 2 tableaux ensemble selon un axes (existe aussi en hstack et vstack)

In [5]:
A = np.zeros((2, 3)) # création d'un tableau de shape (2, 3)
 
A = A.reshape((3, 2)) # redimensionne le tableau A (3 lignes, 2 colonnes)
A = A.ravel() # Aplatit le tableau A (une seule dimension))
A = A.squeeze() # élimine les dimensions "1" de A.

In [6]:
A = np.zeros((2, 3)) # création d'un tableau de shape (2, 3)
B = np.ones((2, 3)) # création d'un tableau de shape (2, 3)

C = np.concatenate((A, B), axis=0) # axe 0 (colonnes) : équivalent de np.vstack((A, B))
print(C, "\n")

[[0. 0. 0.]
 [0. 0. 0.]
 [1. 1. 1.]
 [1. 1. 1.]] 



In [7]:
D = np.concatenate((A, B), axis=1) # axe 1 (lignes) : équivalent de np.hstack((A, B))
print(D)

[[0. 0. 0. 1. 1. 1.]
 [0. 0. 0. 1. 1. 1.]]


# 2. Indexing et slicing  <a class="anchor" id="2"></a>
### 2.1 Indexing et sclicing <a class="anchor" id="2.1"></a>
Même fonctionnement que pour les listes.

In [8]:
A = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

A[0, 1] # Pour acceder a la ligne 0, colonne 1
A[0:2, 0:2] # Pour selectionner les blocs de la ligne (0-1) colonne (0-1)
A[:, 0] # Pour selectionner la première colonne 
A[-1, :] # Pour selectionner la dernière ligne

array([7, 8, 9])

### 2.2 Boolean Indexing <a class="anchor" id="2.2"></a>
Un masque Boolean est une matrice constituée de "True" et de "False", et construite à partir d'une ou de plusieurs comparaisons.

In [9]:
A = np.array([[1, 2, 3], [4, 5, 6]])
 
print(A < 5) # masque booléen

[[ True  True  True]
 [ True False False]]


In [10]:
print(A[A < 5]) # sous-ensemble filtré par le masque booléen, affiche dans une matrice 1D les valeurs True

[1 2 3 4]


In [11]:
A[A < 5] = 4 # remplace les valeurs sélectionnées par une nouvelle valeur

print(A)

[[4 4 4]
 [4 5 6]]


# 3. Mathématiques et statistiques <a class="anchor" id="3"></a>
### 3.1. Méthodes mathématiques de base <a class="anchor" id="3.1"></a>
* **.sum()** : somme
* **.cumsum()** : somme cumulée
* **.prod()** : produit
* **.cumprod()** : produit cumulé
* **.min()** : minimun du tableau
* **.max()** : maximum du tableau
* **.argmin()** : retourne la position du minimun
* **.argmax()** : retourne la position du maximum
* **np.sort()** : tri les valeur d'un tableau 1D
* **.argsort()** : retourne la façon dont il faut classer les index pour trier le tableau 
* **np.exp(), np.log(), np.sin(), np.cos(),** etc...

In [12]:
A = np.array([[1, 2, 3], [4, 5, 6]])

print("Somme: ", A.sum()) # effectue la somme de tous les éléments du tableau
print("Somme lignes: ", A.sum(axis=0)) # effectue la somme des colonnes (somme sur éléments des les lignes)
print("Somme cumulé", A.cumsum()) # effectue la somme cumulée
 
print("Produit: ", A.prod()) # effectue le produit
print("Produit cumulé: ",A.cumprod()) # effectue le produit cumulé
 
print("Max: ", A.max()) # trouve le maximum du tableau
print("Index du maximum: ", A.argmax()) # trouve l'index du maximum

Somme:  21
Somme lignes:  [5 7 9]
Somme cumulé [ 1  3  6 10 15 21]
Produit:  720
Produit cumulé:  [  1   2   6  24 120 720]
Max:  6
Index du maximum:  5


In [13]:
A = np.random.randint(0, 10, [5, 5]) # tableau aléatoire
print(A)

[[4 0 7 2 6]
 [5 9 7 8 7]
 [6 8 8 2 7]
 [2 3 9 5 8]
 [4 2 3 1 4]]


In [14]:
print(A[:,0].argsort()) # retourne les index pour trier la colonne 0 du tableau A

[3 0 4 1 2]


### 3.2. Statistiques <a class="anchor" id="3.2"></a>
#### 3.2.1. Méthodes statistique de base <a class="anchor" id="3.2.1"></a>
* **.mean()** : moyenne
* **.std()** : écart-type (σ)
* **.var()** : variance (σ²)
* **np.unique()** : renvoie une liste avec les entités du tableau et une autre avec le nombre de fois quelles apparaissent

In [15]:
print("Moyenne : ", A.mean()) # calcule la moyenne
print("Ecart type : ", A.std()) # calcule l'ecart type,
print("Variance : ", A.var()) # calcule la variance

Moyenne :  5.08
Ecart type :  2.6369679558159214
Variance :  6.9536


In [16]:
A = np.random.randint(0, 10, [5, 5]) # tableau 2x4

print(np.unique(A, return_counts=True)) 

values, counts = np.unique(A, return_counts=True) # Double attribution pour récupérer les sorties séparément

print(values[counts.argsort()]) # Affiche dans l'ordre croissant le nombre d'apparition des entités 

(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]), array([2, 2, 4, 2, 2, 4, 1, 3, 1, 4], dtype=int64))
[6 8 0 1 3 4 7 2 5 9]


#### 3.2.2. Correlation de Pearson <a class="anchor" id="3.2.2"></a>
* **np.corrcoef()** : calcul le coefficieant de corrélation (r), entre les lignes d'un tableau ou même entre deux tableaux. Les lignes sont des variables et les colonnes sont les observations associées à ces variables.

In [17]:
B = np.random.randn(2, 4) # nombres aléatoires 2x4
 
print(np.corrcoef(B)) # retourne la matrice de corrélation de B
print("r: {:.3f}".format(np.corrcoef(B)[0, 1])) # coef de corrélation entre la première et la seconde ligne

[[1.         0.63965865]
 [0.63965865 1.        ]]
r: 0.640


#### 3.2.3. Correction de dataset <a class="anchor" id="3.2.3"></a>
Parfois les dataset ne sont pas complet et comportent des données manquantes. Celles-ci sont nommées "nan" pour Not A Number dans les tableaux numpy. Il est alors impossible de faire des opérations sur les tableaux. Mais certaines fonction permettent tout de même de faire des calculs en ignorant ces données manquantes :
* **np.nanmean()** : Calcul de la moyenne en ignorant les nan
* **np.nanstd()** : Calcul de l'écart-type en ignorant les nan
* **np.nanvar()** : Calcul de la variance en ignorant les nan
* **np.isnan()** : Masque Booléan avec nan = True

In [18]:
A = np.array([[1, np.nan, 4], [3, 9, 2]]) # tableau 2x3

print(np.isnan(A))
print('ratio NaN/zise:', (np.isnan(A).sum()/A.size)) # calcule la proportion de NaN dans A

[[False  True False]
 [False False False]]
ratio NaN/zise: 0.16666666666666666


### 3.3. Algèbre linéaire <a class="anchor" id="3.3"></a>
* **.T** : transposé de la matrice 
* **.dot()** ou **@** : produit matricielle
* **np.linalg.det()** : déterminant d'une matrice
* **np.linalg.inv()** : inversion d'une matrice
* **np.linalg.eig()** : valeur propre et vecteur propre d'une matrice

In [19]:
A = np.array([[4, 6], [1, 3]]) 
B = np.array([[1, 4], [2, 6]])

print("A * B = ", A.dot(B))

val, vec = np.linalg.eig(A)
print('valeur propre:\n', val) # valeur propre
print('vecteur propre:\n', vec) # vecteur propre

A * B =  [[16 52]
 [ 7 22]]
valeur propre:
 [6. 1.]
vecteur propre:
 [[ 0.9486833  -0.89442719]
 [ 0.31622777  0.4472136 ]]
