# NumPy

Numpy te permet d'effectuer des opérations mathématiques sur des matrices et vecteurs de façon très rapide. Il est très simple d'utilisation mais pourtant très puissant. Certains le comparent à Matlab.


Tout d'abord, qu'est ce qu'un array?
Un array c'est une liste d'objets qui ressemblent exactement à une liste. Il y a cependant quelques différences.

In [15]:
#Avant tout, pour utiliser la librairie NumPy, nous devons l'importer:

import numpy as np


#Nous avons utilisé "as" dans notre déclaration. Cela nous permet d'utiliser un autre nom pour appeller NumPy. 
#Par convention nous appellons NumPy "np" pour faciliter l'écriture.

In [16]:
#Créeons une liste

L1 = [1, 2, 3, 4, 5]
print(L1)

[1, 2, 3, 4, 5]


In [17]:
#Et maintenant un array NumPy

A1 = np.array([1, 2, 3, 4, 5])
print(A1)

[1 2 3 4 5]


Ils se ressemble beaucoup n'est-ce pas?

Nous savons que nous pouvons utiliser une boucle for sur une liste, essayons maintenant sur un array:

In [18]:
for nombre in L1:
    print(nombre)

1
2
3
4
5


In [19]:
for nombre in A1:
    print(nombre)

1
2
3
4
5


Nos résultats se ressemblent toujours.

Maintenant, essayons d'ajouter un élément à notre liste ainsi qu'à notre array :

In [20]:
L1.append(6)
print(L1)

[1, 2, 3, 4, 5, 6]


In [21]:
A1.append(6)
print(A1)

AttributeError: 'numpy.ndarray' object has no attribute 'append'

Comme l'erreur le montre, nous ne pouvons pas utiliser "append" de cette façon pour ajouter un nombre à un array NumPy.

Nous pouvons aussi ajouter un nombre à une liste de cette façon :

In [None]:
L1 = L1 + [7]
print(L1)

Essayons la même chose sur un array:

In [None]:
A1 = A1 + [6, 7]
print(A1)

Nous avons une autre erreur. Nous ne pouvons pas utiliser cette méthode non plus.

Okay, essayons encore autre chose:

In [None]:
print(L1 + L1)

In [None]:
print(A1 + A1)

Nous savons déjà que quand nous additionnons des listes, elles se concatènent.

Alors que, sur un array NumPy, cela donne une addition de vecteurs.

#### SCALAR MATH - Mathématiques Scalaires

In [26]:
# Ajoutons 1 à chaque élément de l'array
np.add(A1, 3)

array([4, 5, 6, 7, 8])

In [27]:
# Soustrayons 2 à chaque élément de l'array
np.subtract(A1, 2)

array([-1,  0,  1,  2,  3])

In [28]:
# Multiplions par 3 chaque élément de l'array
np.multiply(A1, 3)

array([ 3,  6,  9, 12, 15])

In [29]:
# Divisons par 4 chaque élément de l'array (Cela nous donne np.nan pour une division par 0)
np.divide(A1, 4)

array([0.25, 0.5 , 0.75, 1.  , 1.25])

In [30]:
# Mettons chaque élément de l'array à la puissance 5
np.power(A1, 5)

array([   1,   32,  243, 1024, 3125])

#### VECTOR MATH - Mathématique vectorielle

In [None]:
print(3 * A1) # Ici on multiplie l'array par 3

In [None]:
print(A1 ** 2) # Ici on met l'array à la puissance 2

In [31]:
print(np.sqrt(A1)) # Ici on prend la racine carrée de l'array

[1.         1.41421356 1.73205081 2.         2.23606798]


In [32]:
print(np.log(A1)) # Ici on prend le logarithme de l'array

[0.         0.69314718 1.09861229 1.38629436 1.60943791]


In [33]:
print(np.exp(A1)) # Ici on prend l'exponentielle de l'array

[  2.71828183   7.3890561   20.08553692  54.59815003 148.4131591 ]


In [34]:
print(np.ceil(np.exp(A1))) 
# Ici on prend l'arrondi de l'exponentielle de l'array au chiffre superieur le plus proche

[  3.   8.  21.  55. 149.]


In [35]:
print(np.floor(np.exp(A1)))
# Ici on prend l'arrondi de l'exponentielle de l'array au chiffre inférieur le plus proche

[  2.   7.  20.  54. 148.]


In [36]:
print(np.round(np.exp(A1)))
# Ici on prend l'arrondi de l'exponentielle de l'array au chiffre le plus proche

[  3.   7.  20.  55. 148.]


In [38]:
print(np.cos(A1)) # Ici on prend le sinus l'array

[ 0.54030231 -0.41614684 -0.9899925  -0.65364362  0.28366219]


In [39]:
# Ajoute un autre array ou le même array élément par élément
np.add(A1, A1)

array([ 2,  4,  6,  8, 10])

In [40]:
# Soustrait un autre array ou le même array élément par élément
np.subtract(A1, A1)

array([0, 0, 0, 0, 0])

In [41]:
# Multiplie un autre array ou le même array élément par élément
np.multiply(A1, A1)

array([ 1,  4,  9, 16, 25])

In [42]:
# Divise un autre array ou le même array élément par élément
np.divide(A1, A1)

array([1., 1., 1., 1., 1.])

In [43]:
# Met un array à la puissance d'un autre array ou du même array élément par élément
np.power(A1, A1)

array([   1,    4,   27,  256, 3125])

In [44]:
# Donne TRUE si les arrays ont les mêmes éléments et la même dimension, sinon donne FALSE
same_array = np.array([1, 2, 3, 4, 5])

np.array_equal(A1, same_array)

True

### VECTEURS ET MATRICES

Une matrice est un NumPy array en deux dimensions (2D) ou en plusieurs dimensions (nD). On peut se représenter une matrice comme une liste de listes.
Un vecteur est un NumPy array en une dimension (1D).


 _________________________________________________________________________________



Bien qu'en tant que data analysts/data scientists nous voulons travailler avec des matrices, c'est toujours une bonne idée de les transformer en arrays NumPy :

In [47]:
M1 = np.matrix([[1, 2], [3, 4], [5, 6], [7, 8]])

In [48]:
A2 = np.array(M1)
print(A2)

[[1 2]
 [3 4]
 [5 6]
 [7 8]]


### GENERER DES MATRICES POUR TRAVAILLER

Il y a plusieurs façons :

In [49]:
# Nous pouvons juste les écrires de cette façon:
A3 = np.array([1, 2, 3]) # Cela crée un array à une dimension
print(A3)

[1 2 3]


In [50]:
A4 = np.array([[4, 5], [6, 7]]) # Cela crée un array à deux dimension
print(A4)

[[4 5]
 [6 7]]


In [53]:
# Nous pouvons créer un array à une dimension de longueur 3 dont toutes les valeurs sont 0
A5 = np.zeros(20)
print(A5)

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [55]:
# Nous pouvons créer un array 3x4 dont toutes les valeurs sont 1 
A6 = np.ones((5, 7))
print(A6)

[[1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1. 1. 1.]]


In [59]:
# Nous créeons un array de 6 valeurs uniformément réparties entre 0 et 100
A7 = np.linspace(0, 100, 101)
print(A7)

[  0.   1.   2.   3.   4.   5.   6.   7.   8.   9.  10.  11.  12.  13.
  14.  15.  16.  17.  18.  19.  20.  21.  22.  23.  24.  25.  26.  27.
  28.  29.  30.  31.  32.  33.  34.  35.  36.  37.  38.  39.  40.  41.
  42.  43.  44.  45.  46.  47.  48.  49.  50.  51.  52.  53.  54.  55.
  56.  57.  58.  59.  60.  61.  62.  63.  64.  65.  66.  67.  68.  69.
  70.  71.  72.  73.  74.  75.  76.  77.  78.  79.  80.  81.  82.  83.
  84.  85.  86.  87.  88.  89.  90.  91.  92.  93.  94.  95.  96.  97.
  98.  99. 100.]


In [60]:
# Nous pouvons créer un array composé de valeurs de 0 à moins de 10 en avançant 3 par 3.
A8 = np.arange(0, 10, 3)
print(A8)

[0 3 6 9]


In [67]:
# De cette façon, nous créeons un array 4x5 composé de floats aléatoires entre 0 et 1.
A10 = np.random.rand(4, 5)
print(A10)

[[0.02853208 0.12506093 0.84038745 0.03217758 0.77455855]
 [0.83454172 0.35499357 0.21918327 0.13170764 0.07517226]
 [0.54779991 0.12122128 0.95058677 0.03078776 0.68841986]
 [0.63734189 0.21627628 0.08957234 0.22704643 0.29623734]]


In [68]:
# Si nous multiplions le même array par 100 :
print(A10*100)

# Nous obtenons des floats entre 0 et 100.

[[ 2.85320781 12.50609321 84.03874516  3.21775831 77.45585515]
 [83.45417179 35.4993573  21.91832716 13.17076398  7.51722594]
 [54.77999067 12.12212819 95.05867723  3.07877589 68.84198614]
 [63.73418892 21.6276284   8.9572342  22.70464331 29.62373422]]


In [76]:
# Pour créer un array 2x3 avec des nombres aléatoires entre 0 et 4 :
A11 = np.random.randint(-5, 10, size = (4, 3))
print(A11)

[[ 1 -3 -4]
 [-2 -5  8]
 [ 3  5  9]
 [ 2  2 -5]]


In [81]:
# Pour créer un array 5x5 composé de 0 avec des 1 en diagonale (identity matrix ou matrice identité) :
iden_matrix = np.eye(20)
print(iden_matrix)

[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.

## DOT PRODUCT OU PRODUIT SCALAIRE

- Le produit scalaire est un type de multiplication que nous pouvons appliquer à des vecteurs.

Il y a deux manières de définir le produit scalaire et celles-ci sont équivalentes :
 - a X b = a T b = a1b1 + a2b2 + a3b3 + ........ + anbn (Définition algèbrique)
 - a X b = |a||b|cosθ (Définition géométrique)
 
Créeons deux arrays sur lesquels nous pouvons travailler :

In [82]:
a = np.array([1, 2])
b = np.array([3, 4])

Si nous voulons utiliser la définition algèbrique du produit scalaire, nous devons boucler à travers les deux arrays en même temps et multiplier chaque élément correspondant, puis l'ajouter à la somme finale.

In [84]:
dot  = 0
for e, f in zip(a, b):
    dot += e * f
dot

11

Ou alors, juste utiliser la fonction dot de NumPy :)!

In [83]:
np.dot(a,b)

11

Une autre façon de l'écrire :

In [85]:
a.dot(b)

11

Ou encore...

In [86]:
b.dot(a)

11

Il y a une démonstration dans le cours Udemy dans laquelle le professeur compare les temps d'execution d'une boucle "for" à la fonction dot. Et la fonction dot gagne haut la main ! La fonction dot est bien plus rapide qu'une boucle "for". 
La lesson à en tirer est : "Ne pas utiliser de boucle for quand on peut l'éviter !"

Un peu plus sur la fonction dot...

In [87]:
c = np.array([[1,2],[3,4]]) 
d = np.array([[11,12],[13,14]]) 
np.dot(c,d)

array([[37, 40],
       [85, 92]])

On peut noter que le produit scalaire est calculé de la façon suivante :

In [88]:
[[1*11+2*13, 1*12+2*14],[3*11+4*13, 3*12+4*14]]

[[37, 40], [85, 92]]

Essayons maintenant le produit scalaire sur un array en nD :

In [89]:
# Créeons deux NumPy arrays en 2D

e = np.random.randint(20, size = (3, 3))
f = np.random.randint(10, size = (4, 3))
print(e)
print(f)

# Et essayons d'avoir le produit scalaire de ces arrays :
np.dot(e, f)

[[ 4 16 13]
 [11 18  3]
 [11  8  3]]
[[3 1 8]
 [2 3 1]
 [4 0 1]
 [9 7 0]]


ValueError: shapes (3,3) and (4,3) not aligned: 3 (dim 1) != 4 (dim 0)

Comme nous pouvons le voir dans cette erreur, les arrays que nous avons crée doivent avoir les mêmes dimensions interieures pour que la fonction dot puisse fonctionner.

Essayons de réparer cela :

In [90]:
e = np.random.randint(20, size = (3, 3))

f = np.random.randint(10, size = (3, 4))

Et ré essayons maintenant la fonction dot :

In [91]:
np.dot(e, f)

array([[ 60,  72, 176, 112],
       [ 46,  76, 197, 124],
       [ 73,  67, 147, 108]])

#### PROPRIETES D'INSPECTION

In [92]:
print(A11)
np.size(A11)

[[ 1 -3 -4]
 [-2 -5  8]
 [ 3  5  9]
 [ 2  2 -5]]


12

In [93]:
np.shape(A11)

(4, 3)

In [94]:
A11.dtype

dtype('int64')

In [95]:
# Convertir les éléments d'un array dans un autre type :
A11_flt = A11.astype('float64')
A11_flt.dtype

dtype('float64')

In [96]:
# Convertir un array en liste :
print(A11_flt.tolist())

[[1.0, -3.0, -4.0], [-2.0, -5.0, 8.0], [3.0, 5.0, 9.0], [2.0, 2.0, -5.0]]


In [97]:
# Pour voir la documentation de np.eye
np.info(np.eye)

 eye(N, M=None, k=0, dtype=<class 'float'>, order='C')

Return a 2-D array with ones on the diagonal and zeros elsewhere.

Parameters
----------
N : int
  Number of rows in the output.
M : int, optional
  Number of columns in the output. If None, defaults to `N`.
k : int, optional
  Index of the diagonal: 0 (the default) refers to the main diagonal,
  a positive value refers to an upper diagonal, and a negative value
  to a lower diagonal.
dtype : data-type, optional
  Data-type of the returned array.
order : {'C', 'F'}, optional
    Whether the output should be stored in row-major (C-style) or
    column-major (Fortran-style) order in memory.

    .. versionadded:: 1.14.0

Returns
-------
I : ndarray of shape (N,M)
  An array where all elements are equal to zero, except for the `k`-th
  diagonal, whose values are equal to one.

See Also
--------
identity : (almost) equivalent function
diag : diagonal 2-D array from a 1-D array specified by the user.

Examples
--------
>>> np.eye(2, dt

#### COPIER / TRANSPOSER 

In [None]:
print(A2)

# Copier un array dans un nouveau bloc mémoire :
copied_A2 = np.copy(A2)
print(copied_A2)

In [None]:
#Transposer un array (les lignes deviennent les colonnes et vice versa)
print(A2)
transposed_A2 = A2.T
print(transposed_A2)

retransposed_A2 = transposed_A2.T
print(retransposed_A2)

##### A quoi réfère-t-on quand on parle de "dimension" avec Numpy?
Au nombre d'index qu'il faut pour accéder à ce qu'il contient.

Ainsi un vecteur, même si il contient 10000 éléments est considéré de dimension 1 par numpy car il suffit d'un index pour y accéder.

(même raisonnement pour établir qu'une matrice à une dimension 2 dans numpy.)

#### Numpy et ses axes 

Pour un array de dimension 2 vous pouvez vous référer à ça:
![Np sum pour matrice 2D](http://www.elimhk.com/myblog/wp-content/uploads/2017/04/axis.png)

Malheureusment l'analogie s'arrête là. Et ça devient plus complexe quand les dimensions augmentent

#### Colonne ? Rangée?

Dans le glossaire officiel numpy.

Une rangée (ROW) correspond à l'axis 0

Une colonne (COLUMN) correspont à l'axis 1

![Explication ROW/COLUMN numpy](https://i.stack.imgur.com/h1alT.jpg)

#### INDEXER / SLICE (couper) / SUBSET (sous ensemble)

In [None]:
# Tout d'abord, créeons un plus gros array

big_array = np.random.randint(50, size = (10, 10))
print(big_array)

# Donne l'élément à l'index 5
big_array[5]

In [None]:
# Donne l'élément à l'index [2][5]
big_array[2, 5]

In [None]:
# Voyons maintenant...
big_array[1]

In [None]:
# Assigne la valeur 4 à l'élément ou aux éléments à l'index 1 
big_array[1] = 4

In [None]:
print(big_array)

In [None]:
# Voyons maintenant...
big_array[2, 3]

In [None]:
# Assigne la valeur 10 à l'élément à l'index [2][3]
big_array[2, 3] = 10

In [None]:
print(big_array)

In [None]:
# Donne les éléments aux indices 0,1,2
big_array[0 : 3]

In [None]:
# Voici une autre façon de le faire : 
big_array[ :3]

In [None]:
# Donne les éléments aux indices 0,1,2 dans la colonne 4
big_array[0:3, 4]

In [None]:
# Donne les éléments à l'index 1 de toutes les lignes
big_array[: , 1]

In [None]:
# Donne un array avec des valeurs Booléennes 
big_array < 5

In [None]:
# Donne un array avec des valeurs Booléennes
(big_array < 30) & (big_array > 10)

In [None]:
# Donne les éléments de l'array inférieurs à 20
big_array[big_array < 20]

#### STATISTIQUES

In [None]:
# Créeons un array de travail : 
A12 = np.random.randint(10, size = (3,4))
print(A12)

In [None]:
# Donne la moyenne sur un axe spécifique 
np.mean(A12, axis = 0)

In [None]:
# Donne la somme de l'array
A12.sum()

In [None]:
# Donne la valeur minimum de l'array
A12.min()

In [None]:
# Donne la valeur maximum de l'array
A12.max()

In [None]:
# Donne les valeurs maximum d'un axe spécifique
A12.max(axis = 0)

In [None]:
# Donne la variance de l'array
np.var(A12)

In [None]:
# Donne l'écart-type de l'array
np.std(A12, axis = 1)