<a href="https://colab.research.google.com/github/Bastien-Boucherat/GEO6361/blob/main/GEO6361_semaine_05_complet.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Aperçu de NumPy**

In [None]:
# Avant toute chose, on doit s'assurer que NumPy est bien disponible dans notre carnet puisque c'est un module externe.
# Comme NumPy est préinstallé dans Google Colab, il suffit de l'importer.
import numpy as np

### **Génération d'arrays NumPy**

In [None]:
# Créons une liste Python standard...
ma_liste = [1, 2, 3, 4]
# ... et convertissons-la en "array" NumPy
mon_array = np.array(ma_liste)
print(ma_liste, mon_array)

[1, 2, 3, 4] [1 2 3 4]


In [None]:
# Même chose à partir d'une liste 2D (matrice)
ma_liste_2d = [[1, 2, 3],
               [4, 5, 6],
               [7, 8, 9]]
np.array(ma_liste_2d)

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [None]:
# Créer un objet array avec "arange" (equivalent de "range" mais pour les arrays NumPy) :
arr = np.arange(2,10,2) # crée une array allant de 2 (inclusivement) à 10 (exclusivement), avec un pas de 2.

In [None]:
# Créer un array rempli de uns :
print(np.ones(15))
#... ou de zéros :
a = np.zeros(10)
print(a)
#... ou d'une autre valeur :
a = np.full(20,99)
print(a)

[1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1. 1.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99 99]


In [None]:
# Pour créer un array 2D :
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [None]:
# On peut itérer à travers des arrays comme on le fait avec des listes
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
for ligne in arr: # on itère à travers les lignes
    for element in ligne: # on itère à travers les colonnes de chaque ligne
        print(ligne,element)

[1 2 3] 1
[1 2 3] 2
[1 2 3] 3
[4 5 6] 4
[4 5 6] 5
[4 5 6] 6
[7 8 9] 7
[7 8 9] 8
[7 8 9] 9


### **Manipulations d'arrays**

In [None]:
# Transformer un array 1D en 2D :
a = np.zeros(16) # création d'un array à 1D de 16 éléments
a = a.reshape(4,4) # le produit des dimensions doit être égal à la taille de l'array
print(a)

# Pour connaître la forme d'un array...
print(f"La longueur des axes de l'array est de {a.shape}.")

# ...et le nombre total d'éléments (la taille de l'array):
print(f"Le nombre total d'éléments dans l'array est de {a.size}.")

[[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
La longueur des axes de l'array est de (4, 4).
Le nombre total d'éléments dans l'array est de 16.


In [None]:
# Empiler des arrays
a = np.ones((4,2))
b = np.zeros((3,2))

print(np.vstack((a,b))) # pour l'empilement vertical, les deux arrays doivent avoir le même nombre de colonnes

c = np.zeros((4,10))
print(np.hstack((a,c))) # pour l'empilement horizontal, les deux arrays doivent avoir le même nombre de lignes

[[1. 1.]
 [1. 1.]
 [1. 1.]
 [1. 1.]
 [0. 0.]
 [0. 0.]
 [0. 0.]]
[[1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [1. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]]


In [None]:
# Pour connaitre le nombre de dimensions d'un array (ndim) :
a = np.array([0,1,2,3,4])
b = np.array([5,6,7,8,9])
c = np.vstack((a,b))
for i in [a, b, c]:
    print(f"L'Array {i} a {i.ndim} dimension(s).") # Exemple un peu sophistiqué, mais on peut simplement appeler l'attribut "ndim" sur l'array.

L'Array [0 1 2 3 4] a 1 dimension(s).
L'Array [5 6 7 8 9] a 1 dimension(s).
L'Array [[0 1 2 3 4]
 [5 6 7 8 9]] a 2 dimension(s).


In [None]:
# Pour connaître la forme d'un array
print(f"La forme de l'array a est {a.shape}")
print(f"La forme de l'array c est {c.shape}")

La forme de l'array a est (5,)
La forme de l'array c est (2, 5)


### **Accéder à (et changer) des éléments des arrays**

In [None]:
# Récupérer des données dans un array 1D :
a = np.array([0,1,2,3,4])
v = a[3]
print(v, type(v), v.dtype) # on peut également trouver le type avec la fonction Python du même nom, ou en appelant l'attribut "dtype" sur l'array lui-même.

a = np.array([0,1,2,3,4], dtype='int16')  # au passage, on peut forcer le type de valeurs au moment de la création de l'array. Nombre maximum = 2**16 dans ce cas.
v = a[3]
print(v, type(v), v.dtype)

3 <class 'numpy.int64'> int64
3 <class 'numpy.int16'> int16


In [None]:
# Dans un array 2D
a = np.random.choice(np.arange(0, 100), replace=False, size=(3, 3))
print(a)
print(a[1,2]) # Accéder à l'élément situé dans la 3e colonne de la deuxième ligne

# Dans un array 3D
a = np.random.choice(np.arange(0, 100), replace=False, size=(3, 3, 3))

print(a)
print(a[2,1,0]) # Accéder à l'élément situé dans la 3e tranche de la première colonne de la première ligne

[[ 8  3  2]
 [61 41 46]
 [97 98 72]]
46
[[[63  6 57]
  [18 73 11]
  [94  4 83]]

 [[26 20 82]
  [16 36 65]
  [49 84  0]]

 [[14 70 74]
  [34 41 80]
  [55 71 28]]]
34


In [None]:
# Pour accéder à une ligne spécifique :
a = np.random.choice(np.arange(0, 100), replace=False, size=(3, 3))
print(a)
print()

print(a[1], a[1, :]) # accéder à la deuxième ligne (deux façons...)
print()

# Pour accéder à une colonne spécifique :
print(a[:, 2]) # accéder à la troisième colonne

[[70 46 68]
 [84  2 98]
 [ 1 73 58]]

[84  2 98] [84  2 98]

[68 98 58]


In [None]:
# Plus sophistiqué (extra):
a = np.random.choice(np.arange(0, 100), replace=False, size=(3, 7))
print(a)
print(a[1, 1:6:2]) # accéder aux éléments de 2e ligne en partant du deuxième (inclus) jusqu'au 7e avec un pas de 2.

[[17 53 47 54 15 71 83]
 [ 5 89 85  2 16 13  4]
 [46  0 32 86 48 99 29]]
[89  2 13]


In [None]:
print(a)
# Pour modifier les valeurs à l'intérieur d'un array
a[1,4] = 40 # modifier la valeur située dans la 6e colonne de la deuxième ligne
print('\n',a)

a[:,2] = 99 # toute la 3e colonne sera modifiée avec la même valeur
print('\n',a)

[[17 53 47 54 15 71 83]
 [ 5 89 85  2 16 13  4]
 [46  0 32 86 48 99 29]]

 [[17 53 47 54 15 71 83]
 [ 5 89 85  2 40 13  4]
 [46  0 32 86 48 99 29]]

 [[17 53 99 54 15 71 83]
 [ 5 89 99  2 40 13  4]
 [46  0 99 86 48 99 29]]


### **Génération de nombres aléatoires**

In [None]:
# Nombre aléatoires entre 0 et 1, selon une distribution uniforme. Voir : https://numpy.org/doc/1.16/reference/routines.random.html

import time
t0 = time.time() # Au passage, on chronométrera l'opération...

a = np.random.rand(25000000) # C'est ici qu'on génère l'array 2D rempli de nombres aléatoires uniformément distribués
print(f"La génération de {a.size} nombres aléatoires avec NumPy a pris {round(time.time() - t0, 2)}s")
print(f"La moyenne de tous ces nombre est de {round(a.mean(),3)}.")

# Pendant qu'on y est, et puisqu'on a parlé de la rapidité relative de NumPy par rapport à Python pur,
# comparons la durée de la génération de la même liste en Python pur...
import random
t0 = time.time()

l = []
for i in range(25000000):
    l.append(random.random())
print(f"La génération de {len(l)} nombres aléatoires en Python pur a pris {round(time.time() - t0, 2)}s")


La génération de 25000000 nombres aléatoires avec NumPy a pris 0.29s
La moyenne de tous ces nombre est de 0.5.
La génération de 25000000 nombres aléatoires en Python pur a pris 6.49s


In [None]:
# Nombres entiers (bornés) aléatoires
np.random.seed(12) # on peut spécifier une "seed" pour obtenir toujours les mêmes nombre aléatoires à l'intérieur de la même cellule.
np.random.randint(1,7,size=(3,3)) # Randint requiert le nombre minimum (inclus), le nombre maximum (exclus) et la taille/forme de l'array

array([[4, 4, 6],
       [2, 3, 4],
       [4, 5, 1]])

### **Un peu de maths...**

In [None]:
# Opérations arithmétiques (élément par élément) :
a = np.array([1,2,3,4])
print(a)

print(a + 2)
print(a - 2)
print(a * 2)
print(a / 2)
print(a ** 2)

[1 2 3 4]
[3 4 5 6]
[-1  0  1  2]
[2 4 6 8]
[0.5 1.  1.5 2. ]
[ 1  4  9 16]


In [None]:
# Opération entre arrays de même taille
b = np.ones(4)
print(a + b) # Additionner deux arrays 1D
print()

a = np.random.randint(1,7,16).reshape((4,4))
b = np.ones(16).reshape((4,4))
print(a + b) # Additionner deux arrays 2D

[[3. 6. 7. 7.]
 [3. 4. 5. 4.]
 [2. 7. 2. 6.]
 [7. 4. 3. 5.]]

[[6. 5. 3. 2.]
 [4. 4. 2. 6.]
 [5. 7. 3. 7.]
 [2. 2. 5. 5.]]


In [None]:
# Trigonométrie...
print(np.sin(a))
print(np.cos(a))

[[-0.95892427 -0.7568025   0.90929743  0.84147098]
 [ 0.14112001  0.14112001  0.84147098 -0.95892427]
 [-0.7568025  -0.2794155   0.90929743 -0.2794155 ]
 [ 0.84147098  0.84147098 -0.7568025  -0.7568025 ]]
[[ 0.28366219 -0.65364362 -0.41614684  0.54030231]
 [-0.9899925  -0.9899925   0.54030231  0.28366219]
 [-0.65364362  0.96017029 -0.41614684  0.96017029]
 [ 0.54030231  0.54030231 -0.65364362 -0.65364362]]


In [None]:
# Algèbre linéaire
a = np.ones((2,3))
print(a)
b = np.full((3,2), 4) # Crée un array de 3 x 2 rempli avec des 4
print(b)

# Produit de matrices (les matrices doivent être compatibles, c.a.d que le nombre de colonnes de l'une doit être égal au nombre de lignes de l'autre)
print("Produit de matrices :", np.matmul(a, b))

# Inversion
a = np.random.rand(3,3) # Matrice carrée
print("Inversion de matrice", np.linalg.inv(a))

# Valeurs propres (eigenvalues) et vecteurs propres (eighenvector) d'une matrice
print("Valeurs propres et vecteur propre :",np.linalg.eigh(a))

[[1. 1. 1.]
 [1. 1. 1.]]
[[4 4]
 [4 4]
 [4 4]]
Produit de matrices : [[12. 12.]
 [12. 12.]]
Inversion de matrice [[-1.33292498  2.54888381 -0.71878312]
 [ 3.91873995 -2.2212403  -0.65196356]
 [-5.42233784  2.11265152  3.00712618]]
Valeurs propres et vecteur propre : EighResult(eigenvalues=array([-0.42960636,  0.20536334,  2.02267726]), eigenvectors=array([[ 0.3901202 , -0.80519149, -0.44662389],
       [-0.7334535 ,  0.02148708, -0.67939994],
       [ 0.55664369,  0.59262549, -0.58218797]]))


### **Statistiques descriptives**

In [None]:
# min/max sur une array 1D
a = np.random.randint(1, 7, 50) # produire un array de 50 entiers aléatoire (uniformément distribués) entre 1 (inclusivement) et 7 (exclusivement). On fait un simulateur de lancé de dés, en somme :

print(a)
print(f"La valeur minimum est de {np.min(a)}.")
print(f"La valeur maximum est de {np.max(a)}.")
print(f"La moyenne est de {np.mean(a)}.")
print(f"La médiane est de {np.median(a)}.")

[5 6 4 6 4 5 1 3 6 4 3 5 3 3 4 5 4 2 5 4 6 2 5 6 2 6 4 6 4 1 4 3 2 6 5 3 4
 4 3 5 6 3 1 1 6 5 1 4 6 2]
La valeur minimum est de 1.
La valeur maximum est de 6.
La moyenne est de 3.96.
La médiane est de 4.0.


In [None]:
# Sur un array 2D :
np.random.seed(1)
a = np.random.randint(1, 7, 60).reshape(10, 6) # Ce "reshape" transforme l'array de 1D à 2D
a[2,4] = 10 # on modifie la matrice en remplaçant une des valeurs par 10

print(a)
print("Min. sur l'ensemble des valeurs :", np.min(a)) # min sur l'ensemble des valeurs
print("Max. sur l'ensemble des valeurs :", np.max(a)) # max sur l'ensemble des valeurs

# Les axes NumPy : https://www.sharpsightlabs.com/blog/numpy-axes-explained/
print("\nMin. colonne par colonne :", np.min(a, axis = 0)) # min des colonnes
print("Max. colonne par colonne :", np.max(a, axis = 0)) # max des colonnes
print("\nMin. ligne par ligne :", np.min(a, axis = 1)) # min des lignes
print("Max. ligne par ligne :", np.max(a, axis = 1)) # max des lignes

# Moyenne selon les axes
print("\nMoyenne sur l'ensemble de l'array 2D :", np.mean(a)) # moyenne sur l'ensemble des valeurs
print("Moyenne colonne par colonne :", np.mean(a, axis = 0)) # moyenne des colonnes
print("Moyenne ligne par ligne :", np.mean(a, axis = 1)) # moyenne des lignes


[[ 6  4  5  1  2  4]
 [ 6  1  1  2  5  6]
 [ 5  2  3  5 10  3]
 [ 5  4  5  3  5  6]
 [ 3  5  2  2  1  6]
 [ 2  2  6  2  2  1]
 [ 5  2  1  1  6  4]
 [ 3  2  1  4  6  2]
 [ 2  4  5  1  2  4]
 [ 5  3  5  1  6  4]]
Min. sur l'ensemble des valeurs : 1
Max. sur l'ensemble des valeurs : 10

Min. colonne par colonne : [2 1 1 1 1 1]
Max. colonne par colonne : [ 6  5  6  5 10  6]

Min. ligne par ligne : [1 1 2 3 1 1 1 1 1 1]
Max. ligne par ligne : [ 6  6 10  6  6  6  6  6  5  6]

Moyenne sur l'ensemble de l'array 2D : 3.533333333333333
Moyenne colonne par colonne : [4.2 2.9 3.4 2.2 4.5 4. ]
Moyenne ligne par ligne : [3.66666667 3.5        4.66666667 4.66666667 3.16666667 2.5
 3.16666667 3.         3.         4.        ]


In [None]:
# Centiles
a = np.random.randn(100).reshape(10, 10)
#print(a)
np.percentile(a, 50) # 50e percentile est équivalent à la médiane

0.1824989972275086


NumPy, bien qu'excellent pour le maniement de matrices et les calculs associés (algèbre linéaire...), n'est pas très adapté à la manipulation de tableaux contenant des types de valeurs divers (cf. Pandas.).