Numpy ou `Numerical Python` est la libraire Python pour le calcul scientifique. Numpy est la base de plusieurs libraires comme Pandas scipy, sklearn et a inspiré les libraires comme PyTorch et Tensorlow. Vous pouvez aller sur https://numpy.org/ pour avoir une idée de tous les sous domaines scientifiques dans lesquels il est utilisé. On peut l'importer de cette manière : 

In [1]:
import numpy as np

# Tableaux Numpy : Les bases

Python ne supporte pas des types de données multi-dimensionnelles. Un tableau Numpy peut être non seulement multidimensionnel mais permet aussi des opérations vectorielles ou matricielles.

## Création d'un Tableau Numpy

In [2]:
data = np.array([
    [1, 5, 9],
    [8, 9, 7]
])

Pour créer un tableau numpy, nous utilisons la fonction `array` et lui donnons une liste d'éléments. Notre variable data contient un tableau de dimension 2

In [3]:
data.ndim

2

data contient, un tableau avec 2 lignes et 3 colonnes. Chaque ligne est une liste et le nombre d'éléments dans une liste est le nombre de colonnes:

In [4]:
data.shape

(2, 3)

data contient 6 éléments: 

In [6]:
data.size

6

## Comprendre les attributs des tableaux Numpy

Créeons le plus simple tableau numpy possible.

In [17]:
data_un = np.array([1])

In [18]:
data_un.ndim

1

In [19]:
data_un.shape

(1,)

In [20]:
data_un.size

1

data_un contient un nombre, qu'on peut appeler un scalaire. Il a donc un size de 1, puisqu'il s'agit d'un seul élément. Il est de dimension 1 et a un seul élément sur cette dimension

Créons un autre tableau

In [21]:
data_un = np.array([1, 5, 6])

Prenez le temps de deviner le ndim, shape et size de ce tableau.

Combien d'éléments dans ce tableau ? 3

In [22]:
data_un.size

3

Ce tableau a combien de dimensions ?

In [23]:
data_un.ndim

1

Combien d'éléments sur cette seule dimension ?

In [24]:
data_un.shape

(3,)

Mettons la liste de data_un dans une autre liste : 

In [25]:
data_un = np.array([   [1, 5, 6]    ])

In [26]:
data_un.ndim

2

In [27]:
data_un.size

3

In [29]:
data_un.shape # une ligne, 3 colonnes

(1, 3)

La taille du tuple `shape` est égale au nombre de dimensions. Le `size` est simplement égale au produit du nombre d'élément sur chaque dimension

Créons un tableau avec 2 listes à l'intérieur:  

In [30]:
data_deux = np.array([   [1, 5, 6],
                         [9, 4, 7]    ])

On a là un tableau de 2 dimensions, 2 lignes, 3 colonnes donc 6 élements:

In [31]:
data_deux.ndim

2

In [32]:
data_deux.shape

(2, 3)

In [33]:
data_deux.size

6

Quel est le shape, ndim et size du tableau suivant : 

In [35]:
data = np.array([   [1, 5, 6, 2],
                    [9, 4, 7, 8],
                    [0, 1, 0, 6]     ])

In [None]:
data.size

In [None]:
data.shape

In [None]:
data.ndim

A quoi ressemblerait un tableau de dimension 3 ?

In [36]:
data_trois  = np.array([
      [[1, 5, 9],
       [8, 9, 7]],  

      [[2, 5, 9],
       [8, 9, 7]],

      [[13, 5, 9],
       [8, 9, 7]]  
])

In [37]:
data_trois.shape # 3 petits tableau de shape (2, 3)

(3, 2, 3)

In [38]:
data_trois.ndim

3

In [39]:
data_trois.size

18

Dans la suite de ce bootcamp, nous travaillerons beaucoup avec des tableaux de dimensions 2.

## Accéder à un élément d'un tableau

In [40]:
v = np.array([1,5,9])

In [42]:
v.shape

(3,)

In [41]:
v[0]

1

In [43]:
v[-1]

9

In [44]:
v[1:]

array([5, 9])

In [49]:
matrice = np.array([
    [1, 5, 9],
    [8, 6, 7]
])

In [50]:
matrice[1, 1]

6

In [51]:
matrice[0,2]

9

In [52]:
matrice[1, 0]

8

In [53]:
v2 = np.array([
    [1, 5, 9]
])

In [54]:
v2[0, 1]

5

## Accéder à des sous-tableaux d'un tableau

In [55]:
matrice

array([[1, 5, 9],
       [8, 6, 7]])

In [56]:
matrice[0, 1: ]

array([5, 9])

In [57]:
matrice[1, 1: ]

array([6, 7])

In [58]:
matrice[0: , 1: ]

array([[5, 9],
       [6, 7]])

In [59]:
matrice[: , 1: ]

array([[5, 9],
       [6, 7]])

In [60]:
matrice = np.array([ 
   [1, 5, 9, 4, 6],
   [8, 9, 7, 5, 0],
   [3, 2, 0, 6, 2],
   [8, 6, 7, 8, 9]
])

In [None]:
matrice = np.array([
      0  1  2  3  4      
   0 [1, 5, 9, 4, 6],
   1 [8, 9, 7, 5, 0],
   2 [3, 2, 0, 6, 2],
   3 [8, 6, 7, 8, 9]
])

In [64]:
matrice.shape

(4, 5)

In [61]:
matrice[2, 3]

6

In [62]:
matrice[1:, 2:]

array([[7, 5, 0],
       [0, 6, 2],
       [7, 8, 9]])

In [63]:
matrice[1:3, 2:4]

array([[7, 5],
       [0, 6]])

In [65]:
matrice[1:3 , 1:3]

array([[9, 7],
       [2, 0]])

In [66]:
matrice = np.arange(9).reshape((3,3))

In [67]:
matrice

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [68]:
matrice[0:2, 1:]

array([[1, 2],
       [4, 5]])

In [69]:
matrice[1: , :2]

array([[3, 4],
       [6, 7]])

## Vue et non copie d'un tableau

In [70]:
matrice = np.arange(9).reshape((3,3))
matrice

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

Modifions le 5 en 9 : 

In [72]:
matrice[1, -1] = 9

In [73]:
matrice

array([[0, 1, 2],
       [3, 4, 9],
       [6, 7, 8]])

sauvegardons une partie de la matrice dans une variable data

In [75]:
data = matrice[:2, :2]

In [76]:
data

array([[0, 1],
       [3, 4]])

Modifions date en transformant le 0 en 15

In [78]:
data[0, 0] = 15

In [79]:
data

array([[15,  1],
       [ 3,  4]])

Cette modification de data, modifie-t-elle aussi la matrice ?

In [80]:
matrice

array([[15,  1,  2],
       [ 3,  4,  9],
       [ 6,  7,  8]])

La réponse est oui. data n'était donc pas une copie de matrice mais une vue

## Comment copier alors un tableau ?

In [81]:
data = matrice[:2, :2].copy()

In [82]:
data

array([[15,  1],
       [ 3,  4]])

In [83]:
data[0, 0] = 30

In [84]:
data

array([[30,  1],
       [ 3,  4]])

In [85]:
matrice

array([[15,  1,  2],
       [ 3,  4,  9],
       [ 6,  7,  8]])

Cette fois-ci la modification se fait voir uniquement dans data puisque c'est une copie.

## Modifier la taille d'un tableau

In [86]:
x = np.random.randint(100, size=(2, 5))
x

array([[84, 39, 21, 98, 60],
       [29, 89, 13,  3, 57]])

In [87]:
x.shape

(2, 5)

In [88]:
x.reshape((5, 2))

array([[84, 39],
       [21, 98],
       [60, 29],
       [89, 13],
       [ 3, 57]])

In [89]:
u = np.array([1,5,6])
u.shape

(3,)

In [90]:
u.reshape((1,3))

array([[1, 5, 6]])

In [91]:
u.reshape((3, 1))

array([[1],
       [5],
       [6]])

In [92]:
u.reshape((2, 3))

ValueError: cannot reshape array of size 3 into shape (2,3)

## Concatener des Tableaux

In [93]:
u

array([1, 5, 6])

In [94]:
v = np.array([7, 8, 9])

In [95]:
tab = np.vstack([u, v])
tab

array([[1, 5, 6],
       [7, 8, 9]])

In [96]:
tab.shape

(2, 3)

In [97]:
np.hstack([u, v])

array([1, 5, 6, 7, 8, 9])

In [98]:
a = np.array([5, 9, 25])
a.shape

(3,)

In [99]:
a = a.reshape((1,3))
a

array([[ 5,  9, 25]])

In [100]:
np.vstack([a, a])

array([[ 5,  9, 25],
       [ 5,  9, 25]])

In [101]:
np.hstack([a, a])

array([[ 5,  9, 25,  5,  9, 25]])

In [102]:
np.hstack([a, a]).shape

(1, 6)

# Calcul sur les tableaux avec Numpy 

## Tableau mieux que les listes ?

In [103]:
nombres = list(range(2, 9))
nombres

[2, 3, 4, 5, 6, 7, 8]

In [104]:
output = np.empty(len(nombres))

In [105]:
output

array([4.6662084e-310, 0.0000000e+000, 0.0000000e+000, 0.0000000e+000,
       0.0000000e+000, 0.0000000e+000, 3.1620201e-322])

In [106]:
for i, n in enumerate(nombres):
  output[i] = 1 / n
output

array([0.5       , 0.33333333, 0.25      , 0.2       , 0.16666667,
       0.14285714, 0.125     ])

In [107]:
nombres_tab = np.array(nombres)
nombres_tab

array([2, 3, 4, 5, 6, 7, 8])

In [108]:
1 / nombres_tab

array([0.5       , 0.33333333, 0.25      , 0.2       , 0.16666667,
       0.14285714, 0.125     ])

In [109]:
import time

In [110]:
nombres = list(range(2, 10_000_000))
output = np.empty(len(nombres))
debut = time.time()
for i, n in enumerate(nombres):
  output[i] = 1 / n
fin  = time.time()
print(fin-debut)

1.5880019664764404


In [111]:
debut = time.time()
1 / np.arange(2, 10_000_000)
fin  = time.time()
print(fin-debut)

0.04231858253479004


## Vectorisation

In [112]:
l = [5, 8, 9]
[n**2 for n in l]

[25, 64, 81]

In [113]:
np.array(l) ** 2

array([25, 64, 81])

In [114]:
np.array(l)  + 1.5

array([ 6.5,  9.5, 10.5])

# Aggregation

In [115]:
l

[5, 8, 9]

In [116]:
min(l)

5

In [117]:
np.min(l)

5

In [118]:
np.array(l).min()

5

In [119]:
np.random.seed(0)
tab = np.random.randint(15, size=(5, 3))
tab

array([[12,  5,  0],
       [ 3, 11,  3],
       [ 7,  9,  3],
       [ 5,  2,  4],
       [ 7,  6,  8]])

In [120]:
min(tab)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [121]:
np.min(tab)

0

In [122]:
tab.min()

0

In [123]:
np.min(tab, axis= 0) # Minimum de chaque colonne

array([3, 2, 0])

In [125]:
np.min(tab, axis= 1) #Minimum de chaque ligne

array([0, 3, 3, 2, 6])

In [126]:
np.mean(tab, axis= 1) # Moyenne de chaque ligne

array([5.66666667, 5.66666667, 6.33333333, 3.66666667, 7.        ])

In [127]:
np.sum(tab, axis= 0) # somme de chque colonne

array([34, 33, 18])

## Cas d'analyse

In [128]:
notes = np.random.randint(19, size=(10, 3))
notes

array([[12,  1,  6],
       [ 7, 14, 17],
       [ 5, 13,  8],
       [ 9, 16,  5],
       [15, 15,  0],
       [18,  3, 17],
       [14,  7,  0],
       [ 1,  9,  0],
       [10,  3, 11],
       [18,  2,  0]])

Chaque ligne représente les notes d'un étudiant en Maths, Physique et Biologie

In [129]:
notes.shape

(10, 3)

Quelle est la moyenne dans chaque matière ?

In [130]:
notes.mean(axis=0) 
#np.mean(notes, axis=0)

array([10.9,  8.3,  6.4])

Quelle est la moyenne par étudiant ?

In [131]:
moy_per_student = np.mean(notes, axis=1)
moy_per_student

array([ 6.33333333, 12.66666667,  8.66666667, 10.        , 10.        ,
       12.66666667,  7.        ,  3.33333333,  8.        ,  6.66666667])

Combien  d'étudiants ont une note supérieure à 10 :

In [132]:
moy_per_student >= 10

array([False,  True, False,  True,  True,  True, False, False, False,
       False])

In [134]:
np.sum([0, 1, 1, 0])

2

In [135]:
np.sum([False,  True, True, False])

2

In [136]:
np.sum(moy_per_student >= 10)

4

4 étudiants ont plus de 10.