# Numpy

Ce notebook est principalement extrait d'un cahier de leçon CS231.  
Il a été adapté à cet objectif de formation.  
Licence: MIT  

## Avis de licence originale

Source originale: https://github.com/cs231n/cs231n.github.io/blob/master/python-colab.ipynb

Ce tutoriel a été initialement écrit par [Justin Johnson] (https://web.eecs.umich.edu/~justtincj/) pour CS231N.  
Il a été adapté comme un notebook de jupyter pour CS228 par [Volodymyr Kuleshov] (http://web.stanford.edu/~kuleshov/) et [Isaac Caswell] (https://symsys.stanford.edu/viewing/sysysaffiliate/21335 ).

Cette version a été adaptée pour Colab par Kevin Zakka pour l'édition Spring 2020 de [CS231N] (https://cs231n.github.io/). Il exécute Python3 par défaut.

# Numpy

Numpy est la bibliothèque de base de l'informatique scientifique dans Python. Il fournit une **array** multidimensionnelle haute performance et des outils pour travailler avec celles-ci.

Si vous connaissez déjà MATLAB, vous pouvez trouver ce [tutoriel] (https://numpy.org/doc/stable/user/numpy-for-matlab-users.html) utile pour commencer avec Numpy.

In [1]:
# np is the usual alias for numpy
import numpy as np

## np.array

Une numpy array est un ensemble de valeurs, toutes du même type, et est indexé par un tuple d'entiers.  
Le nombre de dimensions est le rang du tableau.  
La **shape** d'une array est un tuple d'entiers donnant la taille du tableau le long de chaque dimension.

Nous pouvons initialiser les tableaux Numpy à partir des listes de python imbriquées et des éléments d'accès à l'aide de crochets:

In [None]:
a = np.array([1, 2, 3])  # Create a rank 1 array
print(type(a), a.shape, a[0], a[1], a[2])
a[0] = 5                 # Change an element of the array
print(a)                  

<class 'numpy.ndarray'> (3,) 1 2 3
[5 2 3]


In [2]:
b = np.array([[1,2,3],[4,5,6]])   # Create a rank 2 array
b

array([[1, 2, 3],
       [4, 5, 6]])

In [3]:
print(b.shape)
print(b[0, 0], b[0, 1], b[1, 0])

(2, 3)
1 2 4


Numpy fournit également de nombreuses fonctions pour créer des tableaux:

In [None]:
a = np.zeros((2,2))  # Create an array of all zeros
print(a)

[[0. 0.]
 [0. 0.]]


In [None]:
b = np.ones((1,2))   # Create an array of all ones
print(b)

[[1. 1.]]


In [None]:
c = np.full((2,2), 7) # Create a constant array
print(c)

Le tableau précédent peut également être créé avec NP.ones (pour les personnes qui n'aiment pas se souvenir des noms de fonction)

In [4]:
np.ones((2, 2)) * 7

array([[7., 7.],
       [7., 7.]])

In [None]:
d = np.eye(2)        # Create a 2x2 identity matrix
print(d)

[[1. 0.]
 [0. 1.]]


Comme vous pouvez le voir, tous les tableaux précédents sont le numéro de flotteur, mais vous pouvez utiliser les mêmes fonctions pour créer un tableau entier

In [None]:
np.ones((2, 2), dtype=np.int32)

Hé ! Pourquoi définissons-nous le type? Je pensais que Python était typé dynamiquement.
Oui, mais Numpy ne l'est pas. Numpy est un emballage Python sur le tableau C ++, ils sont donc typés statiquement.

In [None]:
e = np.random.random((2,2)) # Create an array filled with random values
print(e)

[[0.8690054  0.57244319]
 [0.29647245 0.81464494]]


### Indexation du tableau

Numpy offre plusieurs façons d'indexer dans les tableaux.

Sélification: similaire aux listes de python, les tableaux Numpy peuvent être tranchés. Étant donné que les tableaux peuvent être multidimensionnels, vous devez spécifier une tranche pour chaque dimension du tableau:

In [None]:
import numpy as np

# Create the following rank 2 array with shape (3, 4)
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# Use slicing to pull out the subarray consisting of the first 2 rows
# and columns 1 and 2; b is the following array of shape (2, 2):
# [[2 3]
#  [6 7]]
b = a[:2, 1:3]
print(b)

[[2 3]
 [6 7]]


Une tranche d'un tableau est une vue sur les mêmes données, donc la modification modifiera le tableau d'origine.

In [None]:
print(a[0, 1])
b[0, 0] = 77    # b[0, 0] is the same piece of data as a[0, 1]
print(a[0, 1]) 

2
77


Vous pouvez également mélanger l'indexation des entiers avec l'indexation des tranches. Cependant, cela donnera un tableau de rang inférieur que le tableau d'origine. Notez que cela est assez différent de la façon dont MATLAB gère le tranchage du tableau:

In [None]:
# Create the following rank 2 array with shape (3, 4)
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


Deux façons d'accéder aux données de la rangée du milieu du tableau.
Le mélange d'indexation en entier avec les tranches donne un tableau de rang inférieur,
Bien que l'utilisation de tranches ne donne un tableau du même rang que le
tableau d'origine:

In [None]:
row_r1 = a[1, :]    # Rank 1 view of the second row of a  
row_r2 = a[1:2, :]  # Rank 2 view of the second row of a
row_r3 = a[[1], :]  # Rank 2 view of the second row of a
print(row_r1, row_r1.shape)
print(row_r2, row_r2.shape)
print(row_r3, row_r3.shape)

[5 6 7 8] (4,)
[[5 6 7 8]] (1, 4)
[[5 6 7 8]] (1, 4)


In [None]:
# We can make the same distinction when accessing columns of an array:
col_r1 = a[:, 1]
col_r2 = a[:, 1:2]
print(col_r1, col_r1.shape)
print()
print(col_r2, col_r2.shape)

[ 2  6 10] (3,)

[[ 2]
 [ 6]
 [10]] (3, 1)


Indexation du tableau entier: Lorsque vous indexez dans les tableaux Numpy en utilisant le tranchage, la vue du tableau résultant sera toujours un sous-réseau du tableau d'origine. En revanche, l'indexation du tableau entier vous permet de construire des tableaux arbitraires à l'aide des données d'un autre tableau. Voici un exemple:

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])

# An example of integer array indexing.
# The returned array will have shape (3,) and 
print(a[[0, 1, 2], [0, 1, 0]])

# The above example of integer array indexing is equivalent to this:
print(np.array([a[0, 0], a[1, 1], a[2, 0]]))

[1 4 5]
[1 4 5]


In [None]:
# When using integer array indexing, you can reuse the same
# element from the source array:
print(a[[0, 0], [1, 1]])

# Equivalent to the previous integer array indexing example
print(np.array([a[0, 1], a[0, 1]]))

[2 2]
[2 2]


Une astuce utile avec indexation du tableau entier consiste à sélectionner ou à muter un élément de chaque ligne d'une matrice:

In [None]:
# Create a new array from which we will select elements
a = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(a)

[[ 1  2  3]
 [ 4  5  6]
 [ 7  8  9]
 [10 11 12]]


In [None]:
# Create an array of indices
b = np.array([0, 2, 0, 1])

# Select one element from each row of a using the indices in b
print(a[np.arange(4), b])  # Prints "[ 1  6  7 11]"

[ 1  6  7 11]


In [None]:
# Mutate one element from each row of a using the indices in b
a[np.arange(4), b] += 10
print(a)

[[11  2  3]
 [ 4  5 16]
 [17  8  9]
 [10 21 12]]


Indexation booléenne du tableau: l'indexation booléenne du tableau vous permet de choisir des éléments arbitraires d'un tableau. Souvent, ce type d'indexation est utilisé pour sélectionner les éléments d'un tableau qui satisfont une certaine condition. Voici un exemple:

In [None]:
import numpy as np

a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)  # Find the elements of a that are bigger than 2;
                    # this returns a numpy array of Booleans of the same
                    # shape as a, where each slot of bool_idx tells
                    # whether that element of a is > 2.

print(bool_idx)

[[False False]
 [ True  True]
 [ True  True]]


In [None]:
# We use boolean array indexing to construct a rank 1 array
# consisting of the elements of a corresponding to the True values
# of bool_idx
print(a[bool_idx])

# We can do all of the above in a single concise statement:
print(a[a > 2])

[3 4 5 6]
[3 4 5 6]


Pour Brivity, nous avons laissé de côté beaucoup de détails sur l'indexation de la tableaux Numpy; Si vous voulez en savoir plus, vous devez lire la documentation.

### Types de données

Chaque tableau Numpy est une grille d'éléments du même type. Numpy fournit un grand ensemble de données numériques que vous pouvez utiliser pour construire des tableaux. Numpy essaie de deviner un type de données lorsque vous créez un tableau, mais les fonctions qui construisent des tableaux incluent généralement un argument facultatif pour spécifier explicitement le type de données. Voici un exemple:

In [None]:
x = np.array([1, 2])  # Let numpy choose the datatype
y = np.array([1.0, 2.0])  # Let numpy choose the datatype
z = np.array([1, 2], dtype=np.int64)  # Force a particular datatype

print(x.dtype, y.dtype, z.dtype)

int64 float64 int64


Vous pouvez tout lire sur les données Numpy dans la [documentation] (http://docs.scipy.org/doc/numpy/reference/arrays.dtypes.html).

### mathématiques mathématiques

Les fonctions mathématiques de base fonctionnent élément sur les tableaux et sont disponibles à la fois en tant que surcharges d'opérateur et en fonctions dans le module Numpy:

In [6]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Elementwise sum; both produce the array
print(x + y)
print(np.add(x, y))

[[ 6.  8.]
 [10. 12.]]
[[ 6.  8.]
 [10. 12.]]


Quel est le sentiment d'avoir la fonction NP.ADD? Dans la plupart des cas, vous n'avez pas besoin de l'utiliser, mais NP.ADD est plus facile à référence. Comparer :

In [10]:
from functools import reduce

print(reduce(np.add, [x,x,x]))
# and
print(reduce(lambda x, y: x + y, [x,x,x]))

[[ 3.  6.]
 [ 9. 12.]]
[[ 3.  6.]
 [ 9. 12.]]


In [None]:
# Elementwise difference; both produce the array
print(x - y)
print(np.subtract(x, y))

[[-4. -4.]
 [-4. -4.]]
[[-4. -4.]
 [-4. -4.]]


In [None]:
# Elementwise product; both produce the array
print(x * y)
print(np.multiply(x, y))

[[ 5. 12.]
 [21. 32.]]
[[ 5. 12.]
 [21. 32.]]


In [None]:
# Elementwise division; both produce the array
# [[ 0.2         0.33333333]
#  [ 0.42857143  0.5       ]]
print(x / y)
print(np.divide(x, y))

[[0.2        0.33333333]
 [0.42857143 0.5       ]]
[[0.2        0.33333333]
 [0.42857143 0.5       ]]


In [None]:
# Elementwise square root; produces the array
# [[ 1.          1.41421356]
#  [ 1.73205081  2.        ]]
print(np.sqrt(x))

[[1.         1.41421356]
 [1.73205081 2.        ]]


Notez que contrairement à MATLAB, `* 'est une multiplication par élément, pas une multiplication matricielle. Nous utilisons plutôt la fonction DOT pour calculer les produits intérieurs des vecteurs, pour multiplier un vecteur par une matrice et multiplier les matrices. DOT est disponible à la fois en fonction dans le module Numpy et comme méthode d'instance d'objets de tableau:

In [None]:
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

v = np.array([9,10])
w = np.array([11, 12])

# Inner product of vectors; both produce 219
print(v.dot(w))
print(np.dot(v, w))

219
219


Vous pouvez également utiliser l'opérateur `@` qui est équivalent à l'opérateur «DOT» de Numpy.

In [None]:
print(v @ w)

219


In [None]:
# Matrix / vector product; both produce the rank 1 array [29 67]
print(x.dot(v))
print(np.dot(x, v))
print(x @ v)

[29 67]
[29 67]
[29 67]


In [None]:
# Matrix / matrix product; both produce the rank 2 array
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))
print(x @ y)

[[19 22]
 [43 50]]
[[19 22]
 [43 50]]
[[19 22]
 [43 50]]


Numpy fournit de nombreuses fonctions utiles pour effectuer des calculs sur les tableaux; L'un des plus utiles est la «somme»:

In [None]:
x = np.array([[1,2],[3,4]])

print(np.sum(x))  # Compute sum of all elements; prints "10"
print(np.sum(x, axis=0))  # Compute sum of each column; prints "[4 6]"
print(np.sum(x, axis=1))  # Compute sum of each row; prints "[3 7]"

10
[4 6]
[3 7]


Vous pouvez trouver la liste complète des fonctions mathématiques fournies par Numpy dans la [documentation] (http://docs.scipy.org/doc/numpy/reference/Routines.math.html).

Outre le calcul des fonctions mathématiques à l'aide de tableaux, nous devons souvent remodeler ou manipuler des données dans les tableaux. L'exemple le plus simple de ce type d'opération consiste à transposer une matrice; Pour transposer une matrice, utilisez simplement l'attribut T d'un objet de tableau:

In [None]:
print(x)
print("transpose\n", x.T)

[[1 2]
 [3 4]]
transpose
 [[1 3]
 [2 4]]


In [None]:
v = np.array([[1,2,3]])
print(v )
print("transpose\n", v.T)

[[1 2 3]]
transpose
 [[1]
 [2]
 [3]]


### Diffusion

La diffusion est un mécanisme puissant qui permet à Numpy de fonctionner avec des tableaux de différentes formes lors de l'exécution d'opérations arithmétiques. Souvent, nous avons un réseau plus petit et un tableau plus grand, et nous voulons utiliser le réseau plus petit plusieurs fois pour effectuer un peu de fonctionnement sur le réseau plus grand.

Par exemple, supposons que nous voulons ajouter un vecteur constant à chaque ligne d'une matrice. Nous pourrions le faire comme ceci:

In [None]:
# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = np.empty_like(x)   # Create an empty matrix with the same shape as x

# Add the vector v to each row of the matrix x with an explicit loop
for i in range(4):
    y[i, :] = x[i, :] + v

print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Cela marche; Cependant, lorsque la matrice `x` est très grande, le calcul d'une boucle explicite dans Python pourrait être lent. Notez que l'ajout du vecteur V à chaque ligne de la matrice `x` équivaut à former une matrice` vv` en empilant plusieurs copies de `V` verticalement, puis effectuant une sommation élémentaire de` x` et `vv`. Nous pourrions mettre en œuvre cette approche comme ceci:

In [None]:
vv = np.tile(v, (4, 1))  # Stack 4 copies of v on top of each other
print(vv)                # Prints "[[1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]
                         #          [1 0 1]]"

[[1 0 1]
 [1 0 1]
 [1 0 1]
 [1 0 1]]


In [None]:
y = x + vv  # Add x and vv elementwise
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


Numpy Broadcasting nous permet d'effectuer ce calcul sans créer plusieurs copies de v. Considérez cette version, en utilisant la diffusion:

In [None]:
import numpy as np

# We will add the vector v to each row of the matrix x,
# storing the result in the matrix y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # Add v to each row of x using broadcasting
print(y)

[[ 2  2  4]
 [ 5  5  7]
 [ 8  8 10]
 [11 11 13]]


La ligne `y = x + v` fonctionne même si` x` a la forme `(4, 3)` et `v` a une forme` (3,) `en raison de la diffusion; Cette ligne fonctionne comme si V avait réellement la forme «(4, 3)», où chaque ligne était une copie de «V», et la somme a été effectuée élémentaire.

La diffusion de deux tableaux ensemble suit ces règles:

1. Si les tableaux n'ont pas le même rang, ajoutez la forme du réseau de rang inférieur avec 1 jusqu'à ce que les deux formes aient la même longueur.
2. Les deux tableaux seraient compatibles dans une dimension s'ils ont la même taille dans la dimension, ou si l'un des tableaux a une taille 1 dans cette dimension.
3. Les tableaux peuvent être diffusés ensemble s'ils sont compatibles dans toutes les dimensions.
4. Après la diffusion, chaque tableau se comporte comme s'il avait une forme égale au maximum élémentaire de formes des deux tableaux d'entrée.
5. Dans n'importe quelle dimension où un tableau avait la taille 1 et l'autre tableau avait une taille supérieure à 1, le premier tableau se comporte comme s'il était copié le long de cette dimension

Si cette explication n'a pas de sens, essayez de lire l'explication de la [documentation] (http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html) ou cette [explication] (http: // wiki.scipy.org/ericsbroadcastingdoc).

Les fonctions qui prennent en charge la diffusion sont appelées fonctions universelles. Vous pouvez trouver la liste de toutes les fonctions universelles dans la [documentation] (http://docs.scipy.org/doc/numpy/reference/ufuns.html#available-ufuncs).

Voici quelques applications de la diffusion:

In [None]:
# Compute outer product of vectors
v = np.array([1,2,3])  # v has shape (3,)
w = np.array([4,5])    # w has shape (2,)
# To compute an outer product, we first reshape v to be a column
# vector of shape (3, 1); we can then broadcast it against w to yield
# an output of shape (3, 2), which is the outer product of v and w:

print(np.reshape(v, (3, 1)) * w)

[[ 4  5]
 [ 8 10]
 [12 15]]


In [None]:
# Add a vector to each row of a matrix
x = np.array([[1,2,3], [4,5,6]])
# x has shape (2, 3) and v has shape (3,) so they broadcast to (2, 3),
# giving the following matrix:

print(x + v)

[[2 4 6]
 [5 7 9]]


In [None]:
# Add a vector to each column of a matrix
# x has shape (2, 3) and w has shape (2,).
# If we transpose x then it has shape (3, 2) and can be broadcast
# against w to yield a result of shape (3, 2); transposing this result
# yields the final result of shape (2, 3) which is the matrix x with
# the vector w added to each column. Gives the following matrix:

print((x.T + w).T)

[[ 5  6  7]
 [ 9 10 11]]


In [None]:
# Another solution is to reshape w to be a row vector of shape (2, 1);
# we can then broadcast it directly against x to produce the same
# output.
print(x + np.reshape(w, (2, 1)))

[[ 5  6  7]
 [ 9 10 11]]


In [None]:
# Multiply a matrix by a constant:
# x has shape (2, 3). Numpy treats scalars as arrays of shape ();
# these can be broadcast together to shape (2, 3), producing the
# following array:
print(x * 2)

[[ 2  4  6]
 [ 8 10 12]]


La diffusion rend généralement votre code plus concis et plus rapide, vous devez donc vous efforcer de l'utiliser dans la mesure du possible.

Ce bref aperçu a abordé bon nombre des choses importantes que vous devez savoir sur Numpy, mais est loin d'être complète. Consultez la [Numpy Reference] (http://docs.scipy.org/doc/numpy/reference/) pour en savoir plus sur Numpy.