# Présentation de NumPy

Nous commençons par importer la bibliothèque

In [1]:
import numpy as np

NumPy est une bibliothèque connue pour son objet principal, le tableau (traduction de *array* pour lequel on utilise aussi *matrice*). Celui-ci est généralement créé à partir d'une liste de données. Nous aurons alors d'un objet de type `ndarray`.

## Précision de lexique
Dans le document suivant, les termes **tableau** ou **array** seront utilisés pour parler d'un objet de type `ndarray`.

## Créer un *array* à partir d'un jeu de données
Un point important est que les array NumPy ne peuvent contenir des données que d'un seul type. Ce type sera déduit au moment de la création du tableau.

In [2]:
np.array([1, 2, 3, 4, 5])

array([1, 2, 3, 4, 5])

Un tableau ne contenant qu'un type de données, il possède un attribut `.dtype` qui retourne l'information du type.

In [4]:
print(np.array([1, 2, 3, 4, 5]).dtype)

int64


In [5]:
print(np.array([1.4, 2.2, 3.98, 4.3, 5.8]).dtype)

float64


Numpy permet évidemment de créer des tableaux à plusieurs dimensions. Bien que ceux-ci apparaissent comme une liste de listes, il s'agit bien de *tableaux* dans le sens où les dimensions doivent être respectées.

In [8]:
np.array([[1, 2, 3],
          [4, 5, 6]])

array([[1, 2, 3],
       [4, 5, 6]])

## Cas des données hétérogènes

Si le jeu de données est composé de types différents, NumPy essayera de les convertir dans le type le plus général (upcasting).

In [9]:
my_array = np.array([42, 3.14])
print(my_array, my_array.dtype)

[42.    3.14] float64


In [10]:
my_array = np.array([1.4, 2.2, "3.98", 4, 5.8])
print(my_array, my_array.dtype)

['1.4' '2.2' '3.98' '4' '5.8'] <U32


## Imposer le type de données
Il est possible d'imposer un type avec le paramètre `dtype`.

In [11]:
np.array(["42", "3.14"], dtype="float32")

array([42.  ,  3.14], dtype=float32)

In [12]:
np.array([1, 2, '3', 4, 5], dtype='int')

array([1, 2, 3, 4, 5])

## Routines de création de tableaux
Il existe des fonctions qui permettent de générer des tableaux particuliers. En voiçi quelques exemples.

Un tableau de zeros

In [13]:
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

Ci-dessous, un tableau de 1

In [14]:
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

Et enfin, un tableau d'une valeur spécifique

In [15]:
np.full(10, 42)

array([42, 42, 42, 42, 42, 42, 42, 42, 42, 42])

Il est possible lors de l'initialisation de ce type de tableau d'imposer la structure du tableau.

In [16]:
np.ones((3, 5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [17]:
np.full((5, 5), 42)

array([[42, 42, 42, 42, 42],
       [42, 42, 42, 42, 42],
       [42, 42, 42, 42, 42],
       [42, 42, 42, 42, 42],
       [42, 42, 42, 42, 42]])

# Accès et modification d'éléments du tableau
Il est évidemment possible d'obtenir et/ou modifier un élément du tableau en y accédant par son indice et en affectant une données à un élément en fonction de cet indice.

In [18]:
my_array = np.zeros(10)
print(f"{my_array=}")

print()
my_array[5] = 5
print(f"{my_array=}")
print(f"{my_array[5]=}")

my_array=array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

my_array=array([0., 0., 0., 0., 0., 5., 0., 0., 0., 0.])
my_array[5]=np.float64(5.0)


Dans le cas d'un tableau à plusieurs dimensions, il existe deux syntaxes.

In [19]:
my_array = np.zeros((2, 5))

my_array[1, 2] = 12
my_array[0][3] = 3

print(my_array)

[[ 0.  0.  0.  3.  0.]
 [ 0.  0. 12.  0.  0.]]


**Attention** à la structure du tableau. Si vous affectez une valeur à une dimension du tabelau, c'est toutes cette dimension qui prend cette valeur.

In [20]:
my_array = np.zeros((2, 5))

my_array[1] = 5

print(my_array)

[[0. 0. 0. 0. 0.]
 [5. 5. 5. 5. 5.]]


## Génération de plages de données

NumPy propose une fonction `arange` qui a un comportement similaire à la création d'une liste avec la fonction `range`. L'intérêt de `arange` est qu'il est possible d'utiliser d'autres types tel que les réels.

In [21]:
np.arange(0, 100, 5)

array([ 0,  5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80,
       85, 90, 95])

In [22]:
np.arange(0, 10, .5)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

La fonction `linspace` permet de créer une liste de données comprises entre deux valeurs. La fonction prend trois paramètres : la valeur minimum, la maximum (qui par défaut est incluse) et le nombre de valeurs uniformément réparties.

In [23]:
np.linspace(0, 1, 5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

## Modifier la structure d'un tableau
NumPy permet de modifier la structure d'un tableau après sa création grâce à la méthode `.reshape()`. Attention, sa taille (son nombre d'éléments) doit être égale.

In [24]:
my_array = np.array([1] * 5 + [2] * 5 + [3] * 5 + [4] * 5)
print(my_array)

[1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4]


In [25]:
my_array.reshape(2, 10)

array([[1, 1, 1, 1, 1, 2, 2, 2, 2, 2],
       [3, 3, 3, 3, 3, 4, 4, 4, 4, 4]])

In [26]:
my_array.reshape(2, 10).reshape(4, 5)

array([[1, 1, 1, 1, 1],
       [2, 2, 2, 2, 2],
       [3, 3, 3, 3, 3],
       [4, 4, 4, 4, 4]])

La méthode `.ravel()` permet d'obtenir une liste (une dimension)

In [27]:
array_4_5 = my_array.reshape(4, 5)
print(array_4_5)
print(array_4_5.ravel())

[[1 1 1 1 1]
 [2 2 2 2 2]
 [3 3 3 3 3]
 [4 4 4 4 4]]
[1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4]


**Attention** : les *reshape* retournent une nouvelle données mais ce sont des *vues* sur les collections d'origine.

In [28]:
array_4_5[1][1] = 111
my_array[-1] = 200

print(array_4_5)
print(my_array)

[[  1   1   1   1   1]
 [  2 111   2   2   2]
 [  3   3   3   3   3]
 [  4   4   4   4 200]]
[  1   1   1   1   1   2 111   2   2   2   3   3   3   3   3   4   4   4
   4 200]


## Propriétés des tableaux
Le type `ndarray` propose plusieurs méthodes qui permettent d'accéder aux propriétés du tableau : 

In [29]:
x1 = np.ones((3, 5))

print(x1)

print('-----')
print("nombre de dimensions de x1: ", x1.ndim)
print("forme de x1               : ", x1.shape)
print("taille de x1              : ", x1.size)
print("type de x1                : ", x1.dtype)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]
-----
nombre de dimensions de x1:  2
forme de x1               :  (3, 5)
taille de x1              :  15
type de x1                :  float64


## Opérations sur les tableaux
Certaines opérations, si appliquées sur le type `ndarray`, s'appliquent sur chaque élément. C'est le cas des opérations de base. Ces opérations retournent un nouvel array.

In [30]:
1.0 / np.arange(1, 10)

array([1.        , 0.5       , 0.33333333, 0.25      , 0.2       ,
       0.16666667, 0.14285714, 0.125     , 0.11111111])

In [35]:
# Il y a tout d'abord des opération mathématiques simples
x = np.arange(10)
print("x      =", x)
print("x + 5  =", x + 5)
print("x - 5  =", x - 5)
print("x * 2  =", x * 2)
print("x / 2  =", x / 2)
print("x // 2 =", x // 2)  # Division avec arronid

x      = [0 1 2 3 4 5 6 7 8 9]
x + 5  = [ 5  6  7  8  9 10 11 12 13 14]
x - 5  = [-5 -4 -3 -2 -1  0  1  2  3  4]
x * 2  = [ 0  2  4  6  8 10 12 14 16 18]
x / 2  = [0.  0.5 1.  1.5 2.  2.5 3.  3.5 4.  4.5]
x // 2 = [0 0 1 1 2 2 3 3 4 4]


## Précision sur le produit matriciel

L'opérateur de la multiplication `*` s'applique élément par élément.

In [31]:
a = np.array([[1, 0],
              [1, 2]])

b = np.array([[2, 3],
              [5, 6]])

a * b

array([[ 2,  0],
       [ 5, 12]])

Pour réaliser un produit matriciel, il faut utiliser la méthode `.dot()`

In [32]:
a.dot(b)

array([[ 2,  3],
       [12, 15]])

Ou depuis Python 3.5, l'opérateur `@`

In [33]:
a @ b

array([[ 2,  3],
       [12, 15]])

## Fonction universelles

Enfin, NumPy propose des fonctions mathématiques qui prennent en paramètre un `ndarray`
 et en retourne un résultat de ces fonctions. Ces fonctons sont appelées *fonctions universelles*

In [36]:
x1

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [37]:
np.sin(x1)

array([[0.84147098, 0.84147098, 0.84147098, 0.84147098, 0.84147098],
       [0.84147098, 0.84147098, 0.84147098, 0.84147098, 0.84147098],
       [0.84147098, 0.84147098, 0.84147098, 0.84147098, 0.84147098]])

In [None]:
np.add(x, 2)

In [39]:
np.add(x1, np.arange(10, 20))

ValueError: operands could not be broadcast together with shapes (3,5) (10,) 

Vous pouvez consulter [la liste des fonctions disponibles](https://numpy.org/doc/stable/reference/ufuncs.html#available-ufuncs).

## Cas des opérateurs unaires

Les opérateurs unaires sont implantés sous forme de méthodes et s'appliquent à toutes les données comme si elles étaient sur une seule dimension.

In [40]:
my_array = np.array([[1, 2, 3], [4, 5, 6]])

print(my_array.sum())
print(my_array.min())
print(my_array.max())

21
1
6


Il est dependant possible d'imposer l'axe sur lequel appliquer ces opérations.

In [41]:
print(my_array)
print("\n-- min --")
print("axe 0")
print(my_array.min(axis=0))
print("axe 1")
print(my_array.min(axis=1))

print("\n-- sum --")
print(my_array.sum(axis=0))
print(my_array.sum(axis=1))

[[1 2 3]
 [4 5 6]]

-- min --
axe 0
[1 2 3]
axe 1
[1 4]

-- sum --
[5 7 9]
[ 6 15]


Retenez que le traitement des données des `ndarray` est très performant car le code utilisé est en C.

## Indexation et slicing
Nous pouvons accéder à un élément d'un `ndarray` par son indice. Si le tableau a une seule dimension, nous utilisons la syntaxe habituelle. Si il y a plusieurs dimensions (2 dans l'exemple suivant), nous pouvons déclarer les valeurs dans la même structure.

In [42]:
x10 = np.arange(10)
print(x10)
print(x10[1])

print()
x25 = x10.reshape(2, 5)
print(x25)
print(x25[1, 0])

print()
print(x25[:,2:4])
slice22 = x25[:,2:4]

[0 1 2 3 4 5 6 7 8 9]
1

[[0 1 2 3 4]
 [5 6 7 8 9]]
5

[[2 3]
 [7 8]]
