# Introduction à numpy 

Laurent Cetinsoy

## A propos des listes python

Quand on fait du calcul scientifique, les listes ne sont pas très pratiques pour manipuler des vecteurs ou matrices. Pourquoi ? voyons quelques exemples

In [None]:
# on ne peut pas ajouter un élément à tous les éléments d'une liste facilement
l1 = [1, 2, 4, 5]
l1 + 2

TypeError: can only concatenate list (not "int") to list

In [None]:
l2 = [2, 1, 3, 4]

l1 + l2


[1, 2, 4, 5, 2, 1, 3, 4]

Si on veut ajouter un nombre à tous les élements d'une listes ou si on veut additionner terme à terme deux listes, il faut utiliser des boucles ce qui à l'usage n'est pas pratique

In [None]:
l1 = [1, 2, 4, 5]
l2 = [2, 1, 3, 4]

l3 = []
for v1, v2 in zip(l1, l2):
    l3.append(v1 + v2)
    
l3

[3, 3, 7, 9]

Ainsi les listes ne sont pas très pratiques pour faire des opérations sur des vecteurs et matrices. De plus c'est très lent. 

Numpy (pour numerical python) est un outil bien plus pratique et rapide pour le calcul scientifique. 

quasiement toutes les librairies de datascience utilisent numpy ou sont compatible : 
- pandas
- scipy
- matplotlib
- scikit-learn
- keras 
- pytorc
- etc

Voyons comment créer des vecteurs en numpy

In [None]:
import numpy as np 

vect1 = np.array([1, 2, 4, 5])
vect2 = np.array([2, 1, 3, 4])


vect1 + vect2 # on peut directement ajouter deux vecteurs ! 

array([3, 3, 7, 9])

In [None]:
#opération vectorisée = opération sans boucle for

2 * vect2

Tous les tableaux numpy (quelle que soit leur taille) sont des instance de la classe ndarray  : https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html

cette classe possède des attributes et des méthodes très pratique

Par exemple on peut obtenir la taille du tableau avec l'attribut .shape de l'objet

In [None]:
vect1.shape

(4,)

In [None]:
vect1.max(), vect1.min(), vect1.mean()

(5, 1, 3.0)

In [None]:
vect1.mean()

3.0

In [None]:
np.exp(vect1)

array([  2.71828183,   7.3890561 ,  54.59815003, 148.4131591 ])

In [None]:
random_vect = np.random.randn(100)

In [None]:
random_vect

array([ 6.05756636e-02, -7.79891602e-01,  3.90034468e-01, -7.40261404e-03,
        1.39040256e+00, -2.29553433e+00,  1.03821788e-03, -2.74804592e+00,
       -7.67103513e-01,  5.62970792e-01, -9.23362550e-01, -4.32128967e-01,
        2.22743588e+00, -1.50781865e+00, -7.03065605e-02, -1.11621509e+00,
        7.53141176e-01,  4.52607586e-01,  1.95162530e-01, -3.66744378e-01,
       -1.12556442e+00, -2.06300252e-02, -3.67435238e-01, -7.64127037e-01,
        2.20199096e+00,  1.94601347e-01, -1.66812528e+00,  8.77819439e-01,
        7.30997986e-02,  1.47350014e+00,  3.34646359e-01, -2.17152752e-01,
        8.25713233e-01, -1.03315607e+00,  6.68527895e-01, -3.62349399e-01,
        1.02913195e+00,  3.36997750e-01,  1.62082703e+00, -5.49014506e-01,
       -1.59091961e+00, -2.01347940e-01,  9.13394536e-01, -2.29216152e+00,
       -2.78716425e-01,  5.92068726e-01, -4.19572790e-03, -2.19291715e+00,
       -4.47323422e-01, -7.79635198e-01,  2.43089349e-01,  6.58011217e-01,
        1.51288068e+00, -

## Les masks 

Supposons qu'on dispose d'un vecteur avec des valeurs et qu'on veuille ne récupérer que les valeurs positives. Voici comment ne pas faire ! 

In [None]:
random_vect = np.random.randn(100)
positive_values = []
for v in random_vect:
    if v >=0:
        positive_values.append(v)
        
positive_values
#NE PAS FAIRe

[0.06057566362073697,
 0.39003446804288183,
 1.3904025636482062,
 0.0010382178799344254,
 0.5629707918444632,
 2.2274358796488563,
 0.7531411761693654,
 0.4526075856641705,
 0.19516252987545815,
 2.201990956655714,
 0.19460134736505022,
 0.8778194388183803,
 0.07309979857228623,
 1.47350014175469,
 0.3346463586425772,
 0.8257132328366196,
 0.6685278947874148,
 1.0291319526700846,
 0.3369977499613502,
 1.6208270323273473,
 0.9133945363357028,
 0.5920687260991774,
 0.24308934900283466,
 0.658011217463096,
 1.5128806791781095,
 2.0718092083072395,
 1.4674054860357995,
 1.3830848439899803,
 0.34461989608514004,
 0.06561170064561123,
 0.40351172966416327,
 0.20404670378262565,
 2.158560774473153,
 0.5847074844547827,
 1.1801905246996565,
 1.5640683334996555,
 0.3464321245399006,
 0.07132394509816768,
 0.16214396385362814,
 0.43389167796478506,
 0.28724196119492307,
 0.7267086926805246,
 1.91839177944798,
 0.8984451150940267,
 0.08767207943787407,
 0.2906219626293316,
 0.368366828709899,
 0.

Cette méthode est lente et pas pratique, à la place on va utiliser un masque. 

Qu'est ce qu'un masque ? C'est une liste ou un vecteur qui contient des booleen et qui sert à récupérer des valeurs dans un tableau numpy. Regardons : 

In [None]:
import numpy as np
v = np.array([11, 22, -33, 66])
mask = [True, False, False, True]
result = v[mask] #on applique le masque sur v 
print(result) # result ne contient que les valeurs de v qui correspondent aux indice au le mask est à True

[11 66]


Alors bien sur on ne va pas faire nos masque à la main, il y a bien mieux. 
On va utiliser des conditions vectorisée

In [None]:
v = np.array([1, -3, 2, 5, 6, 9, -4])

mask = v <= 0
mask, v

(array([False,  True, False, False, False, False,  True]),
 array([ 1, -3,  2,  5,  6,  9, -4]))

In [None]:
result = v[mask]
print(result)

[-3 -4]


## Les matrices 

In [None]:
A = np.array([[1, 3], [3, 1]])
A

array([[1, 3],
       [3, 1]])

In [None]:
A.shape

(2, 2)

In [None]:
m = np.zeros((10, 5))

In [None]:
m.shape

(10, 5)

In [None]:
m

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [None]:
m2 = m.reshape(25, 2)
m2

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

## Redimensionner les matrices et tableaux

Numpy donne pas mal de liberté pour le redimmensionnement des tableaux. La seule exigence est que le nombre d'élément avant redimmensionnement soit le même qu'après 





In [None]:

m1 = np.random.randn(4, 4)

m2 = m1.reshape(8,2)

m1.shape, m2.shape

((4, 4), (8, 2), 4, 8)

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=25ad01f7-ec4b-4ac8-bce6-a3745ef02c96' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>