# NumPy

initiateur : Travis Oliphant (Continuum Analytics -> Anaconda)  
- vecteurs, matrices, données multidimentionnelles
- fonctions mathématiques, algèbre linéaire, transformée de Fourier 
- génération de nombres aléatoires
- comporte des outils d'intégration de code C/C++ et Fortran

Tuto officiel : https://docs.scipy.org/doc/numpy-1.15.0/user/quickstart.html  
Voir la fiche récapitulative ("Cheat Sheet") : https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PythonForDataScience.pdf


In [1]:
# si numpy n'est pas installé
# !conda install -y numpy

In [2]:
import numpy as np 

## le tableau ("array") `numpy.ndarray`

L'objet de base est le tableau ("array") homogène -tous les élements doivent être de même type, généralement des nombres-,  multidimensionnel. C'est une structure de données à l'implémentation performante.

In [3]:
# une dimension
arr1 = np.array([1, 1.5, 2, 2.5])
print(arr1)

[1.  1.5 2.  2.5]


In [4]:
type(arr1)

numpy.ndarray

In [73]:
# deux dimensions
arr2 = np.array([[1, 2, 3],
                 [4, 5, 6]])
print(arr2)

[[1 2 3]
 [4 5 6]]


In [74]:
arr2

array([[1, 2, 3],
       [4, 5, 6]])

Ne pas confondre la dimension d'un `ndarray` avec la dimension d'une matrice:

In [75]:
# nombre d' "axes" (voir TP)
arr2.ndim

2

In [76]:
# dimension de la matrice
arr2.shape

(2, 3)

In [77]:
arr1.shape

(4,)

In [78]:
# nombre d'éléments
arr2.size

6

In [79]:
len(arr2)

2

In [80]:
arr2.dtype

dtype('int64')

In [81]:
zeros = np.zeros((3, 2))
print(zeros)

[[0. 0.]
 [0. 0.]
 [0. 0.]]


In [82]:
uns = np.ones(5)
print(uns)

[1. 1. 1. 1. 1.]


In [83]:
# indiquer le type voulu
uns = np.ones(5, dtype=int)
print(uns)

[1 1 1 1 1]


In [84]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [90]:
arr3 = np.arange(1, 13).reshape((3,4))
print(arr3)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


In [85]:
np.linspace(1, 2, 11)

array([1. , 1.1, 1.2, 1.3, 1.4, 1.5, 1.6, 1.7, 1.8, 1.9, 2. ])

In [91]:
# indexation: no de ligne puis numero de colonne (0-indéxé)
arr3[1, 2]

7

In [92]:
# 'slicing' comme pour les sequences Python
print('première ligne :', arr3[0, :])
print('dernière colonne :', arr3[:, -1])
print('un sous-tableau :')
print(arr3[1:3, 2:])

première ligne : [1 2 3 4]
dernière colonne : [ 4  8 12]
un sous-tableau :
[[ 7  8]
 [11 12]]


In [93]:
# modifier des valeurs d'un tableau
arr3[:, 1] = 0
print(arr2)

[[1 2 3]
 [4 5 6]]


In [20]:
# On peut construire des arrays en les empilant
x = np.array([1, 2, 3])
y = np.array([10, 20, 30])
print(np.hstack((x, y)))
print(np.vstack((x, y)))  

[ 1  2  3 10 20 30]
[[ 1  2  3]
 [10 20 30]]


In [21]:
# array de booleéns
impairs = x % 2 == 1 
print(impairs)

[ True False  True]


In [22]:
# utile pour masquer/filtrer:
print(x[impairs])
print(x[impairs].sum())

[1 3]
4


## Lire un fichier csv
Un fichier csv ("comma separated values") est un fichier texte stockant des données tabulaires.  
Une ligne du fichier représente une ligne du tableau.  
Les valeurs sur chaque ligne sont séparées par un délimiteur (virgules, ou point-virgules, ou espaces, ou encore tabulations, ce format n'est pas normalisé).  

Fonctions : 
`np.loadtxt` et `np.genfromtxt`

Quelle différence ?


In [94]:
data_ex1 = np.loadtxt('data/exemple1.csv', delimiter=',')
print(data_ex1)

[[ 1.  2.  3.  4.  5.]
 [ 6.  7.  8.  9. 10.]
 [11. 12. 13. 14. 15.]]


In [95]:
data_ex1 = np.genfromtxt('data/exemple1.csv', delimiter=',')
print(data_ex1)

[[ 1.  2.  3.  4.  5.]
 [ 6.  7.  8.  9. 10.]
 [11. 12. 13. 14. 15.]]


## Écrire un fichier csv

In [96]:
np.savetxt('data/data_ex2.csv', arr2)

## Opérations vectorielles, matricielles, algèbre linéaire

In [27]:
A = np.array([1, 1.5, 2, 2.5])
B = np.ones(4)
C = A + 3*B
print(C)

[4.  4.5 5.  5.5]


Attention au "broadcasting" quand les dimensions ne correspondent pas (voir https://docs.scipy.org/doc/numpy-1.13.0/reference/ufuncs.html#broadcasting)

In [28]:
print(A + np.ones((2, 4)))

[[2.  2.5 3.  3.5]
 [2.  2.5 3.  3.5]]


In [29]:
print(A.reshape((4, 1)) + np.ones((4, 2)))

[[2.  2. ]
 [2.5 2.5]
 [3.  3. ]
 [3.5 3.5]]


In [30]:
print(np.exp(C))
print(np.sin(C))
print(np.max(C))

[ 54.59815003  90.0171313  148.4131591  244.69193226]
[-0.7568025  -0.97753012 -0.95892427 -0.70554033]
5.5


**produit scalaire si entre vecteurs (1d)**:  
$$
 \vec x \cdot \vec y = {}^tX~Y = \begin{pmatrix} x_1 & x_2 & x_3 \end{pmatrix}\begin{pmatrix} y_1 \\ y_2 \\ y_3 \end{pmatrix} = x_1 y_1 + x_2 y_2 + x_3 y_3
$$

In [31]:
A.dot(B)

7.0

** produit matriciel **

In [34]:
mat1 = np.array([[1, 2, 3],
                 [4, 5, 6]])
mat2 = np.array([[1, -1],
                 [1, 2],
                 [1, 2]])
mat = mat1.dot(mat2)
print(mat)

[[ 6  9]
 [15 18]]


In [36]:
# alternative en Python >= 3.5
mat = mat1 @ mat2
print(mat)

[[ 6  9]
 [15 18]]


In [73]:
# transposée
mat1.T

array([[1, 4],
       [2, 5],
       [3, 6]])

**valeurs propres, vecteurs propres**

In [74]:
eigvals, eigvecs = np.linalg.eig(mat)
print(eigvals)
print(eigvecs[0])
print(eigvecs[1])

[ -1.07669683  25.07669683]
[-0.78609474 -0.4266791 ]
[ 0.61810602 -0.90440309]


**déterminant**

In [75]:
np.linalg.det(mat)

-27.0

**matrice inverse**

In [76]:
np.linalg.inv(mat)

array([[-0.66666667,  0.33333333],
       [ 0.55555556, -0.22222222]])

**résolution de systèmes d'équations linéaires**
$Mx=v$

In [78]:
v = np.array([5., 6.])
print(np.linalg.solve(mat, v))
print(np.linalg.inv(mat).dot(v))

[-1.33333333  1.44444444]
[-1.33333333  1.44444444]


In [79]:
# et beaucoup plus:
dir(np.linalg)

['LinAlgError',
 'Tester',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__initializing__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '_umath_linalg',
 'absolute_import',
 'bench',
 'cholesky',
 'cond',
 'det',
 'division',
 'eig',
 'eigh',
 'eigvals',
 'eigvalsh',
 'info',
 'inv',
 'lapack_lite',
 'linalg',
 'lstsq',
 'matrix_power',
 'matrix_rank',
 'norm',
 'pinv',
 'print_function',
 'qr',
 'slogdet',
 'solve',
 'svd',
 'tensorinv',
 'tensorsolve',
 'test']

## Nombres aléatoires

In [80]:
dir(np.random)

['Lock',
 'RandomState',
 'Tester',
 '__RandomState_ctor',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__initializing__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 'absolute_import',
 'bench',
 'beta',
 'binomial',
 'bytes',
 'chisquare',
 'choice',
 'dirichlet',
 'division',
 'exponential',
 'f',
 'gamma',
 'geometric',
 'get_state',
 'gumbel',
 'hypergeometric',
 'info',
 'laplace',
 'logistic',
 'lognormal',
 'logseries',
 'mtrand',
 'multinomial',
 'multivariate_normal',
 'negative_binomial',
 'noncentral_chisquare',
 'noncentral_f',
 'normal',
 'np',
 'operator',
 'pareto',
 'permutation',
 'poisson',
 'power',
 'print_function',
 'rand',
 'randint',
 'randn',
 'random',
 'random_integers',
 'random_sample',
 'ranf',
 'rayleigh',
 'sample',
 'seed',
 'set_state',
 'shuffle',
 'standard_cauchy',
 'standard_exponential',
 'standard_gamma',
 'standard_normal',
 'standard_t',
 'test',
 'triangular',
 'uniform',
 'vonmises',
 'wald',
 'weibull

In [93]:
np.random.randint(100)  # génère un entier dans [0,100)

15

In [99]:
np.random.rand()  # génère un float uniformément dans [0,1)

0.0207519493594015

In [107]:
np.random.rand(3,4) # génère une matrice 3x4 de floats uniformément dans [0,1)

array([[ 0.83244264,  0.21233911,  0.18182497,  0.18340451],
       [ 0.30424224,  0.52475643,  0.43194502,  0.29122914],
       [ 0.61185289,  0.13949386,  0.29214465,  0.36636184]])

On peut reproduire une génération de nombres aléatoires en fixant la "graine" (ou "germe"):

In [105]:
np.random.seed(42)

Générateur de nombreuses distributions (voir aussi `scipy.random.distributions`):

In [108]:
mu = 2.0
sigma = 1.5
print(np.random.normal(mu, sigma))

4.198473153382331


In [115]:
N = 1000
nums = np.random.normal(mu, sigma, N)
print(nums[:10])  # Print first 10 for debugging
print('Mean: {:.2f}, Std Dev {:.2f}'.format(np.mean(nums), np.std(nums)))

[ 1.13944999  1.96346811  5.21340554  4.59131476  2.6544855   2.05700522
  2.18004699  2.92027696  0.46581115  1.61393519]
Mean: 2.08, Std Dev 1.50


## Quelques mots sur Scipy
Importante librairie regroupant plusieurs sous-modules à vocation de calcul scientifique.  
Repose sur les modules Python NumPy, Pandas, Matplotlib, Ipython, Sympy et sur des librairies de calcul FORTRAN (ex. : LAPACK, MINPACK).  
exemples :  
- Intégrales : `scipy.integrate`  
- Optimisation : `scipy.optimize`  
- Statistiques : `scipy.stats`  
- Transformée de Fourier : `scipy.fftpack`  
- Traitement du signal : `scipy.signal`  
- Algèbre linéaire : `scipy.linalg`    

Mais en fait ce sont des modules que j'utilise très rarement.

