<span style="float:left;">Licence CC BY-NC-ND</span><span style="float:right;">Thierry Parmentelat &amp; Arnaud Legout&nbsp;<img src="media/both-logos-small-alpha.png" style="display:inline"></span><br/>

# écosystème python data science

### un rapide survol

* `numpy`
* `pandas`
* `matplotlib`

# `numpy`

In [None]:
import numpy

# tableaux

In [None]:
# une liste de listes
mat1 = [
  [11, 12, 13],
  [21, 22, 23],
]
mat1

In [None]:
# un dictionnaire indexé par des tuples
mat2 = { (i, j) : 10*i + j
           for i in range(1, 3)
           for j in range(1, 4)}

mat2

In [None]:
# indices décalés de 1
mat1[1][2]

In [None]:
mat2[ 2, 3 ]

# langage compilé

### tableau homogène : toutes les cellules sont de même type

### dimensions connues

# accès direct

[animation](w7-directaccess/index.html)

# python 

# *vs* `numpy`

##### container (`list` / `dict` / `set`)
* hétérogène par construction
* de taille variable

##### `ndarray`
* homogène
* de taille fixe

# benchmark 1 - liste

In [None]:
import random
import math
size = 10**4

# l comme liste
l = [random.random() for i in range(size)] 

In [None]:
import numpy as np

# n comme numpy
n = np.array(l)

type(n)

In [None]:
%%timeit -n 50
[math.cos(x) for x in l]

In [None]:
%%timeit -n 50
np.cos(n)

# benchmark 2 - dict / tuple

In [None]:
size = 100
# d comme dict
d = { (i, j) : random.random()
     for j in range(size)
     for i in range(size)}
d[2, 4]

In [None]:
# temporaire pour créer le array
l = [ [ d[i, j]
        for j in range(size)]
      for i in range(size)]
n = np.array(l)
n[2, 4]

In [None]:
%%timeit -n 50
{ tuple : math.cos(value) 
  for tuple, value in d.items()}

In [None]:
%%timeit -n 50
np.cos(n)

# benchmark 3

In [None]:
import random

L = [random.randint(0,10) for i in range(1_000_000)]

In [None]:
import numpy as np

a = np.array(L)

In [None]:
# en python de base

%timeit[x**2 for x in L]

In [None]:
%timeit -n 100 np.square(a)

# tableau = vue

In [None]:
a = np.array( [ [0, 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11]],
               dtype=float)

In [None]:
a

In [None]:
# la forme du tableau, c'est 
# le point de vue de a sur son buffer
a.shape

In [None]:
b = a.reshape( (6, 2))
b

In [None]:
a[1, 2] = 600.

In [None]:
 b

# tableau = vue ...

[animation](w7-view/index.html)

# `pandas`

* objet central `DataFrame` (basé sur numpy)

* accès à base d'indexes (lignes et/ou colonnes)

* opérations à la base de données (join / group)

* notamment très optimisé pour les séries temporelles

# `matplotlib`

In [None]:
import numpy as np
import matplotlib.pyplot as plt

# points régulièrement espacés entre 0 et 10
X = np.linspace(0, 10)
# f(x) = sin(x) + 1 sur tous ces points
Y = np.sin(X) + 1

In [None]:
plt.plot(X, Y)
plt.xlabel("temps")
plt.ylabel('quasi-sinus')
plt.show()

In [None]:
from mpl_toolkits.mplot3d import Axes3D

scope = 3
xs = np.linspace(-scope, scope)
ys = np.linspace(-scope, scope)
# points espacés dans le carré
X, Y = np.meshgrid(xs, ys)
# pseudo gaussienne
Z = np.exp(-(X**2 + Y**2))

In [None]:
fig = plt.figure()
ax = fig.gca(projection='3d')
ax.plot_surface(X, Y, Z)
plt.show()

# conclusion

### `numpy`

* `np.ndarray` 
* meilleures performances
* mutable / références partagées

### `pandas`

* `DataFrame`
* tableaux structurés, indexés

### `matplotlib`