# Les tableaux en Python: une brève initiation à la vectorisation

Nous avions jusque là effectué nos opérations sur des listes. Deux limitations inhérentes à cette approche: 
<ul>
<li> les listes ne structurent les données que le long d'<b>une seule dimension</b>. Or, certaines données mériteraient d'être représentées autrement afin de penser nos opérations différemment (eg. les valeurs rgb d'une image .png (matrice: h x l x 3) pour un lissage gaussien)
<li> les boucles ralentissent l'éxécution du code 
</ul>

Il existe deux librairies pour créer des objets de ce type en python: <a href="http://pandas.pydata.org/">pandas</a> et <a href="http://www.numpy.org/">numpy</a>. Nous allons nous concentrer sur numpy

In [1]:
import numpy as np
l = [1,5,1,5,9,1,7,8]

Les objets de numpy s'appellent des arrays (traduit parfois par "matrice" ou, improprement "tableau"). Créons en quelques unes pour comprendre la logique sous-jacente. 

In [None]:
lAsMatrix = np.array(l)
lAsMatrix

In [None]:
mAsMatrix = np.array([[1,5,1,5],[9,1,7,8]])
mAsMatrix

Notez que mAsMatrix ressemble à une structure de listes enchassées. Cette ressemblance n'est que superficielle. En effet, les matrices peuvent avoir plus d'une dimension.

In [None]:
print("lAsMatrix a ",lAsMatrix.ndim," dimension")
print("mAsMatrix a ",mAsMatrix.ndim," dimension")

ce dont nous nous rendons bien compte en récupérant la <b>forme</b> de ces matrices

In [None]:
print("forme de lAsMatrix " , lAsMatrix.shape)
print("forme de mAsMatrix " , mAsMatrix.shape)

Notez au passage cette subtile différence: 

In [None]:
n = np.array([1,2,3])
o = np.array([[1,2,3]])



In [None]:
a =  np.random.randint(0,8,(10,2))
a

In [None]:
b = np.sum(a, axis =0)
b

In [None]:
c = np.prod(a, axis=0)
c

$f(x,y,z)= \frac{x^{2}-\sqrt{y}}{\sqrt{x+y}} \times z$

In [2]:
dataTest = np.random.rand(600000,3) # on génère 600000*3 points de données x,y,z (vecteur 2-D)
dataTestAsList = dataTest.tolist()  # on en fait une liste pour les besoins de l'exemple
dataTest

array([[ 0.70253734,  0.40894409,  0.09359219],
       [ 0.52803766,  0.68252483,  0.1014449 ],
       [ 0.82985566,  0.00350805,  0.28850899],
       ..., 
       [ 0.99344143,  0.3287492 ,  0.64537013],
       [ 0.06232829,  0.61176311,  0.14860498],
       [ 0.61523503,  0.61606332,  0.99400644]])

In [None]:
import math
import time
results = []
start =  time.time()
for y in dataTestAsList: 
    result = (y[0]**2 - math.sqrt(y[1]))*y[2]/math.sqrt(y[0]+y[1])
    results.append(result)
stop  = time.time()

print(stop-start)

In [None]:
x = dataTest[:,0]
y = dataTest[:,1]
z = dataTest[:,2]
start =  time.time()
results = np.multiply(np.divide(np.power(x,2) - np.sqrt(y) ,np.sqrt(x+y) ),z)
stop = time.time()
print(stop-start)

In [None]:
ordres = np.array([["attaque",3],["repli",4]])
ordres

In [None]:
def Cypher(s,n): 
    return(''.join([chr(ord(i)+n) for i in s]))

In [None]:
CypherVec = np.vectorize(Cypher)

In [None]:
np.apply_over_axes(CypherVec, ordres, 1)

In [None]:
from multiprocessing.dummy import Pool as ThreadPool 
poule = ThreadPool(4) # on crée 4 tâches parallèles

poule.map(CypherVec, )

In [None]:
marques

In [None]:
fstab = open("fstab","r")
fstab.read()

In [None]:
mat = np.genfromtxt("fstab", dtype="str")

In [None]:
mat

In [None]:
import random
I= [chr(random.randint(97,122)) for x in range(20)]
''.join(I)

In [None]:
J = np.random.randint(0,9,20).tolist()
J

In [None]:
LI = ["bsjhqxbq;ihu","nksnq;oi","ibqbiaubdi;nkjn"]
LI = [s.split(";")[0][2:] for s in LI]

LI