# Python performant ou "Haute voltige en Python"

![](http://i.imgur.com/N72zhsD.gif)

## 1- Environnement logiciel scientifique en Python

### Numpy

### Scipy

### Matplotlib

### Pandas

### Cython

### Line Profiler

### Numba

## 2- Pourquoi tenter d'accélérer du Python?

Posons un problème court, soit l'estimation $pi$:

$$\huge{\pi = \arctan\left(1\right)}$$

$$\huge{\pi \approx 4 \times \left(\frac{1}{1} - \frac{1}{3} + \frac{1}{5} - \ldots\right)}$$

### Comment écririez-vous cet algorithme en Python?

### Comment ferait-on pour mesurer la performance de notre algorithme?

### Comment écrirait-on cet algorithme en C?

In [None]:
# write file

In [None]:
# compile

### Comment appeller du C à partir de Python?

In [None]:
# bench

### Analyse de données avec Timeit

## 3- Vectorisation avec Numpy

$$\huge{\sum_{i=0}^N \frac{i}{10}}$$

### Utilisation de  Numpy
#### Exercice 1

Utiliser la function `arange` du module numpy pour accélérer l'algorithme d'approximation de Pi.

#### Exercice 2

- Exécuter votre fonction et confirmer que le résultat est bon
- Mesurer la performance de votre fonction et conserver les résultats.

## 4- Trouver les goulots d'étranglement

In [None]:
#import

def gen_data(n):
    pass

def sum_nexts(numbers):
    pass

def main(n):
    pass

$$\huge{\text{sum}_i = \sum_{a=i+1}^N \text{number}_a}$$

#### Exercice 3

Mesurer la performance de la fonction à l'aide de la commande magique `%timeit`.

#### Profilage avec prun

In [None]:
# prun sorted

#### Obtenir plus de détails à l'aide du profilage par ligne

#### Comparaison avec Numpy

In [None]:
def gen_data_np(n):
    pass

def sum_nexts_np(numbers):
    pass

def main_np(n):
    pass

#### Du manger pour l'esprit

- Qu'est-ce qui se produit avec la fonction `sum_nexts_np` lorsque le paramètre `numbers` n'est pas du type `numpy.array` ?
- Comment éviter ce problème ?
- Quelle est la complexité de cet algorithme ? 
- Peut-on faire mieux en pure Python ?

#### Exercice 4: Davantage de traitement de données

Use the line profiler, find hotspots and optimize the following function.

In [None]:
def generate_data():
    with open("inputs.dat", "w") as fp:
        for _ in range(5000):
            for _ in range(5000):
                fp.write("{0},".format(random.random()))
            fp.write("\n")

def read_data():
    data = []
    fp = open("inputs.dat", "r")

    line = 1
    while line:
        line = fp.readline()
        if line:
            row = []
            for elem in line.split(','):
                elem = elem.strip()
                if elem:
                    row.append(float(elem))
            data.append(row)
        
    fp.close()
    return data

def process_A(data):
    """
    Return a new matrix of the same shape as data, with each original
    element squared by it's transposition equivalent.

    result[i][j] = data[i][j] ** data[j][i]
    """
    result = []
    for i in range(len(data)):
        row = []
        for j in range(len(data[i])):
            row.append(data[i][j] ** data[j][i])
        result.append(row)
    return result

def process_B(m1, m2):
    """
    Return the sum of the difference between each corresponding
    elements of two square matrices.

    diff = (m2[0][0] - m1[0][0]) + (m2[0][1] - m1[0][1]) + ...
    """

    diff = 0.
    for i in range(len(m1)):
        for j in range(len(m1[i])):
            diff += m2[i][j] - m1[i][j]
    return diff

def main():
    generate_data()
    data = read_data()
    result_1 = process_A(data)
    print("Difference is: ", process_B(data, result_1))

## 5- Compiler du code Python

## 6- Utiliser plusiuers coeurs de calcul

## 7- Utiliser plus d'un ordinateur en parallèle