# <center><span style="color:#D38F00"><u>SORBONNE DATA ANALYTICS :<br/> Introduction à Python</u></span></center>

In [None]:
import numpy as np  # Importe la librairie (a faire de chaque notebook)

Nous allons maintenant étudier en détail une fonctionnalité primordiale de Numpy : le **broadcasting**.

Le **broadcasting de Numpy** est l'acte d'appliquer des **opérations** (l'*addition* par exemple) à des **matrices de dimensions différentes**.

Ce concept peut vous sembler simple au premier abord, mais il est important que vous compreniez bien ce qu'il se passe derrière ce mécanisme, car vous serez amenés à l'utiliser très fréquemment.

## <span style="color:#011C5D">2.2. Le broadcasting</span>

### <span style="color:#011C5D">Le broadcasting scalaire</span>

En **Python natif**, c'est à dire sans utiliser de librairie tierces comme Numpy, il est **impossible** d'appliquer des opérations à des matrices.

Si vous essayez d'effectuer l'opération suivante par exemple, vous obtiendrez une `TypeError` car Python **ne sait pas** comment appliquer des opérateurs à une liste.

Rappelez vous que, contrairement aux arrays Numpy, les listes natives de Python peuvent contenir des éléments de **types différents**.

In [None]:
height = [1.73, 1.68, 1.71, 1.89, 1.79]
weight = [65.4, 59.2, 63.6, 88.4, 68.7]
weight / height ** 2

Si vous essayez d'appliquer **les mêmes opérations** à des **arrays Numpy**, cette fois-ci, vous obtiendrez bien le résultat attendu. Mais que ce passe-t-il exactement derrière des opérations aussi simples ?

In [None]:
height = np.array([1.73, 1.68, 1.71, 1.89, 1.79])
weight = np.array([65.4, 59.2, 63.6, 88.4, 68.7])
weight / height ** 2

Vous l'aurez compris, c'est le **broadcasting Numpy** qui est entré en jeu. Et plus précisement, la forme la plus simple du broadcasting : le broadcasting **scalaire**.

Cette fonctionnalité vous permet de combiner un **array Numpy** avec un **nombre scalaire**. Le scalaire est "**étiré**" jusqu'à atteindre la forme de la matrice, afin de pouvoir appliquer l'opération matricielle souhaitée.

In [None]:
a = np.array([1, 2, 3])
b = 2
a * b  # broadcasting

![Scalar broadcasting example](https://numpy.org/devdocs/_images/broadcasting_1.png)

Dans notre exemple, le nombre **b est étiré en matrice de la même forme que a**, c'est à dire un vecteur de trois éléments.

Puis, dans un second temps, Numpy applique l'opérateur de multiplication **élément par élément** entre les deux matrices.

### <span style="color:#011C5D">Le broadcasting</span>

Le broadcasting scalaire est l'exemple le plus simple, mais Numpy est bien plus puissant. Vous serez souvent amenés à **appliquer des opérations** sur des **arrays de dimensions différentes**.

Dans l'exemple ci-dessous, nous cherchons à **ajouter le vecteur b à la matrice a**.

![broadcasting example](https://numpy.org/devdocs/_images/broadcasting_2.png)

Le broadcasting Numpy va donc considérer b comme une *ligne*, et l'*étirer* de manière à ce qu'elle fasse **la même dimension** que la matrice a, c'est à dire *4 lignes* par *3 colonnes*.

Puis, Numpy va appliquer l'opérateur d'addition **élément par élément** entre les deux matrices. Le résultat final est donc une matrice **de la même forme que a**, le plus grand des deux arrays.

In [None]:
a = np.array([[ 0.0,  0.0,  0.0],
              [10.0, 10.0, 10.0],
              [20.0, 20.0, 20.0],
              [30.0, 30.0, 30.0]])  # shape: 4, 3
b = np.array([1, 2, 3])  # shape: 3
print(a + b)  # Ajoute b à chacune des lignes de a

Sachez de plus que le **broadcasting** s'applique aussi aux **opérateurs de comparaison**.

Dans l'exemple ci-dessous, nous comparons la matrice `a` au nombre scalaire `0.5`. Vous serez fréquemment amenés à utiliser un tel broadcasting avec des opérateurs de comparaison dans le but d'effectuer des **filtres de tableaux**.

In [None]:
a = np.random.rand(10, 5)  # size: 10, 5
print(a)
print(a > .5)  # Comparaison d'un array a un scalaire

Une autre usage du **broadcasting avec opérateurs de comparaison** est l'application d'une **fonction d'aggrégation** comme `.any()` ou `.all()` pour savoir si l'un, ou bien tous les éléments d'un array répondent à une condition.

In [None]:
(a > .5).any()

### <span style="color:#011C5D">Pourquoi pas de broadcasting natif ?</span>

Alors pourquoi Python ne permet-il pas **nativement** (sans librairie tierce) d'effectuer du broadcasting ?

Eh bien sachez que le **broadcasting Numpy** est particulièrement **performant**, car il bénéficie d'une implémentation sous-jacente en **C** (un langage de programmation de bas niveau, plus complexe, mais plus performant que Python). Si nous souhaitions implémenter un *concept similaire* à l'aide les *listes natives* Python, les performances seraient bien moins élevées :

In [None]:
def broadcast_addition(matrix, vector):
    new_matrix = []
    for row in matrix:
        new_row = []
        for a,b in zip(row, vector):
            new_row.append(a + b)
        new_matrix.append(new_row)
    return new_matrix

In [None]:
native_matrix = [[1] * 100 for i in range(100)]  # Liste de liste Python, "size": 100, 100
native_vector = [2] * 100  # Liste de "size" 100

In [None]:
timeit broadcast_addition(native_matrix, native_vector)  # Mesure du temps d'execution de notre fonction

In [None]:
np_matrix = np.array(native_matrix)
np_vector = np.array(native_vector)

In [None]:
timeit np_matrix + np_vector

Nous pouvons ici voir, via l'utilitaire `timeit`, que Numpy est 100 fois plus performant que l'implémentation Python montrée ici.

Il est donc très intéressant, lorsque vous manipulez des **données volumineuses**, d'effectuer vos calculs via Numpy, son **broadcasting**, et ses fonctions matricielles ou ses fonctions d'aggrégations, dans le but de rendre vos programmes **performants** !

Les **règles d'application** du broadcasting, c'est à dire comment Numpy choisit l'opération à effectuer en fonctions des caractéristiques des deux arrays qu'il reçoit, sont disponibles sur la [documentation officielle](https://numpy.org/doc/stable/user/basics.broadcasting.html#general-broadcasting-rules).

### <span style="color:#011C5D">Exercices sur le broadcasting Numpy</span>

#### <span style="color:#011C5D">Exercice 1</span>

Comme lors du premier chapitre, définissez une fonction qui renvoie la **sigmoide** d'un array passé en paramètre. Contrairement au premier chapitre, la fonction doit être capable de prendre en paramètre un array de n'importe quelle dimension ou bien un scalaire.

Formule de la sigmoide : 

$$sigmoid(x) = \frac{1}{1+e^{-x}}$$

In [None]:
##### Rentrez votre code ici ######


In [None]:
%load exercices/2_3_broadcasting_1.py

In [None]:
# Résultat attendu :
sigmoid(np.array([1.5, 2, 2.5]))  # array([1.22313016, 1.13533528, 1.082085  ])

#### <span style="color:#011C5D">Exercice 2</span>

En machine learning, l'une des étapes de base est le **preprocessing** des données. L'une des techniques fréquemments appliquées à un jeu de données est la **standardisation des valeurs numériques**, qui permet d'obtenir des colonnes ayant une moyenne de 0, et un écart-type de 1. Implémentez cette standardisation en utilisant le broadcasting Numpy.

Concrètement, créez une fonction *standardize* qui permet d'appliquer la formule suivante à chacun des éléments de l'array, colonne par colonne, puis appliquez la sur `test_array` :

$z = \frac{x- \mu}{\sigma}$

Avec :
- z le nombre standardisé
- x le nombre initial
- $\mu$ la moyenne de la colonne de x
- $\sigma$ l'écart-type de la colonne de x

In [None]:
test_array = (np.random.rand(1000, 5) - .4) * 1000  # Array sur lequel vous appliquerez votre standardisation
print(test_array)

In [None]:
##### Rentrez votre code ici ######


In [None]:
%load exercices/2_3_broadcasting_2.py

In [None]:
standardize(test_array)  # Doit renvoyer un array de la même dimension que test_array

## <span style="color:#D38F00">Félicitations !</span>

Après avoir découvert **la syntaxe** du langage Python, vous maîtrisez maintenant les bases de la librairie **Numpy**, nottament l'utilisation d'**arrays multi-dimensionnels**, les grandes **fonctions** de la librairie, et le **broadcasting**.

Il ne vous reste maintenant plus qu'une seule chose à faire : **vous entraîner** !