> 📌 **Avant de commencer :**
>
> [![Ouvrir dans Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/drive/1OEabE8ssnO8Pg60nFFaF_GT5r5UWr4m-?usp=sharing)
>
> 🔁 *Veuillez faire une copie dans votre Google Drive (`Fichier > Enregistrer une copie dans Drive`) avant toute modification.*


# 🐍 Bases de Python avec Numpy (exercice facultatif)

Bienvenue dans votre premier exercice. Cet exercice vous offre une brève introduction à Python.  
Même si vous avez déjà utilisé Python, cela vous aidera à vous familiariser avec les fonctions dont nous aurons besoin.

---

## 📌 Instructions :
- Vous utiliserez **Python 3**.
- **Évitez** d’utiliser des boucles `for` ou `while`, sauf indication contraire.
- Après avoir codé votre fonction, **exécutez la cellule juste en dessous** pour vérifier si votre résultat est correct.

---

## 🎯 À l’issue de cet exercice, vous serez capable de :
- Utiliser des **notebooks iPython**  
- Utiliser les **fonctions de `numpy`** et effectuer des opérations sur des **matrices/vecteurs numpy**  
- Comprendre le concept de **broadcasting**  
- **Vectoriser du code**

---

🚀 **C’est parti !**


## 📚 Table des matières

- [À propos des notebooks iPython](#0)
    - [Exercice 1](#ex-1)

- [1 - Construire des fonctions de base avec numpy](#1)
    - [1.1 - Fonction sigmoïde, `np.exp()`](#1-1)
        - [Exercice 2 - basic_sigmoid](#ex-2)
        - [Exercice 3 - sigmoid](#ex-3)
    - [1.2 - Dérivée de la fonction sigmoïde](#1-2)
        - [Exercice 4 - sigmoid_derivative](#ex-4)
    - [1.3 - Remodelage des tableaux](#1-3)
        - [Exercice 5 - image2vector](#ex-5)
    - [1.4 - Normalisation des lignes](#1-4)
        - [Exercice 6 - normalize_rows](#ex-6)
        - [Exercice 7 - softmax](#ex-7)

- [2 - Vectorisation](#2)
    - [2.1 - Implémentation des fonctions de perte L1 et L2](#2-1)
        - [Exercice 8 - L1](#ex-8)
        - [Exercice 9 - L2](#ex-9)


## Executez cette cellule pour les fonctions utiles:
## Ne modifiez rien ici.

In [None]:
import numpy as np

def test(test_cases, target):
    success = 0
    for test_case in test_cases:
        try:
            if test_case['name'] == "datatype_check":
                assert isinstance(target(*test_case['input']),
                                  test_case["expected"])
                success += 1
            if test_case['name'] == "equation_output_check":
                assert np.allclose(test_case["expected"],
                                   target(*test_case['input']))
                success += 1
            if test_case['name'] == "shape_check":
                assert test_case['expected'].shape == target(*test_case['input']).shape
                success += 1
        except:
            print("Error: " + test_case['error'])

    if success == len(test_cases):
        print("\033[92m All tests passed.")
    else:
        print('\033[92m', success," Tests passed")
        print('\033[91m', len(test_cases) - success, " Tests failed")
        raise AssertionError("Not all tests were passed for {}. Check your equations and avoid using global variables inside the function.".format(target.__name__))




def basic_sigmoid_test(target):
    x = 1
    expected_output = 0.7310585786300049
    test_cases = [
        {
            "name": "datatype_check",
            "input": [x],
            "expected": float,
            "error": "Datatype mismatch."
        },
        {
            "name": "equation_output_check",
            "input": [x],
            "expected": expected_output,
            "error": "Wrong output."
        }
    ]

    test(test_cases, target)

def sigmoid_test(target):
    x = np.array([1, 2, 3])
    expected_output = np.array([0.73105858,
                                0.88079708,
                                0.95257413])
    test_cases = [
        {
            "name":"datatype_check",
            "input": [x],
            "expected": np.ndarray,
            "error":"Datatype mismatch."
        },
        {
            "name": "shape_check",
            "input": [x],
            "expected": expected_output,
            "error": "Wrong shape."
        },
        {
            "name": "equation_output_check",
            "input": [x],
            "expected": expected_output,
            "error": "Wrong output."
        }
    ]

    test(test_cases, target)



def sigmoid_derivative_test(target):
    x = np.array([1, 2, 3])
    expected_output = np.array([0.19661193,
                                0.10499359,
                                0.04517666])
    test_cases = [
        {
            "name":"datatype_check",
            "input": [x],
            "expected": np.ndarray,
            "error":"The function should return a numpy array."
        },
        {
            "name": "shape_check",
            "input": [x],
            "expected": expected_output,
            "error": "Wrong shape."
        },
        {
            "name": "equation_output_check",
            "input": [x],
            "expected": expected_output,
            "error": "Wrong output."
        }
    ]

    test(test_cases, target)

def image2vector_test(target):
    image = np.array([[[ 0.67826139,  0.29380381],
                      [ 0.90714982,  0.52835647],
                      [ 0.4215251 ,  0.45017551]],

                     [[ 0.92814219,  0.96677647],
                      [ 0.85304703,  0.52351845],
                      [ 0.19981397,  0.27417313]],

                     [[ 0.60659855,  0.00533165],
                      [ 0.10820313,  0.49978937],
                      [ 0.34144279,  0.94630077]]])

    expected_output = np.array([[ 0.67826139],
                                [ 0.29380381],
                                [ 0.90714982],
                                [ 0.52835647],
                                [ 0.4215251 ],
                                [ 0.45017551],
                                [ 0.92814219],
                                [ 0.96677647],
                                [ 0.85304703],
                                [ 0.52351845],
                                [ 0.19981397],
                                [ 0.27417313],
                                [ 0.60659855],
                                [ 0.00533165],
                                [ 0.10820313],
                                [ 0.49978937],
                                [ 0.34144279],
                                [ 0.94630077]])
    test_cases = [
        {
            "name":"datatype_check",
            "input": [image],
            "expected": np.ndarray,
            "error":"The function should return a numpy array."
        },
        {
            "name": "shape_check",
            "input": [image],
            "expected": expected_output,
            "error": "Wrong shape"
        },
        {
            "name": "equation_output_check",
            "input": [image],
            "expected": expected_output,
            "error": "Wrong output"
        }
    ]

    test(test_cases, target)

def normalizeRows_test(target):
    x = np.array([[0, 3, 4],
                  [1, 6, 4]])
    expected_output = np.array([[ 0., 0.6, 0.8 ],
                                [ 0.13736056, 0.82416338, 0.54944226]])

    test_cases = [
        {
            "name":"datatype_check",
            "input": [x],
            "expected": np.ndarray,
            "error":"The function should return a numpy array."
        },
        {
            "name": "shape_check",
            "input": [x],
            "expected": expected_output,
            "error": "Wrong shape"
        },
        {
            "name": "equation_output_check",
            "input": [x],
            "expected": expected_output,
            "error": "Wrong output"
        }
    ]

    test(test_cases, target)

def softmax_test(target):
    x = np.array([[9, 2, 5, 0, 0],
                  [7, 5, 0, 0 ,0]])
    expected_output = np.array([[ 9.80897665e-01, 8.94462891e-04,
                                 1.79657674e-02, 1.21052389e-04,
                                 1.21052389e-04],

                                [ 8.78679856e-01, 1.18916387e-01,
                                 8.01252314e-04, 8.01252314e-04,
                                 8.01252314e-04]])
    test_cases = [
        {
            "name":"datatype_check",
            "input": [x],
            "expected": np.ndarray,
            "error":"The function should return a numpy array."
        },
        {
            "name": "shape_check",
            "input": [x],
            "expected": expected_output,
            "error": "Wrong shape"
        },
        {
            "name": "equation_output_check",
            "input": [x],
            "expected": expected_output,
            "error": "Wrong output"
        }
    ]

    test(test_cases, target)

def L1_test(target):
    yhat = np.array([.9, 0.2, 0.1, .4, .9])
    y = np.array([1, 0, 0, 1, 1])
    expected_output = 1.1
    test_cases = [
        {
            "name":"datatype_check",
            "input": [yhat, y],
            "expected": float,
            "error":"The function should return a float."
        },
        {
            "name": "equation_output_check",
            "input": [yhat, y],
            "expected": expected_output,
            "error": "Wrong output"
        }
    ]

    test(test_cases, target)

def L2_test(target):
    yhat = np.array([.9, 0.2, 0.1, .4, .9])
    y = np.array([1, 0, 0, 1, 1])
    expected_output = 0.43

    test_cases = [
        {
            "name":"datatype_check",
            "input": [yhat, y],
            "expected": float,
            "error":"The function should return a float."
        },
        {
            "name": "equation_output_check",
            "input": [yhat, y],
            "expected": expected_output,
            "error": "Wrong output"
        }
    ]

    test(test_cases, target)


<a name='0'></a>
## À propos des notebooks iPython ##

Les notebooks iPython sont des environnements de codage interactifs intégrés dans une page web.  
Vous utiliserez des notebooks iPython dans ce cours.

Vous n'avez besoin d'écrire du code **qu'entre les commentaires `# votre code ici`**.  
Après avoir écrit votre code, vous pouvez exécuter la cellule en appuyant sur **"SHIFT" + "ENTRÉE"**  
ou en cliquant sur **"Exécuter la cellule"** (représenté par une icône en forme de ▶️) dans la barre supérieure du notebook.

Nous indiquerons souvent dans les commentaires **"(≈ X lignes de code)"** pour vous donner une idée approximative  
de la quantité de code attendue. C’est simplement une estimation, donc ne vous inquiétez pas si votre code est plus long ou plus court.

---

<a name='ex-1'></a>
### 🧪 Exercice 1

Affectez la valeur `"Hello World"` à la variable 'Test` dans la cellule ci-dessous pour afficher "Hello World",  
puis exécutez les deux cellules suivantes.


In [None]:
# (≈ 1 line of code)
 # Test = ...
# YOUR CODE STARTS HERE


# YOUR CODE ENDS HERE

In [None]:
print ("test: " + Test)

**Expected output**:
test: Hello World

<font color='red'>
<b>Ce qu’il faut retenir :</b>

- Exécutez vos cellules en utilisant **SHIFT+ENTRÉE** (ou **« Exécuter la cellule »**)  
- Écrivez votre code uniquement dans les zones prévues, en utilisant **Python 3**  
- Ne modifiez pas le code en dehors des zones prévues  



<a name='1'></a>
## 1 - Construire des fonctions de base avec numpy ##

Numpy est la bibliothèque principale pour le calcul scientifique en Python.  
Elle est maintenue par une large communauté (www.numpy.org).  
Dans cet exercice, vous apprendrez plusieurs fonctions clés de numpy telles que `np.exp`, `np.log` et `np.reshape`.  
Vous devrez savoir utiliser ces fonctions pour les exercices futurs.

<a name='1-1'></a>
### 1.1 - Fonction sigmoïde, `np.exp()` ###

Avant d’utiliser `np.exp()`, vous utiliserez `math.exp()` pour implémenter la fonction sigmoïde.  
Vous verrez ensuite pourquoi `np.exp()` est préférable à `math.exp()`.

<a name='ex-2'></a>
### Exercice 2 - basic_sigmoid

Construisez une fonction qui retourne la sigmoïde d’un nombre réel `x`.  
Utilisez `math.exp(x)` pour la fonction exponentielle.

**Rappel :**  
$sigmoid(x) = \frac{1}{1+e^{-x}}$ est parfois appelée fonction logistique.  
C’est une fonction non-linéaire utilisée non seulement en apprentissage automatique (régression logistique),  
mais aussi en apprentissage profond.

![Courbe logistique](https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/Logistic-curve.svg/1920px-Logistic-curve.svg.png)

Pour appeler une fonction appartenant à un module spécifique, vous pouvez utiliser la syntaxe `nom_module.fonction()`.  
Exécutez le code ci-dessous pour voir un exemple avec `math.exp()`.


In [None]:
import math
from public_tests import *

# GRADED FUNCTION: basic_sigmoid

def basic_sigmoid(x):
    """
    Compute sigmoid of x.

    Arguments:
    x -- A scalar

    Return:
    s -- sigmoid(x)
    """
    # (≈ 1 line of code)
    # s =
    # YOUR CODE STARTS HERE


    # YOUR CODE ENDS HERE

    return s

In [None]:
print("basic_sigmoid(1) = " + str(basic_sigmoid(1)))

basic_sigmoid_test(basic_sigmoid)

En réalité, nous utilisons rarement la bibliothèque math en apprentissage profond car les entrées des fonctions sont des nombres réels.
En deep learning, nous manipulons surtout des matrices et des vecteurs.
C’est pourquoi numpy est beaucoup plus utile..

In [None]:
### One reason why we use "numpy" instead of "math" in Deep Learning ###

x = [1, 2, 3] # x becomes a python list object
basic_sigmoid(x) # you will see this give an error when you run it, because x is a vector.

In fact, if $ x = (x_1, x_2, ..., x_n)$ is a row vector then `np.exp(x)` will apply the exponential function to every element of x. The output will thus be: `np.exp(x) = (e^{x_1}, e^{x_2}, ..., e^{x_n})`

In [None]:
import numpy as np

# example of np.exp
t_x = np.array([1, 2, 3])
print(np.exp(t_x)) # result is (exp(1), exp(2), exp(3))

Furthermore, if x is a vector, then a Python operation such as $s = x + 3$ or $s = \frac{1}{x}$ will output s as a vector of the same size as x.

In [None]:
# example of vector operation
t_x = np.array([1, 2, 3])
print (t_x + 3)

Chaque fois que vous avez besoin de plus d’informations sur une fonction numpy, nous vous encourageons à consulter  
[la documentation officielle](https://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.exp.html).

Vous pouvez aussi créer une nouvelle cellule dans le notebook et écrire `np.exp?` (par exemple) pour accéder rapidement à la documentation.

<a name='ex-3'></a>
### Exercice 3 - sigmoid

Implémentez la fonction sigmoïde en utilisant numpy.

**Instructions** :  
`x` peut maintenant être un nombre réel, un vecteur ou une matrice.  
Les structures de données que nous utilisons dans numpy pour représenter ces formes (vecteurs, matrices...) s’appellent des tableaux numpy (numpy arrays).  
Vous n’avez pas besoin d’en savoir plus pour le moment.

$$
\text{Pour } x \in \mathbb{R}^n \text{,     } sigmoid(x) = sigmoid\begin{pmatrix}
    x_1  \\
    x_2  \\
    \vdots  \\
    x_n  \\
\end{pmatrix} = \begin{pmatrix}
    \frac{1}{1+e^{-x_1}}  \\
    \frac{1}{1+e^{-x_2}}  \\
    \vdots  \\
    \frac{1}{1+e^{-x_n}}  \\
\end{pmatrix} \tag{1}
$$


In [None]:
# GRADED FUNCTION: sigmoid

def sigmoid(x):
    """
    Compute the sigmoid of x

    Arguments:
    x -- A scalar or numpy array of any size

    Return:
    s -- sigmoid(x)
    """

    # (≈ 1 line of code)
    # s =
    # YOUR CODE STARTS HERE


    # YOUR CODE ENDS HERE

    return s

In [None]:
t_x = np.array([1, 2, 3])
print("sigmoid(t_x) = " + str(sigmoid(t_x)))

sigmoid_test(sigmoid)

<a name='1-2'></a>
### 1.2 - Gradient de la sigmoïde

Comme vous l’avez vu en cours, vous aurez besoin de calculer des gradients pour optimiser les fonctions de perte via la rétropropagation.  
Commençons par coder votre première fonction de gradient.

<a name='ex-4'></a>
### Exercice 4 - sigmoid_derivative

Implémentez la fonction `sigmoid_grad()` pour calculer le gradient de la fonction sigmoïde par rapport à son entrée `x`. La formule est :

$$
sigmoid\_derivative(x) = \sigma'(x) = \sigma(x) \times (1 - \sigma(x)) \tag{2}
$$

Vous coderez souvent cette fonction en deux étapes :  
1. Affectez à `s` la valeur de la sigmoïde appliquée à `x`. Votre fonction `sigmoid(x)` peut vous être utile ici.  
2. Calculez le gradient : $\sigma'(x) = s(1-s)$


In [None]:
# GRADED FUNCTION: sigmoid_derivative

def sigmoid_derivative(x):
    """
    Compute the gradient (also called the slope or derivative) of the sigmoid function with respect to its input x.
    You can store the output of the sigmoid function into variables and then use it to calculate the gradient.

    Arguments:
    x -- A scalar or numpy array

    Return:
    ds -- Your computed gradient.
    """

    #(≈ 2 lines of code)
    # s =
    # ds =
    # YOUR CODE STARTS HERE


    # YOUR CODE ENDS HERE

    return ds

In [None]:
t_x = np.array([1, 2, 3])
print ("sigmoid_derivative(t_x) = " + str(sigmoid_derivative(t_x)))

sigmoid_derivative_test(sigmoid_derivative)

<a name='1-3'></a>
### 1.3 - Remodelage des tableaux (reshaping) ###

Deux fonctions numpy couramment utilisées en deep learning sont [np.shape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.shape.html) et [np.reshape()](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html) :  
- `X.shape` sert à obtenir la forme (dimensions) d’une matrice ou d’un vecteur `X`.  
- `X.reshape(...)` sert à remodeler `X` dans une autre dimension.

Par exemple, en informatique, une image est représentée par un tableau 3D de forme $(longueur, hauteur, profondeur = 3)$.  
Cependant, lorsqu’on lit une image comme entrée d’un algorithme, on la convertit en un vecteur de forme $(longueur \times hauteur \times 3, 1)$.  
Autrement dit, on « déroule » ou remodelle le tableau 3D en un vecteur 1D.

![Illustration reshape](https://i-blog.csdnimg.cn/blog_migrate/7eac14f3dcf8d84f755c203f391db54d.png)

<a name='ex-5'></a>
### Exercice 5 - image2vector

Implémentez `image2vector()` qui prend en entrée un tableau de forme `(longueur, hauteur, 3)`  
et retourne un vecteur de forme `(longueur * hauteur * 3, 1)`.

Par exemple, si vous souhaitez remodeler un tableau `v` de forme `(a, b, c)` en un vecteur de forme `(a*b, c)`, vous pouvez faire :

```python
v = v.reshape((v.shape[0] * v.shape[1], v.shape[2]))  # v.shape[0] = a ; v.shape[1] = b ; v.shape[2] = c


In [None]:
# GRADED FUNCTION:image2vector

def image2vector(image):
    """
    Argument:
    image -- a numpy array of shape (length, height, depth)

    Returns:
    v -- a vector of shape (length*height*depth, 1)
    """

    # (≈ 1 line of code)
    # v =
    # YOUR CODE STARTS HERE


    # YOUR CODE ENDS HERE

    return v

In [None]:
# This is a 3 by 3 by 2 array, typically images will be (num_px_x, num_px_y,3) where 3 represents the RGB values
t_image = np.array([[[ 0.67826139,  0.29380381],
                     [ 0.90714982,  0.52835647],
                     [ 0.4215251 ,  0.45017551]],

                   [[ 0.92814219,  0.96677647],
                    [ 0.85304703,  0.52351845],
                    [ 0.19981397,  0.27417313]],

                   [[ 0.60659855,  0.00533165],
                    [ 0.10820313,  0.49978937],
                    [ 0.34144279,  0.94630077]]])

print ("image2vector(image) = " + str(image2vector(t_image)))

image2vector_test(image2vector)


<a name='1-4'></a>
### 1.4 - Normalisation des lignes

Une autre technique courante en apprentissage automatique et apprentissage profond est de normaliser nos données.  
Cela conduit souvent à de meilleures performances, car la descente de gradient converge plus rapidement après normalisation.  
Ici, par normalisation, on entend transformer \( x \) en \( \frac{x}{\| x \|} \) (diviser chaque vecteur ligne de \( x \) par sa norme).

Par exemple, si  
$$
x = \begin{bmatrix}
        0 & 3 & 4 \\
        2 & 6 & 4 \\
\end{bmatrix} \tag{3}
$$  
alors  
$$
\| x \| = \text{np.linalg.norm(x, axis=1, keepdims=True)} = \begin{bmatrix}
    5 \\
    \sqrt{56} \\
\end{bmatrix} \tag{4}
$$  
et  
$$
x\_normalized = \frac{x}{\| x \|} = \begin{bmatrix}
    0 & \frac{3}{5} & \frac{4}{5} \\
    \frac{2}{\sqrt{56}} & \frac{6}{\sqrt{56}} & \frac{4}{\sqrt{56}} \\
\end{bmatrix} \tag{5}
$$

Notez que vous pouvez diviser des matrices de tailles différentes, et cela fonctionne correctement : c’est ce qu’on appelle le **broadcasting**, que vous apprendrez dans la partie 5.

Avec `keepdims=True`, le résultat sera correctement diffusé (broadcasté) par rapport à la matrice originale \( x \).

`axis=1` signifie que la norme est calculée ligne par ligne.  
Si vous souhaitez la norme colonne par colonne, il faudra mettre `axis=0`.

`numpy.linalg.norm` possède un autre paramètre `ord` qui permet de spécifier le type de normalisation à effectuer  
(dans l’exercice ci-dessous, vous utiliserez la norme 2).  
Pour vous familiariser avec les différents types de normes, vous pouvez consulter la documentation :  
[numpy.linalg.norm](https://numpy.org/doc/stable/reference/generated/numpy.linalg.norm.html)

<a name='ex-6'></a>
### Exercice 6 - normalize_rows

Implémentez la fonction `normalizeRows()` pour normaliser les lignes d’une matrice.  
Après application de cette fonction sur une matrice \( x \), chaque ligne de \( x \) doit être un vecteur de norme 1 (c’est-à-dire de longueur 1).

**Remarque** :  
N’essayez pas d’utiliser `x /= x_norm`.  
Pour la division matricielle, numpy doit pouvoir faire du broadcasting de `x_norm`, ce qui n’est pas supporté par l’opérateur `/=`.


In [None]:
# GRADED FUNCTION: normalize_rows

def normalize_rows(x):
    """
    Implement a function that normalizes each row of the matrix x (to have unit length).

    Argument:
    x -- A numpy matrix of shape (n, m)

    Returns:
    x -- The normalized (by row) numpy matrix. You are allowed to modify x.
    """

    #(≈ 2 lines of code)
    # Compute x_norm as the norm 2 of x. Use np.linalg.norm(..., ord = 2, axis = ..., keepdims = True)
    # x_norm =
    # Divide x by its norm.
    # x =
    # YOUR CODE STARTS HERE


    # YOUR CODE ENDS HERE

    return x

In [None]:
x = np.array([[0, 3, 4],
              [1, 6, 4]])
print("normalizeRows(x) = " + str(normalize_rows(x)))

normalizeRows_test(normalize_rows)

**Remarque** :  
Dans la fonction `normalize_rows()`, vous pouvez essayer d'afficher les dimensions de `x_norm` et `x`, puis relancer l'évaluation. Vous constaterez qu'ils ont des formes différentes. C'est normal, car `x_norm` calcule la norme de chaque ligne de `x`. Ainsi, `x_norm` a le même nombre de lignes mais une seule colonne.  

**Comment la division `x / x_norm` fonctionne-t-elle ?**  
Cela est possible grâce au **broadcasting** (diffusion), un mécanisme de NumPy qui étend automatiquement les dimensions pour effectuer des opérations entre tableaux de formes compatibles. Nous expliquerons ce concept en détail par la suite !

<a name='ex-7'></a>
### Exercice 7 - softmax

Implémentez une fonction softmax en utilisant numpy.  
Vous pouvez voir la fonction softmax comme une fonction de normalisation utilisée lorsque votre algorithme doit classer deux classes ou plus.  
Vous en apprendrez davantage sur softmax dans le deuxième cours de cette spécialisation.

**Instructions** :  
- Pour$  x \in \mathbb{R}^{1 \times n} $,


 $softmax(x) = softmax\left(\begin{bmatrix}
    x_1 & x_2 & \dots & x_n
\end{bmatrix}\right)
= \begin{bmatrix}
    \frac{e^{x_1}}{\sum_{j} e^{x_j}} & \frac{e^{x_2}}{\sum_{j} e^{x_j}} & \dots & \frac{e^{x_n}}{\sum_{j} e^{x_j}}
\end{bmatrix}
$

- Pour une matrice  $x \in \mathbb{R}^{m \times n} $, où $ x_{ij} $ désigne l’élément de la $ i^{\text{ème}} $ ligne et de la $ j^{\text{ème}} $ colonne de $ x $, nous avons :


\begin{align*}
softmax(x) &= softmax\begin{bmatrix}
            x_{11} & x_{12} & x_{13} & \dots  & x_{1n} \\
            x_{21} & x_{22} & x_{23} & \dots  & x_{2n} \\
            \vdots & \vdots & \vdots & \ddots & \vdots \\
            x_{m1} & x_{m2} & x_{m3} & \dots  & x_{mn}
            \end{bmatrix} \\ \\&=
 \begin{bmatrix}
    \frac{e^{x_{11}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{12}}}{\sum_{j}e^{x_{1j}}} & \frac{e^{x_{13}}}{\sum_{j}e^{x_{1j}}} & \dots  & \frac{e^{x_{1n}}}{\sum_{j}e^{x_{1j}}} \\
    \frac{e^{x_{21}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{22}}}{\sum_{j}e^{x_{2j}}} & \frac{e^{x_{23}}}{\sum_{j}e^{x_{2j}}} & \dots  & \frac{e^{x_{2n}}}{\sum_{j}e^{x_{2j}}} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \frac{e^{x_{m1}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m2}}}{\sum_{j}e^{x_{mj}}} & \frac{e^{x_{m3}}}{\sum_{j}e^{x_{mj}}} & \dots  & \frac{e^{x_{mn}}}{\sum_{j}e^{x_{mj}}}
\end{bmatrix} \\ \\ &= \begin{pmatrix}
    softmax\text{(first row of x)}  \\
    softmax\text{(second row of x)} \\
    \vdots  \\
    softmax\text{(last row of x)} \\
\end{pmatrix}
\end{align*}


**Notes :**  
Notez que plus tard dans le cours, vous verrez que « m » sera utilisé pour représenter le « nombre d’exemples d’entraînement »,  
et que chaque exemple d’entraînement sera dans sa propre colonne de la matrice.  
De plus, chaque caractéristique (feature) sera dans sa propre ligne (chaque ligne contient les données pour une même caractéristique).  

La fonction softmax devra alors être appliquée à toutes les caractéristiques de chaque exemple d’entraînement,  
donc softmax sera effectuée sur les colonnes (lorsque nous passerons à cette représentation plus tard dans le cours).

Cependant, dans cet exercice de codage,  
nous nous concentrons simplement sur la familiarisation avec Python,  
c’est pourquoi nous utilisons la notation mathématique classique \( m \times n \)  
où \( m \) est le nombre de lignes et \( n \) le nombre de colonnes.


In [None]:
# GRADED FUNCTION: softmax

def softmax(x):
    """Calculates the softmax for each row of the input x.

    Your code should work for a row vector and also for matrices of shape (m,n).

    Argument:
    x -- A numpy matrix of shape (m,n)

    Returns:
    s -- A numpy matrix equal to the softmax of x, of shape (m,n)
    """

    #(≈ 3 lines of code)
    # Apply exp() element-wise to x. Use np.exp(...).
    # x_exp = ...

    # Create a vector x_sum that sums each row of x_exp. Use np.sum(..., axis = 1, keepdims = True).
    # x_sum = ...

    # Compute softmax(x) by dividing x_exp by x_sum. It should automatically use numpy broadcasting.
    # s = ...

    # YOUR CODE STARTS HERE


    # YOUR CODE ENDS HERE

    return s

In [None]:
t_x = np.array([[9, 2, 5, 0, 0],
                [7, 5, 0, 0 ,0]])
print("softmax(x) = " + str(softmax(t_x)))

softmax_test(softmax)

#### 📝 Remarques
- Si vous affichez les dimensions de `x_exp`, `x_sum` et `s` ci-dessus, puis relancez la cellule d’évaluation,  
vous verrez que `x_sum` a la forme `(2, 1)` tandis que `x_exp` et `s` ont la forme `(2, 5)`.  
L'opération **`x_exp / x_sum`** fonctionne grâce au **broadcasting** en Python.

---

🎉 **Félicitations !**  
Vous avez maintenant une bonne compréhension de Python et de NumPy,  
et vous avez implémenté plusieurs fonctions utiles que vous utiliserez en **deep learning**.


<font color='blue'>
<b>Ce qu’il faut retenir :</b>

- `np.exp(x)` fonctionne pour tout tableau `np.array x` et applique la fonction exponentielle à chaque élément  
- La fonction sigmoïde et son gradient  
- `image2vector` est couramment utilisé en deep learning  
- `np.reshape` est largement utilisé. À l’avenir, bien gérer les dimensions de vos matrices/vecteurs vous aidera à éviter de nombreux bugs  
- NumPy dispose de fonctions intégrées très efficaces  
- Le **broadcasting** est extrêmement utile



<a name='2'></a>
## 2 - Vectorisation ##

En deep learning, vous travaillez avec des ensembles de données très volumineux.  
Par conséquent, une fonction qui n’est pas optimisée sur le plan computationnel peut devenir un énorme goulot d’étranglement dans votre algorithme  
et entraîner un modèle extrêmement lent à exécuter.

Pour garantir l’efficacité de votre code, vous utiliserez la **vectorisation**.

Par exemple, essayez d’observer la différence entre les implémentations suivantes :  
- produit scalaire (dot product)  
- produit extérieur (outer product)  
- produit élément par élément (elementwise product)


In [None]:
import time

x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### CLASSIC DOT PRODUCT OF VECTORS IMPLEMENTATION ###
tic = time.process_time()
dot = 0

for i in range(len(x1)):
    dot += x1[i] * x2[i]
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### CLASSIC OUTER PRODUCT IMPLEMENTATION ###
tic = time.process_time()
outer = np.zeros((len(x1), len(x2))) # we create a len(x1)*len(x2) matrix with only zeros

for i in range(len(x1)):
    for j in range(len(x2)):
        outer[i,j] = x1[i] * x2[j]
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### CLASSIC ELEMENTWISE IMPLEMENTATION ###
tic = time.process_time()
mul = np.zeros(len(x1))

for i in range(len(x1)):
    mul[i] = x1[i] * x2[i]
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### CLASSIC GENERAL DOT PRODUCT IMPLEMENTATION ###
W = np.random.rand(3,len(x1)) # Random 3*len(x1) numpy array
tic = time.process_time()
gdot = np.zeros(W.shape[0])

for i in range(W.shape[0]):
    for j in range(len(x1)):
        gdot[i] += W[i,j] * x1[j]
toc = time.process_time()
print ("gdot = " + str(gdot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

In [None]:
x1 = [9, 2, 5, 0, 0, 7, 5, 0, 0, 0, 9, 2, 5, 0, 0]
x2 = [9, 2, 2, 9, 0, 9, 2, 5, 0, 0, 9, 2, 5, 0, 0]

### VECTORIZED DOT PRODUCT OF VECTORS ###
tic = time.process_time()
dot = np.dot(x1,x2)
toc = time.process_time()
print ("dot = " + str(dot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### VECTORIZED OUTER PRODUCT ###
tic = time.process_time()
outer = np.outer(x1,x2)
toc = time.process_time()
print ("outer = " + str(outer) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

### VECTORIZED ELEMENTWISE MULTIPLICATION ###
tic = time.process_time()
mul = np.multiply(x1,x2)
toc = time.process_time()
print ("elementwise multiplication = " + str(mul) + "\n ----- Computation time = " + str(1000*(toc - tic)) + "ms")

### VECTORIZED GENERAL DOT PRODUCT ###
tic = time.process_time()
dot = np.dot(W,x1)
toc = time.process_time()
print ("gdot = " + str(dot) + "\n ----- Computation time = " + str(1000 * (toc - tic)) + "ms")

Comme vous l’avez sans doute remarqué, l’implémentation vectorisée est bien plus claire et efficace.  
Pour des vecteurs ou matrices de plus grande taille, les différences de temps d’exécution deviennent encore plus importantes.

**Remarque** :  
`np.dot()` effectue une multiplication **matrice-matrice** ou **matrice-vecteur**.  
C’est différent de `np.multiply()` ou de l’opérateur `*` (équivalent à `.*` en Matlab/Octave),  
qui réalise une multiplication **élément par élément** (ou **point par point**).
.

<a name='2-1'></a>
### 2.1 Implémentation des fonctions de perte L1 et L2

<a name='ex-8'></a>
### Exercice 8 - L1

Implémentez la version vectorisée avec NumPy de la perte L1 (L1 loss).  
Vous pouvez utiliser la fonction `abs(x)` (valeur absolue de `x`).

**Rappel** :
- La fonction de perte est utilisée pour évaluer les performances de votre modèle.  
Plus la perte est élevée, plus vos prédictions $( \hat{y} $) sont différentes des vraies valeurs ($ y $).  
En deep learning, vous utilisez des algorithmes d’optimisation comme la **descente de gradient** pour entraîner votre modèle et **minimiser le coût**.

- La perte L1 est définie par :
$
L_1(\hat{y}, y) = \sum_{i=0}^{m-1} \left| y^{(i)} - \hat{y}^{(i)} \right| \tag{6}
$


In [None]:
# GRADED FUNCTION: L1

def L1(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)

    Returns:
    loss -- the value of the L1 loss function defined above
    """

    #(≈ 1 line of code)
    # loss =
    # YOUR CODE STARTS HERE


    # YOUR CODE ENDS HERE

    return loss

In [None]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])
print("L1 = " + str(L1(yhat, y)))

L1_test(L1)

<a name='ex-9'></a>
### Exercice 9 - Norme L2
Implémentez la version vectorisée avec NumPy de la perte L2. Il existe plusieurs façons de calculer la perte L2, mais vous pourriez trouver la fonction `np.dot()` utile. Pour rappel, si $x = [x_1, x_2, ..., x_n]$, alors `np.dot(x, x)` = $\sum_{j=0}^n x_j^{2}$.

- La perte L2 est définie comme :  
$$\begin{align*} & L_2(\hat{y}, y) = \sum_{i=0}^{m-1}(y^{(i)} - \hat{y}^{(i)})^2 \end{align*}\tag{7}$$

**Conseils** :  
1. Utilisez les opérations vectorielles de NumPy pour éviter les boucles explicites.  
2. `np.dot()` peut aider à calculer la somme des carrés efficacement.  
3. La différence élément par élément entre `y` et `ŷ` peut être calculée directement par `(y - ŷ)`.  

**Exemple de sortie attendue** :  
```python
 Si y = np.array([1, 2, 3]) et ŷ = np.array([1.1, 2.2, 3.3])
L2 ≈ (0.1² + 0.2² + 0.3²) = 0.14
```

In [None]:
# GRADED FUNCTION: L2

def L2(yhat, y):
    """
    Arguments:
    yhat -- vector of size m (predicted labels)
    y -- vector of size m (true labels)

    Returns:
    loss -- the value of the L2 loss function defined above
    """

    #(≈ 1 line of code)
    # loss = ...
    # YOUR CODE STARTS HERE


    # YOUR CODE ENDS HERE

    return loss

In [None]:
yhat = np.array([.9, 0.2, 0.1, .4, .9])
y = np.array([1, 0, 0, 1, 1])

print("L2 = " + str(L2(yhat, y)))

L2_test(L2)

🎉 **Félicitations pour avoir terminé cet exercice !**  

Nous espérons que cet exercice d’échauffement vous aidera à bien aborder les prochains devoirs,  
qui seront encore plus passionnants et stimulants !


<font color='blue'>
<b>Ce qu’il faut retenir :</b>

- La vectorisation est très importante en deep learning. Elle améliore l’efficacité computationnelle et rend le code plus clair.  
- Vous avez révisé les fonctions de perte L1 et L2.  
- Vous êtes désormais familiarisé avec de nombreuses fonctions NumPy telles que :  
  `np.sum`, `np.dot`, `np.multiply`, `np.maximum`, etc.

