In [None]:
# Cours n° 1 : semaine 2 

### Neural Networks and Deep Learning

Voyons maintenant le cas de la régression logistique qui est en fait un très petit réseau de neurones !

Si on considère un jeu de données de type image, on va être capable de prédire si une image  est celle d’un chat. En effet, pour cela il suffit de savoir qu’une image en termes de données revient à la définir sous la forme de 3 matrices d’intensités de couleurs :
- un tableau de dimension « nombre de pixels » x « nombre de pixels » pour les couleurs Rouge (Red = R)
- un tableau de dimension « nombre de pixels » x « nombre de pixels » pour les couleurs vertes (Green = G)
- un tableau de dimension « nombre de pixels » x « nombre de pixels » pour les couleurs bleues (Blue = B)

<img src="images/representation_image.png" style="width:700px;height:400;">
<caption><center> <u> **Figure 4** </u>: **représentation des données d’une image**<br> </center></caption>

On peut formaliser l’expression de la régression logistique pour une seule observation par :

$\hat{Y} = p(Y = 1 | X)$

$\hat{Y} = \sigma(w^Tx + b)$ avec w vecteur réel de dimension nx et x vecteur réel de dimension nx<br>
avec $\sigma$ qui désigne la fonction sigmoïde.

En connaissant ce formalisme, on peut l’appliquer à n’importe quelle observation (i), on a alors : 
$\hat{Y} = \sigma(w^Tx + b)$<br>

On considère le vecteur $\theta = \begin{bmatrix} \theta_{₀} \\ 
                                                  \theta_{1} \\
                                                   \vdots\\
                                                  \theta_{n_{x}} \\ 
                                   \end{bmatrix} $
sachant que le paramètre  $\theta_{0} = b$ et $\theta_{0}, \theta_{1}, …, \theta_{n_{x}}$ correspondent à $w$

On peut écrire : <br>
$\hat{Y} = \sigma(\theta^Tx)$

Pour réaliser l’apprentissage des paramètres w et b, il faut définir une fonction de coût $J$ qui va permettre d’estimer les paramètres w et b qui minimisent J. Cette fonction de coût est à estimer en fonction de tous les données d’apprentissage c’est-à-dire en fonction des m exemples d’apprentissage dont on dispose.<br>

La fonction de coût « squared error » : <br>
$L(\hat{y},y) = \frac{1}{2}(\hat{y} - y)^{2}$ pourrait être utilisée, mais il se trouve que cette fonction de coût n’est pas adaptée lorsqu’elle est associée à l’algorithme gradient descent, car elle est non convexe et conduit à l’obtention de plusieurs minimums locaux.

Dans le cas d’une régresssion logistique, c’est plutôt la fonction de coût de type « cross entropy » qui est utilisée : 

$L(\hat{y},y) =  - (y log(\hat{y}) + (1 - y) log(1 - \hat{y}))$

Cette fonction de coût convexe associée à l’algorithme « gradient descent » va permettre d’obtenir un minimum local qui va être global.

On peut remarquer que si on considère la fonction de coût « cross entropy » pour une observation :

- si une valeur observée y = 1, minimiser la fonction de coût implique que ŷ soit le plus proche possible de 1
- si une valeur observée y = 0, minimiser la fonction de coût implique que ŷ soit le plus proche possible de 0

Et pour $m$ observations la fonction de coût $J$ va s’écrire :

$J = -\frac{1}{m}\sum_{i=1}^m y^{(i)}log(\hat{y}^{(i)}) + (1 - y^{(i)}) log(1 - \hat{y}^{(i)})$

Supposons que nous avons une seule observation (i) et que nous avons seulement 2 features, le modèle va s’écrire :

$\hat{y} = \sigma(w_₁x_₁ + w_2x_2 + b)$

On peut définir : $z = w_₁x_₁ + w_2x_2 + b$ et l’activation : $a = \sigma(z)$

La variation de la fonction de coût $L$ pour une seule observation par rapport  à $z$ peut se définir par :
$dz = \frac{\partial J}{\partial z}  =  \frac{\partial J}{\partial a}\frac{\partial a}{\partial z}$<br>
Comme l’expression de la fonction de coût est :<br>
$L = -y log(a) - (1 - y) log(1 - a)$<br>
$\frac{\partial L}{\partial a} = -\frac{y}{a} + \frac{(1 - y)}{(1-a)} $<br>
Et : <br>
$\frac{\partial a}{\partial z} = \sigma^{'}(z) = \sigma(z)(1 - \sigma(z)) = a(1-a)$<br>
D’où :<br>
$dz = a - y$

On a aussi : <br>
$dw_₁ = \frac{\partial L}{\partial w_1} = \frac{\partial L}{\partial z}\frac{\partial z}{\partial w_1} = dz \cdot x_1$<br>
$dw_₂ = \frac{\partial L}{\partial w_2} = \frac{\partial L}{\partial z}\frac{\partial z}{\partial w_2} = dz \cdot x_2$<br>
$db =  \frac{\partial L}{\partial z}\frac{\partial z}{\partial b} = dz \cdot 1 = dz$

Enfin, on procédera à une mise à jour des paramètres grâce à :<br>

- $w₁ = w_1 - \alpha \cdot dw_1$
- $w₂ = w_2 - \alpha \cdot dw_2$
- $b = b - \alpha \cdot db$

L’algorithme du gradient descent permet d’estimer les paramètres $w$ et $b$ qui minimisent la fonction de coût $J$. <br>
Ci-dessous les étapes importantes de cet algorithme sachant que le but est de connaître les expressions de $\frac{\partial J}{\partial w_1}$, $\frac{\partial J}{\partial w_2}$ et $\frac{\partial J}{\partial b}$, c’est-à-dire les expressions des gradients de $J$ par rapport aux paramètres à estimer du modèle. Le but ici n’est pas de calculer directement les dérivées de $J$ mais d’utiliser les expressions simplifiées trouvées précédemment pour une seule observation dans le cas de m observations.

Pour rappel, les étapes du gradient descent sont :

1. Initialisation des paramètres à zéro ou à des valeurs aléatoires
2. Pour chaque itération, tant que $J$ décroît :
	- calcul de $J$ en fonction des données observées, connaissant la prédiction pour chaque observation 
	- calcul du gradient de $J$ par rapport aux paramètres à estimer
	- Mise à jour des paramètres

Une fois que l’algorithme atteint des valeurs des gradients proches de zéro, on dit que l’algorithme converge. Les valeurs des paramètres obtenues sont alors les valeurs estimées.

Astuce : $J = \frac{1}{m}$ * somme des m fonctions de coût de chaque observation<br>
Donc :<br> $\frac{\partial J}{\partial w_1} = \frac{1}{m}$ * somme des $m$ dérivées $\frac{\partial L}{\partial w_1}$<br>
$\frac{\partial J}{\partial w_2} = \frac{1}{m}$ * somme des $m$ dérivées$\frac{\partial L}{\partial w_2}$<br>
$\frac{\partial J}{\partial b} = \frac{1}{m}$ * somme des $m$ dérivées$\frac{\partial L}{\partial b}$

L’algorithme s’écrit alors : 
1. Initialisation des paramètres à zéro ou à des valeurs aléatoires
2. Pour chaque itération, tant que $J$ décroit :<br>
$\hspace{10mm}$pour chaque observation (i) :<br>

$\hspace{20mm}$ - calcul de $z^{(i)}$ :<br>
$\hspace{20mm}$ $z^{(i)} =   w_1x_1^{(i)} + w_2x_2^{(i)} + b$, d’où : $dz^{(i)} = a^{(i)}  - y^{(i)}$<br>
$\hspace{20mm}$  - cumul de $J$ (l’expression de $J$ sert à s’assurer de la décroissance de $J$)<br>
$\hspace{20mm}$  - cumul des  gradients sachant que :<br>
$\hspace{30mm}  dw₁ += x_1^{(i)} \cdot dz^{(i)}$<br>
$\hspace{30mm}  dw₂ += x_2^{(i)} \cdot dz^{(i)}$<br>
$\hspace{30mm}  db += dz^{(i)}$<br>

$\hspace{20mm}$ Mise à jour des paramètres avec :<br>
$\hspace{20mm}$ - $w_1 = w_1 - \alpha \cdot dw_1$<br>
$\hspace{20mm}$ - $w_2 = w_2 - \alpha \cdot dw_2$<br>
$\hspace{20mm}$ - $b = b - \alpha \cdot db$

**ATTENTION** : l’algorithme originel tel que décrit ci-dessus, présente des "boucles for" explicites suivant les $m$ observations et suivant les $n_x$ features. Il faudra faire de la vectorisation pour éviter ces "boucles for" explicites qui nécessiterait de créer des datasets temporaires énormes pour ce calcul !<br> 
Ce qui va être très important pour le Deep learning.

Qu’est-ce que la vectorisation ?<br>
Exemple : plaçons nous dans le cas d’une seule observation pour le calcul de z :<br>
$\hspace{10mm} z = w^T x + b$

Si on s’intéresse au calcul du terme $w^T x$, l’implémentation avec Python pour la version non vectorisée et celle vectorisée est différente.<br>
La version vectorisée s’écrit une seule ligne de code Python de manière matricielle avec : « np.dot(w,x) »<br>
La méthode vectorisée est 300 fois plus rapide, d’où l’intérêt de travailler de manière vectorisée  et ce d’autant plus qu’on travaille sur des problématiques Deep learning.

De plus, l’importance de la GPU vs la CPU va encore permettre de diminuer les temps de calcul d’autant plus si on peut aussi paralléliser les traitements.

Maintenant on peut vectoriser tout l’algorithme « gradient descent » avec m observations.

Cette  fois, on part de la matrice des données d’entrée $X$ qui a une écriture matricielle :

$X = \begin{bmatrix} 
| & | & ... & | \\ 
x^{(1)} & x^{(2)} & ... & x^{(m)} \\ 
| & | & ... & |  
\end{bmatrix}$<br>

C'est une matrice de dimension $(n_x,m)$

La matrice $Z$ va s'écrire:<br>
$Z = \begin{bmatrix} 
z^{(1)} & z^{(2)} & ... & z^{(m)} \\ 
\end{bmatrix} = w^T \cdot X + b =  \begin{bmatrix} 
w^T x^{(1)} + b  & w^T x^{(2)} + b & ... & w^T x^{(m)} + b \\ 
\end{bmatrix}$<br>

A noter que : $w^T \cdot X + b$ est une écriture matricielle, il s'agit bien d'un produit entre les matrices
$w^T$ de dimension $(1,n_x)$ et $X$ de dimension $(n_x,m)$ puis somme avec la "matrice" $b$ de dimension $(1,m)$

Avec Numpy, $w^{T}X+b $ va s'écrire : Z = np.dot(W.T,X) + b

**Attention** <br>$b$ est un nombre réel mais Numpy pratique le « broadcasting », c’est-à-dire que chaque nombre réel $b$ va être adapté à la dimension de la matrice "np.dot(W.T,X)" et $b$ sera donc considéré de dimension $(1,m)$

La matrice A va s’écrire : <br>

$A = \begin{bmatrix} 
a^{(1)} & a^{(2)} & ... & a^{(m)} \\ 
\end{bmatrix} = \sigma(Z)$

Avec $\sigma(Z)$ qui permet d'implémenter de manière vectorisée « forward propagation » pour m exemples en une seule étape.

On utilise aussi comme notations matricielles :

$dZ = \begin{bmatrix} 
dz^{(1)} & dz^{(2)} & ... & dz^{(m)} \\ 
\end{bmatrix}$ et $Y = \begin{bmatrix} 
y^{(1)} & y^{(2)} & ... & y^{(m)} \\ 
\end{bmatrix}$

L’algorithme « gradient descent » pour $m$ exemples d’apprentissage va s’écrire  de manière complètement vectorisée :<br>
    on suppose ici que l’on fait 1000 itérations.<br>
for iter in range(1000) :<br>
$\hspace{10mm}$ Etape "forward propagation" :<br>
$\hspace{10mm} Z =  w^T \cdot X + b$ &emsp;Ecriture Python : Z = np.dot(W.T,X) + b<br>
$\hspace{10mm}$ Etape "calcul des activations" :<br>
$\hspace{10mm} A =  \sigma(Z)$<br>
$\hspace{10mm} dZ =  A - Y $  &emsp;Ecriture Python : dZ = A - Y<br>
$\hspace{10mm}$ Etape cumul des gradients "dw" pour les $m$ observations puis on divise par $m$ :<br>
$\hspace{10mm} dw = \frac{1}{m} X dZ^T$ &emsp;Ecriture Python : dw = (1/m).np.dot(X,dZ.T)<br>
$\hspace{10mm}$ Etape cumul des gradients "db" pour les $m$ observations puis on divise par $m$ :<br>
$\hspace{10mm} db = \frac{1}{m} \sum_{i=1}^mdz^{(i)}$ &emsp;Ecriture Python : db = (1/m).np.sum(dZ)<br>
$\hspace{10mm}$ Etape de mise à jour des poids :<br>
$\hspace{10mm}$ $w := w - \alpha \cdot dw$<br>
$\hspace{10mm}$ $b := b - \alpha \cdot db$<br>

**Heroes of Deep learning** :<br>

**Pieter Abbeel interview** : <br>
Pieter Abbeel est un chercheur en Deep learning et Robotique. Il a fait beaucoup de recherches en Deep reinforcement learning notamment sur une problématique de vol autonome d’hélicoptère. Il a constaté qu’au début de ses recherches il fallait passer beaucoup de temps pour allier expertise dans le domaine de recherche à une expertise en Machine Learning. Mais en 2012, les résultats de Geoffrey Hinton pour Image Net ont montré qu’on pouvait faire de l’apprentissage supervisé avec moins d’expertise métier. Mais on doit se poser beaucoup plus de questions avec le reinforcement learning qu’avec le supervised learning. Il y a beaucoup de challenges avec le reinforcement learning, par exemple comment on pourrait apprendre pour un horizon très grand comme sur plusieurs heures ou plusieurs jours. D’autres challenges concernent l’apprentissage afin qu’il reste sécurisé et aussi comment on robot pourrait apprendre mieux qu’un humain ? Selon lui il y a beaucoup de cours en ligne intéressants, comme celui de Deep learning d’Andrej Karpathy. Berkeley propose des cours en ligne sur le reinforcement learning. Et il pense qu’il faut pratiquer, utiliser Tensorflow, Chainer, Theano, Pytorch,…. Et selon lui, il est facile d’obtenir quelque chose très rapidement. 
Enfin, pour la mise en place de cas réels et pratiques, le reinforcement learning ne peut être utilisé au départ qu’après une phase d’utilisation du Machine learning capable de mimer, cloner le comportement humain puis le reinforcement learning serait à déployer de manière à être capable de prédire à long terme.