# Introduction

Les RNN sont particulièrement adaptés au traitement de données séquentielles, où l'ordre des éléments détient une information significative. L'objectif est de prédire le future. Les exemples de données séquentielles incluent des séries temporelles, des phrases, des données audio, des trajectoires de véhicules, etc. L'ordre des éléments est crucial pour comprendre l'information dans de telles données.

<img src="rnn-example-1.jpg" width=50%>

<img src="rnn-example-2.jpg" width=50%>

### Prédiction des Décalages Séquentiels

## Neurones Récursifs

La principale différence entre un neurone normal et un neurone récurrent réside dans la capacité du neurone récurrent à maintenir une mémoire des entrées précédentes. Les neurones récurrents sont conçus pour traiter des données séquentielles en introduisant un mécanisme de rétroaction qui permet à la sortie d'un pas de temps précédent de devenir une entrée pour le pas de temps suivant.

Neurone Normal (Feedforward Neuron) :

- Prend un ensemble d'entrées et effectue une opération d'agrégation.
- Applique une fonction d'activation pour produire une sortie.
- Ne garde pas de mémoire des sorties passées.
- Convient généralement pour des tâches où l'ordre des données n'est pas significatif.

<img src="normal-neuron.jpg" width=50%>

<img src="normal-neurons.jpg" width=50%>


Neurone Récurrent :

- Prend un ensemble d'entrées, mais ajoute également une entrée provenant de la sortie à l'étape précédente.
- Utilise une fonction d'activation pour produire une sortie.
- La sortie précédente est utilisée pour rétroagir dans le temps et influencer la sortie actuelle.
- Peut conserver une mémoire à court terme des informations séquentielles.
- Convient pour des tâches où l'ordre des données est crucial, comme dans les séquences temporelles ou le langage naturel.

En résumé, les neurones récurrents introduisent une dimension temporelle, permettant de traiter des données séquentielles en conservant une mémoire des états précédents. Cela les rend adaptés à une variété de tâches liées à la séquence, telles que la prédiction temporelle, la génération de texte et la compréhension du langage naturel.

<img src="rnn-neuron.jpg" width=50%>

<img src="normal-neuron-2.jpg" width=50%>

<img src="rnn-neurons.jpg" width=50%>

Plusieurs neurones récurrents peuvent être organisés en une couche RNN. Cette couche est déroulée dans le temps, permettant à chaque neurone de conserver une mémoire de sortie.

<img src="rnn-neurons-2.jpg" width=50%>

## Type architectures des RNN

Many-to-Many (Sequence-to-Sequence) :

- Entrée : Une séquence d'informations.
- Sortie : Une séquence d'informations.
- Exemple : Prédire les mots suivants dans une phrase.

Many-to-One :

- Entrée : Une séquence d'informations.
- Sortie : Une seule sortie.
- Exemple : Prédire le prochain mot dans une phrase.

One-to-Many :

- Entrée : Une seule entrée.
- Sortie : Une séquence d'informations.
- Exemple : Générer une légende pour une image.

One-to-One (Feedforward) :

- Entrée : Une seule entrée.
- Sortie : Une seule sortie.
- Exemple : Classification d'image unique.

## Défis des RNN de Base

Les RNN de base ont des limitations. Ils dépendent principalement de la mémoire à court terme et peuvent oublier des informations historiques plus anciennes. De plus, le problème de la disparition du gradient peut entraver l'apprentissage.

## Problème de la Disparition du Gradient

Pour résoudre ce problème nous approfondirons le problème de la disparition du gradient avant d'introduire les unités de mémoire à court et long terme (LSTM) comme solution.

Les unités LSTM (Long Short Term Memory) et GRU (Gated Recurrent Unit) sont des éléments essentiels des réseaux neuronaux récurrents (RNN) qui aident à résoudre des problèmes spécifiques liés à l'apprentissage sur des séquences temporelles.

## Problèmes avec les RNN Traditionnels

Les RNN traditionnels peuvent avoir des difficultés à conserver des informations sur de longues séquences. Par exemple, ils peuvent oublier des éléments importants lors de la rétropropagation du gradient pendant l'entraînement.

## Solution : Les Unités LSTM

Les unités LSTM ont été conçues pour résoudre ces problèmes en introduisant une mémoire à court terme et à long terme. Elles sont composées de différentes "portes" qui permettent de contrôler le flux d'informations à travers le réseau.

## Composants Principaux d'une Unité LSTM

<img src="ltsm.jpg" width="35%">

<img src="ltsm-2.jpg" width="30.5%">

1. **Porte d'Oubli (Forget Gate):**  décide quelles informations de l'état cellulaire précédent (mémoire à long terme) doivent être oubliées ou conservées. La fonction sigmoïde est utilisée pour produire des valeurs entre 0 et 1, où 0 signifie "oublier complètement" et 1 signifie "se souvenir intégralement". Cela permet à l'unité LSTM de gérer les informations importantes sur de longues séquences temporelles.
2. **Porte d'Entrée (Input Gate):** détermine quelles nouvelles informations de l'entrée actuelle doivent être ajoutées à l'état cellulaire. La fonction sigmoïde est utilisée pour réguler quelles parties de l'entrée doivent être mises à jour. Une autre fonction, généralement la tangente hyperbolique (tanh), crée un vecteur de nouvelles informations potentielles qui pourraient être ajoutées à l'état cellulaire.
3. **Porte de Mise à Jour (Update Gate):** combine l'ancien état cellulaire avec les nouvelles informations pondérées décidées par la porte d'entrée. Cela met à jour l'état cellulaire (mémoire à long terme) en tenant compte des informations importantes de l'entrée actuelle.
4. **Porte de Sortie (Output Gate):**  filtre l'état cellulaire mis à jour pour produire la sortie finale. La sortie est régulée en fonction de l'état cellulaire et de l'entrée actuelle. Cela permet de générer une sortie utile en tenant compte à la fois de la mémoire à court terme et de la nouvelle information.
