## Build RNN from scratch

### √âtape 1 : Pr√©parer les donn√©es
- Collecte de texte : Choisissez un texte √† utiliser comme donn√©es d'entra√Ænement (par exemple, un roman ou une collection de po√®mes).
Traitement des donn√©es :
- Convertir les caract√®res en entiers (indexation des caract√®res).

In [11]:
text = "exemple de texte pour entra√Æner un RNN."  # Donn√©es
chars = sorted(list(set(text)))
char_to_idx = {ch: i for i, ch in enumerate(chars)}
idx_to_char = {i: ch for i, ch in enumerate(chars)}
char_to_idx

{' ': 0,
 '.': 1,
 'N': 2,
 'R': 3,
 'a': 4,
 'd': 5,
 'e': 6,
 'l': 7,
 'm': 8,
 'n': 9,
 'o': 10,
 'p': 11,
 'r': 12,
 't': 13,
 'u': 14,
 'x': 15,
 '√Æ': 16}

- 2 - **Cr√©er des s√©quences d'entr√©e-sortie (par exemple, une s√©quence de caract√®res comme entr√©e et le caract√®re suivant comme sortie).**


In [12]:
seq_length = 5  # Longueur de la s√©quence
inputs = []  # Contiendra les s√©quences d'entr√©e
targets = []  # Contiendra les sorties correspondantes

for i in range(len(text) - seq_length):
    inputs.append(text[i:i + seq_length])  # S√©quence de 5 caract√®res
    targets.append(text[i + seq_length])  # Caract√®re suivant

# Exemple de r√©sultat
print("Entr√©e:", inputs[:5])
print("Sortie:", targets[:5])


Entr√©e: ['exemp', 'xempl', 'emple', 'mple ', 'ple d']
Sortie: ['l', 'e', ' ', 'd', 'e']


- 3- **One hot encoding de chaque caract√©re**

In [19]:
def one_hot_dict(vocab_size:int, chars:list):
    """One-hot encoding of a each character in the list."""
    dict_one = {}
    for i, char in enumerate(chars):
        encoding = [0] * vocab_size
        encoding[i] = 1
        dict_one[char] = encoding
    return dict_one

one_hot_dict(len(chars), chars)

{' ': [1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 '.': [0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'N': [0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'R': [0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'a': [0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'd': [0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'e': [0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'l': [0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0],
 'm': [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
 'n': [0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0],
 'o': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0],
 'p': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0],
 'r': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0],
 't': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0],
 'u': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0],
 'x': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0],
 '√Æ': [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 


### **3 : Initialiser les param√®tres du RNN**

Un RNN utilise des matrices de poids pour transformer les donn√©es d'entr√©e et les √©tats cach√©s en sorties. Voici les **√©l√©ments principaux** qu'on doit initialiser :

1. **Poids d'entr√©e vers l'√©tat cach√© (\(W_{xh}\))** :
   - Transforme l'entr√©e (vecteur one-hot) en une contribution √† l'√©tat cach√©.

2. **Poids de r√©currence (\(W_{hh}\))** :
   - Combine l'√©tat cach√© pr√©c√©dent pour calculer le nouvel √©tat cach√©.

3. **Poids de l'√©tat cach√© vers la sortie (\(W_{hy}\))** :
   - Transforme l'√©tat cach√© actuel en une probabilit√© pour chaque caract√®re (softmax).

4. **Biais (\(b_h\) et \(b_y\))** :
   - Valeurs ajout√©es respectivement √† l'√©tat cach√© et √† la sortie pour ajuster les calculs.

5. **√âtat cach√© initial (\(h_0\))** :
   - D√©bute g√©n√©ralement avec un vecteur nul.



In [17]:
import numpy as np 

hidden_size = 50
vocab_size = len(chars)

# Initialisation des poids
W_xh = np.random.randn(hidden_size, vocab_size) * 0.01
W_hh = np.random.randn(hidden_size, hidden_size) * 0.01
W_hy = np.random.randn(vocab_size, hidden_size) * 0.01

# Initialisation des biais
b_h = np.zeros((hidden_size, 1))
b_y = np.zeros((vocab_size, 1))

# √âtat cach√© initial
hprev = np.zeros((hidden_size, 1))


Bien jou√© pour l'initialisation‚ÄØ! Maintenant, nous passons √† **l'√©tape cl√©** : **la propagation vers l‚Äôavant (forward pass)**.

---

### **√âtape 4 : Propagation vers l‚Äôavant**

#### **Objectif**
Calculer la sortie du RNN pour une s√©quence donn√©e :
1. Prendre chaque caract√®re de la s√©quence d'entr√©e (one-hot encod√©).
2. Mettre √† jour l'√©tat cach√© (\(h_t\)) en fonction de l'entr√©e actuelle et de l'√©tat pr√©c√©dent.
3. Calculer la probabilit√© de sortie (\(y_t\)) pour pr√©dire le prochain caract√®re.

#### **Pourquoi ?**
La propagation vers l‚Äôavant permet au RNN de :
- Combiner les informations pass√©es (via \(h_t\)).
- Produire une probabilit√© pour chaque caract√®re du vocabulaire en sortie.

---

### **Formules principales**
1. **Mise √† jour de l'√©tat cach√©** :
   \[$
   h_t = \tanh(W_{xh} \cdot x_t + W_{hh} \cdot h_{t-1} + b_h)
   $\]

2. **Calcul de la sortie** :
   \[$
   y_t = \text{softmax}(W_{hy} \cdot h_t + b_y)
   $\]

3. **Softmax** (convertir les scores en probabilit√©s) :
   \[$
   y_t[i] = \frac{e^{z[i]}}{\sum_{j} e^{z[j]}}
   $\]

---

### **√âtape √† suivre pour coder cela**
1. **Initialiser l'√©tat cach√©** (\(h_0\)) avec `hprev`.
2. **Pour chaque caract√®re** dans la s√©quence d'entr√©e :
   - Multiplier \(x_t\) par \(W_{xh}\).
   - Ajouter la contribution de l'√©tat pr√©c√©dent (\(W_{hh} \cdot h_{t-1}\)).
   - Ajouter le biais (\(b_h\)) et appliquer `tanh` pour obtenir \(h_t\).
   - Calculer la sortie brute (\(W_{hy} \cdot h_t + b_y\)).
   - Appliquer la softmax pour obtenir les probabilit√©s.

3. **Retourner les √©tats cach√©s (\(h_t\)) et les probabilit√©s (\(y_t\))**.



In [20]:
def forward_pass(inputs, hprev, W_xh, W_hh, W_hy, b_h, b_y, vocab_size, one_hot_dict):
    h = hprev  # √âtat cach√© initial
    outputs = []  # Stocker les probabilit√©s de sortie
    hs = {}  # Stocker les √©tats cach√©s pour chaque √©tape
    hs[-1] = np.copy(h)  # √âtat cach√© initial
    
    for t, char in enumerate(inputs):
        # Encoder le caract√®re en one-hot
        x_t = np.array(one_hot_dict[char]).reshape(-1, 1)
        
        # Calculer le nouvel √©tat cach√©
        h = np.tanh(np.dot(W_xh, x_t) + np.dot(W_hh, h) + b_h)
        hs[t] = np.copy(h)
        
        # Calculer la sortie brute et appliquer softmax
        y_raw = np.dot(W_hy, h) + b_y
        y = np.exp(y_raw) / np.sum(np.exp(y_raw))  # Softmax
        outputs.append(y)
    
    return outputs, hs


Une fois la propagation vers l'avant impl√©ment√©e et test√©e, l'√©tape suivante est d'impl√©menter la **propagation arri√®re** (**Backpropagation Through Time, ou BPTT**) pour permettre au RNN d'apprendre √† partir des erreurs. C'est l√† que le RNN ajuste ses poids et biais pour mieux pr√©dire √† l'avenir.

---

### **√âtape 5 : Propagation arri√®re (BPTT)**

#### **Pourquoi ?**
La propagation arri√®re permet de calculer les gradients des pertes par rapport aux param√®tres du mod√®le (\(W_{xh}\), \(W_{hh}\), \(W_{hy}\), \(b_h\), \(b_y\)) afin d'effectuer une mise √† jour avec un algorithme comme la descente de gradient.

#### **D√©roulement de la BPTT**
1. **Calculer la perte globale** :
   - Pour chaque √©tape, compare les sorties pr√©dites (\(y_t\)) aux cibles r√©elles (c'est-√†-dire le caract√®re suivant attendu).
   - Utilise une fonction de perte, par exemple, **l'entropie crois√©e** :
     \[
     \text{loss} = -\sum_t \log(y_t[cible])
     \]

2. **Calculer les gradients** :
   - Remonte √† travers le temps (de \(T\) √† \(0\)) pour calculer les contributions de chaque √©tape √† la perte globale.
   - Propager les gradients des erreurs dans :
     - Les sorties (\(y_t\)).
     - L'√©tat cach√© (\(h_t\)).
     - Les poids (\(W_{xh}\), \(W_{hh}\), \(W_{hy}\)) et les biais.

3. **Mettre √† jour les param√®tres** :
   - Applique les gradients pour ajuster les poids et les biais via la **descente de gradient** :
     \[
     \theta \leftarrow \theta - \eta \cdot \frac{\partial \text{loss}}{\partial \theta}
     \]
   - (\(\eta\) est le taux d'apprentissage).

---

### **√âtapes pour le code**
1. **Calculer la perte** :
   Impl√©mente la formule d'entropie crois√©e pour chaque √©tape.

2. **R√©tropropager les gradients** :
   Calcule les d√©riv√©es partielles pour chaque param√®tre :
   - Les poids d'entr√©e (\(W_{xh}\)).
   - Les poids r√©currents (\(W_{hh}\)).
   - Les poids de sortie (\(W_{hy}\)).
   - Les biais (\(b_h\), \(b_y\)).

3. **Effectuer une mise √† jour des param√®tres**.



In [21]:
def backward_pass(inputs, targets, outputs, hs, W_xh, W_hh, W_hy, b_h, b_y, vocab_size, one_hot_dict, learning_rate):
    # Initialiser les gradients
    dW_xh, dW_hh, dW_hy = np.zeros_like(W_xh), np.zeros_like(W_hh), np.zeros_like(W_hy)
    db_h, db_y = np.zeros_like(b_h), np.zeros_like(b_y)
    dh_next = np.zeros_like(hs[0])  # Gradient de l'√©tat cach√© suivant
    
    # Boucle inverse (du dernier caract√®re au premier)
    for t in reversed(range(len(inputs))):
        # Calcul de l'erreur de sortie
        dy = np.copy(outputs[t])
        target_idx = char_to_idx[targets[t]]
        dy[target_idx] -= 1  # Gradient de la perte par rapport √† la sortie
        
        # Gradient pour W_hy et b_y
        dW_hy += np.dot(dy, hs[t].T)
        db_y += dy
        
        # Gradient de l'√©tat cach√©
        dh = np.dot(W_hy.T, dy) + dh_next  # Gradient total pour h_t
        dh_raw = (1 - hs[t] ** 2) * dh  # Gradient apr√®s tanh
        
        # Gradient pour W_xh, W_hh, et b_h
        dW_xh += np.dot(dh_raw, one_hot_dict[inputs[t]].reshape(1, -1))
        dW_hh += np.dot(dh_raw, hs[t - 1].T)
        db_h += dh_raw
        
        # Propager le gradient vers l'√©tat cach√© pr√©c√©dent
        dh_next = np.dot(W_hh.T, dh_raw)
    
    # Clipping des gradients (pour √©viter exploding gradients)
    for dparam in [dW_xh, dW_hh, dW_hy, db_h, db_y]:
        np.clip(dparam, -5, 5, out=dparam)
    
    # Mise √† jour des param√®tres
    W_xh -= learning_rate * dW_xh
    W_hh -= learning_rate * dW_hh
    W_hy -= learning_rate * dW_hy
    b_h -= learning_rate * db_h
    b_y -= learning_rate * db_y
    
    return W_xh, W_hh, W_hy, b_h, b_y


### Entra√Ænement du mod√®le
L'entra√Ænement consiste √† it√©rer plusieurs fois sur les donn√©es (les √©poques), appliquer la propagation avant pour obtenir les sorties du RNN, calculer la perte, et mettre √† jour les poids avec la r√©tropropagation.

- **Objectif** :

Entra√Æner le RNN sur plusieurs √©poques (par exemple, 100 √©poques).
√Ä chaque √©poque, passer par toutes les s√©quences de texte, calculer la perte et ajuster les poids.
- **Pourquoi ?**
L'entra√Ænement permet au RNN d'am√©liorer ses pr√©dictions en ajustant progressivement ses param√®tres (poids et biais). Chaque √©poque aide le mod√®le √† mieux comprendre la structure du texte pour g√©n√©rer des s√©quences plus coh√©rentes.

In [22]:
def train_rnn(inputs, targets, vocab_size, one_hot_dict, n_epochs, learning_rate):
    W_xh, W_hh, W_hy, b_h, b_y = initialize_parameters(vocab_size)  # Initialise les param√®tres
    for epoch in range(n_epochs):
        loss = 0  # Pour suivre la perte de chaque √©poque
        hprev = np.zeros((hidden_size, 1))  # R√©initialise l'√©tat cach√© pour chaque √©poque
        
        for i in range(len(inputs)):
            # Propagation avant
            outputs, hs = forward_pass(inputs[i], hprev, W_xh, W_hh, W_hy, b_h, b_y, vocab_size, one_hot_dict)
            
            # Calcul de la perte (entropie crois√©e)
            target_idx = char_to_idx[targets[i]]
            loss += -np.log(outputs[-1][target_idx])
            
            # R√©tropropagation
            W_xh, W_hh, W_hy, b_h, b_y = backward_pass(inputs[i], targets[i], outputs, hs, W_xh, W_hh, W_hy, b_h, b_y, vocab_size, one_hot_dict, learning_rate)
        
        # Affichage de la perte √† chaque √©poque
        print(f'√âpoque {epoch+1}/{n_epochs}, Perte : {loss}')
    
    return W_xh, W_hh, W_hy, b_h, b_y


## G√©n√©ration de texte
Une fois que le mod√®le est entra√Æn√©, tu peux l'utiliser pour g√©n√©rer du texte √† partir d'un caract√®re initial.

Objectif : G√©n√©rer une s√©quence de texte de longueur ùêø
L en partant d'un caract√®re initial et en utilisant les sorties du RNN pour pr√©dire le caract√®re suivant.

Pourquoi ?
La g√©n√©ration de texte permet de tester la capacit√© du mod√®le √† apprendre des d√©pendances et √† pr√©dire des caract√®res coh√©rents √† partir du texte appris.

Comment ?
Initialiser l'√©tat cach√© avec un vecteur nul ou un √©tat cach√© appris.
Donner un caract√®re initial comme entr√©e.
√Ä chaque √©tape :
Pr√©dire le prochain caract√®re en fonction de l'√©tat cach√©.
Utiliser ce caract√®re comme entr√©e pour la pr√©diction suivante.

In [23]:
def generate_text(start_char, length, W_xh, W_hh, W_hy, b_h, b_y, one_hot_dict, idx_to_char):
    hprev = np.zeros((hidden_size, 1))  # Initialisation de l'√©tat cach√©
    generated_text = start_char  # Commencer avec le caract√®re initial
    
    for i in range(length):
        x_t = np.array(one_hot_dict[start_char]).reshape(-1, 1)  # Encoder le caract√®re initial
        h = np.tanh(np.dot(W_xh, x_t) + np.dot(W_hh, hprev) + b_h)  # Propagation avant
        
        # Calcul de la sortie et application de softmax
        y_raw = np.dot(W_hy, h) + b_y
        y = np.exp(y_raw) / np.sum(np.exp(y_raw))  # Softmax
        
        # Choisir le caract√®re suivant (maximum de la probabilit√©)
        next_char_idx = np.argmax(y)
        next_char = idx_to_char[next_char_idx]
        
        # Ajouter le caract√®re √† la s√©quence g√©n√©r√©e
        generated_text += next_char
        start_char = next_char  # Utiliser le prochain caract√®re comme entr√©e pour la suivante g√©n√©ration
        hprev = h  # Mettre √† jour l'√©tat cach√©
    
    return generated_text
