In [None]:
# Corrections

# 2.1 Word Embeding

Les techniques de Word Embedding via le Deep Learning utilisent des réseaux de neurones pour générer des représentations vectorielles denses de mots à partir de grands corpus de textes.

Ils apprennent à partir des co-occurrences de mots dans des contextes similaires pour créer des vecteurs qui capturent les relations sémantiques et syntaxiques entre les mots. Les modèles Word Embedding peuvent ensuite être utilisés pour résoudre diverses tâches de NLP, telles que la classification de texte, la traduction automatique, la génération de texte et l'analyse de sentiment.


<img src='https://www.nlplanet.org/course-practical-nlp/_images/word_embeddings.png' width="600">


1. La couche Embedding va transformer chaque index de mots en vecteur d’embedding. La matrice de l’embedding sera apprise tout au long de l'entrainement du model. Les dimensions résultantes sont :
- batch-> Taille du lot,
- pad (ou sequence) -> longueur des document,
- embedding -> La longueur des vecteurs de mots.

2. La couche embeding envoie les vecteurs ensuite au réseau de neurones afin de prédire une classe.

3. Pour finir, la rétropropagation va mettre à jour les poids de la matrice d’embedding afin de maximiser la précision du modèle et créer des vecteurs d’embedding qui sont plus pertinents pour la tâche de classification.

In [2]:
!python -m spacy download fr_core_news_md && pip install tensorflow

Collecting fr-core-news-md==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_md-3.8.0/fr_core_news_md-3.8.0-py3-none-any.whl (45.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.8/45.8 MB[0m [31m30.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: fr-core-news-md
Successfully installed fr-core-news-md-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_md')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.
Collecting tensorflow
  Downloading tensorflow-2.19.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.1 kB)
Collecting astunparse>=1.6.0 (from tensorflow)
  Downloading astunparse-1.6.3-py2.py3-none-any.whl.metadata 

In [3]:
import spacy
# Create a Tokenizer with the default settings for English :
nlp = spacy.load("fr_core_news_md")
# Exemple de texte
text = "Machine learning is transforming industries."

# Transformer le texte en un objet spaCy
doc = nlp(text)
list(doc)

[Machine, learning, is, transforming, industries, .]

In [4]:
doc[0].vector

array([ 1.3070e+00,  7.4529e-02, -3.8663e-01,  3.0847e+00, -5.6217e-01,
        5.2215e-01, -1.2851e+00, -2.2116e+00, -3.4367e-01,  1.1250e+00,
       -2.0044e-01, -2.3004e+00, -1.9413e-01,  1.7198e+00, -1.6020e+00,
        1.3826e+00,  2.0348e-01, -1.9088e+00,  1.2299e+00,  1.4389e+00,
        2.1295e+00,  2.6553e+00,  1.1960e+00,  6.7653e-01, -1.7485e+00,
       -5.4685e-01, -1.8492e+00, -2.9083e-01,  8.6535e-02, -1.6107e+00,
        2.6295e+00, -2.0036e+00,  6.6789e-01, -3.9585e-01,  1.6796e+00,
       -3.7913e-01,  3.9507e-01, -1.0178e+00, -1.0168e+00,  1.5745e+00,
        9.8071e-02, -1.1518e+00,  1.8312e+00,  2.8515e-01,  1.2631e+00,
       -3.4645e-01, -7.6541e-02,  1.4363e+00,  1.9946e+00,  1.1709e+00,
        8.7533e-01, -5.9239e-01, -8.9845e-01, -1.0132e+00,  6.4800e-01,
       -1.6358e+00,  1.1647e+00,  5.4266e-01, -1.9492e+00,  3.3216e+00,
        9.5798e-01,  1.5116e-01, -1.4555e+00, -1.0148e+00, -7.2329e-01,
        1.5446e-01,  1.3199e+00,  1.0911e+00, -9.1015e-01,  2.08

In [5]:
len(doc.vector)

300

In [6]:
for token in doc:
    print(f"{token.text} → {len(token.vector)} dimensions")

Machine → 300 dimensions
learning → 300 dimensions
is → 300 dimensions
transforming → 300 dimensions
industries → 300 dimensions
. → 300 dimensions


In [7]:
print(nlp.pipe_names)

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']


In [8]:
# Obtenir l'embedding d'un mot spécifique
word_embedding = doc[0].vector  # Embedding du mot "Machine"

# Obtenir l'embedding moyen du texte entier (phrase embedding)
sentence_embedding = doc.vector

# Afficher les dimensions et un aperçu des embeddings
print("Word Embedding du mot 'Machine' :", word_embedding[:5])  # Afficher les 5 premières valeurs
print("Embedding de la phrase complète", sentence_embedding[:5])  # Afficher les 5 premières valeurs
print("Embedding dimension:", len(word_embedding))

Word Embedding du mot 'Machine' : [ 1.307     0.074529 -0.38663   3.0847   -0.56217 ]
Embedding de la phrase complète [-0.01232834  0.15979314 -0.15142666  0.85388    -2.0837533 ]
Embedding dimension: 300


In [9]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding

max_features = 15       # Taille du vocabulaire
embedding_dim = 128     # Taille des ebedding
maxlen = 100            # Longueure max des textes

model = Sequential([Embedding(input_dim=max_features, output_dim=embedding_dim, input_length=maxlen)])



# **2.2 - Recurrent Neural Networks (RNN)**

Les **Recurrent Neural Networks (RNN)** sont une classe de réseaux de neurones artificiels conçus pour traiter des **données séquentielles**. Contrairement aux réseaux de neurones traditionnels (perceptrons multicouches, CNN), les RNN possèdent des **connexions récurrentes**, leur permettant de conserver une **mémoire des informations précédentes** et de capturer des relations temporelles.  

Ils sont largement utilisés dans des tâches impliquant du texte, de l’audio ou des séries temporelles, telles que :
- **Classification de texte** (analyse de sentiments, détection de spam),
- **Traduction automatique** (ex : Google Translate),
- **Reconnaissance vocale** (ex : Siri, Alexa),
- **Génération de texte** (ex : ChatGPT, GPT-4).

---

## 🔎 **1. Différence entre un réseau classique et un RNN**  

### 🏛 Réseau de Neurones Classique (MLP)
Un **Multi-Layer Perceptron (MLP)** traite **chaque entrée indépendamment**, sans prendre en compte la notion de séquence. Cela le rend inefficace pour analyser du texte ou de l’audio.

<img src='https://quera.fr/wp-content/uploads/2023/12/RNN_representation.png' width=100>

---

### 🔄 Réseau de Neurones Récurrent (RNN)
Un **RNN** introduit une **connexion récurrente** : l’état caché précédent est réutilisé pour influer sur la sortie actuelle. Cela permet de capturer des dépendances temporelles dans les données.

<img src='https://quera.fr/wp-content/uploads/2023/12/RNN_types.png' width=600>

---

## ⚠ **2. Limites des RNN**
Bien que puissants, les RNN classiques souffrent de **deux problèmes majeurs** :
1. **Disparition ou explosion du gradient** lors de l'entraînement (rendant l’apprentissage instable).
2. **Difficulté à capturer des dépendances longues** dans les séquences.

👉 Pour pallier ces limites, des variantes comme **LSTM** (Long Short-Term Memory) et **GRU** (Gated Recurrent Unit) ont été développées.

---


## 📚 **3. Ressources complémentaires**
- 📖 [Introduction aux RNN](https://datascientest.com/recurrent-neural-network)
- 📖 [Comprendre LSTM & GRU](https://penseeartificielle.fr/comprendre-lstm-gru-fonctionnement-schema/)
- 🎥 [Vidéo explicative sur les RNN](https://www.youtube.com/watch?v=3xgYxrNyE54)

---

In [10]:
pip install tensorflow



In [11]:
!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.8.0/fr_core_news_sm-3.8.0-py3-none-any.whl (16.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.3/16.3 MB[0m [31m118.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: fr-core-news-sm
Successfully installed fr-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [12]:
import requests
import spacy

nlp = spacy.load('fr_core_news_sm')

url = "https://raw.githubusercontent.com/Quera-fr/YOLO-DATASET/refs/heads/main/corpus.txt"

# Récupération du contenu
text = requests.get(url).text.lower()


# Création du corpus d'entrainement
docs = [list(nlp(doc)) for doc in text.replace('  ', '').split('\n')]
docs

[[bonjour, comment, vas, tu, aujourd’hui],
 [merci, pour, ton, aide, précieuse, je, suis, reconnaissant],
 [nous, allons, au, marché, acheter, des, légumes, frais],
 [elle,
  cuisine,
  un,
  gâteau,
  au,
  chocolat,
  pour,
  l’,
  anniversaire,
  de,
  sa,
  sœur],
 [le, chat, dort, sur, le, canapé, en, ronronnant, doucement],
 [il, travaille, sur, un, projet, important, pour, son, entreprise],
 [nous, regardons, le, coucher, de, soleil, depuis, la, terrasse],
 [tu, lis, un, livre, passionnant, sur, l’, histoire, ancienne],
 [ils, jouent, au, football, dans, le, parc, avec, leurs, amis],
 [j’, écris, une, lettre, à, mon, correspondant, étranger],
 [la, voiture, roule, rapidement, sur, l’, autoroute],
 [le, vent, souffle, fort, dans, les, arbres, en, automne],
 [nous, avons, visité, un, musée, d’, art, moderne, hier],
 [elle, danse, gracieusement, sur, la, scène, du, théâtre],
 [tu, écoutes, de, la, musique, classique, pour, te, détendre],
 [ils,
  voyagent,
  souvent,
  à,
  l’,
  é

In [13]:
# Création du vocabulaire
vocabulaire = sorted(set([token.text for token in nlp(text.replace('\n', ' ').replace('  ', ''))]))

# Création des tokens
tokens = [[list(vocabulaire).index(token.text) +1 for token in doc] for doc in docs]

len(vocabulaire)

1079

In [14]:
vocabulaire

['-',
 '-elle',
 '-il',
 '-ils',
 '-je',
 '-nous',
 '-t',
 '-vous',
 'a',
 'abandonnez',
 'aboyait',
 'abri',
 'accepter',
 'accompagne',
 'accordez',
 'accordé',
 'acheter',
 'acheté',
 'adapter',
 'admirait',
 'adopter',
 'adresse',
 'affaires',
 'afrique',
 'agréable',
 'ai',
 'aidais',
 'aide',
 'aider',
 'aideras',
 'aiderons',
 'aideront',
 'aides',
 'aimerais',
 'ainsi',
 'air',
 'aisément',
 'ajoutait',
 'aller',
 'allez',
 'allons',
 'allumant',
 'alternative',
 'ambitieux',
 'ami',
 'amis',
 'amusais',
 'amuseras',
 'amuses',
 'améliore',
 'an',
 'ancienne',
 'anglais',
 'animaux',
 'anniversaire',
 'année',
 'années',
 'appelée',
 'apporte',
 'apportera',
 'apprenait',
 'apprenant',
 'apprend',
 'apprendra',
 'apprendras',
 'apprendre',
 'apprendrons',
 'apprendront',
 'appris',
 'approchait',
 'apprécie',
 'apprécieras',
 'appétit',
 'après',
 'après-midi',
 'arbres',
 'arranger',
 'arrive',
 'arriver',
 'arrivé',
 'arrivée',
 'art',
 'artifice',
 'as',
 'assister',
 'assur

In [15]:
tokens

[[138, 215, 980, 969, 94],
 [577, 726, 942, 28, 771, 514, 912, 805],
 [621, 41, 93, 569, 17, 296, 557, 447],
 [359, 276, 974, 473, 93, 194, 726, 558, 55, 288, 862, 920],
 [534, 184, 325, 917, 534, 156, 363, 844, 327],
 [487, 961, 917, 974, 761, 490, 726, 894, 379],
 [621, 814, 534, 259, 288, 890, 291, 527, 933],
 [969, 544, 974, 547, 678, 917, 558, 481, 52],
 [488, 518, 93, 442, 284, 534, 657, 109, 541, 46],
 [526, 1052, 975, 538, 1029, 590, 257, 1071],
 [527, 1004, 845, 799, 917, 558, 102],
 [534, 982, 897, 445, 284, 537, 76, 363, 101],
 [621, 117, 995, 974, 600, 356, 82, 585, 480],
 [359, 285, 464, 917, 527, 872, 330, 937],
 [969, 1047, 288, 527, 599, 207, 726, 928, 354],
 [488, 1015, 904, 1029, 558, 1071, 726, 341, 288, 625, 280],
 [514, 773, 974, 153, 185, 726, 129, 213, 527, 524],
 [534, 152, 325, 653, 284, 894, 126],
 [621, 418, 330, 1023, 534, 550, 288, 527, 841],
 [359, 177, 975, 173, 326, 726, 369, 894, 370],
 [969, 84, 18, 330, 652, 1029, 527, 144, 160, 571],
 [487, 299, 974,

In [16]:
# Fonction permettant d'indexer un texte

from tensorflow.keras.preprocessing.sequence import pad_sequences

def tokenizer(text:str, len_padding=15):
    return pad_sequences([[list(vocabulaire).index(token.text)+1 for token in nlp(text.lower())]], len_padding, padding='post')

tokenizer('Bonjour le chat touches totalement')

array([[138, 534, 184, 945, 944,   0,   0,   0,   0,   0,   0,   0,   0,
          0,   0]], dtype=int32)

In [17]:
# Fonction permettant de décoder une liste d'index

def decoder(tokens):
    return [list(vocabulaire)[int(u)-1] for u in tokens if u !=0]

decoder([359,276,974,473,93,194,726,558,55,288,862])

['elle',
 'cuisine',
 'un',
 'gâteau',
 'au',
 'chocolat',
 'pour',
 'l’',
 'anniversaire',
 'de',
 'sa']

In [18]:
import pandas as pd

df = pd.DataFrame([doc[:-1] for doc in tokens]).fillna(0).astype(int)
df['target'] = [doc[-1] for doc in tokens]

df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,target
0,138,215,980,969,0,0,0,0,0,0,0,0,0,0,0,94
1,577,726,942,28,771,514,912,0,0,0,0,0,0,0,0,805
2,621,41,93,569,17,296,557,0,0,0,0,0,0,0,0,447
3,359,276,974,473,93,194,726,558,55,288,862,0,0,0,0,920
4,534,184,325,917,534,156,363,844,0,0,0,0,0,0,0,327
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
356,881,1011,113,127,288,790,784,160,889,514,912,0,0,0,0,555
357,835,363,250,394,324,586,288,1007,0,0,0,0,0,0,0,625
358,514,1011,382,951,590,1063,0,0,0,0,0,0,0,0,0,724
359,514,1011,898,975,578,524,819,288,0,0,0,0,0,0,0,137


# Entrainement : Many-to-One -> `return_sequences`

---



In [19]:
from tensorflow.keras.utils import to_categorical

X = df.drop(['target'], axis=1)
y = df.target
y = to_categorical(y, len(vocabulaire)+1)


X.shape

(361, 15)

In [20]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense

embedding_dim = 128                         # Taille des embedding
maxlen = X.shape[1]                         # Nombre max de token des documents
len_vocabulaire = len(vocabulaire)+1        # Taille du vocabulaire

model = Sequential()

# Couche d'ebedding
model.add(Embedding(input_dim=len_vocabulaire, output_dim=embedding_dim, input_length=maxlen))

# Couche RNN
model.add(SimpleRNN(64, activation='relu'))

# Couche d'activation
model.add(Dense(len_vocabulaire, activation='softmax'))

# Compilation du modèle : metrics=['accuracy', 'recall']
model.compile(optimizer='adam',metrics=['accuracy', 'recall'], loss="categorical_crossentropy")

# Entrainement : (X, y, epochs=200, batch_size=64)
model.summary()

model.fit(X, y, epochs=200, batch_size=64)



Epoch 1/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 15ms/step - accuracy: 0.0000e+00 - loss: 6.9852 - recall: 0.0000e+00
Epoch 2/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.0025 - loss: 6.9636 - recall: 0.0000e+00    
Epoch 3/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 11ms/step - accuracy: 0.0000e+00 - loss: 6.8692 - recall: 0.0000e+00
Epoch 4/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 12ms/step - accuracy: 0.0026 - loss: 6.3869 - recall: 0.0000e+00    
Epoch 5/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 11ms/step - accuracy: 0.0143 - loss: 5.8779 - recall: 0.0000e+00
Epoch 6/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 11ms/step - accuracy: 0.0253 - loss: 5.6058 - recall: 0.0000e+00
Epoch 7/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 11ms/step - accuracy: 0.0269 - loss: 5.5006 - recall: 0.0000e+00    
Epoch 8

<keras.src.callbacks.history.History at 0x7d8edd908c50>

In [21]:
model.layers[0].weights[0].shape

TensorShape([1080, 128])

In [22]:
model.predict([X.iloc[0]])[0].argmax()

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 156ms/step


Expected: keras_tensor
Received: inputs=('Tensor(shape=(15, 1))',)


np.int64(378)

In [23]:
decoder([805])

['reconnaissant']

In [24]:
# Prédiction du dernier token de la phrase :
model.predict(tokenizer("Merci pour ton aide précieuse je suis"))[0].argmax()

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 139ms/step


np.int64(805)

In [25]:
# Prediction
pred = int(model.predict(tokenizer("Ils marcheront sur la plage au coucher du"))[0].argmax())

pred, decoder([pred])

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step


(890, ['soleil'])

In [None]:
# Ebedding :
model.layers[0].weights[0][pred]

<tf.Tensor: shape=(128,), dtype=float32, numpy=
array([-0.00019031, -0.00683109,  0.04762146, -0.03460345,  0.0497084 ,
       -0.00340807,  0.0151017 , -0.00716244, -0.01554974,  0.03925351,
        0.02844049,  0.02700752,  0.01169491,  0.04011467, -0.04467226,
        0.02864448, -0.00483494, -0.04888181, -0.04602342,  0.04020976,
       -0.00485398, -0.00034581,  0.00269315,  0.00586943, -0.03904753,
        0.00547781,  0.037617  ,  0.02786915,  0.03180167, -0.04296201,
        0.00554694, -0.02502289, -0.04369149, -0.03376988, -0.01446557,
       -0.03049045, -0.02862791,  0.0297378 ,  0.02559842,  0.02622784,
       -0.00562866,  0.04472219,  0.02383938, -0.04094596, -0.00738872,
        0.02014278, -0.0191857 ,  0.03357245,  0.0096483 ,  0.04354373,
        0.04559005,  0.03904149, -0.00670252,  0.03609719, -0.02171155,
       -0.03353643,  0.03342955,  0.02638227,  0.04522074,  0.01620921,
        0.00191028, -0.03949716, -0.00385728,  0.03751451,  0.03203592,
       -0.038342

# Many to Many

In [26]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np


from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense

embedding_dim = 128                         # Taille des embedding
maxlen = X.shape[1]                         # Nombre max de token des documents
len_vocabulaire = len(vocabulaire)+1        # Taille du vocabulaire

# 🔹 Transformation des données (Many-to-Many)
X = df.drop(['target'], axis=1).values
y = df.values[:, 1:]  # Décalage des targets (Many-to-Many)
y = tf.keras.utils.to_categorical(y, num_classes=len_vocabulaire)  # Encodage One-Hot

In [27]:
y.shape

(361, 15, 1080)

In [28]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np


# 🔹 Transformation des données (Many-to-Many)
X = df.drop(['target'], axis=1).values
y = df.values[:, 1:]  # Décalage des targets (Many-to-Many)
y = tf.keras.utils.to_categorical(y, num_classes=len_vocabulaire)  # Encodage One-Hot

# 🔹 Modèle Many-to-Many
model = Sequential([
    Embedding(input_dim=len_vocabulaire, output_dim=embedding_dim, input_length=maxlen),  # Embedding
    SimpleRNN(64, activation='relu', return_sequences=True),  # RNN Many-to-Many
    Dense(len_vocabulaire, activation='softmax')  # Prédiction d’une séquence complète
])

# 🔹 Compilation
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# 🔹 Résumé du modèle
model.summary()

# 🔹 Entraînement
model.fit(X, y, epochs=200, batch_size=64)




Epoch 1/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 54ms/step - accuracy: 0.2209 - loss: 6.9478
Epoch 2/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 46ms/step - accuracy: 0.4354 - loss: 6.6549
Epoch 3/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 48ms/step - accuracy: 0.4690 - loss: 5.7109
Epoch 4/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 45ms/step - accuracy: 0.4667 - loss: 5.0797
Epoch 5/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 47ms/step - accuracy: 0.4561 - loss: 4.5538
Epoch 6/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 44ms/step - accuracy: 0.4601 - loss: 4.1056
Epoch 7/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 40ms/step - accuracy: 0.4596 - loss: 3.7517
Epoch 8/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 39ms/step - accuracy: 0.4661 - loss: 3.5787
Epoch 9/200
[1m6/6[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[3

<keras.src.callbacks.history.History at 0x7d8ed9e655d0>

In [29]:
[decoder([int(u.argmax())]) for u in  model.predict(np.array([X[0]]))[0]]

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 140ms/step


[['comment'],
 ['allez'],
 ['tu'],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 [],
 ['aujourd’hui']]

In [30]:
# Prediction
model.predict(X[0:1])


[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 43ms/step


array([[[1.3465857e-08, 2.7935870e-03, 3.8191179e-06, ...,
         1.4138608e-08, 2.9719756e-08, 2.3972358e-08],
        [1.5297674e-08, 3.0216723e-04, 1.4676792e-08, ...,
         2.3775694e-17, 1.2588710e-08, 3.5339863e-08],
        [1.1889202e-02, 5.6887726e-09, 3.5658886e-13, ...,
         7.0685011e-27, 6.0435774e-08, 1.0100800e-07],
        ...,
        [1.0000000e+00, 0.0000000e+00, 0.0000000e+00, ...,
         0.0000000e+00, 0.0000000e+00, 0.0000000e+00],
        [9.9888164e-01, 0.0000000e+00, 0.0000000e+00, ...,
         0.0000000e+00, 0.0000000e+00, 0.0000000e+00],
        [6.5453709e-16, 1.4817241e-27, 0.0000000e+00, ...,
         0.0000000e+00, 0.0000000e+00, 0.0000000e+00]]], dtype=float32)

In [31]:
decoder([int(u.argmax()) for u in model.predict(X[:1])[0]])

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 37ms/step


['comment', 'allez', 'tu', 'aujourd’hui']

In [32]:
model.predict(X[:1])[0].shape

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 38ms/step


(15, 1080)

### **Consignes du Projet : Prédiction du Token Suivant dans un Corpus de Texte**

---

#### **Objectif du Projet**  
L'objectif de ce projet est d'entraîner un modèle de deep learning capable de **prédire un token aléatoire dans une phrase**, et non plus seulement le dernier mot d'une phrase.  

---

#### **Données et Prétraitement**  

Le corpus utilisé est récupéré à partir d'un fichier texte brut disponible en ligne via :  
📄 **URL du corpus** : [Lien du fichier](https://raw.githubusercontent.com/Quera-fr/YOLO-DATASET/refs/heads/main/corpus.txt)

##### **1️⃣ Chargement et Nettoyage des Données**
- **Téléchargement** du corpus et conversion en **minuscule**.
- **Tokenization** des phrases en utilisant un moteur NLP.
- **Création d’un vocabulaire** : une liste unique des tokens présents dans le corpus.

##### **2️⃣ Modification du Pipeline de Feature Engineering**
👉 **Changement par rapport au code initial** :  
- **Au lieu de toujours prédire le dernier mot de la phrase**, on sélectionne **un token aléatoire** dans chaque phrase.
- La phrase est tronquée à cet endroit.
- **Padding** est ajouté pour uniformiser la longueur des séquences.

##### **3️⃣ Construction du Jeu de Données**
- **Features (`X`)** : Partie de la phrase avant le token sélectionné, **remplie avec du padding** si nécessaire.  
- **Target (`y`)** : Le **token suivant aléatoire**, retiré de la phrase.

---

#### **Pipeline d'Entraînement**
1️⃣ **Prétraitement**  
   - Récupération des données et tokenization  
   - Construction du vocabulaire et conversion en indices numériques  
   - Sélection aléatoire du token cible et **création des séquences** avec padding  

2️⃣ **Modélisation**  
   - Création d’un **modèle RNN/LSTM** avec une couche `Embedding` pour gérer le vocabulaire.  
   - Ajout d’une **couche LSTM** récurrente pour apprendre le contexte des tokens.  
   - Une **couche Dense softmax** pour prédire le token suivant parmi le vocabulaire.

3️⃣ **Entraînement et Évaluation**  
   - Compilation avec **Adam** et une fonction de perte **categorical cross-entropy**.  
   - Vérification de la **performance du modèle** (perplexité, précision).  
   - Visualisation des prédictions sur un sous-ensemble de phrases du corpus.


In [None]:
data = pd.DataFrame(tokens)
data[16] = 0

In [None]:
data

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16
0,138,215,980,969,94.0,,,,,,,,,,,,0
1,577,726,942,28,771.0,514.0,912.0,805.0,,,,,,,,,0
2,621,41,93,569,17.0,296.0,557.0,447.0,,,,,,,,,0
3,359,276,974,473,93.0,194.0,726.0,558.0,55.0,288.0,862.0,920.0,,,,,0
4,534,184,325,917,534.0,156.0,363.0,844.0,327.0,,,,,,,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
356,881,1011,113,127,288.0,790.0,784.0,160.0,889.0,514.0,912.0,555.0,,,,,0
357,835,363,250,394,324.0,586.0,288.0,1007.0,625.0,,,,,,,,0
358,514,1011,382,951,590.0,1063.0,724.0,,,,,,,,,,0
359,514,1011,898,975,578.0,524.0,819.0,288.0,137.0,,,,,,,,0


In [None]:
# Premier document
tokens[0]

[138, 215, 980, 969, 94]

In [None]:
# Index aléatoire
random_index = random.randint(1, len(tokens[0]))
random_index

In [None]:
# Target aléatoire
target = tokens[0][random_index]
target

969

In [None]:
# Features sans la target
features = tokens[0][:random_index]
features

[138, 215, 980]

In [None]:
tokens

[[138, 215, 980, 969, 94],
 [577, 726, 942, 28, 771, 514, 912, 805],
 [621, 41, 93, 569, 17, 296, 557, 447],
 [359, 276, 974, 473, 93, 194, 726, 558, 55, 288, 862, 920],
 [534, 184, 325, 917, 534, 156, 363, 844, 327],
 [487, 961, 917, 974, 761, 490, 726, 894, 379],
 [621, 814, 534, 259, 288, 890, 291, 527, 933],
 [969, 544, 974, 547, 678, 917, 558, 481, 52],
 [488, 518, 93, 442, 284, 534, 657, 109, 541, 46],
 [526, 1052, 975, 538, 1029, 590, 257, 1071],
 [527, 1004, 845, 799, 917, 558, 102],
 [534, 982, 897, 445, 284, 537, 76, 363, 101],
 [621, 117, 995, 974, 600, 356, 82, 585, 480],
 [359, 285, 464, 917, 527, 872, 330, 937],
 [969, 1047, 288, 527, 599, 207, 726, 928, 354],
 [488, 1015, 904, 1029, 558, 1071, 726, 341, 288, 625, 280],
 [514, 773, 974, 153, 185, 726, 129, 213, 527, 524],
 [534, 152, 325, 653, 284, 894, 126],
 [621, 418, 330, 1023, 534, 550, 288, 527, 841],
 [359, 177, 975, 173, 326, 726, 369, 894, 370],
 [969, 84, 18, 330, 652, 1029, 527, 144, 160, 571],
 [487, 299, 974,

In [None]:
import random


# Création des target random
tokens_random = []
target_random = []

for u in range(100):
    for n in range(len(tokens)):
        doc = tokens[n]
        random_index = random.randint(1, len(doc)-1)

        target_random.append(doc[random_index])
        tokens_random.append(doc[:random_index])

In [None]:
df = pd.DataFrame(tokens_random).fillna(0).astype(int)
df['target'] = target_random

df

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,target
0,138,215,980,969,0,0,0,0,0,0,0,0,0,0,0,94
1,577,726,942,28,771,514,0,0,0,0,0,0,0,0,0,912
2,621,41,93,569,17,296,557,0,0,0,0,0,0,0,0,447
3,359,276,974,473,93,194,726,558,0,0,0,0,0,0,0,55
4,534,184,325,917,534,156,363,844,0,0,0,0,0,0,0,327
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
36095,881,1011,113,127,288,790,784,0,0,0,0,0,0,0,0,160
36096,835,363,250,394,0,0,0,0,0,0,0,0,0,0,0,324
36097,514,1011,382,951,590,1063,0,0,0,0,0,0,0,0,0,724
36098,514,1011,898,975,578,524,0,0,0,0,0,0,0,0,0,819


In [None]:
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

# 🔹 Paramètres
max_features =  len(vocabulaire) +1                                   # Taille du vocabulaire
maxlen =  15                                                      # Longueur des séquences
embedding_dim =    128                                            # Dimension des embeddings

# 🔹 Transformation des données (Many-to-Many)
X = df.drop(['target'], axis=1)
y = df.values[:, 1:]                                            # Décalage des targets (Many-to-Many)
y = tf.keras.utils.to_categorical(y, num_classes=max_features)  # Encodage One-Hot

# 🔹 Modèle Many-to-Many
model = Sequential([
    Embedding(input_dim=max_features, output_dim=embedding_dim, input_length=maxlen),
    SimpleRNN(64, activation='relu', return_sequences=True),
    SimpleRNN(64, activation='relu', return_sequences=True),# Embedding
    SimpleRNN(64, activation='relu', return_sequences=True),  # RNN Many-to-Many
    Dense(max_features, activation='softmax')  # Prédiction d’une séquence complète
])


# 🔹 Compilation
model.compile(optimizer='adam', metrics=['accuracy', 'recall'], loss='binary_crossentropy')

# 🔹 Résumé du modèle
model.summary()

# 🔹 Entraînement

model.fit(X, y, epochs=20, batch_size=64)




Epoch 1/20
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 29ms/step - accuracy: 0.6350 - loss: 0.1081 - recall: 0.5587
Epoch 2/20
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 30ms/step - accuracy: 0.6988 - loss: 0.0022 - recall: 0.6600
Epoch 3/20
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 30ms/step - accuracy: 0.6989 - loss: 0.0020 - recall: 0.6492
Epoch 4/20
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 29ms/step - accuracy: 0.7015 - loss: 0.0019 - recall: 0.6489
Epoch 5/20
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 30ms/step - accuracy: 0.7050 - loss: 0.0018 - recall: 0.6497
Epoch 6/20
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 30ms/step - accuracy: 0.7146 - loss: 0.0018 - recall: 0.6588
Epoch 7/20
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 30ms/step - accuracy: 0.7186 - loss: 0.0017 - recall: 0.6639
Epoch 8/20
[1m565/565[0m 

<keras.src.callbacks.history.History at 0x7e9dda6a19d0>

In [None]:
model.fit(X, y, epochs=10, batch_size=64)

Epoch 1/10
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 30ms/step - accuracy: 0.8715 - loss: 6.0361e-04 - recall: 0.8482
Epoch 2/10
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m16s[0m 29ms/step - accuracy: 0.8756 - loss: 5.8450e-04 - recall: 0.8540
Epoch 3/10
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 30ms/step - accuracy: 0.8759 - loss: 5.8318e-04 - recall: 0.8558
Epoch 4/10
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 30ms/step - accuracy: 0.8777 - loss: 5.7043e-04 - recall: 0.8585
Epoch 5/10
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 29ms/step - accuracy: 0.8792 - loss: 5.5938e-04 - recall: 0.8607
Epoch 6/10
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m17s[0m 30ms/step - accuracy: 0.8781 - loss: 5.7023e-04 - recall: 0.8599
Epoch 7/10
[1m565/565[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m20s[0m 30ms/step - accuracy: 0.8827 - loss: 5.4112e-04 - recall: 0.8654

<keras.src.callbacks.history.History at 0x7e9d66318390>

array([[138, 950, 534, 591,   0,   0,   0,   0,   0,   0,   0,   0,   0,
          0,   0]], dtype=int32)

In [None]:
def predict(promt, max_token=5):
    promt.lower()

    for n in range(max_token):
        token_pred = decoder([int(model.predict(tokenizer(promt), verbose=0)[0][-1].argmax())])[0]
        promt += ' ' + token_pred

    return promt

In [None]:
predict('Bonjour', 4)

'Bonjour comment allez vous vous'

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 29ms/step


np.int64(94)

In [None]:
decoder([int(model.predict(tokenizer('Tu choisiras un livre dans'))[0][-1].argmax())])

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step


['années']

In [None]:
# Predictionzz
pred =  ...

### **🎯 Bonus : Création de la Classe `SimpleLLM` pour la Génération de Séquences de Mots**  

---

## **📌 Objectif du Projet**  
L'objectif est de créer une **classe `SimpleLLM`** qui permet :  
✅ De **tokenizer un texte** pour le convertir en séquence de nombres.  
✅ De **décoder une séquence** de nombres pour retrouver le texte original.  
✅ D'utiliser une **couche d'Embedding** pour apprendre des représentations vectorielles des mots.  
✅ De **prédire une séquence complète** en générant les tokens **de manière itérative**.  

Le modèle doit être capable de **générer du texte mot par mot** en **prenant en compte les prédictions précédentes** pour construire une phrase cohérente.  

---

## **🛠️ Fonctionnalités de la Classe `SimpleLLM`**  

### **1️⃣ `fit_tokenizer(corpus)`**  
👉 **Crée un vocabulaire** à partir d’un corpus de texte donné.  
👉 Associe **chaque mot à un index unique**.  
👉 Ajoute un **token de padding (`<PAD>`)** pour gérer les séquences de longueur variable.  

### **2️⃣ `tokenize(sentence)`**  
👉 Convertit **une phrase en une liste d’indices** correspondant aux mots dans le vocabulaire.  

### **3️⃣ `decode(tokens)`**  
👉 Convertit **une liste d’indices en une phrase** en retrouvant les mots du vocabulaire.  

### **4️⃣ `embedding(tokens)`**  
👉 Transforme une **séquence de tokens en vecteurs denses** via une **couche Embedding**.  

### **5️⃣ `predict(seed_text, max_tokens=10)`**  
👉 Génère une **séquence complète** en **prédiction itérative** :  
   - Utilise **les mots précédemment générés** pour continuer la phrase.  
   - Arrête la génération lorsqu’un **token de fin (`<PAD>`)** est atteint.  

In [None]:
pip install tensorflow

Collecting tensorflow
  Downloading tensorflow-2.19.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.1 kB)
Collecting astunparse>=1.6.0 (from tensorflow)
  Downloading astunparse-1.6.3-py2.py3-none-any.whl.metadata (4.4 kB)
Collecting flatbuffers>=24.3.25 (from tensorflow)
  Downloading flatbuffers-25.2.10-py2.py3-none-any.whl.metadata (875 bytes)
Collecting google-pasta>=0.1.1 (from tensorflow)
  Downloading google_pasta-0.2.0-py3-none-any.whl.metadata (814 bytes)
Collecting libclang>=13.0.0 (from tensorflow)
  Downloading libclang-18.1.1-py2.py3-none-manylinux2010_x86_64.whl.metadata (5.2 kB)
Collecting tensorboard~=2.19.0 (from tensorflow)
  Downloading tensorboard-2.19.0-py3-none-any.whl.metadata (1.8 kB)
Collecting tensorflow-io-gcs-filesystem>=0.23.1 (from tensorflow)
  Downloading tensorflow_io_gcs_filesystem-0.37.1-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (14 kB)
Collecting wheel<1.0,>=0.23.0 (from astunparse>=1.6.0->tensorflow

In [None]:
from tensorflow.keras.models import Sequential, load_model
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical

import random
import requests

import pandas as pd
import numpy as np

class SimpleLLM:
    def __init__(self, path_model=None):
        self.pad_sequence = 12
        self.path_model = path_model
        if path_model:
            try:
                self.model = load_model(path_model)
            except:
                self.model = None


    def build_model(self, path_train_file=None, url_train_file=None, embedding_dim=128, train=False, epochs=10):
        self.embedding_dim = embedding_dim
        tokens_random, target_random = [], []


        if path_train_file:
            self.model = load_model(path_train_file)

        elif url_train_file:
            corpus = requests.get(url_train_file).text.lower().replace('  ', '')

        # Création du corpus d'entrainement
        self.docs = [doc.split() for doc in corpus.split('\n')]

        # Création du vocabulaire
        self.vocabulaire = ['<end>'] + list(sorted(set([token for token in corpus.replace('\n', ' ').split()])))
        self.vocabulaire = {i: self.vocabulaire[i] for i in range(0, len(self.vocabulaire))}
        self.vocab_size = len(self.vocabulaire)


        # Création des tokens
        self.tokens = [self.tokenizer(doc) for doc in corpus.split('\n')]
        self.tokens_with_out_padding = [[self.get_index(token) for token in doc.split() ]for doc in corpus.split('\n')]


        for n in range(100):
            for doc in self.tokens_with_out_padding:
                random_int = random.randint(1, len(doc)-1)
                tokens_random.append(doc[:random_int])
                target_random.append(doc[random_int])


        self.X = pd.DataFrame(tokens_random).fillna(0).astype(int).values
        self.pad_sequence = self.X.shape[1]
        print("Pad sequence : ",self.pad_sequence)


        # Décalage des targets (Many-to-Many)
        self.y = pd.DataFrame(self.X[:, 1:]).fillna(0).astype(int)
        self.y['target'] = target_random

        self.y = to_categorical(self.y.values, num_classes=self.vocab_size)  # Encodage One-Ho


        if self.path_model is not None:
            # 🔹 Modèle Many-to-Many
            self.model = Sequential([
                Embedding(input_dim=self.vocab_size, output_dim=embedding_dim, input_length=self.pad_sequence),  # Embedding
                SimpleRNN(64, activation='relu', return_sequences=True),
                SimpleRNN(64, activation='relu', return_sequences=True),  # RNN Many-to-Many
                Dense(self.vocab_size, activation='softmax')  # Prédiction d’une séquence complète
        ])

        if train:
            self.model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
            self.fit(self.X, self.y, epochs=epochs, batch_size=64)
            self.model.save('my_llm.keras')


    def fit(self, X, y, epochs=10, batch_size=64):
        self.model.fit(X, y, epochs=epochs, batch_size=batch_size)

    def get_index(self, text):
        return list(self.vocabulaire.values()).index(text.lower())


    def tokenizer(self, text:str):
        return pad_sequences([[self.get_index(token) for token in text.split()]], self.pad_sequence, padding='post')[0]


    def decoder(self, tokens):
        return [self.vocabulaire[u] for u in tokens]


    def embedding(self, tokens):
        sefl.model.layers[0].get_weights()[0][self.get_index(tokens)]

    def predict(self, prompt, max_tokens):
        for i in range(max_tokens):
            pred = int(self.model.predict(np.array([self.tokenizer(prompt)]), verbose=False)[0][-1].argmax())
            prompt += ' ' +self.decoder([pred])[0]
        print(prompt)

In [None]:
model.predict('Ils regardaient', 8)

Ils regardaient les étoiles dans le ciel dégagé hier soir


In [None]:
model.predict('Bonjour', 4)

Bonjour comment allez vous vous


In [None]:
model.predict('Tu apprendras', 7)

Tu apprendras à conduire dès que tu auras l’âge


# 2. LSTM : Long Short Term Memory

## 2.1 Défaillance des RNN

Les RNN sont particulièrement adaptés à la prédiction de séquences temporelles, car ils peuvent prendre en compte l'ordre des données. Ils sont donc souvent utilisés pour la prédiction de séries temporelles, comme la prédiction de la demande de produits, la prédiction des prix des actions, la prédiction de la consommation d'énergie, etc.

<img src='https://quera.fr/wp-content/uploads/2023/12/RNN_cell.png'>

LSTM (Long Short-Term Memory) est une architecture de réseau de neurones récurrents (RNN) qui a été proposée pour résoudre le problème de la disparition du gradient dans les RNN classiques. Contrairement aux RNN classiques, qui ont des problèmes de rétention de l'information à long terme, les LSTM sont conçus pour permettre à l'information de se propager sans entrave.


# 2.2 LSTM : Architecture


LSTM est une architecture créée en 1997, elle vise à résoudre les limitations des RNN. La formulation du LSTM peut être considérée comme assez complexe, mais en réalité, les LSTM sont simples et assez intuitifs.

<img src='https://quera.fr/wp-content/uploads/2023/12/LSTM_cell.png'>

LSTM possède également un état caché qui modélise le signal à court terme , mais il introduit également ce que l'on appelle l'état cellulaire qui modélise la dépendance à long terme (ce qui manquait aux RNN !).

Il s'appuie sur le concept de portes qui permet de décider de ce qu'il faut garder. LSTM a trois portes :

oublier la porte décider de ce qui est important à partir des informations passées stockées dans l'état de la cellule
la porte d'entrée décide de ce qui est important à partir de l'entrée du pas de temps actuel
la porte de sortie décide de ce qui doit être conservé pour le signal à court terme (état caché)
Et voilà ! La combinaison de tous ces éléments permet d’avoir un réseau bien plus puissant que le RNN standard (en pratique plus personne n’utilise de RNN !)

Les équations du LSTM peuvent être exprimées comme suit :

- Porte d'oubli ($f_t$) :
$ f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) $

- Porte d'entrée ($i_t$) :
$ i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) $

- Porte de mise à jour ($u_t$) :
$ u_t = \tanh(W_u \cdot [h_{t-1}, x_t] + b_u) $

- État de cellule mis à jour ($c_t$) :
$ c_t = f_t \cdot c_{t-1} + i_t \cdot u_t $

- Porte de sortie ($o_t$) :
$ o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) $

- État caché mis à jour ($h_t$) :
$ h_t = o_t \cdot \tanh(c_t) $

Où :
- $x_t$ est l'entrée à l'instant $t$,
- $h_{t-1}$ est l'état caché à l'instant $t-1$,
- $[h_{t-1}, x_t]$ représente la concaténation de l'état caché et de l'entrée,
- $W_f, b_f, W_i, b_i, W_u, b_u, W_o, b_o$ sont les poids et biais associés à chaque porte,
- $\sigma$ est la fonction sigmoïde,
- $\tanh$ est la fonction tangente hyperbolique.

Ces équations décrivent le fonctionnement des portes et des mises à jour de l'état dans un LSTM, permettant au modèle de gérer efficacement les dépendances à long terme dans les séquences.