<div  style="background-color:white;"><h1 style="text-align:center; color:purple;">D√©tection de sentiments avec un RNN
</h1>

<p style="text-align:center; color:black"><strong>Pr√©par√©  Par :</strong> Hafsa Zian | <strong>Fili√®re :</strong> Machine Learning & IA | <strong>Encadr√© Par :</strong> M. Harchli Fidae</p>

<hr></div>

<center><h2> üìö Sommaire<h2> </center>

1. <a href="#intro">Introduction</a><br>

2. <a href="#import">Importation des biblioth√®ques n√©cessaires</a><br>

3. <a href="#donnees">Donn√©es d'apprentissage</a><br>

4. <a href="#pretraitement">Pr√©traitement des donn√©es</a><br>
‚ÄÉa. <a href="#tokenisation">Tokenisation</a><br>
‚ÄÉb. <a href="#vocabulaire">Cr√©ation du vocabulaire</a><br>
‚ÄÉc. <a href="#remp">Remplacement chaque mot par son indice dans ce vocabulaire</a><br>
‚ÄÉd. <a href="#raison">Raison d'ajout un jeton pad</a><br>

5. <a href="#encodage">Encodage</a><br> 
    a. <a href="#encode">Encodez chaque phrase sous forme de s√©quence d‚Äôindices </a><br>
    b. <a href="#padding"> Padding sur les s√©quences </a><br>

6. <a href="#modele">Construction du mod√®le RNN</a><br>

7. <a href="#entrainement">Entra√Ænement du mod√®le</a><br>

8. <a href="#prediction">Pr√©diction</a><br>

9. <a href="#qst">r√©ponses aux questions th√©oriques</a><br>


### üìå 1. Introduction <span id="intro"></span>

Dans ce travail pratique, nous allons impl√©menter un mod√®le de R√©seau de Neurones R√©current (RNN) pour la d√©tection de sentiments √† partir de phrases textuelles. L'objectif est de classer chaque phrase comme exprimant un sentiment positif (√©tiquette 1) ou n√©gatif (√©tiquette 0), en se basant sur le contenu des mots et leur ordre.


#### üéØ Objectif 

Construire, entra√Æner et tester un mod√®le RNN capable de comprendre et de g√©n√©raliser les relations entre les mots d'une phrase et le sentiment qu'elle exprime, en utilisant un petit jeu de donn√©es √©tiquet√©.


### üß∞ 2. Importation des biblioth√®ques n√©cessaires <span id="import"></span>

In [1]:
import re  # Pour le nettoyage des phrases (tokenisation simple)
from collections import Counter  # Pour compter les mots
import torch  # PyTorch pour le mod√®le et les tenseurs
import torch.nn as nn  # Pour les couches du r√©seau de neurones
from keras.preprocessing.sequence import pad_sequences  # Pour le padding des s√©quences

### üìä 3. Donn√©es d'apprentissage <span id="donnees"></span>

In [2]:
# Phrases d'entra√Ænement
phrases = [
    "Je suis tr√®s content",
    "C'√©tait une belle journ√©e",
    "Je suis d√©√ßu",
    "C'√©tait horrible",
    "J'adore ce film",
    "Je d√©teste ce livre"
]

# Labels correspondants (1 = positif, 0 = n√©gatif)
labels = [1, 1, 0, 0, 1, 0]

### üßπ 4. Pr√©traitement des donn√©es <span id="pretraitement"></span>

#### a. Tokenisation  <span id="tokenisation"></span>‚ÄÉ

In [4]:
def tokenize(sentence):
    sentence = re.sub(r"[^\w\s]", "", sentence).lower() #pour supprimer ponctuation+miniscule
    return sentence.split()

tokenized_sentences = [tokenize(sent) for sent in phrases] # a chaque phrase
print("Les phrases tokenis√©es sont : \n", tokenized_sentences)

Les phrases tokenis√©es sont : 
 [['je', 'suis', 'tr√®s', 'content'], ['c√©tait', 'une', 'belle', 'journ√©e'], ['je', 'suis', 'd√©√ßu'], ['c√©tait', 'horrible'], ['jadore', 'ce', 'film'], ['je', 'd√©teste', 'ce', 'livre']]


#### b. Vocabulaire contenant tous les mots distincts du corpus  <span id="vocabulaire"></span>‚ÄÉ

In [7]:
all_words = [word for sentence in tokenized_sentences for word in sentence] 

vocab = list(set(all_words))

print("Le vocabulaire :", vocab)

Le vocabulaire : ['d√©teste', 'je', 'ce', 'suis', 'belle', 'c√©tait', 'tr√®s', 'une', 'journ√©e', 'jadore', 'film', 'd√©√ßu', 'livre', 'horrible', 'content']


#### c. Remplacement chaque mot par son indice dans ce vocabulaire <span id="remp"></span>‚ÄÉ 

In [8]:
word_to_idx = {word: idx for idx, word in enumerate(vocab)}
print("Vocabulaire :", vocab)
print("Dictionnaire :", word_to_idx)

Vocabulaire : ['d√©teste', 'je', 'ce', 'suis', 'belle', 'c√©tait', 'tr√®s', 'une', 'journ√©e', 'jadore', 'film', 'd√©√ßu', 'livre', 'horrible', 'content']
Dictionnaire mot ‚Üí indice : {'d√©teste': 0, 'je': 1, 'ce': 2, 'suis': 3, 'belle': 4, 'c√©tait': 5, 'tr√®s': 6, 'une': 7, 'journ√©e': 8, 'jadore': 9, 'film': 10, 'd√©√ßu': 11, 'livre': 12, 'horrible': 13, 'content': 14}


#### d. Raison d'ajout un jeton pad <span id="raison"></span>‚ÄÉ 

In [9]:
vocab = ["<pad>"] + list(set(all_words))
word_to_idx = {word: idx for idx, word in enumerate(vocab)}

print("Vocabulaire :", vocab)
print("Dictionnaire :", word_to_idx)

Vocabulaire : ['<pad>', 'd√©teste', 'je', 'ce', 'suis', 'belle', 'c√©tait', 'tr√®s', 'une', 'journ√©e', 'jadore', 'film', 'd√©√ßu', 'livre', 'horrible', 'content']
Dictionnaire mot ‚Üí indice : {'<pad>': 0, 'd√©teste': 1, 'je': 2, 'ce': 3, 'suis': 4, 'belle': 5, 'c√©tait': 6, 'tr√®s': 7, 'une': 8, 'journ√©e': 9, 'jadore': 10, 'film': 11, 'd√©√ßu': 12, 'livre': 13, 'horrible': 14, 'content': 15}


‚ùì 
Le jeton 'pad' (pour "padding ") est ajout√© au vocabulaire pour permettre le remplissage des s√©quences de mots , afin qu‚Äôelles aient toutes la m√™me longueur .

### üßÆ 5. Encodage <span id="encodage"></span>

#### a. Encodez chaque phrase sous forme de s√©quence d‚Äôindices <span id="encode"></span>‚ÄÉ 


In [11]:
encoded_sentences = []
for sentence in tokenized_sentences:
    encoded_sentence = [word_to_idx[word] for word in sentence if word in word_to_idx]
    encoded_sentences.append(encoded_sentence)
    

#affichage
print("Phrases Encodee :\n",encoded_sentences)

Phrases Encodee :
 [[2, 4, 7, 15], [6, 8, 5, 9], [2, 4, 12], [6, 14], [10, 3, 11], [2, 1, 3, 13]]


#### b. Padding sur les s√©quences <span id="padding"></span>‚ÄÉ 

In [12]:
max_length = max(len(seq) for seq in encoded_sentences)
padded_sentences = pad_sequences(encoded_sentences, maxlen=max_length, padding='post', value=word_to_idx["<pad>"])

print("Phrases apres padding :\n", padded_sentences)

Phrases apres padding :
 [[ 2  4  7 15]
 [ 6  8  5  9]
 [ 2  4 12  0]
 [ 6 14  0  0]
 [10  3 11  0]
 [ 2  1  3 13]]


### ü§ñ 6. Construction du mod√®le RNN <span id="modele"></span>

In [23]:
class SentimentLSTM(nn.Module):
    def __init__(self, vocab_size, embedding_dim=10, hidden_dim=16):
        super(SentimentLSTM, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx=0) #Une couche Embedding
        self.lstm = nn.LSTM(embedding_dim, hidden_dim, batch_first=True) #Une couche RNN (LSTM)
        self.fc = nn.Linear(hidden_dim, 1) #Une couche lin√©aire de sortie 
        self.sigmoid = nn.Sigmoid() #+ sigmo√Øde

    def forward(self, x):
        x = self.embedding(x)
        out, (hidden, cell) = self.lstm(x) 
        out = self.fc(hidden[-1])
        return self.sigmoid(out)   

### üöÄ 7. Entra√Ænement du mod√®le<span id="entrainement"></span>

In [24]:
X_train = torch.tensor(padded_sentences, dtype=torch.long)
y_train = torch.tensor(labels, dtype=torch.float).view(-1, 1)

model = SentimentLSTM(len(vocab))
criterion = nn.BCELoss() #a) une fonction de perte adapt√©e √† la classification binaire.
optimizer = torch.optim.Adam(model.parameters(), lr=0.01)

# Entra√Ænement
for epoch in range(500): #b) Entra√Ænez le mod√®le sur plusieurs √©poques
    model.train()
    optimizer.zero_grad()
    outputs = model(X_train)
    loss = criterion(outputs, y_train)
    loss.backward()
    optimizer.step()
    
    if epoch % 50 == 0: 
        print(f"Epoch {epoch}, Loss: {loss.item():.4f}") #c) Affichez l‚Äô√©volution de la perte

Epoch 0, Loss: 0.7144
Epoch 50, Loss: 0.0038
Epoch 100, Loss: 0.0015
Epoch 150, Loss: 0.0010
Epoch 200, Loss: 0.0007
Epoch 250, Loss: 0.0005
Epoch 300, Loss: 0.0004
Epoch 350, Loss: 0.0003
Epoch 400, Loss: 0.0003
Epoch 450, Loss: 0.0002


In [29]:
class SentimentGRU(nn.Module):
    def __init__(self, vocab_size, embedding_dim=10, hidden_dim=16):
        super(SentimentGRU, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embedding_dim, padding_idx=word_to_idx["<pad>"])
        self.gru = nn.GRU(embedding_dim, hidden_dim, batch_first=True)
        self.fc = nn.Linear(hidden_dim, 1)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        x = self.embedding(x)
        out, hidden = self.gru(x)
        out = self.fc(hidden[-1])
        return self.sigmoid(out)

# Initialisation du mod√®le
model2 = SentimentGRU(vocab_size=len(vocab))


In [30]:
for epoch in range(100): 
    model2.train()
    optimizer.zero_grad()
    outputs = model(X_train)
    loss = criterion(outputs, y_train)
    loss.backward()
    optimizer.step()

    if epoch % 10 == 0:
        print(f"Epoch {epoch}, Loss: {loss.item():.4f}")

Epoch 0, Loss: 0.0002
Epoch 10, Loss: 0.0002
Epoch 20, Loss: 0.0002
Epoch 30, Loss: 0.0002
Epoch 40, Loss: 0.0002
Epoch 50, Loss: 0.0002
Epoch 60, Loss: 0.0002
Epoch 70, Loss: 0.0002
Epoch 80, Loss: 0.0002
Epoch 90, Loss: 0.0002


### üß™ 8. Pr√©diction <span id="prediction"></span>

In [27]:
def predict(sentence): #a) Impl√©mentez une fonction predict(phrase) qui retourne :
                        #"Positif" si le mod√®le pr√©dit une probabilit√© > 0.5
                        #"N√©gatif" sinon
    model.eval()
    tokens = tokenize(sentence)
    encoded = [word_to_idx.get(word, 0) for word in tokens]
    padded = pad_sequences([encoded], maxlen=padded_sentences.shape[1], padding='post')
    tensor_input = torch.tensor(padded, dtype=torch.long)
    prob = model(tensor_input).item()
    return "Positif" if prob > 0.5 else "N√©gatif"


In [28]:
#b) Test
print(predict("je suis heureux"))   
print(predict("je suis triste"))

N√©gatif
N√©gatif


In [None]:
def predict(sentence): #par gru
    model2.eval()
    tokens = tokenize(sentence)
    encoded = [word_to_idx.get(word, word_to_idx["<pad>"]) for word in tokens]
    padded = pad_sequences([encoded], maxlen=max_length, padding='post', value=word_to_idx["<pad>"])
    tensor_input = torch.tensor(padded, dtype=torch.long)
    prob = model2(tensor_input).item()
    print(f"Probabilit√©: {prob:.4f}")
    return "Positif" if prob > 0.5 else "N√©gatif"

In [32]:
print(predict("je suis heureux"))
print(predict("je suis triste"))

Probabilit√©: 0.4594
N√©gatif
Probabilit√©: 0.4594
N√©gatif


### ‚ùì 9. R√©ponses aux questions du TP <span id="qst"></span>

##### 9.1. Pourquoi un RNN est-il utile ici, au lieu d‚Äôun r√©seau classique ?

- Car le GRU prend en compte l‚Äôordre des mots dans une phrase, ce qui est essentiel pour bien detecter le sentiment ou bien le sens du phrase par contre un r√©seau classique ne prend pas en compte l‚Äôordre des mots.


##### 9.2. Quels sont les inconv√©nients d‚Äôun RNN simple ?

- Probl√®mes de gradient (disparition/exploration), et a du mal √† m√©moriser des informations importantes sur de longues s√©quences.

##### 9.3. Que se passerait-il si on avait des phrases beaucoup plus longues ?

- Un RNN simple aurait encore plus de mal, il faudrait utiliser LSTM ou Transformer.