# üß† TP ‚Äì Pr√©paration du Dataset pour un Mod√®le NLP

---

## 1Ô∏è‚É£ Chargement du Dataset

On lit le fichier texte pr√©trait√© ligne par ligne.  
Chaque ligne contient une phrase et son √©tiquette (sentiment ou √©motion), s√©par√©es par un point-virgule `;`.

La fonction `load_file(path)` retourne deux listes :
- **texts** : les phrases
- **emotions** : les √©tiquettes associ√©es


In [30]:
def load_file(file_path, sep=";"):
    texts = []
    emotions = []
    with open(file_path, "r", encoding="utf-8") as f:
        for line in f:
            line = line.strip()
            if not line:
                continue  # on saute les lignes vides
            parts = line.split(sep)
            if len(parts) >= 2:
                text = parts[0].strip()
                emotion = parts[1].strip()
                texts.append(text)
                emotions.append(emotion)
    return texts, emotions

texts, emotions = load_file("dataset/train.txt")
print(texts[:3])
print(emotions[:3])


['i didnt feel humiliated', 'i can go from feeling so hopeless to so damned hopeful just from being around someone who cares and is awake', 'im grabbing a minute to post i feel greedy wrong']
['sadness', 'sadness', 'anger']


üìò **Exemple de sortie :**


['i didnt feel humiliated',
'i can go from feeling so hopeless to so damned hopeful just from being around someone who cares and is awake',
'im grabbing a minute to post i feel greedy wrong']

['sadness', 'sadness', 'anger']


---

## 2Ô∏è‚É£ Construction du Vocabulaire

On cr√©e une correspondance `mot -> id_mot` √† partir de toutes les phrases du dataset.  
Chaque mot re√ßoit un identifiant num√©rique unique.

On ajoute aussi deux mots sp√©ciaux :
- `<PAD>` : utilis√© pour le **remplissage** des phrases plus courtes
- `<UNK>` : utilis√© pour les **mots inconnus**


In [31]:
def build_vocab(texts):
    vocab = {"<PAD>": 0, "<UNK>": 1}
    idx = 2
    for text in texts:
        for word in text.split():
            if word not in vocab:
                vocab[word] = idx
                idx += 1
    return vocab

# Exemple
vocab = build_vocab(texts)
print("Taille du vocabulaire :", len(vocab))
list(vocab.items())[:10]  # affichage partiel


Taille du vocabulaire : 15214


[('<PAD>', 0),
 ('<UNK>', 1),
 ('i', 2),
 ('didnt', 3),
 ('feel', 4),
 ('humiliated', 5),
 ('can', 6),
 ('go', 7),
 ('from', 8),
 ('feeling', 9)]

## 3Ô∏è‚É£ Encodage One-Hot des Mots

Chaque mot est repr√©sent√© par un vecteur **one-hot** de taille √©gale √† `vocab_size`.

- Exemple : si `vocab = {"<PAD>":0, "<UNK>":1, "I":2, "love":3, "NLP":4}`,  
  alors `"love"` devient `[0, 0, 0, 1, 0]`.


In [32]:
import numpy as np

def one_hot_encode(word, vocab):
    vec = np.zeros(len(vocab), dtype=np.float32)
    idx = vocab.get(word, vocab["<UNK>"])
    vec[idx] = 1.0
    return vec

# Exemple
print(one_hot_encode("feel", vocab))


[0. 0. 0. ... 0. 0. 0.]


## 4Ô∏è‚É£ Normalisation de la Longueur des Phrases (Padding)

Les r√©seaux de neurones exigent des entr√©es de **m√™me longueur**.  
On fixe donc une taille maximale `sentence_size` et :
- on **tronque** les phrases trop longues,
- on **remplit** les phrases plus courtes avec le mot sp√©cial `<PAD>`.

Exemple :

["I", "love", "NLP"] ‚Üí ["I", "love", "NLP", "<PAD>", "<PAD>"]


In [33]:
def pad_sentence(words, sentence_size):
    words = words[:sentence_size]
    while len(words) < sentence_size:
        words.append("<PAD>")
    return words

def pad_all_sentences(texts, sentence_size):
    padded = []
    for text in texts:
        words = text.split()
        padded.append(pad_sentence(words, sentence_size))
    return padded

# Exemple
sentence_size = 10

padded_texts = pad_all_sentences(texts, sentence_size)
for p in padded_texts:
    print(p)


['i', 'didnt', 'feel', 'humiliated', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>']
['i', 'can', 'go', 'from', 'feeling', 'so', 'hopeless', 'to', 'so', 'damned']
['im', 'grabbing', 'a', 'minute', 'to', 'post', 'i', 'feel', 'greedy', 'wrong']
['i', 'am', 'ever', 'feeling', 'nostalgic', 'about', 'the', 'fireplace', 'i', 'will']
['i', 'am', 'feeling', 'grouchy', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>']
['ive', 'been', 'feeling', 'a', 'little', 'burdened', 'lately', 'wasnt', 'sure', 'why']
['ive', 'been', 'taking', 'or', 'milligrams', 'or', 'times', 'recommended', 'amount', 'and']
['i', 'feel', 'as', 'confused', 'about', 'life', 'as', 'a', 'teenager', 'or']
['i', 'have', 'been', 'with', 'petronas', 'for', 'years', 'i', 'feel', 'that']
['i', 'feel', 'romantic', 'too', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>', '<PAD>']
['i', 'feel', 'like', 'i', 'have', 'to', 'make', 'the', 'suffering', 'i']
['i', 'do', 'feel', 'that', 'running', 'is', 'a', 'divine', 'experience', 'and

## 6Ô∏è‚É£ Pr√©paration du Dataset pour le R√©seau de Neurones

Le r√©seau r√©current (RNN, LSTM, GRU, etc.) prend en entr√©e, **mot par mot**, un vecteur de taille `vocab_size`.

‚û°Ô∏è Pour un `batch_size = 10` et une `sentence_size = 20` :
- On envoie d‚Äôabord les **10 premiers mots** de chaque phrase (shape `(10, vocab_size)`),
- Puis les **10 seconds mots**, etc., jusqu‚Äô√† 20 mots par phrase.

L‚Äôid√©e : construire une classe `torch.utils.data.Dataset` qui :
1. Re√ßoit les phrases et leurs labels,  
2. Fait le **padding**,  
3. Encode chaque mot en **one-hot**,  
4. Retourne les tenseurs utilisables par le mod√®le.


In [34]:
import numpy as np

class Dataset:
    pass  

class torch:
    class utils:
        class data:
            class Dataset:
                def __init__(self, texts, emotions, vocab, sentence_size):
                    """
                    Initialise notre dataset avec :
                    - texts : liste de phrases
                    - emotions : liste de labels associ√©s √† chaque phrase
                    - vocab : dictionnaire {mot -> id}
                    - sentence_size : longueur fixe pour chaque phrase (padding/tronquage)
                    """
                    self.texts = texts
                    self.emotions = emotions
                    self.vocab = vocab
                    self.sentence_size = sentence_size

                    # Cr√©ation d‚Äôun mapping entre label texte et ID num√©rique
                    # Exemple : {"joy": 0, "anger": 1, "sadness": 2, ...}
                    self.labels = sorted(list(set(emotions)))
                    self.label2id = {lab: i for i, lab in enumerate(self.labels)}

                def __len__(self):
                    """
                    Retourne le nombre total d‚Äôexemples dans le dataset.
                    Permet d‚Äôutiliser len(dataset)
                    """
                    return len(self.texts)

                def __getitem__(self, idx):
                    """
                    Retourne l‚Äô√©chantillon num√©ro idx :
                    - one_hot_sentence : matrice (sentence_size, vocab_size)
                    - label : entier repr√©sentant l‚Äô√©motion
                    """

                    # 1Ô∏è‚É£ On r√©cup√®re la phrase correspondante
                    words = self.texts[idx].split()

                    # 2Ô∏è‚É£ Tronquage si la phrase est trop longue
                    words = words[:self.sentence_size]

                    # 3Ô∏è‚É£ Padding si elle est trop courte
                    words += ["<PAD>"] * (self.sentence_size - len(words))

                    # 4Ô∏è‚É£ Encodage one-hot mot par mot
                    one_hot_sentence = np.array([one_hot_encode(w, self.vocab) for w in words])

                    # 5Ô∏è‚É£ Conversion du label texte en entier
                    label = self.label2id[self.emotions[idx]]

                    return one_hot_sentence, label


## ‚öôÔ∏è 7Ô∏è‚É£ G√©n√©ration manuelle des batchs

Le r√©seau sera aliment√© **par batchs** :  
au lieu d‚Äôenvoyer une phrase √† la fois, on regroupe plusieurs √©chantillons ensemble.

On d√©finit donc une fonction `generate_batches()` qui :
1. Parcourt le dataset par tranches de `batch_size`,
2. R√©cup√®re les one-hot + labels de chaque √©l√©ment du batch,
3. Les renvoie sous forme de matrices NumPy pr√™tes pour le r√©seau.


In [35]:
def generate_batches(dataset, batch_size):
    """
    G√©n√®re des batchs successifs √† partir du dataset.
    Chaque batch contient :
    - X_batch : tableau (batch_size, sentence_size, vocab_size)
    - y_batch : tableau (batch_size,)
    """
    for i in range(0, len(dataset), batch_size):
        batch_sentences = []
        batch_labels = []

        # On parcourt chaque √©chantillon du batch
        for j in range(i, min(i + batch_size, len(dataset))):
            x, y = dataset[j]
            batch_sentences.append(x)
            batch_labels.append(y)

        # On transforme en tableaux NumPy pour la compatibilit√© avec le r√©seau
        yield np.array(batch_sentences), np.array(batch_labels)


In [36]:
# Param√®tres
sentence_size = 20
batch_size = 10

# Cr√©ation de l‚Äôinstance Dataset (notre version custom)
dataset = torch.utils.data.Dataset(texts, emotions, vocab, sentence_size)

print("üîπ Taille totale du dataset :", len(dataset))

# Exemple d‚Äôun √©chantillon unique
x0, y0 = dataset[0]
print("Phrase 0 encod√©e ‚Üí shape :", x0.shape)
print("Label associ√© :", y0)

# Exemple d‚Äôun batch complet
for X_batch, y_batch in generate_batches(dataset, batch_size):
    print("\nBatch ‚Üí X shape :", X_batch.shape)
    print("Batch ‚Üí y shape :", y_batch.shape)
    print("Labels du batch :", y_batch[:5])
    break


üîπ Taille totale du dataset : 16000
Phrase 0 encod√©e ‚Üí shape : (20, 15214)
Label associ√© : 4

Batch ‚Üí X shape : (10, 20, 15214)
Batch ‚Üí y shape : (10,)
Labels du batch : [4 4 0 3 0]


### Partie 3

In [37]:
import numpy as np

class SimpleRNN:
    def __init__(self, input_size, hidden_size, output_size):
        """
        input_size  : taille du vecteur d'entr√©e (ex: vocab_size)
        hidden_size : taille du vecteur cach√©
        output_size : nombre de classes (√©motions)
        """
        self.input_size = input_size
        self.hidden_size = hidden_size
        self.output_size = output_size

        # ‚öôÔ∏è Poids entre input+hidden et hidden
        self.W_h = np.random.randn(hidden_size, input_size + hidden_size) * 0.01
        self.b_h = np.zeros((hidden_size, 1))

        # ‚öôÔ∏è Poids entre input+hidden et output
        self.W_o = np.random.randn(output_size, input_size + hidden_size) * 0.01
        self.b_o = np.zeros((output_size, 1))

    def step(self, x_t, h_prev):
        """
        x_t     : vecteur d'entr√©e √† l'instant t (shape: input_size, 1)
        h_prev  : √©tat cach√© pr√©c√©dent (shape: hidden_size, 1)
        """
        # 1Ô∏è‚É£ Combine input + hidden pr√©c√©dent
        combined = np.vstack((x_t, h_prev))  # empile les deux vecteurs

        # 2Ô∏è‚É£ Nouveau hidden : tanh(W_h * combined + b_h)
        h_t = np.tanh(np.dot(self.W_h, combined) + self.b_h)

        # 3Ô∏è‚É£ Sortie brute : W_o * combined + b_o
        y_t = np.dot(self.W_o, combined) + self.b_o

        # 4Ô∏è‚É£ Application d‚Äôun softmax pour obtenir une "probabilit√©" de classe
        exp_y = np.exp(y_t - np.max(y_t))
        output = exp_y / exp_y.sum(axis=0, keepdims=True)

        return output, h_t

    def init_hidden(self):
        """Initialise le vecteur cach√© √† z√©ro"""
        return np.zeros((self.hidden_size, 1))


In [38]:
vocab_size = 5     # (ex: 5 mots)
hidden_size = 4
output_size = 3     # (ex: 3 √©motions)

rnn = SimpleRNN(vocab_size, hidden_size, output_size)
h = rnn.init_hidden()

# mot "i" ‚Üí vecteur one-hot [1,0,0,0,0]
x_t = np.zeros((vocab_size, 1))
x_t[0,0] = 1.0

output, new_hidden = rnn.step(x_t, h)

print("Output (softmax):\n", output)
print("Hidden state:\n", new_hidden)


Output (softmax):
 [[0.33213237]
 [0.33720864]
 [0.33065899]]
Hidden state:
 [[ 0.0096323 ]
 [-0.00084202]
 [-0.00563849]
 [ 0.00080631]]


### üß™ Test 1 ‚Äî Un mot unique (batch_size = 1, sans r√©currence)

Ici, on simule le passage d‚Äôun seul mot (comme ton sujet le dit).


In [42]:
# S√©lection d'un mot du dataset
first_sentence = texts[0].split()
first_word = first_sentence[0]

# Cr√©ation du vecteur one-hot
x_t = np.zeros((len(vocab), 1))
x_t[vocab.get(first_word, vocab["<UNK>"])] = 1.0

# Initialisation du r√©seau et du hidden state
vocab_size = len(vocab)
hidden_size = 64
output_size = len(set(emotions))

rnn = SimpleRNN(vocab_size, hidden_size, output_size)
h = rnn.init_hidden()

# Passage du mot unique
output, h_new = rnn.step(x_t, h)

print(f"Mot : {first_word}")
print("Output shape :", output.shape)
print("Hidden state shape :", h_new.shape)
print("Distribution de sortie :", output.ravel()[:5])

print("Somme des probabilit√©s :", np.sum(output))



Mot : i
Output shape : (6, 1)
Hidden state shape : (64, 1)
Distribution de sortie : [0.16804909 0.16854478 0.16707641 0.16709055 0.16373645]
Somme des probabilit√©s : 1.0000000000000002


 ### üîÅ Test 2 ‚Äî R√©currence sur une phrase compl√®te

On va maintenant parcourir chaque mot d‚Äôune phrase du dataset, en faisant circuler le hidden √† chaque √©tap

In [44]:
sentence = texts[0].split()
print("Phrase :", " ".join(sentence))

h = rnn.init_hidden()

for word in sentence:
    x_t = np.zeros((len(vocab), 1))
    x_t[vocab.get(word, vocab["<UNK>"])] = 1.0
    output, h = rnn.step(x_t, h)
    print(f"√âtape {t} | mot = {word} | max proba sortie = {np.max(output):.4f}")

# Apr√®s avoir lu toute la phrase :
print("\nDerni√®re sortie du RNN (probabilit√©s normalis√©es) :")
print(output.ravel()[:5])
print("\nClasse pr√©dite :", np.argmax(output))


Phrase : i didnt feel humiliated
√âtape 9 | mot = i | max proba sortie = 0.1685
√âtape 9 | mot = didnt | max proba sortie = 0.1686
√âtape 9 | mot = feel | max proba sortie = 0.1679
√âtape 9 | mot = humiliated | max proba sortie = 0.1692

Derni√®re sortie du RNN (probabilit√©s normalis√©es) :
[0.16533468 0.16923704 0.16827448 0.16282174 0.16672551]

Classe pr√©dite : 1


### üì¶ Test 3 ‚Äî Traitement par batch (plusieurs phrases)

Maintenant, on simule un mini-batch de plusieurs phrases (par ex. 5 phrases du train).

L‚Äôid√©e : toutes les phrases doivent avoir la m√™me longueur ‚Üí tu appliques ton pad_all_sentences() avant.

In [45]:
# On prend un mini-lot de phrases
batch_size = 5
sentence_size = 10
padded_sentences = pad_all_sentences(texts[:batch_size], sentence_size)

print("Batch de 5 phrases (padd√©es √† 10 mots chacune)\n")

# Initialisation du hidden pour tout le batch
hidden_states = [rnn.init_hidden() for _ in range(batch_size)]


# Passage mot par mot (r√©currence sur la longueur de la phrase)
for t in range(sentence_size):
    for i, sentence in enumerate(padded_sentences):
        word = sentence[t]
        x_t = np.zeros((len(vocab), 1))
        x_t[vocab.get(word, vocab["<UNK>"])] = 1.0
        _, hidden_states[i] = rnn.step(x_t, hidden_states[i])

print("‚úÖ Passage batch termin√© ‚Äî hidden states mis √† jour pour chaque phrase.")


Batch de 5 phrases (padd√©es √† 10 mots chacune)

‚úÖ Passage batch termin√© ‚Äî hidden states mis √† jour pour chaque phrase.
