In [1]:
import torch
from torchtext.vocab import build_vocab_from_iterator
from torch.utils.data import DataLoader, Dataset

In [6]:
# Charger les données
import pandas as pd
data = pd.read_csv("datasets\hespress_proceced")

In [7]:
data.head()

Unnamed: 0,post_content,note,processed_text
0,تسلح يونس السكوري، وزير الإدماج الاقتصادي والم...,3.392897,تسلح يونس سكور زير ادماج اقتصاد مقاول صغرى تشغ...
1,أعادت واقعة “الاعتداء” الذي طال مسؤولا روسيا ف...,3.58041,اعاد واقع “ اعتداء ” طال مسوول روس دار بيضاء ن...
2,على بعد أسابيع من احتفالات رأس السنة تتجدد الم...,7.154203,اسابيع احتفال راس السن تتجدد مخاوف ارتفاع حال ...
3,كشف وزير العدل، عبد اللطيف وهبي، وجود محاولات ...,1.114053,كشف زير عدل عبد لطيف وهب جود محاول تخوض وزار ل...
4,نعت “مؤسسة دار الحديث الحسنية” التابعة لجامعة ...,1.107434,نعت “ موسس دار حديث حسن ” تابع جامع قرو اكاديم...


In [25]:
# Tokenisation simple
data['tokens'] = data['processed_text'].apply(lambda x: x.split())

# Construire un vocabulaire
vocab = build_vocab_from_iterator(data['tokens'], specials=["<unk>"])
vocab.set_default_index(vocab["<unk>"])

# Transformer les textes en séquences d'entiers
data['encoded'] = data['tokens'].apply(lambda x: [vocab[token] for token in x])

# Remplir ou tronquer les séquences pour une longueur fixe
MAX_LEN = 50
data['padded'] = data['encoded'].apply(lambda x: x[:MAX_LEN] + [0] * max(0, MAX_LEN - len(x)))

In [26]:
class TextDataset(Dataset):
    def __init__(self, data):
        self.data = data

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        text = torch.tensor(self.data.iloc[idx]['padded'], dtype=torch.long)
        label = torch.tensor(self.data.iloc[idx]['note'], dtype=torch.float)
        return text, label

dataset = TextDataset(data)
dataloader = DataLoader(dataset, batch_size=32, shuffle=True)


In [13]:
import torch.nn as nn

class SequenceModel(nn.Module):
    def __init__(self, vocab_size, embed_size, hidden_size, model_type="RNN"):
        super(SequenceModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_size)
        self.model_type = model_type
        if model_type == "RNN":
            self.rnn = nn.RNN(embed_size, hidden_size, batch_first=True)
        elif model_type == "BiRNN":
            self.rnn = nn.RNN(embed_size, hidden_size, batch_first=True, bidirectional=True)
        elif model_type == "GRU":
            self.rnn = nn.GRU(embed_size, hidden_size, batch_first=True)
        elif model_type == "LSTM":
            self.rnn = nn.LSTM(embed_size, hidden_size, batch_first=True)
        self.fc = nn.Linear(hidden_size * (2 if "Bi" in model_type else 1), 1)

    def forward(self, x):
        x = self.embedding(x)
        x, _ = self.rnn(x)
        x = x[:, -1, :]  # Dernière sortie temporelle
        x = self.fc(x)
        return x


In [27]:
import torch.optim as optim
from torch.nn import MSELoss
from tqdm import tqdm

# Initialiser le modèle
vocab_size = len(vocab)
embed_size = 100
hidden_size = 64
model_type = "LSTM"  # Changez pour RNN, BiRNN, GRU, ou LSTM

model = SequenceModel(vocab_size, embed_size, hidden_size, model_type)
criterion = MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

# Boucle d'entraînement
for epoch in range(100):
    model.train()
    total_loss = 0
    for texts, scores in tqdm(dataloader, desc=f"the epoch { epoch}/ 100"):
        optimizer.zero_grad()
        outputs = model(texts)
        loss = criterion(outputs.squeeze(), scores)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    print(f"Epoch {epoch + 1}, Loss: {total_loss / len(dataloader):.4f}")


the epoch 0/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 62.67it/s]


Epoch 1, Loss: 24.4899


the epoch 1/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 29.49it/s]


Epoch 2, Loss: 23.9633


the epoch 2/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 34.57it/s]


Epoch 3, Loss: 23.4435


the epoch 3/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.71it/s]


Epoch 4, Loss: 22.9288


the epoch 4/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 40.11it/s]


Epoch 5, Loss: 22.4181


the epoch 5/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.72it/s]


Epoch 6, Loss: 21.9095


the epoch 6/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.74it/s]


Epoch 7, Loss: 21.4012


the epoch 7/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 45.57it/s]


Epoch 8, Loss: 20.8911


the epoch 8/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 43.60it/s]


Epoch 9, Loss: 20.3774


the epoch 9/ 100: 100%|██████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.70it/s]


Epoch 10, Loss: 19.8584


the epoch 10/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 62.66it/s]


Epoch 11, Loss: 19.3328


the epoch 11/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.70it/s]


Epoch 12, Loss: 18.7991


the epoch 12/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  4.92it/s]


Epoch 13, Loss: 18.2560


the epoch 13/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 77.12it/s]


Epoch 14, Loss: 17.7023


the epoch 14/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 27.85it/s]


Epoch 15, Loss: 17.1371


the epoch 15/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.75it/s]


Epoch 16, Loss: 16.5593


the epoch 16/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 38.57it/s]


Epoch 17, Loss: 15.9683


the epoch 17/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 50.15it/s]


Epoch 18, Loss: 15.3636


the epoch 18/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.71it/s]


Epoch 19, Loss: 14.7448


the epoch 19/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.70it/s]


Epoch 20, Loss: 14.1117


the epoch 20/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.71it/s]


Epoch 21, Loss: 13.4645


the epoch 21/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 41.76it/s]


Epoch 22, Loss: 12.8037


the epoch 22/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 15.19it/s]


Epoch 23, Loss: 12.1301


the epoch 23/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 23.32it/s]


Epoch 24, Loss: 11.4451


the epoch 24/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 50.13it/s]


Epoch 25, Loss: 10.7505


the epoch 25/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 52.77it/s]


Epoch 26, Loss: 10.0489


the epoch 26/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 45.58it/s]


Epoch 27, Loss: 9.3437


the epoch 27/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.75it/s]


Epoch 28, Loss: 8.6394


the epoch 28/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 43.60it/s]


Epoch 29, Loss: 7.9414


the epoch 29/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 37.13it/s]


Epoch 30, Loss: 7.2569


the epoch 30/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.75it/s]


Epoch 31, Loss: 6.5962


the epoch 31/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.75it/s]


Epoch 32, Loss: 5.9761


the epoch 32/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 43.59it/s]


Epoch 33, Loss: 5.4296


the epoch 33/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.70it/s]


Epoch 34, Loss: 5.0095


the epoch 34/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 50.13it/s]


Epoch 35, Loss: 4.7255


the epoch 35/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.75it/s]


Epoch 36, Loss: 4.4682


the epoch 36/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 50.14it/s]


Epoch 37, Loss: 4.1169


the epoch 37/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.71it/s]


Epoch 38, Loss: 3.6521


the epoch 38/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 52.77it/s]


Epoch 39, Loss: 3.1913


the epoch 39/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.76it/s]


Epoch 40, Loss: 2.8526


the epoch 40/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 50.14it/s]


Epoch 41, Loss: 2.6194


the epoch 41/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 50.13it/s]


Epoch 42, Loss: 2.4400


the epoch 42/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 50.14it/s]


Epoch 43, Loss: 2.2884


the epoch 43/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.75it/s]


Epoch 44, Loss: 2.1543


the epoch 44/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 45.57it/s]


Epoch 45, Loss: 2.0332


the epoch 45/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.07it/s]


Epoch 46, Loss: 1.9228


the epoch 46/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 27.85it/s]


Epoch 47, Loss: 1.8217


the epoch 47/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 52.78it/s]


Epoch 48, Loss: 1.7283


the epoch 48/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 52.76it/s]


Epoch 49, Loss: 1.6410


the epoch 49/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 52.77it/s]


Epoch 50, Loss: 1.5583


the epoch 50/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 62.67it/s]


Epoch 51, Loss: 1.4788


the epoch 51/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 58.98it/s]


Epoch 52, Loss: 1.4011


the epoch 52/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 58.99it/s]


Epoch 53, Loss: 1.3246


the epoch 53/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 10.78it/s]


Epoch 54, Loss: 1.2491


the epoch 54/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 11.27it/s]


Epoch 55, Loss: 1.1751


the epoch 55/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 50.14it/s]


Epoch 56, Loss: 1.1032


the epoch 56/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 43.60it/s]


Epoch 57, Loss: 1.0344


the epoch 57/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 27.85it/s]


Epoch 58, Loss: 0.9696


the epoch 58/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 29.49it/s]


Epoch 59, Loss: 0.9095


the epoch 59/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 16.71it/s]


Epoch 60, Loss: 0.8544


the epoch 60/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 71.62it/s]


Epoch 61, Loss: 0.8044


the epoch 61/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 62.67it/s]


Epoch 62, Loss: 0.7591


the epoch 62/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.70it/s]


Epoch 63, Loss: 0.7183


the epoch 63/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 33.42it/s]


Epoch 64, Loss: 0.6817


the epoch 64/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 30.38it/s]


Epoch 65, Loss: 0.6487


the epoch 65/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 33.42it/s]


Epoch 66, Loss: 0.6192


the epoch 66/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 28.65it/s]


Epoch 67, Loss: 0.5926


the epoch 67/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 41.78it/s]


Epoch 68, Loss: 0.5689


the epoch 68/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 71.62it/s]


Epoch 69, Loss: 0.5476


the epoch 69/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 71.62it/s]


Epoch 70, Loss: 0.5286


the epoch 70/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 50.14it/s]


Epoch 71, Loss: 0.5117


the epoch 71/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 29.49it/s]


Epoch 72, Loss: 0.4968


the epoch 72/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.07it/s]


Epoch 73, Loss: 0.4836


the epoch 73/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 20.89it/s]


Epoch 74, Loss: 0.4719


the epoch 74/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 43.60it/s]


Epoch 75, Loss: 0.4614


the epoch 75/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 71.62it/s]


Epoch 76, Loss: 0.4519


the epoch 76/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 58.98it/s]


Epoch 77, Loss: 0.4431


the epoch 77/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.71it/s]


Epoch 78, Loss: 0.4347


the epoch 78/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.74it/s]


Epoch 79, Loss: 0.4265


the epoch 79/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.71it/s]


Epoch 80, Loss: 0.4183


the epoch 80/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00,  9.03it/s]


Epoch 81, Loss: 0.4100


the epoch 81/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 34.58it/s]


Epoch 82, Loss: 0.4015


the epoch 82/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 45.58it/s]


Epoch 83, Loss: 0.3929


the epoch 83/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.71it/s]


Epoch 84, Loss: 0.3842


the epoch 84/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 26.39it/s]


Epoch 85, Loss: 0.3756


the epoch 85/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 28.65it/s]


Epoch 86, Loss: 0.3672


the epoch 86/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 24.46it/s]


Epoch 87, Loss: 0.3592


the epoch 87/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 40.11it/s]


Epoch 88, Loss: 0.3517


the epoch 88/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 40.11it/s]


Epoch 89, Loss: 0.3447


the epoch 89/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 30.38it/s]


Epoch 90, Loss: 0.3382


the epoch 90/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 31.33it/s]


Epoch 91, Loss: 0.3321


the epoch 91/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.07it/s]


Epoch 92, Loss: 0.3263


the epoch 92/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 25.07it/s]


Epoch 93, Loss: 0.3208


the epoch 93/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.75it/s]


Epoch 94, Loss: 0.3154


the epoch 94/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 47.75it/s]


Epoch 95, Loss: 0.3101


the epoch 95/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 58.98it/s]


Epoch 96, Loss: 0.3047


the epoch 96/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 62.66it/s]


Epoch 97, Loss: 0.2993


the epoch 97/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 55.70it/s]


Epoch 98, Loss: 0.2939


the epoch 98/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 52.78it/s]


Epoch 99, Loss: 0.2885


the epoch 99/ 100: 100%|█████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 35.81it/s]

Epoch 100, Loss: 0.2830





In [28]:
from sklearn.metrics import mean_squared_error

model.eval()
predictions = []
actuals = []
with torch.no_grad():
    for texts, scores in dataloader:
        outputs = model(texts)
        predictions.extend(outputs.squeeze().tolist())
        actuals.extend(scores.tolist())

mse = mean_squared_error(actuals, predictions)
print(f"Mean Squared Error: {mse:.4f}")

Mean Squared Error: 0.2774
