In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
import os
import pandas as pd
import re

# Dossier contenant les fichiers CSV à traiter
dossier_csv = '/content/drive/MyDrive/dataNett'

# Initialiser une liste pour stocker tous les DataFrames corrigés
dataframes_corriges = []

# Fonction pour nettoyer les balises et espaces
def nettoyer_texte(texte):
    if isinstance(texte, str):
        texte = re.sub(r'\[DQ\]', '', texte)
        texte = re.sub(r'\[FQ\]', '', texte)
        texte = re.sub(r'\[DR\]', '', texte)
        texte = re.sub(r'\[FR\]', '', texte)
        texte = texte.strip()
    return texte

# Itérer sur chaque fichier CSV dans le dossier
for fichier in os.listdir(dossier_csv):
    if fichier.endswith(".csv"):
        # Lire le fichier CSV
        chemin_csv = os.path.join(dossier_csv, fichier)
        df = pd.read_csv(chemin_csv)

        # Nettoyer les colonnes du DataFrame
        df['Contexte'] = df['Contexte'].apply(nettoyer_texte)
        df['Question'] = df['Question'].apply(nettoyer_texte)
        df['Réponse'] = df['Réponse'].apply(nettoyer_texte)

        # Supprimer les lignes où 'Contexte', 'Question', ou 'Réponse' est vide
        df = df[df['Contexte'].str.strip() != ""]
        df = df[df['Question'].str.strip() != ""]
        df = df[df['Réponse'].str.strip() != ""]

        # Ajouter le DataFrame corrigé à la liste
        dataframes_corriges.append(df)

# Combiner tous les DataFrames corrigés dans un DataFrame global
df_final_global = pd.concat(dataframes_corriges, ignore_index=True)

# Sauvegarder le DataFrame final nettoyé dans un fichier CSV
df_final_global.to_csv('/content/drive/MyDrive/data_final_nettoye.csv', index=False)

# Afficher quelques exemples pour vérifier le contenu
print(df_final_global.head())


                                            Contexte  \
0  لاء باش يحافظوا على ه العضو هذا ويحافظوا على ص...   
1  ولوا اشربوا ياسر ماء وه عندهم انتفاخ وعندهم تر...   
2  وا ياسر ماء ولكن حسب الوضعيه تعهم نقولوا لهم ا...   
3  تغذيه الكلوه بالدم وهذا ينجم نجر عليه نوع من ا...   
4  الدم والا ادويه اع مضاده للالتهابات هذوما ثروا...   

                                            Question  \
0  كيفاش هالارتفاع المفرد في درجات الحراره وخاصه ...   
1  الفئات الناس اللي عندها الحساء يلزم ترد بالها ...   
2  العلامات دكتور والاعراض ماما قاعدين نشوف العلا...   
3  الفئات الاكثر عرضه دكتور باي الجفاف هذا كيفاش ...   
4  بالنسبه ل عندهم زرع دكتور اللي سناو في زرع ما ...   

                                             Réponse  
0  الكلاء ماما قلت انت هو عضو اساسي في البدن في ج...  
1  ينجم يكون لانه هو الماء يق كونسيون تعزين بع ال...  
2  ارتفاع في درج الحراره بصفه عامه بنقص كميه البو...  
3  المضاعفات هي ما قلتلك هي في مرحله متقدمه معنات...  
4  بالنسبه اللي زارعين الكلا اللي زارعين الكلاء د..

In [None]:
import pandas as pd

# Chemin vers le fichier CSV individuel
fichier_csv = '/content/drive/MyDrive/data_final_nettoye.csv'  # Remplacez par le chemin correct

# Charger les données du fichier CSV
df_final_global = pd.read_csv(fichier_csv)

# Afficher les premières lignes pour vérifier le contenu
print("Aperçu des données :")
df_final_global

Aperçu des données :


Unnamed: 0,Contexte,Question,Réponse
0,لاء باش يحافظوا على ه العضو هذا ويحافظوا على ص...,كيفاش هالارتفاع المفرد في درجات الحراره وخاصه ...,الكلاء ماما قلت انت هو عضو اساسي في البدن في ج...
1,ولوا اشربوا ياسر ماء وه عندهم انتفاخ وعندهم تر...,الفئات الناس اللي عندها الحساء يلزم ترد بالها ...,ينجم يكون لانه هو الماء يق كونسيون تعزين بع ال...
2,وا ياسر ماء ولكن حسب الوضعيه تعهم نقولوا لهم ا...,العلامات دكتور والاعراض ماما قاعدين نشوف العلا...,ارتفاع في درج الحراره بصفه عامه بنقص كميه البو...
3,تغذيه الكلوه بالدم وهذا ينجم نجر عليه نوع من ا...,الفئات الاكثر عرضه دكتور باي الجفاف هذا كيفاش ...,المضاعفات هي ما قلتلك هي في مرحله متقدمه معنات...
4,الدم والا ادويه اع مضاده للالتهابات هذوما ثروا...,بالنسبه ل عندهم زرع دكتور اللي سناو في زرع ما ...,بالنسبه اللي زارعين الكلا اللي زارعين الكلاء د...
...,...,...,...
105,واء المناسب للحاله بتاعه هو من نو خروش على ذكر...,شنو هو العلاج اع مرض بهج,علاج في مرض بهجت فيه زوج دو فولي فما لو تريتم ...
106,حظوظين دونك حنا نحاول نشخص المرض بطريقه بيزت ...,نرجع للنصائح الى جانب التشخيص الدقيق والحين وا...,ننصح المريض انه اول حاجه يواظب على دواه ما يقص...
107,يني باش يطرق لهم المؤتمر المتوسطي للطب الباطني...,علاش اخترتوا ه النظام الغذائي هذايا وشنو منفعت...,الريجيم هذايا هو حاجه ورثناها من عند جدوده موج...
108,يع امراض برشا امراض صحيح دكتوره جهاد زده من بي...,علاش حتى نحكي على مؤتمر متوسطي للطب الباطني وب...,السؤال يطرح نفسه تبقى امراض السكر وغض الدم وام...


In [None]:
from transformers import AutoTokenizer, AutoModelForQuestionAnswering

# Load the tokenizer and model
tokenizer = AutoTokenizer.from_pretrained("aubmindlab/bert-base-arabertv2")




In [None]:
for index, row in df_final_global.iterrows():
    question = row['Question']

    tokenized_question = tokenizer(question, return_tensors="pt")

    # Calculer le nombre de tokens utilisés par la question
    num_tokens_question = len(tokenized_question['input_ids'][0])

    # Déterminer combien de tokens sont disponibles pour la réponse
    max_tokens = 512
    tokens_restants_pour_reponse = max_tokens - num_tokens_question

    print(f"Nombre de tokens pour la question : {num_tokens_question}")
    print(f"Tokens disponibles pour la réponse : {tokens_restants_pour_reponse}")


Token indices sequence length is longer than the specified maximum sequence length for this model (886 > 512). Running this sequence through the model will result in indexing errors


Nombre de tokens pour la question : 34
Tokens disponibles pour la réponse : 478
Nombre de tokens pour la question : 41
Tokens disponibles pour la réponse : 471
Nombre de tokens pour la question : 34
Tokens disponibles pour la réponse : 478
Nombre de tokens pour la question : 58
Tokens disponibles pour la réponse : 454
Nombre de tokens pour la question : 18
Tokens disponibles pour la réponse : 494
Nombre de tokens pour la question : 39
Tokens disponibles pour la réponse : 473
Nombre de tokens pour la question : 55
Tokens disponibles pour la réponse : 457
Nombre de tokens pour la question : 54
Tokens disponibles pour la réponse : 458
Nombre de tokens pour la question : 34
Tokens disponibles pour la réponse : 478
Nombre de tokens pour la question : 30
Tokens disponibles pour la réponse : 482
Nombre de tokens pour la question : 14
Tokens disponibles pour la réponse : 498
Nombre de tokens pour la question : 63
Tokens disponibles pour la réponse : 449
Nombre de tokens pour la question : 37
T

In [None]:
def segmenter_reponse(reponse, segment_size=100):
    tokens = reponse.split()  # Diviser la réponse en mots
    return [' '.join(tokens[i:i+segment_size]) for i in range(0, len(tokens), segment_size)]

# Exemple d'application de la fonction sur une colonne de réponse
df_final_global['Segments_Reponse'] = df_final_global['Réponse'].apply(segmenter_reponse)

In [None]:
!pip install sentence_transformers



In [None]:
from sentence_transformers import SentenceTransformer, util

# Charger le modèle Sentence-BERT pour l'analyse sémantique
model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')

# Fonction pour calculer la similarité sémantique
def trier_segments_par_pertinence(row):
    question_embedding = model.encode(row['Question'], convert_to_tensor=True)
    segments = row['Segments_Reponse']
    segment_embeddings = model.encode(segments, convert_to_tensor=True)

    # Calculer la similarité cosinus entre la question et chaque segment de la réponse
    similarities = util.pytorch_cos_sim(question_embedding, segment_embeddings)

    # Trier les segments par ordre de pertinence
    segments_tries = [x for _, x in sorted(zip(similarities, segments), reverse=True)]
    return segments_tries

# Appliquer l'analyse sémantique sur le DataFrame
df_final_global['Segments_Triés'] = df_final_global.apply(trier_segments_par_pertinence, axis=1)



In [None]:
def construire_sequence_finale(row):
    tokenized_question = tokenizer(row['Question'], return_tensors="pt")
    tokens_utilises = len(tokenized_question['input_ids'][0])

    sequence_finale = row['Question']

    # Ajouter les segments de la réponse triés par pertinence, un par un
    for segment in row['Segments_Triés']:
        tokenized_segment = tokenizer(segment, return_tensors="pt")
        tokens_utilises += len(tokenized_segment['input_ids'][0])

        if tokens_utilises <= 512:  # S'assurer de ne pas dépasser 512 tokens
            sequence_finale += " " + segment
        else:
            break

    return sequence_finale

# Appliquer la construction de séquence finale sur le DataFrame
df_final_global['Sequence_Finale'] = df_final_global.apply(construire_sequence_finale, axis=1)


In [None]:
def generer_positions_start_end(row):
    # Tokeniser la question et la séquence finale
    tokenized_question = tokenizer(row['Question'], return_tensors="pt", truncation=True)
    tokenized_sequence = tokenizer(row['Sequence_Finale'], return_tensors="pt", truncation=True, max_length=512)

    # La position "start" est juste après la question
    len_question = len(tokenized_question['input_ids'][0])
    start_position = len_question  # Le premier token de la réponse est après la question

    # La position "end" est à la fin de la réponse dans la séquence finale
    len_sequence = len(tokenized_sequence['input_ids'][0])
    end_position = len_sequence - 1  # Dernier token de la séquence finale

    return start_position, end_position

# Appliquer la fonction pour générer les positions "start" et "end" sur chaque ligne du DataFrame
df_final_global['start_position'], df_final_global['end_position'] = zip(*df_final_global.apply(generer_positions_start_end, axis=1))

# Vérifier les positions de début et de fin
print(df_final_global[['Sequence_Finale', 'start_position', 'end_position']])

                                       Sequence_Finale  start_position  \
0    كيفاش هالارتفاع المفرد في درجات الحراره وخاصه ...              34   
1    الفئات الناس اللي عندها الحساء يلزم ترد بالها ...              41   
2    العلامات دكتور والاعراض ماما قاعدين نشوف العلا...              34   
3    الفئات الاكثر عرضه دكتور باي الجفاف هذا كيفاش ...              58   
4    بالنسبه ل عندهم زرع دكتور اللي سناو في زرع ما ...              18   
..                                                 ...             ...   
105  شنو هو العلاج اع مرض بهج علاج في مرض بهجت فيه ...               9   
106  نرجع للنصائح الى جانب التشخيص الدقيق والحين وا...              28   
107  علاش اخترتوا ه النظام الغذائي هذايا وشنو منفعت...              30   
108  علاش حتى نحكي على مؤتمر متوسطي للطب الباطني وب...              38   
109  حوصله مرض بهجه شنو تنجم تزيد تحكينا على النصائ...              17   

     end_position  
0             189  
1             184  
2             190  
3             201  
4          

In [None]:
# Tokeniser toutes les séquences finales et vérifier la longueur après tokenisation
def verifier_longueur_apres_tokenisation(sequence):
    tokenized_sequence = tokenizer(sequence, return_tensors="pt", truncation=True, max_length=512)
    return len(tokenized_sequence['input_ids'][0])

# Appliquer la vérification pour toutes les séquences dans le DataFrame
df_final_global['longueur_tokens'] = df_final_global['Sequence_Finale'].apply(verifier_longueur_apres_tokenisation)

# Vérifier si certaines séquences dépassent la longueur de 512 tokens
sequences_trop_longues = df_final_global[df_final_global['longueur_tokens'] > 512]

if not sequences_trop_longues.empty:
    print("Attention : certaines séquences dépassent la limite de 512 tokens !")
    print(sequences_trop_longues[['Sequence_Finale', 'longueur_tokens']])
else:
    print("Toutes les séquences respectent la limite de 512 tokens.")


Toutes les séquences respectent la limite de 512 tokens.


In [None]:
# Tokeniser les séquences avec une longueur maximale de 512 tokens
inputs = tokenizer(
    df_final_global['Sequence_Finale'].tolist(),  # Les séquences d'entrée
    max_length=512,  # Fixer la longueur maximale à 512 tokens
    padding="max_length",  # Remplir les séquences plus courtes avec des tokens de padding
    truncation=True,  # Tronquer les séquences plus longues
    return_tensors="pt"
)

In [None]:
# Vérifier la longueur des séquences après tokenisation
longueurs_sequences = [len(seq) for seq in inputs['input_ids']]
print(f"Longueur maximale après tokenisation et tronquage : {max(longueurs_sequences)}")  # Devrait être 512

Longueur maximale après tokenisation et tronquage : 512


In [None]:
from sklearn.model_selection import train_test_split

# Diviser les données en 80% pour l'entraînement et 20% pour la validation
train_df, val_df = train_test_split(df_final_global, test_size=0.2, random_state=42)

# Vérifier la taille des jeux de données
print(f"Taille du jeu d'entraînement : {len(train_df)}")
print(f"Taille du jeu de validation : {len(val_df)}")

Taille du jeu d'entraînement : 88
Taille du jeu de validation : 22


In [None]:
# Assurez-vous que la fonction generer_labels_binaires est définie
def generer_labels_binaires(start_position, end_position, seq_length):
    labels = [0] * seq_length  # Par défaut, tous les tokens sont marqués comme non pertinents (0)
    for i in range(start_position, end_position + 1):
        if i < seq_length:  # Vérifiez que la position est dans la séquence
            labels[i] = 1  # Marquer comme faisant partie de la réponse
    return labels

In [None]:
import torch # Import the torch module
# Initialisation des listes pour l'entraînement
train_input_ids = []
train_attention_mask = []
train_labels = []

# Tokeniser chaque séquence finale et générer les labels binaires pour l'entraînement
for index, row in train_df.iterrows():
    inputs = tokenizer(row['Sequence_Finale'], return_tensors="pt", max_length=512, truncation=True, padding="max_length")
    seq_length = len(inputs['input_ids'][0])

    # Générer les labels binaires
    start_position = row['start_position']
    end_position = row['end_position']
    labels = generer_labels_binaires(start_position, end_position, seq_length)

    # Stocker les résultats
    train_input_ids.append(inputs['input_ids'])
    train_attention_mask.append(inputs['attention_mask'])
    train_labels.append(labels)

# Transformer en tensors
train_input_ids = torch.cat(train_input_ids, dim=0)
train_attention_mask = torch.cat(train_attention_mask, dim=0)
train_labels = torch.tensor(train_labels)

In [None]:
# Initialisation des listes pour la validation
val_input_ids = []
val_attention_mask = []
val_labels = []

# Tokeniser chaque séquence finale et générer les labels binaires pour la validation
for index, row in val_df.iterrows():
    inputs = tokenizer(row['Sequence_Finale'], return_tensors="pt", max_length=512, truncation=True, padding="max_length")
    seq_length = len(inputs['input_ids'][0])

    # Générer les labels binaires
    start_position = row['start_position']
    end_position = row['end_position']
    labels = generer_labels_binaires(start_position, end_position, seq_length)

    # Stocker les résultats
    val_input_ids.append(inputs['input_ids'])
    val_attention_mask.append(inputs['attention_mask'])
    val_labels.append(labels)

# Transformer en tensors
val_input_ids = torch.cat(val_input_ids, dim=0)
val_attention_mask = torch.cat(val_attention_mask, dim=0)
val_labels = torch.tensor(val_labels)


In [None]:
from transformers import Trainer, TrainingArguments, AutoModelForMaskedLM
import torch

# Charger le modèle pré-entraîné pour le fine-tuning
model = AutoModelForMaskedLM.from_pretrained("aubmindlab/bert-base-arabertv2")
device = torch.device('cpu')
model.to(device)


Some weights of the model checkpoint at aubmindlab/bert-base-arabertv2 were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


BertForMaskedLM(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(64000, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwi

In [None]:
from torch.utils.data import TensorDataset, DataLoader

# Créer un dataset PyTorch pour l'entraînement
train_dataset = TensorDataset(train_input_ids, train_attention_mask, train_labels)

# Créer un DataLoader pour l'entraînement
train_dataloader = DataLoader(train_dataset, batch_size=16, shuffle=True)


In [None]:
# Créer un dataset PyTorch pour la validation
val_dataset = TensorDataset(val_input_ids, val_attention_mask, val_labels)

# Créer un DataLoader pour la validation
val_dataloader = DataLoader(val_dataset, batch_size=16, shuffle=False)

In [None]:
# Vérifier la taille des input_ids, attention_mask et labels
print(f"Taille des input_ids : {train_input_ids.shape}")
print(f"Taille des attention_mask : {train_attention_mask.shape}")
print(f"Taille des labels : {train_labels.shape}")

Taille des input_ids : torch.Size([88, 512])
Taille des attention_mask : torch.Size([88, 512])
Taille des labels : torch.Size([88, 512])


In [None]:
model.bert.encoder.layer[0].attention.self.dropout.p = 0.3  # Augmenter à 30%

In [None]:
def train_model(model, train_dataloader, optimizer, device):
    model.train()  # Passer en mode entraînement
    total_train_loss = 0
    for batch in train_dataloader:
        input_ids = batch[0].to(device)
        attention_mask = batch[1].to(device)
        labels = batch[2].long().to(device)  # Convertir les labels en LongTensor

        optimizer.zero_grad()  # Réinitialiser les gradients
        outputs = model(input_ids=input_ids, attention_mask=attention_mask, labels=labels)
        loss = outputs.loss  # Calculer la perte
        total_train_loss += loss.item()

        loss.backward()  # Backpropagation
        optimizer.step()  # Mise à jour des poids

    avg_train_loss = total_train_loss / len(train_dataloader)
    print(f"Perte d'entraînement moyenne : {avg_train_loss}")
    return avg_train_loss


In [None]:
# Add the import statement at the beginning of the file
from sklearn.metrics import accuracy_score, recall_score, f1_score

def validate_model(model, val_dataloader, device):
    model.eval()  # Passer en mode évaluation
    all_preds = []
    all_labels = []

    with torch.no_grad():  # Désactiver la rétropropagation pour la validation
        for batch in val_dataloader:
            input_ids = batch[0].to(device)
            attention_mask = batch[1].to(device)
            labels = batch[2].long().to(device)

            # Obtenir les prédictions du modèle
            outputs = model(input_ids=input_ids, attention_mask=attention_mask)

            # Appliquer torch.argmax pour obtenir la classe prédite (classe 0 ou 1)
            predictions = torch.argmax(outputs.logits, dim=-1)  # dim=-1 car dernière dimension correspond aux classes

            # Aplatir les prédictions et les labels pour calculer les métriques
            all_preds.append(predictions.view(-1).cpu())  # Aplatir les prédictions
            all_labels.append(labels.view(-1).cpu())  # Aplatir les labels

    # Concaténer toutes les prédictions et les labels pour les métriques
    all_preds = torch.cat(all_preds).cpu().numpy()  # Aplatir et convertir en numpy
    all_labels = torch.cat(all_labels).cpu().numpy()  # Aplatir et convertir en numpy

    # Calculer les métriques de validation (accuracy, recall, F1)
    accuracy = accuracy_score(all_labels, all_preds)
    recall = recall_score(all_labels, all_preds, average='weighted', zero_division=1)
    f1 = f1_score(all_labels, all_preds, average='weighted', zero_division=1)

    # Afficher les dimensions pour s'assurer qu'elles sont correctes
    print(f"Nombre de prédictions : {len(all_preds)}")
    print(f"Nombre de labels : {len(all_labels)}")

    # Vérification des dimensions
    if len(all_preds) != len(all_labels):
        raise ValueError(f"Inconsistent number of samples: {len(all_preds)} predictions vs {len(all_labels)} labels")

    # Retourner les métriques
    return accuracy, recall, f1

In [None]:
from transformers import AdamW

# Utilisation de l'optimiseur avec régularisation L2 (weight decay)
optimizer = AdamW(model.parameters(), lr=5e-5, weight_decay=0.01)

# Entraînement et validation
for epoch in range(10):  # Vous pouvez augmenter le nombre d'époques si nécessaire
    print(f"\nÉpoque {epoch + 1}\n{'=' * 20}")

    # Phase d'entraînement
    avg_train_loss = train_model(model, train_dataloader, optimizer, device)

    # Phase de validation
    accuracy, recall, f1 = validate_model(model, val_dataloader, device)

    print(f"Résultats de l'époque {epoch + 1} :")
    print(f"  Perte d'entraînement moyenne : {avg_train_loss}")
    print(f"  Accuracy : {accuracy}, Recall : {recall}, F1-score : {f1}")




Époque 1
Perte d'entraînement moyenne : 2.084542845686277
Nombre de prédictions : 11264
Nombre de labels : 11264
Résultats de l'époque 1 :
  Perte d'entraînement moyenne : 2.084542845686277
  Accuracy : 0.8681640625, Recall : 0.8681640625, F1-score : 0.8732369166470634

Époque 2
Perte d'entraînement moyenne : 0.2641853168606758
Nombre de prédictions : 11264
Nombre de labels : 11264
Résultats de l'époque 2 :
  Perte d'entraînement moyenne : 0.2641853168606758
  Accuracy : 0.8927556818181818, Recall : 0.8927556818181818, F1-score : 0.8960017023017987

Époque 3
Perte d'entraînement moyenne : 0.22762001554171243
Nombre de prédictions : 11264
Nombre de labels : 11264
Résultats de l'époque 3 :
  Perte d'entraînement moyenne : 0.22762001554171243
  Accuracy : 0.8937322443181818, Recall : 0.8937322443181818, F1-score : 0.8979825127618217

Époque 4
Perte d'entraînement moyenne : 0.17383977274099985
Nombre de prédictions : 11264
Nombre de labels : 11264
Résultats de l'époque 4 :
  Perte d'entra