# Introduction
Ce projet se concentre sur la cr√©ation d'un mod√®le de question-r√©ponse sp√©cialis√© dans le domaine biom√©dical, bas√© sur l'architecture BERT (Bidirectional Encoder Representations from Transformers). En utilisant le jeu de donn√©es bioASK, le mod√®le est con√ßu pour comprendre des questions en langage naturel et trouver des r√©ponses sp√©cifiques dans un texte fourni. La d√©marche suit plusieurs √©tapes essentielles, depuis la pr√©paration des donn√©es jusqu‚Äô√† l'entra√Ænement et la sauvegarde du mod√®le, afin de garantir sa pr√©cision dans le domaine m√©dical. Ce projet d√©montre √©galement l'int√©gration de biblioth√®ques modernes comme Hugging Face Transformers et TensorFlow pour le d√©veloppement d'un mod√®le performant de question-r√©ponse, ouvrant des perspectives dans la cr√©ation d'outils d‚Äôaide √† la recherche d'information sp√©cialis√©e.

# Implementation du Mod√®le

In [None]:
import json
from transformers import BertTokenizer
from transformers import BertTokenizerFast, TFBertForQuestionAnswering
import tensorflow as tf
import tensorflow as tf
from transformers import TFBertForQuestionAnswering


La premi√®re √©tape consiste √† importer les modules n√©cessaires pour le projet, en particulier Hugging Face Transformers pour le mod√®le BERT et le tokenizer, ainsi que TensorFlow pour la cr√©ation et l'entra√Ænement du mod√®le.

In [None]:
# Charger le fichier JSON de BIOAsk
with open("bio.json") as f:
    squad_data = json.load(f)

On initialise le tokenizer BERT, qui d√©coupe les phrases en tokens que le mod√®le peut interpr√©ter. Ce tokenizer est utilis√© pour transformer les questions et les contextes en vecteurs de tokens exploitables par BERT.

In [None]:
# Tokenizer BERT
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")

In [5]:

# Pr√©paration des donn√©es (extrait question et contexte)
questions = []
contexts = []
answers = []

for article in squad_data["data"]:
    for paragraph in article["paragraphs"]:
        context = paragraph["context"]
        for qa in paragraph["qas"]:
            question = qa["question"]
            answer = qa["answers"][0]["text"]
            questions.append(question)
            contexts.append(context)
            answers.append(answer)

# Affichage du nombre d'entr√©es
print(f"Nombre de questions : {len(questions)}")



Nombre de questions : 4772


# Pr√©paration des Donn√©es pour le Mod√®le
Cette section tokenize les questions et contextes et d√©termine les positions de d√©but et de fin des r√©ponses. Cela permet de sp√©cifier l‚Äôemplacement exact des r√©ponses dans le contexte, essentiel pour l‚Äôapprentissage supervis√© du mod√®le.


In [None]:

# Pr√©paration des donn√©es
tokenizer = BertTokenizerFast.from_pretrained("bert-base-uncased")
questions = []
contexts = []
start_positions = []
end_positions = []

for article in squad_data["data"]:
    for paragraph in article["paragraphs"]:
        context = paragraph["context"]
        for qa in paragraph["qas"]:
            question = qa["question"]
            answer = qa["answers"][0]
            answer_text = answer["text"]
            start_idx = answer["answer_start"]
            end_idx = start_idx + len(answer_text)

            # Tokenisation avec le tokenizer rapide
            inputs = tokenizer(question, context, return_tensors="tf", truncation=True, padding="max_length", max_length=384)

            # Obtenir les positions de d√©but et de fin
            start_pos = inputs.char_to_token(0, start_idx)
            end_pos = inputs.char_to_token(0, end_idx - 1)
            
            # V√©rifier si les positions ne sont pas None
            if start_pos is not None and end_pos is not None:
                start_positions.append(start_pos)
                end_positions.append(end_pos)
                questions.append(question)
                contexts.append(context)


## Conversion des Donn√©es en Tenseurs
Une fois les positions de d√©but et de fin √©tablies, elles sont converties en tenseurs TensorFlow, afin d‚Äô√™tre pr√™tes pour l‚Äôentra√Ænement du mod√®le.

In [6]:

# Conversion en tenseurs pour l'entra√Ænement
start_positions = tf.convert_to_tensor(start_positions)
end_positions = tf.convert_to_tensor(end_positions)
inputs = tokenizer(questions, contexts, return_tensors="tf", padding=True, truncation=True)


# Chargement , Compilation et Entra√Ænement du Mod√®le



Ici, le mod√®le TFBertForQuestionAnswering est configur√© pour une t√¢che de question-r√©ponse. Il est compil√© avec l‚Äôoptimiseur Adam et une fonction de perte pour les positions de d√©but et de fin, assurant une optimisation correcte pendant l‚Äôentra√Ænement.

In [None]:

# Charger le mod√®le
model = TFBertForQuestionAnswering.from_pretrained("bert-base-uncased")

In [7]:


# Compiler le mod√®le
model.compile(optimizer=tf.keras.optimizers.Adam(learning_rate=3e-5),
              loss={'start_positions': 'sparse_categorical_crossentropy', 'end_positions': 'sparse_categorical_crossentropy'})

# D√©finir un callback pour sauvegarder le mod√®le √† chaque epoch
checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(
    filepath="model_epoch_{epoch}.h5",  # Nom du fichier avec num√©ro d'epoch
    save_weights_only=True,              # Sauvegarder uniquement les poids
    save_freq='epoch'                    # Sauvegarder √† chaque epoch
)

# Entra√Ænement avec le callback
model.fit(inputs, {"start_positions": start_positions, "end_positions": end_positions},
          epochs=4, batch_size=8, callbacks=[checkpoint_callback])


All PyTorch model weights were used when initializing TFBertForQuestionAnswering.

Some weights or buffers of the TF 2.0 model TFBertForQuestionAnswering were not initialized from the PyTorch model and are newly initialized: ['qa_outputs.weight', 'qa_outputs.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Epoch 1/4


Epoch 2/4
Epoch 3/4
Epoch 4/4


<tf_keras.src.callbacks.History at 0x262543ecc10>

# code de l'application streamlit 

In [None]:

# Charger le mod√®le et le tokenizer
tokenizer = BertTokenizerFast.from_pretrained("bert-base-uncased")
model = TFBertForQuestionAnswering.from_pretrained("bert-base-uncased")

# Charger le fichier JSON de donn√©es
with open("bio.json") as f:
    squad_data = json.load(f)

# Fonction pour obtenir la r√©ponse pr√©dite par le mod√®le
def get_predicted_answer(question, context):
    # Tokenizer en gardant une longueur maximale plus flexible
    inputs = tokenizer(question, context, return_tensors="tf", truncation=True, padding="max_length", max_length=512)
    
    # Pr√©diction des logits de d√©but et de fin
    outputs = model(inputs)
    start_logits = outputs.start_logits
    end_logits = outputs.end_logits

    # Trouver les positions des tokens de d√©but et de fin avec les scores les plus √©lev√©s
    start_idx = tf.argmax(start_logits, axis=1).numpy()[0]
    end_idx = tf.argmax(end_logits, axis=1).numpy()[0] + 1

    # V√©rification si la position de fin est apr√®s celle du d√©but
    if end_idx < start_idx:
        end_idx = start_idx + 1

    # Convertir les tokens en texte
    answer_tokens = inputs["input_ids"][0][start_idx:end_idx]
    answer = tokenizer.decode(answer_tokens, skip_special_tokens=True)

    # Nettoyage pour √©viter les erreurs dans la r√©ponse
    if len(answer.strip()) == 0:
        answer = "Je ne peux pas trouver une r√©ponse appropri√©e dans le contexte fourni."
    
    return answer

# Interface Streamlit
st.set_page_config(page_title="Medical Question-Answering Bot", page_icon="ü§ñ")
st.title("Medical Question-Answering Bot")

# Message dans la barre lat√©rale
with st.sidebar:
    st.title("Param√®tres")
    st.write("Entrez le contexte et la question pour obtenir une r√©ponse bas√©e sur le mod√®le de QA.")

# Prendre les entr√©es de l'utilisateur
user_context = st.text_area("Entrez le texte ou le contexte ici...")
user_question = st.text_input("Tapez votre question ici...")

# Si le contexte et la question sont fournis, obtenir la r√©ponse
if user_context and user_question:
    predicted_answer = get_predicted_answer(user_question, user_context)

    # Afficher la r√©ponse pr√©dite
    st.write(f"R√©ponse : {predicted_answer}")


# Conclusion
Ce projet propose une m√©thode compl√®te pour d√©velopper un syst√®me de question-r√©ponse biom√©dical, bas√© sur BERT, adapt√© aux besoins de recherche de r√©ponses pr√©cises dans des corpus sp√©cialis√©s. Gr√¢ce √† un processus structur√©, allant de la pr√©paration des donn√©es √† l'entra√Ænement du mod√®le, ce syst√®me d√©montre l'efficacit√© de l'apprentissage profond dans les applications de traitement du langage naturel. Pour l'avenir, une exploration d'autres architectures plus avanc√©es ou des optimisations sp√©cifiques au domaine m√©dical pourraient encore am√©liorer les performances, rendant cet outil d'autant plus utile pour les chercheurs, les m√©decins et les √©tudiants en sciences de la sant√©.

#R√©f√©rences 


[1] BERT for Question Answering on BioASQ (2020)
Auteurs: Fu, Djoko, Mansor, and Slater


[2] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2018) 
Auteurs: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova



[3]BERT for Extractive Question Answering on SQuAD(2018)
Auteurs: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova


[4]Transformers for Biomedical Question Answering: A Systematic Review (2021)
Auteurs:Y. Rasmy, J. Li, and M. Liu


[5]Latent Structure in Transformer-based QA Systems (2020)
Auteurs:des chercheurs sp√©cialis√©s dans les mod√®les de transformers

[6]GitHub - BERT BioASQ Q/A Mahdiar-Khodabakhshi

[7]Kaggle - BioASQ Dataset

