# **Tâche #2 - Questions-réponses avec un modèle QA extractif**

Cette tâche consiste à utiliser un modèle de question-réponse extractif de type transformer afin de repérer des informations dans un texte. Vous utilisez la librairie HuggingFace pour accomplir cette tâche. On demande plus spécifiquement d’utiliser le modèle *bert-large-uncased-whole-word-masking-finetuned-squad*.

La tâche a pour but précis de repérer 3 informations dans les descriptions textuelles : le lieu et la date de l’incident ainsi qu’un court passage de texte indiquant ce qui s’est passé.  Une partie importante de votre travail consiste à trouver de bonnes formulations de questions pour repérer ces informations. Le fichier *t2_qa_examples*.json, qui contient 25 exemples annotés par un humain, est disponible pour mener vos expérimentations.

Les consignes pour cette tâche sont:
-	Nom du notebook : *t2_qa.ipynb* (ce notebook)
-	Tokenisation et plongements de mots : Ceux du modèle utilisé.
-	Normalisation : Aucune normalisation à faire (le tokeniseur convertit les lettres en minuscule).
-	Construction du modèle : vous utilisez la version préentraînée du modèle sans modification. Aucun affinement (fine-tuning) du modèle n’est requis pour cette tâche.
-	Évaluation : Du code est disponible dans le notebook pour évaluer la performance du modèle avec les métriques *exact match* et *F1*.
-	Analyse : Présentez et discutez des résultats que vous obtenez pour les 3 types d’informations à repérer. Discutez également de vos choix de questions pour accomplir cette tâche et les erreurs commises par le modèle QA.

Vous pouvez ajouter au notebook toutes les cellules dont vous avez besoin pour votre code, vos explications ou la présentation de vos résultats. Vous pouvez également ajouter des sous-sections (par ex. des sous-sections 1.1, 1.2 etc.) si cela améliore la lisibilité.

Notes :
- Évitez les bouts de code trop longs ou trop complexes. Par exemple, il est difficile de comprendre 4-5 boucles ou conditions imbriquées. Si c'est le cas, définissez des sous-fonctions pour refactoriser et simplifier votre code.
- Expliquez sommairement votre démarche.
- Expliquez les choix que vous faites au niveau de la programmation et des modèles (si non trivial).
- Analysez vos résultats. Indiquez ce que vous observez, si c'est bon ou non, si c'est surprenant, etc.
- Une analyse quantitative et qualitative d'erreurs est intéressante et permet de mieux comprendre le comportement d'un modèle.

## 1. Le chargement des données

Utilisez le fichier ***/data/t2_qa_examples.json*** pour mener vos expérimentations. 

In [1]:
import json

def load_json_data(filename):
    with open(filename, 'r') as fp:
        data = json.load(fp)
    return data

In [2]:
# Charger et afficher quelques exemples
from pprint import pprint

data = load_json_data('data/t2_qa_examples.json')
print("Nombre total d'exemples:", len(data))

# utilisation de pprint pour afficher 5 exemplses


pprint(data[:5])

Nombre total d'exemples: 25
[{'EVENT': 'Employee #1  was struck and thrown',
  'WHEN': 'November 10  2013',
  'WHERE': 'railroad bridge overpass',
  'text': ' At around 10:00 p.m. on November 10  2013  Employee #1  with '
          'Villager  Construction Inc.  with a coworker  were using an asphalt '
          'milling machine  (Wirtgen; Model Number: W2100) to grind out '
          'existing asphalt from an  interstate at a railroad bridge overpass. '
          'Employee # 1 was standing on the  ground  checking the depth of the '
          'cut into the asphalt  using a handheld  pendant attached to the '
          'machine. The pedant could stretch out from ten to 15  ft. This '
          'allowed Employee #1 to walk back and forth  checking the cut. The  '
          'operator was on the top of the milling machine  controlling the '
          'operation of  the machine and ensuring that the milling machine and '
          'dump truck (driven by a  second coworker  who worked for an

## 2. Vos questions 

Vous pouvez mettre plusieurs options de questions dans le notebook. Il est important de présenter, au minimum, les résultats pour le meilleur jeu de questions. Vous pourrez également mettre des informations à ce propos dans la section d'analyse. 

### Questions pour le Modèle QA
Lister les différentes questions utilisées pour extraire les informations de type WHEN, WHERE et EVENT.

In [3]:
# liste des questions

questions = {
    "WHEN": [
        "When did the incident occur?",
        "What is the exact date and time when the incident occurred?",
        "What time did the incident occur?",
        "When did the incident take place?",
    ],
    "WHERE": [  
        "Where did the event occur?",
        "What is the exact location of the incident?",
        "Where did the incident take place?",
        "What is the location of the incident?",
    ],
    "EVENT": [
        "What unfolded during the incident?",
        "What happened during the incident?",
        "What is the incident about?",
        "Summarize in a few sentences what happened during the incident.",
    ],
}

# Afficher les questions
for key, qs in questions.items():
    print(f"\n{key} questions:")
    for q in qs:
        print(q)


WHEN questions:
When did the incident occur?
What is the exact date and time when the incident occurred?
What time did the incident occur?
When did the incident take place?

WHERE questions:
Where did the event occur?
What is the exact location of the incident?
Where did the incident take place?
What is the location of the incident?

EVENT questions:
What unfolded during the incident?
What happened during the incident?
What is the incident about?
Summarize in a few sentences what happened during the incident.


## 3. Le modèle de question-réponse extractif

### Chargement du Modèle QA
Charger le modèle de question-réponse extractif de HuggingFace.

In [4]:
from transformers import pipeline

# Load the model
qa_model = pipeline('question-answering', model='bert-large-uncased-whole-word-masking-finetuned-squad')


  from .autonotebook import tqdm as notebook_tqdm
Some weights of the model checkpoint at bert-large-uncased-whole-word-masking-finetuned-squad were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


## 4. Des fonctions utilitaires pour l'évaluation

In [5]:
import string
import re
from collections import Counter

def remove_articles(text):
    return re.sub(r'\b(a|an|the)\b', ' ', text)

def white_space_fix(text):
    return ' '.join(text.split())

def remove_punc(text):
    exclude = set(string.punctuation)
    return ''.join(ch for ch in text if ch not in exclude)

def lower(text):
    return text.lower()

def normalize_answer(s):
    """Mettre en minuscule et retirer la ponctuation, des déterminants and les espaces."""
    return white_space_fix(remove_articles(remove_punc(lower(s))))

In [6]:
def evaluate_f1(ground_truth, prediction):
    """Normalise les 2 textes, trouve ce qu'il y a en commun et estime précision, rappel et F1."""
    prediction_tokens = normalize_answer(prediction).split()
    ground_truth_tokens = normalize_answer(ground_truth).split()
    common = Counter(prediction_tokens) & Counter(ground_truth_tokens)
    num_same = sum(common.values())
    if len(ground_truth_tokens) == 0 or len(prediction_tokens) == 0:
        return int(ground_truth_tokens == prediction_tokens)
    if num_same == 0:
        return 0
    precision = 1.0 * num_same / len(prediction_tokens)
    recall = 1.0 * num_same / len(ground_truth_tokens)
    f1 = (2 * precision * recall) / (precision + recall)
    return f1

def evaluate_exact_match(ground_truth, prediction):
    """Vérifie si les 2 textes sont quasi-identiques."""
    return (normalize_answer(prediction) == normalize_answer(ground_truth))

## 5. Évaluation du modèle et analyse


### Évaluation des Questions
    Évaluer les questions pour chaque type d'information (WHEN, WHERE, EVENT) et déterminer les meilleures questions.

In [7]:
import numpy as np

# Fonction pour évaluer les scores F1 pour une liste de questions
def evaluate_questions(questions, data, key):
    scores = []
    for question in questions:
        question_scores = []
        for example in data:
            context = example['text']
            result = qa_model(question=question, context=context)
            score = evaluate_f1(example[key], result['answer'])
            question_scores.append(score)
        scores.append(np.mean(question_scores))
    return scores

# Évaluer les questions de type WHEN
when_scores = evaluate_questions(questions['WHEN'], data, 'WHEN')
best_when_question = questions['WHEN'][np.argmax(when_scores)]
print(f"Meilleure question WHEN: {best_when_question} avec un score moyen de {max(when_scores):.3f}")

# Évaluer les questions de type WHERE
where_scores = evaluate_questions(questions['WHERE'], data, 'WHERE')
best_where_question = questions['WHERE'][np.argmax(where_scores)]
print(f"Meilleure question WHERE: {best_where_question} avec un score moyen de {max(where_scores):.3f}")

# Évaluer les questions de type EVENT
event_scores = evaluate_questions(questions['EVENT'], data, 'EVENT')
best_event_question = questions['EVENT'][np.argmax(event_scores)]
print(f"Meilleure question EVENT: {best_event_question} avec un score moyen de {max(event_scores):.3f}")


Meilleure question WHEN: When did the incident occur? avec un score moyen de 0.920
Meilleure question WHERE: Where did the event occur? avec un score moyen de 0.783
Meilleure question EVENT: What unfolded during the incident? avec un score moyen de 0.567


### Queleques exemples avec nos best types de questions

In [9]:
for i in range(5):
    example = data[i]
    context = example['text']
    
    print(f"Example {i+1}:")
    print("Context:", context)
    
    where_result = qa_model(question=best_where_question, context=context)
    print("Where:", where_result['answer'])
    print("F1 score:", evaluate_f1(example['WHERE'], where_result['answer']))
    
    when_result = qa_model(question=best_when_question, context=context)
    print("When:", when_result['answer'])
    print("F1 score:", evaluate_f1(example['WHEN'], when_result['answer']))
    
    what_result = qa_model(question=best_event_question, context=context)
    print("Event:", what_result['answer'])
    print("F1 score:", evaluate_f1(example['EVENT'], what_result['answer']))
    
    print()

Example 1:
Where: railroad bridge overpass
F1 score: 1.0
When: November 10  2013
F1 score: 1.0
Event: Employee #1  was struck and thrown
F1 score: 1.0

Example 2:
Context:  On August 27  2012  Employee #1  a 19 year-old male laborer with Stomper  Company Inc.  arrived at 2:00 .am. at a site in Menlo Park California to  demolish the interiors of the building. They scraped the interiors of the  building and collected debris as they finished up the job. On August 28  2012   at approximately 10:00 a.m  the job assignment was done and every employee was  to put away all the rubble and gather all equipment in order to pack up and  leave the site. When the job assignment was finished  it is typical for all  employees to gather everything and put it away into the garbage bin or in  their trailers and bins. At the time  four coworkers were outside in the  parking lot working near the Number 5 700 Panther. Two coworkers were going to  load the number 5 700 Panther and Employee #1 stated that he 

### Fonction qui pour une question recupère les contextes avec les plus mauvaises scores de match

In [16]:
# Afficher les contextes avec les mauvais scores

def get_lowest_scores(data, question, key, n=5):
    """Retourne les n contextes avec les plus bas scores F1 pour une question donnée."""
    scores = []
    for example in data:
        context = example['text']
        result = qa_model(question=question, context=context)
        score = evaluate_f1(example[key], result['answer'])
        scores.append((score, context, result['answer'], example[key]))
    scores.sort(key=lambda x: x[0])
    return scores[:n]



### Afficher les contextes avec les plus bas scores pour chaque type de best_question

    Contextes avec les plus bas scores pour la meilleur question WHEN

In [None]:

print("Contextes avec les plus bas scores pour la question WHEN:")
for score, context, prediction, ground_truth in get_lowest_scores(data, best_when_question, 'WHEN'):
    print(f"Score: {score}\nContext: {context}\nPrediction: {prediction}\nGround Truth: {ground_truth}\n")

Contextes avec les plus bas scores pour la question WHEN:
Score: 0
Context:  Employee #1  an independent contractor at a construction site  was trying to  stand on end a wood-framed wall. The wall was too heavy for one person and  when it bumped up against a ceiling pipe while being raised  he lost control  of it. The wall fell on Employee #1  who sustained a compressed disc in his  back.                                                                           
Prediction: when it bumped up against a ceiling pipe while being raised
Ground Truth: 

Score: 0
Context:  Employee #1  a diver  became caught in a coffer dam and drowned.                
Prediction: drowned
Ground Truth: 

Score: 1.0
Prediction: November 10  2013
Ground Truth: November 10  2013

Score: 1.0
Context:  On August 27  2012  Employee #1  a 19 year-old male laborer with Stomper  Company Inc.  arrived at 2:00 .am. at a site in Menlo Park California to  demolish the interiors of the building. They scraped the interiors

    Contextes avec les plus bas scores pour la meilleur question WHERE

In [17]:
print("Contextes avec les plus bas scores pour la question WHERE:")
for score, context, prediction, ground_truth in get_lowest_scores(data, best_where_question, 'WHERE'):
    print(f"Score: {score}\nContext: {context}\nPrediction: {prediction}\nGround Truth: {ground_truth}\n")

Contextes avec les plus bas scores pour la question WHERE:
Score: 0
Context:  On August 24  2003  Jose Crespin Company  a stucco contractor  employed  Employee #1 and four coworkers. They were applying a stucco finish to the  exterior insulating finishing system on the Home Depot  Store Number 6555.  After completing the lumber canopy at the west end of the building  the  employees moved to the east end to finish the exterior insulating finishing  system on the spandrel panels at the garden center. While waiting for the  building surface to cool  the employees took a work break. During their break   the weather swiftly changed from clear and sunny to heavy rain and strong  winds. The employees then moved to the north side of the building at the  garden center where they hoped that the masonry piers and spandrel panels  would shelter them from the rain. The wind reached speeds in excess of 40 mph  and began collapsing the masonry piers (C.1-0.2 and C.1-0.3) where the  employees were sta

    Contextes avec les plus bas scores pour la meilleur question EVENT

In [18]:
print("Contextes avec les plus bas scores pour la question EVENT:")
for score, context, prediction, ground_truth in get_lowest_scores(data, best_event_question, 'EVENT'):
    print(f"Score: {score}\nContext: {context}\nPrediction: {prediction}\nGround Truth: {ground_truth}\n")

Contextes avec les plus bas scores pour la question EVENT:
Score: 0
Context:    At approximately 9:30 a.m. on November17  2010  Employee #1 of Midwest  Masonry  Inc.  was responsible for using the cement mixer. He was struck by  the cement mixer that tipped over in the process of mixing cement/concrete.  Employee #1 suffered bruises to his upper right thigh and right hip. There was  no visible damage to the cement mixer. In addition  there were no employees to  observe how the cement mixer fell on the employee.                              
Prediction: Employee #1 suffered bruises to his upper right thigh and right hip
Ground Truth: He was struck by  the cement mixer

Score: 0
Prediction: the semi-truck swerved to miss a car
Ground Truth: struck Employee #1

Score: 0
Context:  On August 24  2003  Jose Crespin Company  a stucco contractor  employed  Employee #1 and four coworkers. They were applying a stucco finish to the  exterior insulating finishing system on the Home Depot  Store Nu

# Analyse Quantitative
##### Les scores moyens montrent que le modèle QA est assez performant pour extraire les informations de date et de lieu, mais il a plus de difficulté à extraire des descriptions d'événements. Cela peut être dû à la complexité et à la variabilité des descriptions d'événements par rapport aux dates et aux lieux, qui sont généralement plus structurés et prévisibles.

# Analyse Qualitative
## Exemples avec les plus bas scores pour "WHEN"
##### Les contextes avec les plus bas scores pour la question "When did the incident occur?" montrent que le modèle à de tres bonne capacité pour détecter les dates et les seuls cas ou il n'a pas pu detecter de date c'est qu'il n'y en avait pas.

## Exemples avec les plus bas scores pour "WHERE"
##### Les contextes avec les plus bas scores pour la question "Where did the event occur?" montrent que le modèle peut avoir des difficultés lorsque le lieu est mentionné de manière indirecte ou implicite.

## Exemples avec les plus bas scores pour "EVENT"
##### Les contextes avec les plus bas scores pour la question "What happened during the incident?" montrent que le modèle peut avoir des difficultés à résumer des événements complexes ou lorsque les descriptions sont longues et détaillées.

# Conclusion
#### Le modèle QA basé sur BERT est performant pour extraire des informations structurées comme les dates et les lieux, mais il a plus de difficultés avec des descriptions d'événements plus complexes. Pour améliorer les performances, il pourrait être utile d'affiner le modèle sur un ensemble de données plus large et plus varié, ou d'utiliser des techniques de prétraitement pour simplifier les descriptions d'événements.

