# Université Paul Sabatier

M1IAFA - Recherche d'information

**TP 3**

Enseignants : Lynda Tamine et Jesús Lovón

Notebook proposé par : José G. Moreno


2024

---

💡 Penser à développer des scripts et fonctions auxiliaires qui vont permettre réutiliser les commandes récurrentes dans ce TP et les prochains. Ceci aussi vous permettra de garder de bon pratique du code et faciliter vos débogages.

---


### Attention ❗❗ Pour la note du TP :
🚨 *Questions de code* : Remplir le code manquant dans les parties correspondantes (le code commenté bénéficie des meilleures notes).

🚨 *Questions ouvertes* : Ecrivez votre réponse textuelle sous forme de commentaires dans les cellules correspondantes.

🚨 *Laissez vos sorties* pour les cellules où vous écrivez le code. Les sorties vides (notebook ou cellules non exécutées) correspondent à 0 points.

---

# TP 3. Évaluation d’un système de recherche d'information

## Introduction



L'évaluation est une étape complexe dans la recherche d'information. Une des conférences qui a largement aidé à l'avancement en cette matière est la conférence TREC (http://trec.nist.gov/).


**Dans ce TP nous nous intéressons à l'utilisation d'un de ces outils pour l'évaluation des moteurs des recherche.**


Pour l'évaluation nous avons besoin d'un fichier qui contient la « vérité de terrain » ou « gold standard » qui est normalement appelé **qrel**. Ce fichier contient pour chaque requête les identifiants des documents pertinents et non-pertinents. Également, il est nécessaire d'avoir des fichiers des résultats du moteur de recherche à évaluer.

Dans ce TP, nous allons utiliser un seul fichier qrel et plusieurs fichiers des résultats (chaque fichier des résultats sera évalué).

En continuation avec le TP2, considérez la phrase « Thomas and Mario are strikers playing in Munich ». Elle sera transformée en 3 requêtes  « Thomas », « Mario » et « Munich ». Chaque requête aura de documents considérés comme correctes (relevant) et incorrectes (no relevant).  La recherche de documents sera faite par votre système de recherche d’information. Cependant, le fait de dire qu’un document est relevant est une étape manuelle.


(A) Nous allons considérer les documents suivants comme **relevant** pour chaque requête :

> **Thomas** and **Mario** are strikers playing in **Munich**
>
>Thomas <br>
>* http://simple.wikipedia.org/wiki/Thomas_Müller
>
>
>Mario <br>
>* http://simple.wikipedia.org/wiki/Mario_Gómez <br>
>* http://simple.wikipedia.org/wiki/Mario_Götze
>
>
>Munich <br>
>* http://simple.wikipedia.org/wiki/FC_Bayern_Munich

Maintenant, il suffit d’utiliser vos résultats de chaque requête dans le format TREC pour les évaluer. Pour simplicité, nous allons utiliser la librairie [pytrec_eval](https://github.com/cvangysel/pytrec_eval) qui est un wrapper du logiciel [trec_eval](https://trec.nist.gov/trec_eval/)

Pour information, voici le fichier en format qrel pour les 3 requêtes précédentes de (A) :

```
101 0 Thomas_Müller 1
101 0 Thomas_Edison 0
101 0 Thomas_the_Apostle 0
102 0 Mario_Gómez 1
102 0 Mario_Götze 1
103 0 FC_Bayern_Munich 1
```

Notez que nous allons utiliser pytrec_eval, qui utilise un dictionnaire pour le qrel au lieu d'un fichier.

Notez que la première colonne est l’identifiant de la requête (nous avons trois valeurs différentes, une pour chaque requête), suivie de zéro (0), suivi de l’identifiant du document annoté (le titre de la page Wikipédia) et une valeur pour dire si le document est relevant (1) ou non (0). Notez aussi que les qrels contient des documents pertinents et des documents non-pertinents.

Puis il faut créer le fichier des résultats avec la sortie de votre programme fait pendant les TPs précédents. Pour information, voici un fichier résultat d’un système :

```
101	Q0	Thomas_Edison	1	  5.5	STANDARD
101	Q0	Thomas_Müller	2	  4.4	STANDARD
101	Q0	Thomas_the_Apostle	3	  3.3	STANDARD
101	Q0	Isiah_Thomas	4	  2.2	STANDARD
101	Q0	Thomas_Aquinas	5	  1.1	STANDARD
102	Q0	Mario	1	  5.5	STANDARD
102	Q0	Super_Mario	2	  4.4	STANDARD
102	Q0	Super_Mario_Bros.	3	  3.3	STANDARD
102	Q0	Super_Mario_Bros._2	4	  2.2	STANDARD
102	Q0	Mario_(series)	5	  1.1	STANDARD
102	Q0	Super_Mario_World	6	  1.0	STANDARD
102	Q0	Super_Mario_Bros._3	7	  0.9	STANDARD
102	Q0	New_Super_Mario_Bros.	8	  0.8	STANDARD
102	Q0	Mario_Gómez	9	  0.7	STANDARD
102	Q0	Mario_Party_4	10	  0.6	STANDARD
103	Q0	Munich	1	  5.5	STANDARD
103	Q0	FC_Bayern_Munich	2	  4.4	STANDARD
103	Q0	Munich_Airport	3	  3.3	STANDARD
103	Q0	Munich_Agreement	4	  2.2	STANDARD
103	Q0	Munich_Rural_District	5	  1.1	STANDARD
```

Notez, que comme pour les qrels, pytrec_eval utilise un dictionnaire pour le résultat d’un système au lieu d'un fichier.

La première colonne est l’identifiant de la requête (la même que pour le qrel), suivie de zéro (Q0), suivi de l’identifiant du document retrouvé par votre système (le titre de la page Wikipédia), suivi de la position du document dans les résultats, suivi de la valeur de similarité donnée par le modèle de poids choisi et de l’identifiant du système (votre nom par exemple).

Une fois construis les fichiers qrels et résultats, nous pouvons utiliser le logiciel d'évaluation trec_eval pour obtenir les résultats de l'évaluation. Cependant, pour simplicité nous allons utiliser pytrec_eval. Donc, pour pytrec_eval, il suffit de déclarer les deux dictionnaires (qrel et run) et en suite appeler la méthode ```relevanceEvaluator``` comme indiqué dans l'exemple ci-dessous.

## Exemple
Pour clarifier tout ce processus, nous allons considérer l'exemple suivant.



1. Tout d'abord, nous installons la bibliothèque pytrec_eval et importons des bibliothèques complémentaires pour pytrec_eval, pandas et la manipulation JSON.

In [None]:
!pip install pytrec_eval



In [None]:
import pytrec_eval
import json
import pandas as pd

2. Maintenant, nous allons créer le fichier **qrel** qui indique quels sont les titres pertinents et non pertinents de Wikipédia pour chaque requête suivant l'exemple donné précédemment.

De même, dans la variable **run**, nous allons créer un dictionnaire avec quelques résultats fictifs pour chaque requête dans le but de montrer comment l'évaluation est effectuée.

In [None]:
qrel = {
    '101': {
        'Thomas_Müller': 1,
        'Thomas_Edison': 0,
        'Thomas_the_Apostle': 0,
    },
    '102': {
        'Mario_Gómez': 1,
        'Mario_Götze': 1,
    },
    '103': {
        'FC_Bayern_Munich': 1,
    },
}


In [None]:
run = {
    '101': {
        'Thomas_Edison': 5.5,
        'Thomas_Müller': 4.4,
        'Thomas_the_Apostle': 3.3,
        'Isiah_Thomas': 2.2,
        'Thomas_Aquinas': 1.1,
    },
    '102': {
        'Mario': 10.10,
        'Super_Mario': 9.9,
        'Super_Mario_Bros.': 8.8,
        'Super_Mario_Bros._2': 7.7,
        'Mario_(series)': 6.6,
        'Super_Mario_World': 5.5,
        'Super_Mario_Bros._3': 4.4,
        'New_Super_Mario_Bros.': 3.3,
        'Mario_Gómez': 2.2,
        'Mario_Party_4': 1.1,
    },
    '103': {
        'Munich': 5.5,
        'FC_Bayern_Munich': 4.4,
        'Munich_Airport': 3.3,
        'Munich_Agreement': 2.2,
        'Munich_Rural_District': 1.1,
    },
}


3. Évaluation de l'exemple.

Enfin, avec les commandes suivantes, nous calculons les métriques (MAP et NDCG dans ce cas) en utilisant les variables **qrel** et **run** (consultez vos notes de cours pour plus de méthodes et de détails sur ces métriques).

In [None]:
evaluator = pytrec_eval.RelevanceEvaluator(
    qrel, {'map', 'ndcg'})

pd.DataFrame(evaluator.evaluate(run)).T

Unnamed: 0,map,ndcg
101,0.5,0.63093
102,0.055556,0.184576
103,0.5,0.63093


Chaque clé corresponde au résultat d’une métrique d’évaluation pour les trois requêtes.

#1. Requêtes



Création de la variable ```run```. La variable ```run``` précédente était fictive. Créez une variable "run" en utilisant l'index des TPs précedents.


Utilisez les suivants requêtes dans votre système et générez les résultats dans le format décrit précédemment (variable ```run```).


ATTTENTION !  X+i correspond à l'ID de la requête, où la variable i correspond à une entité. Par exemple, 101 pour Thomas (Thomas Müller), et 201 pour Leo (Lionel Messi).


```
ID:100+i
Thomas and Mario are strikers playing in Munich

ID:200+i
Leo scored two goals and assisted Puyol to ensure a 4–0 quarter-final victory over Bayern

ID:300+i
Skype software for Mac

ID:400+i
Cowboys fans petition Obama to oust Jones

ID:500+i
Kate and Henry are known for being devoted to the Anglican church
```



In [None]:
# déclaration de la variable JAVA_HOME
import os
os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-11-openjdk-amd64'
!export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

In [None]:
#installation de pyterrier avec pip
!pip install --upgrade git+https://github.com/terrier-org/pyterrier.git#egg=python-terrier

Collecting python-terrier
  Cloning https://github.com/terrier-org/pyterrier.git to /tmp/pip-install-frq7dlt5/python-terrier_0e59a1e7f5fa4a78b7b0b89465d317f5
  Running command git clone --filter=blob:none --quiet https://github.com/terrier-org/pyterrier.git /tmp/pip-install-frq7dlt5/python-terrier_0e59a1e7f5fa4a78b7b0b89465d317f5
  Resolved https://github.com/terrier-org/pyterrier.git to commit 81f20bda483f6044bda89f717ae863e62bab42e5
  Preparing metadata (setup.py) ... [?25l[?25hdone


In [None]:
#Initialization de JVM
import pyterrier as pt
if not pt.started():
  pt.init()

PyTerrier 0.10.0 has loaded Terrier 5.8 (built by craigm on 2023-11-01 18:05) and terrier-helper 0.0.8



In [None]:
from google.colab import files

uploaded = files.upload()


Saving pd_index.zip to pd_index.zip


In [None]:
!rm -rf ./pd_index

In [None]:
!unzip ./pd_index.zip


Archive:  ./pd_index.zip
   creating: pd_index/
  inflating: pd_index/data.lexicon.fsomapid  
  inflating: pd_index/data.lexicon.fsomaphash  
  inflating: pd_index/data.meta-0.fsomapfile  
  inflating: pd_index/data.meta.zdata  
  inflating: pd_index/data.document.fsarrayfile  
  inflating: pd_index/data.properties  
  inflating: pd_index/data.lexicon.fsomapfile  
  inflating: pd_index/data.inverted.bf  
  inflating: pd_index/data.direct.bf  
  inflating: pd_index/data.meta.idx  


In [None]:
indexref2 = pt.autoclass("org.terrier.querying.IndexRef").of(os.path.join("./pd_index", "data.properties"))

In [None]:
def outil(text, model, index):
    res = []
    mots = text.split()
    mots_majuscules = [mot for mot in mots if mot[0].isupper()]

    for mot in mots_majuscules:
        # Au lieu d'imprimer les résultats, les stocker dans une liste
        results = pt.BatchRetrieve(index, wmodel=model, metadata=["docno", "title", "url"]).search(mot).head(10)
        res.append(results)

    return res


In [None]:
def dic(requetes, model, index):
    # Initialisation des variables
    size = 100
    cpt = 101   # Numéro de départ pour les ensembles de documents
    dics = {}   # Dictionnaire final pour stocker les résultats

    # Parcours de chaque requête dans la liste des requêtes
    for r in requetes:
        # Appel de la fonction outil pour obtenir les documents pertinents pour la requête
        docs = outil(r, model, index)

        # Parcours de chaque document obtenu pour la requête
        for i, doc in enumerate(docs):
            # Calcul du numéro unique pour chaque ensemble de documents
            num = cpt + i

            # Création d'un dictionnaire pour stocker les résultats du document actuel
            doc_dict = {}

            # Parcours des titres et des scores de chaque document et ajout au dictionnaire
            for title, score in zip(doc['title'], doc['score']):
                # Remplacement des espaces par des underscores dans les titres pour éviter les espaces dans les clés du dictionnaire
                doc_dict[title.replace(" ", "_")] = score

            # Ajout du dictionnaire de résultats du document au dictionnaire global avec le numéro unique comme clé
            dics[str(num)] = doc_dict

        # Mise à jour du numéro pour le prochain ensemble de documents
        cpt += size

    # Retour du dictionnaire global contenant tous les ensembles de documents pour chaque requête
    return dics


In [None]:
q1 = "Thomas and Mario are strikers playing in Munich"
q2 = "Leo scored two goals and assisted Puyol to ensure a 4–0 quarter-final victory over Bayern"
q3 = "Skype software for Mac"
q4 = "Cowboys fans petition Obama to oust Jones"
q5 = "Kate and Henry are known for being devoted to the Anglican church"

In [None]:
req = [q1 , q2 , q3 , q4 , q5]

# 2. Qrels

Utilisez le qrel ***qreltp*** déclaré ci-dessous

In [None]:
qreltp = {
    '101': {
        'Thomas_Müller': 1,
        'Thomas_Edison': 0,
        'Thomas_the_Apostle': 0,
    },
    '102': {
        'Mario_Gómez': 1,
        'Mario_Götze': 1,
    },
    '103': {
        'FC_Bayern_Munich': 1,
    },
    '201': {
        'Lionel_Messi': 1,
    },
    '202': {
        'Carles_Puyol': 1,
    },
    '203': {
        'FC_Bayern_Munich': 1,
    },
    '301': {
        'Skype': 1,
    },
    '302': {
        'Mac_OS': 1,
    },
    '401': {
        'Dallas_Cowboys': 1,
    },
    '402': {
        'Barack_Obama': 1,
    },
    '403': {
        'Jerry_Jones': 1,
    },
    '501': {
        'Catherine_Duchess_of_Cambridge': 1,
    },
    '502': {
        'Prince_Harry': 1,
    },
    '503': {
        'Anglicanism': 1,
    },
}

In [None]:
test1 = dic(req , "BM25" , indexref2)
print(test1)

{'101': {'Thomas_(surname)': 11.700840681908504, 'Saint_Thomas': 11.597729441375627, 'Thomas_the_Apostle': 11.44742050810111, 'Thomas_County': 11.387148244784372, 'Thomas_Wedgwood_IV': 11.210921232328669, 'Sarah_Thomas': 11.152142149077239, 'Helen_Thomas': 11.145989506361563, 'Gospel_of_Thomas': 11.121264683657024, 'Thomas_White_(merchant)': 11.026213585397855, 'Mallappally_Marthoma_Church': 11.01305165318396}, '102': {'Princess_Peach': 16.478377548776677, 'Mario_(disambiguation)': 16.451795653266682, 'Super_Mario_(disambiguation)': 16.419316203149457, 'Mario': 16.39573189116641, 'Charles_Martinet': 16.3490011440282, 'Bowser_Jr.': 16.214048085933463, 'Wario': 16.177716525748405, 'Luigi': 16.132402633043906, 'Mario_Bros.': 15.990314959424882, 'Princess_Daisy': 15.961688433526334}, '103': {'Bundesliga': 15.502279592669769, 'Olympiastadion_(Munich)': 15.192905539824054, 'Munich': 15.082407719337144, 'Audi_Cup_2015': 14.993887175513516, 'Technical_University_Munich': 14.951113371495204, 'M

# 3. Configurations
Générez au moins 5 configurations différents de votre système avec 100 résultats et évaluez-les. Comment expliquez-vous vos résultats ?


In [None]:
#config1
test1 = dic(req , "BM25" , indexref2)
evaluation = pytrec_eval.RelevanceEvaluator(qreltp,{'map' ,'ndcg' })
pd.DataFrame(evaluation.evaluate(test1)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.5,0.63093
203,0.0,0.0
301,1.0,1.0
302,1.0,1.0
401,0.0,0.0
402,0.111111,0.30103


In [None]:
#config2
test2 = dic(req , "LGD" , indexref2)
evaluation = pytrec_eval.RelevanceEvaluator(qreltp,{'map' ,'ndcg' })
pd.DataFrame(evaluation.evaluate(test2)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.5,0.63093
203,0.0,0.0
301,1.0,1.0
302,1.0,1.0
401,0.0,0.0
402,0.2,0.386853


In [None]:
#config3
test3 = dic(req , "DFIC" , indexref2)
evaluation = pytrec_eval.RelevanceEvaluator(qreltp,{'map' ,'ndcg' })
pd.DataFrame(evaluation.evaluate(test3)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.5,0.63093
203,0.111111,0.30103
301,1.0,1.0
302,0.5,0.63093
401,0.0,0.0
402,1.0,1.0


In [None]:
#config4
test4 = dic(req , "DFRee" , indexref2)
evaluation = pytrec_eval.RelevanceEvaluator(qreltp,{'map' ,'ndcg' })
pd.DataFrame(evaluation.evaluate(test4)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.333333,0.5
203,0.111111,0.30103
301,1.0,1.0
302,0.125,0.315465
401,0.0,0.0
402,1.0,1.0


In [None]:
#config5
test5 = dic(req , "DPH" , indexref2)
evaluation = pytrec_eval.RelevanceEvaluator(qreltp,{'map' ,'ndcg' })
pd.DataFrame(evaluation.evaluate(test5)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.333333,0.5
203,0.166667,0.356207
301,1.0,1.0
302,0.0,0.0
401,0.0,0.0
402,1.0,1.0


VOS COMMENTAIRES ICI


# 4. Résultats
Avec les mêmes 5 configurations, générez 1000 résultats et évaluez-les. Il y a-t-il des différences dans certains métriques ? Pourquoi ?


In [None]:
def dic2(requetes,model,index):
  size = 1000 #1000 résultats à génerer
  cpt = 101
  dics = {}
  for r in requetes :
    docs = outil(r, model, index)
    for d in range(len(docs)) :
      dic = {}
      num = cpt + (d)
      for t in range(len(docs[d]['title'])):
        dic[docs[d]['title'][t].replace(" ","_")] = docs[d]['score'][t]
      dics[str(num)] = dic

    cpt = 100 + cpt
  return dics

In [None]:
#config1
test1 = dic2(req , "BM25" , indexref2)
evaluation = pytrec_eval.RelevanceEvaluator(qreltp,{'map' ,'ndcg' })
pd.DataFrame(evaluation.evaluate(test1)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.5,0.63093
203,0.0,0.0
301,1.0,1.0
302,1.0,1.0
401,0.0,0.0
402,0.111111,0.30103


In [None]:
#config2
test2 = dic2(req , "LGD" , indexref2)
evaluation = pytrec_eval.RelevanceEvaluator(qreltp,{'map' ,'ndcg' })
pd.DataFrame(evaluation.evaluate(test2)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.5,0.63093
203,0.0,0.0
301,1.0,1.0
302,1.0,1.0
401,0.0,0.0
402,0.2,0.386853


In [None]:
#config3
test3 = dic2(req , "DFIC" , indexref2)
evaluation = pytrec_eval.RelevanceEvaluator(qreltp,{'map' ,'ndcg' })
pd.DataFrame(evaluation.evaluate(test3)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.5,0.63093
203,0.111111,0.30103
301,1.0,1.0
302,0.5,0.63093
401,0.0,0.0
402,1.0,1.0


In [None]:
#config4
test4 = dic2(req , "DFRee" , indexref2)
evaluation = pytrec_eval.RelevanceEvaluator(qreltp,{'map' ,'ndcg' })
pd.DataFrame(evaluation.evaluate(test4)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.333333,0.5
203,0.111111,0.30103
301,1.0,1.0
302,0.125,0.315465
401,0.0,0.0
402,1.0,1.0



# 5. Analyses
Faites une comparaison entre les résultats des différents configurations. Quelles métriques ont changés ?

**Analyse :** Les résultats obtenus mettent en évidence plusieurs points clés concernant les performances des modèles et des différentes configurations.Le modèle DFIC semble surpasser les autres modèles évalués.
 De plus, on remarque qu'il n'y a pas de différence significative entre les configurations avec 100 ou 1000 resultats generés ce qui suggère que l'augmentation de la taille de la configuration au-delà d'un certain seuil ne contribue pas considérablement à améliorer les performances du modèle.
 Une observation importante concerne la dépendance entre les requêtes, ce qui implique que les performances des modèles peuvent varier selon les requêtes spécifiques soumises.