# Université Paul Sabatier

M1IAFA - Recherche d'information

**TP 3**

Enseignants : Lynda Tamine et Jesús Lovón

Notebook proposé par : José G. Moreno


2024

---

💡 Penser à développer des scripts et fonctions auxiliaires qui vont permettre réutiliser les commandes récurrentes dans ce TP et les prochains. Ceci aussi vous permettra de garder de bon pratique du code et faciliter vos débogages.

---


### Attention ❗❗ Pour la note du TP :
🚨 *Questions de code* : Remplir le code manquant dans les parties correspondantes (le code commenté bénéficie des meilleures notes).

🚨 *Questions ouvertes* : Ecrivez votre réponse textuelle sous forme de commentaires dans les cellules correspondantes.

🚨 *Laissez vos sorties* pour les cellules où vous écrivez le code. Les sorties vides (notebook ou cellules non exécutées) correspondent à 0 points.

---

# TP 3. Évaluation d’un système de recherche d'information

## Introduction



L'évaluation est une étape complexe dans la recherche d'information. Une des conférences qui a largement aidé à l'avancement en cette matière est la conférence TREC (http://trec.nist.gov/).


**Dans ce TP nous nous intéressons à l'utilisation d'un de ces outils pour l'évaluation des moteurs des recherche.**


Pour l'évaluation nous avons besoin d'un fichier qui contient la « vérité de terrain » ou « gold standard » qui est normalement appelé **qrel**. Ce fichier contient pour chaque requête les identifiants des documents pertinents et non-pertinents. Également, il est nécessaire d'avoir des fichiers des résultats du moteur de recherche à évaluer.

Dans ce TP, nous allons utiliser un seul fichier qrel et plusieurs fichiers des résultats (chaque fichier des résultats sera évalué).

En continuation avec le TP2, considérez la phrase « Thomas and Mario are strikers playing in Munich ». Elle sera transformée en 3 requêtes  « Thomas », « Mario » et « Munich ». Chaque requête aura de documents considérés comme correctes (relevant) et incorrectes (no relevant).  La recherche de documents sera faite par votre système de recherche d’information. Cependant, le fait de dire qu’un document est relevant est une étape manuelle.


(A) Nous allons considérer les documents suivants comme **relevant** pour chaque requête :

> **Thomas** and **Mario** are strikers playing in **Munich**
>
>Thomas <br>
>* http://simple.wikipedia.org/wiki/Thomas_Müller
>
>
>Mario <br>
>* http://simple.wikipedia.org/wiki/Mario_Gómez <br>
>* http://simple.wikipedia.org/wiki/Mario_Götze
>
>
>Munich <br>
>* http://simple.wikipedia.org/wiki/FC_Bayern_Munich

Maintenant, il suffit d’utiliser vos résultats de chaque requête dans le format TREC pour les évaluer. Pour simplicité, nous allons utiliser la librairie [pytrec_eval](https://github.com/cvangysel/pytrec_eval) qui est un wrapper du logiciel [trec_eval](https://trec.nist.gov/trec_eval/)

Pour information, voici le fichier en format qrel pour les 3 requêtes précédentes de (A) :

```
101 0 Thomas_Müller 1
101 0 Thomas_Edison 0
101 0 Thomas_the_Apostle 0
102 0 Mario_Gómez 1
102 0 Mario_Götze 1
103 0 FC_Bayern_Munich 1
```

Notez que nous allons utiliser pytrec_eval, qui utilise un dictionnaire pour le qrel au lieu d'un fichier.

Notez que la première colonne est l’identifiant de la requête (nous avons trois valeurs différentes, une pour chaque requête), suivie de zéro (0), suivi de l’identifiant du document annoté (le titre de la page Wikipédia) et une valeur pour dire si le document est relevant (1) ou non (0). Notez aussi que les qrels contient des documents pertinents et des documents non-pertinents.

Puis il faut créer le fichier des résultats avec la sortie de votre programme fait pendant les TPs précédents. Pour information, voici un fichier résultat d’un système :

```
101	Q0	Thomas_Edison	1	  5.5	STANDARD
101	Q0	Thomas_Müller	2	  4.4	STANDARD
101	Q0	Thomas_the_Apostle	3	  3.3	STANDARD
101	Q0	Isiah_Thomas	4	  2.2	STANDARD
101	Q0	Thomas_Aquinas	5	  1.1	STANDARD
102	Q0	Mario	1	  5.5	STANDARD
102	Q0	Super_Mario	2	  4.4	STANDARD
102	Q0	Super_Mario_Bros.	3	  3.3	STANDARD
102	Q0	Super_Mario_Bros._2	4	  2.2	STANDARD
102	Q0	Mario_(series)	5	  1.1	STANDARD
102	Q0	Super_Mario_World	6	  1.0	STANDARD
102	Q0	Super_Mario_Bros._3	7	  0.9	STANDARD
102	Q0	New_Super_Mario_Bros.	8	  0.8	STANDARD
102	Q0	Mario_Gómez	9	  0.7	STANDARD
102	Q0	Mario_Party_4	10	  0.6	STANDARD
103	Q0	Munich	1	  5.5	STANDARD
103	Q0	FC_Bayern_Munich	2	  4.4	STANDARD
103	Q0	Munich_Airport	3	  3.3	STANDARD
103	Q0	Munich_Agreement	4	  2.2	STANDARD
103	Q0	Munich_Rural_District	5	  1.1	STANDARD
```

Notez, que comme pour les qrels, pytrec_eval utilise un dictionnaire pour le résultat d’un système au lieu d'un fichier.

La première colonne est l’identifiant de la requête (la même que pour le qrel), suivie de zéro (Q0), suivi de l’identifiant du document retrouvé par votre système (le titre de la page Wikipédia), suivi de la position du document dans les résultats, suivi de la valeur de similarité donnée par le modèle de poids choisi et de l’identifiant du système (votre nom par exemple).

Une fois construis les fichiers qrels et résultats, nous pouvons utiliser le logiciel d'évaluation trec_eval pour obtenir les résultats de l'évaluation. Cependant, pour simplicité nous allons utiliser pytrec_eval. Donc, pour pytrec_eval, il suffit de déclarer les deux dictionnaires (qrel et run) et en suite appeler la méthode ```relevanceEvaluator``` comme indiqué dans l'exemple ci-dessous.

## Exemple
Pour clarifier tout ce processus, nous allons considérer l'exemple suivant.



1. Tout d'abord, nous installons la bibliothèque pytrec_eval et importons des bibliothèques complémentaires pour pytrec_eval, pandas et la manipulation JSON.

In [None]:
!pip install pytrec_eval

In [None]:
import pytrec_eval
import json
import pandas as pd

2. Maintenant, nous allons créer le fichier **qrel** qui indique quels sont les titres pertinents et non pertinents de Wikipédia pour chaque requête suivant l'exemple donné précédemment.

De même, dans la variable **run**, nous allons créer un dictionnaire avec quelques résultats fictifs pour chaque requête dans le but de montrer comment l'évaluation est effectuée.

In [None]:
qrel = {
    '101': {
        'Thomas_Müller': 1,
        'Thomas_Edison': 0,
        'Thomas_the_Apostle': 0,
    },
    '102': {
        'Mario_Gómez': 1,
        'Mario_Götze': 1,
    },
    '103': {
        'FC_Bayern_Munich': 1,
    },
}


In [None]:
run = {
    '101': {
        'Thomas_Edison': 5.5,
        'Thomas_Müller': 4.4,
        'Thomas_the_Apostle': 3.3,
        'Isiah_Thomas': 2.2,
        'Thomas_Aquinas': 1.1,
    },
    '102': {
        'Mario': 10.10,
        'Super_Mario': 9.9,
        'Super_Mario_Bros.': 8.8,
        'Super_Mario_Bros._2': 7.7,
        'Mario_(series)': 6.6,
        'Super_Mario_World': 5.5,
        'Super_Mario_Bros._3': 4.4,
        'New_Super_Mario_Bros.': 3.3,
        'Mario_Gómez': 2.2,
        'Mario_Party_4': 1.1,
    },
    '103': {
        'Munich': 5.5,
        'FC_Bayern_Munich': 4.4,
        'Munich_Airport': 3.3,
        'Munich_Agreement': 2.2,
        'Munich_Rural_District': 1.1,
    },
}


3. Évaluation de l'exemple.

Enfin, avec les commandes suivantes, nous calculons les métriques (MAP et NDCG dans ce cas) en utilisant les variables **qrel** et **run** (consultez vos notes de cours pour plus de méthodes et de détails sur ces métriques).

In [None]:
evaluator = pytrec_eval.RelevanceEvaluator(
    qrel, {'map', 'ndcg'})

pd.DataFrame(evaluator.evaluate(run)).T

Unnamed: 0,map,ndcg
101,0.5,0.63093
102,0.055556,0.184576
103,0.5,0.63093


Chaque clé corresponde au résultat d’une métrique d’évaluation pour les trois requêtes.

#1. Requêtes



Création de la variable ```run```. La variable ```run``` précédente était fictive. Créez une variable "run" en utilisant l'index des TPs précedents.


Utilisez les suivants requêtes dans votre système et générez les résultats dans le format décrit précédemment (variable ```run```).


ATTTENTION !  X+i correspond à l'ID de la requête, où la variable i correspond à une entité. Par exemple, 101 pour Thomas (Thomas Müller), et 201 pour Leo (Lionel Messi).


```
ID:100+i
Thomas and Mario are strikers playing in Munich

ID:200+i
Leo scored two goals and assisted Puyol to ensure a 4–0 quarter-final victory over Bayern

ID:300+i
Skype software for Mac

ID:400+i
Cowboys fans petition Obama to oust Jones

ID:500+i
Kate and Henry are known for being devoted to the Anglican church
```



In [None]:
# VOTRE CODE ICI
# FAITES LES INSTALLATIONS ET LES IMPORTATIONS REQUIS COMME DANS LES TPS PRÉCÉDENTS

# déclaration de la variable JAVA_HOME
import os
os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-11-openjdk-amd64'
!export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
#installation de pyterrier avec pip
!pip install --upgrade git+https://github.com/terrier-org/pyterrier.git#egg=python-terrier
#Initialization de JVM
import pyterrier as pt
if not pt.started():
  pt.init()


In [None]:
!unzip pd_index.zip

Archive:  pd_index.zip
replace pd_index/data.meta.idx? [y]es, [n]o, [A]ll, [N]one, [r]ename: 

In [None]:
indexref2 = pt.autoclass("org.terrier.querying.IndexRef").of(os.path.join("/content/pd_index", "data.properties"))

In [None]:
text1 = "Thomas and Mario are strikers playing in Munich"
text2 = "Leo scored two goals and assisted Puyol to ensure a 4–0 quarter-final victory over Bayern"
text3 = "Skype software for Mac"
text4 = "Cowboys fans petition Obama to oust Jones"
text5 = "Kate and Henry are known for being devoted to the Anglican church"

requetes = [text1,text2,text3,text4,text5]

In [None]:
def creation_dict(requetes, model, index):
    dics = {}
    cpt = 101

    for r in requetes:
        res = []
        mots = r.split()
        mots_majuscules = [mot for mot in mots if mot[0].isupper()]

        for mot in mots_majuscules:
            results = pt.BatchRetrieve(index, wmodel=model, metadata=["docno","title","url"]).search(mot)
            res.append(results[['title', 'score']].head(100))

        for d, doc in enumerate(res):
            num = cpt + d
            dic = {title.replace(" ", "_"): score for title, score in zip(doc['title'], doc['score'])}
            dics[str(num)] = dic

        cpt += 100

    return dics


# 2. Qrels

Utilisez le qrel ***qreltp*** déclaré ci-dessous

In [None]:
qreltp = {
    '101': {
        'Thomas_Müller': 1,
        'Thomas_Edison': 0,
        'Thomas_the_Apostle': 0,
    },
    '102': {
        'Mario_Gómez': 1,
        'Mario_Götze': 1,
    },
    '103': {
        'FC_Bayern_Munich': 1,
    },
    '201': {
        'Lionel_Messi': 1,
    },
    '202': {
        'Carles_Puyol': 1,
    },
    '203': {
        'FC_Bayern_Munich': 1,
    },
    '301': {
        'Skype': 1,
    },
    '302': {
        'Mac_OS': 1,
    },
    '401': {
        'Dallas_Cowboys': 1,
    },
    '402': {
        'Barack_Obama': 1,
    },
    '403': {
        'Jerry_Jones': 1,
    },
    '501': {
        'Catherine_Duchess_of_Cambridge': 1,
    },
    '502': {
        'Prince_Harry': 1,
    },
    '503': {
        'Anglicanism': 1,
    },
}

# 3. Configurations
Générez au moins 5 configurations différents de votre système avec 100 résultats et évaluez-les. Comment expliquez-vous vos résultats ?


In [None]:
# configuration 1
run1 = creation_dict(requetes,"BM25",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg'})
pd.DataFrame(evaluator.evaluate(run1)).T

22:50:52.731 [main] ERROR org.terrier.structures.Index - Couldn't load an index structure called lexicon
java.lang.OutOfMemoryError: Java heap space
22:50:52.831 [main] WARN org.terrier.structures.BaseCompressingMetaIndex - OutOfMemoryError: Structure meta reading lookup file directly from disk
22:50:52.934 [main] WARN org.terrier.structures.BaseCompressingMetaIndex - OutOfMemoryError: Structure meta reading data file directly from disk


JavaException: JVM exception occurred: Could not load an index for ref /content/pd_index/data.properties, even though IndexLoader org.terrier.structures.IndexOnDisk$DiskIndexLoader could support that type of index. It may be your ref had a wrong location; Terrier logs may have more information. java.lang.IllegalArgumentException

In [None]:
# configuration 2
run2 = creation_dict(requetes,"PL2",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg'})
pd.DataFrame(evaluator.evaluate(run2)).T

Unnamed: 0,map,ndcg
101,0.0,0.0
102,0.0,0.0
103,0.0,0.0
201,0.0,0.0
202,0.5,0.63093
203,0.03125,0.19824
301,1.0,1.0
302,1.0,1.0
401,0.018182,0.172195
402,0.2,0.386853


In [None]:
# configuration 3
run3 = creation_dict(requetes,"IFB2",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg','P_1000'})
pd.DataFrame(evaluator.evaluate(run3)).T

Unnamed: 0,map,P_1000,ndcg
101,0.0,0.0,0.0
102,0.0,0.0,0.0
103,0.0,0.0,0.0
201,0.0,0.0,0.0
202,0.5,0.001,0.63093
203,0.03125,0.001,0.19824
301,1.0,0.001,1.0
302,1.0,0.001,1.0
401,0.018182,0.001,0.172195
402,0.2,0.001,0.386853


In [None]:
# configuration 4
run4 = creation_dict(requetes,"DFIC",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg','P_1000'})
pd.DataFrame(evaluator.evaluate(run4)).T

Unnamed: 0,map,P_1000,ndcg
101,0.0,0.0,0.0
102,0.0,0.0,0.0
103,0.012346,0.001,0.157293
201,0.0,0.0,0.0
202,0.5,0.001,0.63093
203,0.111111,0.001,0.30103
301,1.0,0.001,1.0
302,0.5,0.001,0.63093
401,0.021739,0.001,0.180031
402,1.0,0.001,1.0


In [None]:
# configuration 5 (le code est correct, juste j'ai des problèmes avec l'index)
run5 = creation_dict(requetes,"TF_IDF",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg','P_1000'})
pd.DataFrame(evaluator.evaluate(run4)).T

22:49:34.110 [main] ERROR org.terrier.structures.Index - Couldn't load an index structure called lexicon
java.lang.OutOfMemoryError: Java heap space
22:49:34.210 [main] WARN org.terrier.structures.BaseCompressingMetaIndex - OutOfMemoryError: Structure meta reading lookup file directly from disk
22:49:34.307 [main] WARN org.terrier.structures.BaseCompressingMetaIndex - OutOfMemoryError: Structure meta reading data file directly from disk


JavaException: JVM exception occurred: Could not load an index for ref /content/pd_index/data.properties, even though IndexLoader org.terrier.structures.IndexOnDisk$DiskIndexLoader could support that type of index. It may be your ref had a wrong location; Terrier logs may have more information. java.lang.IllegalArgumentException

VOS COMMENTAIRES ICI


# 4. Résultats
Avec les mêmes 5 configurations, générez 1000 résultats et évaluez-les. Il y a-t-il des différences dans certains métriques ? Pourquoi ?


In [None]:
def creat_dict2(requetes, model, index):
    dics = {}
    cpt = 0  # initial counter

    for r in requetes:
        res = []
        mots = r.split()
        mots_majuscules = [mot for mot in mots if mot[0].isupper()]

        for mot in mots_majuscules:
            results = pt.BatchRetrieve(index, wmodel=model, metadata=["docno","title","url"]).search(mot)
            res.append(results[['title', 'score']].head(100))  # Limiting to 100 results per query

        for d, doc in enumerate(res):
            num = cpt + d
            dic = {title.replace(" ", "_"): score for title, score in zip(doc['title'], doc['score'])}
            dics[str(num)] = dic

        cpt += 100  # Increase counter by 100 for the next set of results

        if cpt >= 1000:  # Stop when we reach 1000 results
            break

    return dics

In [None]:
# configuration 1
run1 = creat_dict2(requetes,"BM25",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg','P_1000'})
pd.DataFrame(evaluator.evaluate(run1)).T

Unnamed: 0,map,P_1000,ndcg
101,0.0,0.0,0.0
102,0.0,0.0,0.0
201,0.0,0.0,0.0
301,0.0,0.0,0.0
302,0.0,0.0,0.0
401,0.0,0.0,0.0
402,0.0,0.0,0.0


In [None]:
# configuration 2
run2 = creation_dict(requetes,"PL2",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg'})
pd.DataFrame(evaluator.evaluate(run2)).T

22:48:52.252 [main] ERROR org.terrier.structures.Index - Couldn't load an index structure called lexicon
java.lang.OutOfMemoryError: Java heap space
22:48:52.358 [main] WARN org.terrier.structures.BaseCompressingMetaIndex - OutOfMemoryError: Structure meta reading lookup file directly from disk
22:48:52.464 [main] WARN org.terrier.structures.BaseCompressingMetaIndex - OutOfMemoryError: Structure meta reading data file directly from disk


JavaException: JVM exception occurred: Could not load an index for ref /content/pd_index/data.properties, even though IndexLoader org.terrier.structures.IndexOnDisk$DiskIndexLoader could support that type of index. It may be your ref had a wrong location; Terrier logs may have more information. java.lang.IllegalArgumentException

In [None]:
# configuration 3
run3 = creat_dict2(requetes,"IFB2",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg','P_1000'})
pd.DataFrame(evaluator.evaluate(run1)).T

In [None]:
# configuration 4
run4 = creat_dict2(requetes,"DFIC",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg','P_1000'})
pd.DataFrame(evaluator.evaluate(run1)).T

In [None]:
# configuration 5
run5 = creat_dict2(requetes,"TF_IDF",indexref2)
evaluator = pytrec_eval.RelevanceEvaluator(qreltp, {'map', 'ndcg','P_1000'})
pd.DataFrame(evaluator.evaluate(run1)).T

VOS COMMENTAIRES ICI


# 5. Analyses
Faites une comparaison entre les résultats des différents configurations. Quelles métriques ont changés ?

In [None]:
# VOTRE CODE ICI

VOS COMMENTAIRES ICI