# Université Paul Sabatier

EMIND1G1 - Fondements de la recherche d'information

**TP 3**

Enseignant : José G. Moreno

2023

## TP 3. Évaluation d’un système de recherche d'information

L'évaluation est une étape complexe dans la recherche d'information. Une des conférences qui a  largement aidé à l'avancement en cette matière est la conférence TREC (http://trec.nist.gov/). Dans ce TP nous nous intéressons à l'utilisation d'une des ces outils pour l'évaluation des moteurs des recherche. 

Pour l'évaluation nous avons besoin d'un fichier qui contient la « vérité de terrain » ou « gold standard » qui est normalement appelé qrel. Ce fichier contient pour chaque requête les identifiants des documents pertinents et non-pertinents. Également, il est nécessaire d'avoir des fichiers des résultats du moteur de recherche à évaluer.

Dans ce TP, nous allons utiliser un seul fichier qrel et plusieurs fichiers des résultats (chaque fichier des résultats sera évalué).

En continuation avec le TP2, considérez la phrase « Thomas and Mario are strikers playing in Munich ». Elle sera transforme en 3 requêtes  « Thomas », « Mario » et « Munich ». Chaque requête aura de documents considérés comme correctes (relevants) et incorrectes (no relevants).  La recherche de documents sera faite par votre système de recherche d’information. Cependant, la fait de dire qu’un document est relevant est une étape manuelle. Nous allons considérer les documents suivants comme relevants pour chaque requête :

> **Thomas** and **Mario** are strikers playing in **Munich**
>
>Thomas <br>
>* http://simple.wikipedia.org/wiki/Thomas_Müller
>
>
>Mario <br>
>* http://simple.wikipedia.org/wiki/Mario_Gómez <br>
>* http://simple.wikipedia.org/wiki/Mario_Götze
>
>
>Munich <br>
>* http://simple.wikipedia.org/wiki/FC_Bayern_Munich

Maintenant, il suffit d’utiliser vos résultats de chaque requête dans le format TREC pour les évaluer. Pour simplicité, nous allons utiliser la librarie [pytrec_eval](https://github.com/cvangysel/pytrec_eval) qui est un wrapper du logiciel [trec_eval](http://trec.nist.gov/trec_eval/trec_eval.8.1.tar.gz)

Pour information, voici le fichier qrel pour les 3 requêtes précédentes :

```
101 0 Thomas_Müller 1
101 0 Thomas_Edison 0
101 0 Thomas_the_Apostle 0
102 0 Mario_Gómez 1
102 0 Mario_Götze 1
103 0 FC_Bayern_Munich 1
```

Notez que nous allons utiliser pytrec_eval, qui utilise un dictionaire pour le qrel au lieu d'un fichier.

Notez que la première colonne est l’identifiant de la requête (nous avons trois valeurs différents, une pour chaque requête), suivi de zéro (0), suivi de l’identifiant du document annoté (le titre de la page Wikipédia) et une valeur pour dire si le document est relevant (1) ou non (0). Notez aussi que les qrels contient des documents pertinents et des documents non-pertinents.

Puis il faut créer le fichier des résultats avec la sortie de votre programme fait pendant les Tps précédents. Pour information, voici un fichier résultat d’un système :

```
101	Q0	Thomas_Edison	1	  5.5	STANDARD
101	Q0	Thomas_Müller	2	  4.4	STANDARD
101	Q0	Thomas_the_Apostle	3	  3.3	STANDARD
101	Q0	Isiah_Thomas	4	  2.2	STANDARD
101	Q0	Thomas_Aquinas	5	  1.1	STANDARD
102	Q0	Mario	1	  5.5	STANDARD
102	Q0	Super_Mario	2	  4.4	STANDARD
102	Q0	Super_Mario_Bros.	3	  3.3	STANDARD
102	Q0	Super_Mario_Bros._2	4	  2.2	STANDARD
102	Q0	Mario_(series)	5	  1.1	STANDARD
102	Q0	Super_Mario_World	6	  1.0	STANDARD
102	Q0	Super_Mario_Bros._3	7	  0.9	STANDARD
102	Q0	New_Super_Mario_Bros.	8	  0.8	STANDARD
102	Q0	Mario_Gómez	9	  0.7	STANDARD
102	Q0	Mario_Party_4	10	  0.6	STANDARD
103	Q0	Munich	1	  5.5	STANDARD
103	Q0	FC_Bayern_Munich	2	  4.4	STANDARD
103	Q0	Munich_Airport	3	  3.3	STANDARD
103	Q0	Munich_Agreement	4	  2.2	STANDARD
103	Q0	Munich_Rural_District	5	  1.1	STANDARD
```

Notez, que comme pour les qrels, pytrec_eval utilise un dictionaire pour le résultat d’un système au lieu d'un fichier.

La première colonne est l’identifiant de la requête (la même que pour le qrel), suivi de zéro (Q0), suivi de l’identifiant du document retrouvé par votre système (le titre de la page Wikipédia), suivi de la position du documents dans les résultats, suivi de la valeur de similarité donné par le modèle de poids choisi et de l’identifiant du système (votre nom par exemple).

Une fois construit les fichiers qrels et résultats, nous pouvons utiliser le logiciel d'évaluation trec_eval pour obtenir les résultats de l'évaluation. Cependant, pour simplicité nous allons utiliser pytrec_eval. Donc, pour pytrec_eval, il suffit de déclarer les deux dictionaires (qrel et run) et en suite appeler la méthode ```relevanceEvaluator``` comme indiqué dans l'exemple ci-dessous. 

In [1]:
!pip install pytrec_eval

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pytrec_eval
  Downloading pytrec_eval-0.5.tar.gz (15 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pytrec_eval
  Building wheel for pytrec_eval (setup.py) ... [?25l[?25hdone
  Created wheel for pytrec_eval: filename=pytrec_eval-0.5-cp39-cp39-linux_x86_64.whl size=293177 sha256=0b3dbe78ecfecc145101cde95f6b0c3ac060e1b0bdccbe9c3e1dc33c3c518e81
  Stored in directory: /root/.cache/pip/wheels/e9/91/35/6059501bca98e27e0b4f91ecaaff86c95ca7f4919ff22f0d54
Successfully built pytrec_eval
Installing collected packages: pytrec_eval
Successfully installed pytrec_eval-0.5


Création des fichier examples

In [2]:
import pytrec_eval
import json
import pandas as pd

In [None]:
qrel = {
    '101': {
        'Thomas_Müller': 1,
        'Thomas_Edison': 0,
        'Thomas_the_Apostle': 0,
    },
    '102': {
        'Mario_Gómez': 1,
        'Mario_Götze': 1,
    },
    '103': {
        'FC_Bayern_Munich': 1,
    },
}

In [None]:
run = {
    '101': {
        'Thomas_Edison': 5.5,
        'Thomas_Müller': 4.4,
        'Thomas_the_Apostle': 3.3,
        'Isiah_Thomas': 2.2,
        'Thomas_Aquinas': 1.1,
    },
    '102': {
        'Mario': 10.10,
        'Super_Mario': 9.9,
        'Super_Mario_Bros.': 8.8,
        'Super_Mario_Bros._2': 7.7,
        'Mario_(series)': 6.6,
        'Super_Mario_World': 5.5,
        'Super_Mario_Bros._3': 4.4,
        'New_Super_Mario_Bros.': 3.3,
        'Mario_Gómez': 2.2,
        'Mario_Party_4': 1.1,
    },
    '103': {
        'Munich': 5.5,
        'FC_Bayern_Munich': 4.4,
        'Munich_Airport': 3.3,
        'Munich_Agreement': 2.2,
        'Munich_Rural_District': 1.1,
    },
}

Évaluation de l'exemple

In [None]:
evaluator = pytrec_eval.RelevanceEvaluator(
    qrel, {'map', 'ndcg'})

pd.DataFrame(evaluator.evaluate(run)).T

Unnamed: 0,map,ndcg
101,0.5,0.63093
102,0.055556,0.184576
103,0.5,0.63093


Chaque clé corresponde au résultat d’une métrique d’évaluation pour les trois requêtes. 

###1. Requêtes

Utilisez les suivants requêtes dans votre système et générez les résultats dans le format décrit précédemment (variable ```run```)  :

```
ID:100+i
Thomas and Mario are strikers playing in Munich

ID:200+i
Leo scored two goals and assisted Puyol to ensure a 4–0 quarter-final victory over Bayern

ID:300+i
Skype software for Mac

ID:400+i
Cowboys fans petition Obama to oust Jones

ID:500+i
Kate and Henry are known for being devoted to the Anglican church
```



In [3]:
!wget "https://drive.google.com/uc?id=16rd8rFNR5qtjaX_vtZ__nqopq7Q6pSFu&confirm=t&uuid=0cc61c9f-387b-4218-b1e1-6421fb83d11e&at=ALgDtsx9J1qAF9DesqbqTEOfuLsR:1675797919874" -O pd_index.zip
!unzip pd_index.zip


  inflating: pd_index/data.lexicon.fsomapid  
  inflating: pd_index/data.properties  
  inflating: pd_index/data.meta.zdata  
  inflating: pd_index/data.document.fsarrayfile  


In [4]:
# déclaration de la variable JAVA_HOME
import os
os.environ['JAVA_HOME'] = '/usr/lib/jvm/java-11-openjdk-amd64'
!export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

In [None]:
# installation de pyterrier avec pip
!pip install --upgrade git+https://github.com/terrier-org/pyterrier.git#egg=python-terrier

In [6]:
#Initialization de JVM
import pyterrier as pt
if not pt.started():
  pt.init()

terrier-assemblies 5.7 jar-with-dependencies not found, downloading to /root/.pyterrier...
Done
terrier-python-helper 0.0.7 jar not found, downloading to /root/.pyterrier...
Done


PyTerrier 0.9.2 has loaded Terrier 5.7 (built by craigm on 2022-11-10 18:30) and terrier-helper 0.0.7



In [None]:
!pip -q install apache_beam 
!pip -q install datasets 

In [8]:
from datasets import load_dataset

!rm -rf ./pd_index
pd_indexer = pt.DFIndexer("./pd_index")

wksimple = load_dataset("wikipedia", "20220301.simple")
df = pd.DataFrame(wksimple['train'])
df.columns = ['docno','url','title','text']

indexref = pd_indexer.index(df["title"], df["docno"], df["url"],df["text"], df["title"])

Downloading builder script:   0%|          | 0.00/35.9k [00:00<?, ?B/s]

Downloading metadata:   0%|          | 0.00/30.4k [00:00<?, ?B/s]

Downloading readme:   0%|          | 0.00/16.3k [00:00<?, ?B/s]

Downloading and preparing dataset wikipedia/20220301.simple to /root/.cache/huggingface/datasets/wikipedia/20220301.simple/2.0.0/aa542ed919df55cc5d3347f42dd4521d05ca68751f50dbc32bae2a7f1e167559...


Downloading:   0%|          | 0.00/1.66k [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/235M [00:00<?, ?B/s]

Dataset wikipedia downloaded and prepared to /root/.cache/huggingface/datasets/wikipedia/20220301.simple/2.0.0/aa542ed919df55cc5d3347f42dd4521d05ca68751f50dbc32bae2a7f1e167559. Subsequent calls will reuse this data.


  0%|          | 0/1 [00:00<?, ?it/s]

21:29:22.572 [main] WARN org.terrier.structures.indexing.Indexer - Indexed 326 empty documents


In [9]:
def get_run(model, list_metadata, nb_results):
  run = {}
  termToSearch =[['Thomas', 'Mario', 'Munich'], ['Leone', 'Puyol', 'Bayern'], ['Skype', 'Mac_OS'], ['Cowboys','Obama','Jones'],['Kate','Henry','Anglican']]
  for j in range(len(termToSearch)):
    for i in range(len(termToSearch[j])) :
        result_prim = pt.BatchRetrieve(indexref, wmodel = model, metadata=list_metadata).search(termToSearch[j][i])[['title','score']].head(nb_results)
        run_prim = {}
        for title, score in zip(result_prim['title'],result_prim['score']):
          run_prim[title] = round(score,2)
        run[str((100*(j+1))+i+1)] = run_prim
  return run

In [None]:
run1 = get_run("BM25",["title"], 100)
run2 = get_run("DFIZ",["title"], 100)
run3 = get_run("DFIZ",["docno","title","url"], 100)
run4 = get_run("TF_IDF",["title"], 100)
run5 = get_run("DFR_BM25",["title"], 100)
# ["docno","title","url"]
# ["DFIZ", "DPH", "TF_IDF", "BM25", "DFIC", "BB2", "DFR_BM25"]

2. Qrels

Utilisez le qrel ***qreltp*** déclaré ci-dessous

In [12]:
qreltp = {
    '101': {
        'Thomas Mller': 1,
        'Thomas Edison': 0,
        'Thomas the Apostle': 0,
    },
    '102': {
        'Mario Gmez': 1,
        'Mario Gotze': 1,
    },
    '103': {
        'FC Bayern Munich': 1,
    },
    '201': {
        'Lionel Messi': 1,
    },
    '202': {
        'Carles Puyol': 1,
    },
    '203': {
        'FC Bayern Munich': 1,
    },
    '301': {
        'Skype': 1,
    },
    '302': {
        'Mac_OS': 1,
    },
    '401': {
        'Dallas Cowboys': 1,
    },
    '402': {
        'Barack Obama': 1,
    },
    '403': {
        'Jerry Jones': 1,
    },
    '501': {
        'Catherine Duchess of Cambridge': 1,
    },
    '502': {
        'Prince Harry': 1,
    },
    '503': {
        'Anglicanism': 1,
    },
}

### 3. Configurations
Générez au moins 5 configurations différents de votre système avec 100 résultats et évaluez-les. Comment expliquez-vous vos résultats ?

In [None]:
# evaluation avec la 1 ère configuration
print("evaluation avec la 1 ère configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run1)).T)

# evaluation avec la 2 ème configuration
print("evaluation avec la 2 ème configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run2)).T)

# evaluation avec la 3 ème configuration
print("evaluation avec la 3 ème configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run3)).T)

# evaluation avec la 4 ème configuration
print("evaluation avec la 4 ème configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run4)).T)

# evaluation avec la 5 ème configuration
print("evaluation avec la 5 ème configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run5)).T)

evaluation avec la 1 ère configuration : 
          map      ndcg
101  0.028571  0.193426
102  0.013158  0.116008
103  0.055556  0.235409
201  0.000000  0.000000
202  1.000000  1.000000
203  0.250000  0.430677
301  1.000000  1.000000
302  0.000000  0.000000
401  0.125000  0.315465
402  0.250000  0.430677
403  0.021277  0.179052
501  0.000000  0.000000
502  0.000000  0.000000
503  1.000000  1.000000
evaluation avec la 2 ème configuration : 
          map      ndcg
101  0.028571  0.193426
102  0.013158  0.116008
103  0.055556  0.235409
201  0.000000  0.000000
202  1.000000  1.000000
203  0.250000  0.430677
301  1.000000  1.000000
302  0.000000  0.000000
401  0.125000  0.315465
402  0.250000  0.430677
403  0.021277  0.179052
501  0.000000  0.000000
502  0.000000  0.000000
503  1.000000  1.000000
evaluation avec la 3 ème configuration : 
          map      ndcg
101  0.028571  0.193426
102  0.013158  0.116008
103  0.055556  0.235409
201  0.000000  0.000000
202  1.000000  1.000000
203  0.250

**Réponse :** Dans les résultats, map représente la précision moyenne du modèle utilisé , le modèle qui donne plus d'articles pertinents a une précision plus élevée.
et ndcg représente la mesure de la qualité du classement du modèle, il est utilisé pour mesurer l'efficacité de l'algorithme : ndcg plus élevé indique que les articles pertinents sont mieux classés parce que le principe du NDCG est que les produits les plus pertinents doivent être mieux classés que les produits non pertinents.



### 4. Résultats
Avec les mêmes 5 configurations, générez 1000 résultats et évaluez-les. Il y a-t-il des différences dans certains métriques ? Pourquoi ?

In [None]:
run1 = get_run("BM25",["title"], 1000)
run2 = get_run("DFIZ",["title"], 1000)
run3 = get_run("DFIZ",["docno","title","url"], 1000)
run4 = get_run("TF_IDF",["title"], 1000)
run5 = get_run("DFR_BM25",["title"], 1000)

In [13]:
# evaluation avec la 1 ère configuration
print("evaluation avec la 1 ère configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run1)).T)

# evaluation avec la 2 ème configuration
print("evaluation avec la 2 ème configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run2)).T)

# evaluation avec la 3 ème configuration
print("evaluation avec la 3 ème configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run3)).T)

# evaluation avec la 4 ème configuration
print("evaluation avec la 4 ème configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run4)).T)

# evaluation avec la 5 ème configuration
print("evaluation avec la 5 ème configuration : ")
evaluator = pytrec_eval.RelevanceEvaluator(
    qreltp, {'map', 'ndcg'})

print(pd.DataFrame(evaluator.evaluate(run5)).T)

evaluation avec la 1 ère configuration : 
          map      ndcg
101  0.013514  0.160544
102  0.013158  0.116008
103  0.055556  0.235409
201  0.000000  0.000000
202  1.000000  1.000000
203  0.250000  0.430677
301  1.000000  1.000000
302  0.000000  0.000000
401  0.125000  0.315465
402  0.250000  0.430677
403  0.021277  0.179052
501  0.000000  0.000000
502  0.000000  0.000000
503  1.000000  1.000000
evaluation avec la 2 ème configuration : 
          map      ndcg
101  0.013514  0.160544
102  0.013158  0.116008
103  0.055556  0.235409
201  0.000000  0.000000
202  1.000000  1.000000
203  0.250000  0.430677
301  1.000000  1.000000
302  0.000000  0.000000
401  0.125000  0.315465
402  0.250000  0.430677
403  0.021277  0.179052
501  0.000000  0.000000
502  0.000000  0.000000
503  1.000000  1.000000
evaluation avec la 3 ème configuration : 
          map      ndcg
101  0.013514  0.160544
102  0.013158  0.116008
103  0.055556  0.235409
201  0.000000  0.000000
202  1.000000  1.000000
203  0.250

**Réponse :** 
Je remarque que pour certaines configurations avec 1000 résultats, map a augmenté alors que ndcg a diminué, car en prenant 1000 résultats, on peut avoir des résultats plus pertinents (l'augmentation de la précision map), par contre les nouveaux articles pertinents sont classés après le premier 100 articles (le ndcg diminue)


### 5. Analyses
Faites une comparaison entre les résultats des différents configurations. Quelles métriques ont changés ?

**Réponse :**
Les métriques qui changent sont ndcg et map : 
1.   map plus élevée indique que notre modèle trouve plus de résultats pertinants
2.   ndcg plus élevé indique que les articles pertinents sont mieux classés

En changant le modèle, map peut augmenter si le modèle est plus performant. et en  augmentant le nombre d'articles, map peut augmenter parce que le modèle trouve plus d'articles pertinents, par contre la valeur de ndcg va diminuer parce que nouveaux articles ne sont pas classés parmi les permiers.
