# Learning-to-rank : pyTerrier - OpenNIR

Dans cette partie, on s'intéresse à l'utilisation de modèles neuronaux pour la recherche d'information. 
Les modèles neuronaux utilisés ont été rassemblés dans la librairie [OpenNIR](https://opennir.net/). 
On explorera également le modèle T5 avec le plugin [monoT5](https://github.com/terrierteam/pyterrier_t5).

In [None]:
!pip install --upgrade python-terrier
!pip install --upgrade git+https://github.com/Georgetown-IR-Lab/OpenNIR
!pip install --upgrade git+https://github.com/terrierteam/pyterrier_t5

## Initialisation
De façon similaire au TP1, on initialise PyTerrier. Nous allons travailler sur le dataset CORD19. le bloc suivant est une répétition du code en TP1.

In [None]:
print(os.path.exists("terrier_index.zip"))

False


In [None]:
#Si le chargement de la collection est trop long à cause du débit ou autres raisons,
# il est possible de récupérer directement l'index fourni par Terrier
import os

if not os.path.exists("terrier_index.zip"):
  !wget http://www.dcs.gla.ac.uk/~craigm/ecir2021-tutorial/terrier_index.zip
  !unzip -j terrier_index.zip -d terrier_index

index_ref = pt.IndexRef.of("./terrier_index/data.properties")
index = pt.IndexFactory.of(index_ref)

--2021-06-17 12:53:26--  http://www.dcs.gla.ac.uk/~craigm/ecir2021-tutorial/terrier_index.zip
Resolving www.dcs.gla.ac.uk (www.dcs.gla.ac.uk)... 130.209.240.1
Connecting to www.dcs.gla.ac.uk (www.dcs.gla.ac.uk)|130.209.240.1|:80... connected.
HTTP request sent, awaiting response... 200 OK
Length: 42017186 (40M) [application/zip]
Saving to: ‘terrier_index.zip’


2021-06-17 12:53:34 (6.69 MB/s) - ‘terrier_index.zip’ saved [42017186/42017186]

Archive:  terrier_index.zip
  inflating: terrier_index/data.lexicon.fsomapfile  
  inflating: terrier_index/data.properties  
  inflating: terrier_index/data.lexicon.fsomaphash  
  inflating: terrier_index/data.lexicon.fsomapid  
  inflating: terrier_index/data.meta.idx  
  inflating: terrier_index/data.direct.bf  
  inflating: terrier_index/data.inverted.bf  
  inflating: terrier_index/data.meta.zdata  
  inflating: terrier_index/data.document.fsarrayfile  


## Modèles de ré-ordonancement neuronaux "from scratch"

Les modèles de ré-ordonnancement dans OpenNIR sont constitués de deux éléments :
*  ranker: un modèle d'ordonnancement (e.g., drmm, knrm, pacrr, ...). Cf la liste des [Rankers](https://opennir.net/rankers.html).
*  vocab : défnit comment le texte est encodé par le modèle (e.g., wordvec_hash, bert, ...). Cela permet ainsi de tester plusieurs méthodes de représentation. Plus de détails concernant le [vocab](https://opennir.net/vocab.html).

Les modèles de réordonnancement s'appuient sur une première étape d'ordonnancement (souvent BM25), récupèrent ensuite les textes des top documents et appliquent ensuite le modèle neuronal.



Une fois le modèle chargé, il est nécessaire de mettre en place la pipeline d'évaluation vue dans le tp1. 
Le modèle neuronal n'est pas efficace car il n'a pas été entraîné et utilise des poids aléatoires.

## Entraînement des modèles sur les jeux de données

Pour entraîner les modèles, il est nécessaire de construire la pipeline de modèles/transformations à utliser et ensuite d'appliquer la fonction .fit() à la pipeline. 
Le code ci-dessous prend beaucoup de temps. Il est donné à titre indicatif si vous souhaitez l'utiliser sur des serveurs adaptés. L'étape suivante permet de charger directement les poids du modèle pré-entraîné à l'avance et mis à disposition de la communauté.

Dans ce qui suit, on utilise le jeu de données MS MARCO medical pour pré-entraîner le modèle qui sera ensuite appliqué sur CORD19. 
Il est également possible de garder seulement le jeu de données CORD19, de le découper en train/val/test et regarder les performances. 

In [None]:
# Apprentissage du modèle sur des données médicales (MS MARCO medical)
from sklearn.model_selection import train_test_split
train_ds = pt.datasets.get_dataset('irds:msmarco-passage/train/medical')
train_topics, valid_topics = train_test_split(train_ds.get_topics(), test_size=50, random_state=42)

# Indexation de MS MARCO pour la première étape d'ordonnancement et récupérer les textes (pour le ranker openNIR)
indexer = pt.index.IterDictIndexer('./terrier_msmarco-passage')
tr_index_ref = indexer.index(train_ds.get_corpus_iter(), fields=('text',), meta=('docno',))

pipeline = (pt.BatchRetrieve(tr_index_ref) % 100 # récupère les 100 premiers documents
            >> pt.text.get_text(train_ds, 'text') # récupère le texte de ces documents
            >> pt.apply.generic(lambda df: df.rename(columns={'text': 'abstract'})) # renomme la colonne
            >> knrm) # applique le re-ranker


pipeline.fit(
    train_topics,
    train_ds.get_qrels(),
    valid_topics,
    train_ds.get_qrels())

Pour éviter l'étape d'entraînement ici, on utlise une version pré-entraînée.

**Important** : penser à supprimer la mémoire des re-rankers qui vont être mis à jour avec les modèles pré-entrainés.

Il est ensuire possible de lancer la pipeline d'évaluation avec ce nouveau modèle. Les résultats sont meilleurs !

In [None]:
pipeline = br >> pt.text.get_text(dataset, 'abstract') >> knrm
pt.Experiment(
    [br, pipeline],
    topics,
    qrels,
    names=['DPH', 'DPH >> KNRM'],
    baseline=0,       ## spécifie quelle est le modèle de référence pour calculer les améliorations.
    eval_metrics=["map", "ndcg", 'ndcg_cut.10', 'P.10', 'mrt']
)

[02;37m[2021-06-17 13:04:42,066][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:04:42,314][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=1250.0, style=ProgressStyle(description_wid…

[02;37m[2021-06-17 13:04:45,889][onir_pt][DEBUG] [0m[37m[finished] batches: [3.57s] [1250it] [350.03it/s][0m


Unnamed: 0,name,map,P.10,ndcg,ndcg_cut.10,mrt,map +,map -,map p-value,P.10 +,P.10 -,P.10 p-value,ndcg +,ndcg -,ndcg p-value,ndcg_cut.10 +,ndcg_cut.10 -,ndcg_cut.10 p-value
0,DPH,0.068006,0.658,0.165607,0.609058,77.418922,,,,,,,,,,,,
1,DPH >> KNRM,0.065055,0.6,0.160497,0.533312,164.292696,20.0,30.0,0.096372,12.0,26.0,0.028682,20.0,30.0,0.027746,20.0,30.0,0.006401


**Exercice 1**

On souhaite savoir quel est le nombre de documents pertinents qu'il est nécessaire de retourner à l'étape de pré-ordonnancement pour utiliser ensuite le modèle KNRM. Ecrire la pipeline de traitement permettant de trouver la valeur optimale de ce paramètre (valeurs de 10 à 100 par pas de 10).

Remarque : Ne pas faire de train/test exceptionnellement, on souhaite juste constater la valeur qui maximise sur le jeu de données.


In [None]:
cutoffs = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
dph = pt.BatchRetrieve(index)
res = pt.Experiment(
    [dph % cutoff >> pt.text.get_text(dataset, 'abstract') >> knrm for cutoff in cutoffs],
    dataset.get_topics('description'),
    dataset.get_qrels(),
    names=[f'c={cutoff}' for cutoff in cutoffs],
    eval_metrics=["map", "recip_rank", "ndcg", "ndcg_cut.10", "mrt"]
)
res

[02;37m[2021-06-17 13:10:49,566][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:10:49,568][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=125.0, style=ProgressStyle(description_widt…

[02;37m[2021-06-17 13:10:49,994][onir_pt][DEBUG] [0m[37m[finished] batches: [425ms] [125it] [294.18it/s][0m
[02;37m[2021-06-17 13:10:53,013][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:10:53,015][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=250.0, style=ProgressStyle(description_widt…

[02;37m[2021-06-17 13:10:53,761][onir_pt][DEBUG] [0m[37m[finished] batches: [745ms] [250it] [335.38it/s][0m
[02;37m[2021-06-17 13:10:56,806][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:10:56,808][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=375.0, style=ProgressStyle(description_widt…

[02;37m[2021-06-17 13:10:57,914][onir_pt][DEBUG] [0m[37m[finished] batches: [1.11s] [375it] [339.20it/s][0m
[02;37m[2021-06-17 13:11:00,767][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:11:00,769][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=500.0, style=ProgressStyle(description_widt…

[02;37m[2021-06-17 13:11:02,220][onir_pt][DEBUG] [0m[37m[finished] batches: [1.45s] [500it] [344.77it/s][0m
[02;37m[2021-06-17 13:11:05,265][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:11:05,266][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=625.0, style=ProgressStyle(description_widt…

[02;37m[2021-06-17 13:11:07,059][onir_pt][DEBUG] [0m[37m[finished] batches: [1.79s] [625it] [348.83it/s][0m
[02;37m[2021-06-17 13:11:10,166][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:11:10,168][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=750.0, style=ProgressStyle(description_widt…

[02;37m[2021-06-17 13:11:12,304][onir_pt][DEBUG] [0m[37m[finished] batches: [2.13s] [750it] [351.32it/s][0m
[02;37m[2021-06-17 13:11:15,280][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:11:15,282][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=875.0, style=ProgressStyle(description_widt…

[02;37m[2021-06-17 13:11:17,794][onir_pt][DEBUG] [0m[37m[finished] batches: [2.51s] [875it] [348.46it/s][0m
[02;37m[2021-06-17 13:11:20,786][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:11:20,788][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=1000.0, style=ProgressStyle(description_wid…

[02;37m[2021-06-17 13:11:23,650][onir_pt][DEBUG] [0m[37m[finished] batches: [2.86s] [1000it] [349.48it/s][0m
[02;37m[2021-06-17 13:11:26,612][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:11:26,614][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=1125.0, style=ProgressStyle(description_wid…

[02;37m[2021-06-17 13:11:29,792][onir_pt][DEBUG] [0m[37m[finished] batches: [3.18s] [1125it] [354.01it/s][0m
[02;37m[2021-06-17 13:11:32,797][onir_pt][DEBUG] [0m[37musing GPU (deterministic)[0m
[02;37m[2021-06-17 13:11:32,799][onir_pt][DEBUG] [0m[37m[starting] batches[0m


HBox(children=(FloatProgress(value=0.0, description='batches', max=1250.0, style=ProgressStyle(description_wid…

[02;37m[2021-06-17 13:11:36,324][onir_pt][DEBUG] [0m[37m[finished] batches: [3.52s] [1250it] [354.65it/s][0m


Unnamed: 0,name,map,recip_rank,ndcg,ndcg_cut.10,mrt
0,c=10,0.011818,0.785333,0.049207,0.596295,64.393072
1,c=20,0.02096,0.7975,0.071991,0.585919,72.503793
2,c=30,0.029337,0.805667,0.089965,0.598224,80.423479
3,c=40,0.034766,0.803524,0.10268,0.57819,83.436773
4,c=50,0.040644,0.820667,0.114596,0.590963,94.103628
5,c=60,0.046914,0.810667,0.125965,0.587072,102.124375
6,c=70,0.051899,0.816333,0.13631,0.578087,106.917538
7,c=80,0.056869,0.804667,0.144962,0.565164,114.414075
8,c=90,0.061794,0.806333,0.154542,0.570981,120.085217
9,c=100,0.065055,0.767889,0.160497,0.533312,127.837828


## Modèle Vanilla BERT

**Exercice 2**

Sur le même principe que le modèle KNRM, analyser les performances du modèle vanilla BERT sans et avec pré-entraînement.
Pour la version du modèle pré-entraîné, on utilisera le checkpoint ['https://macavaney.us/scibert-medmarco.tar.gz']('https://macavaney.us/scibert-medmarco.tar.gz') avec le paramètre expected_md5="854966d0b61543ffffa44cea627ab63b".

Synthétisez toutes les mesures d'évaluation dans un même tableau (bm25, knrm et Vanilla Bert / avec/sans entraînement).

In [None]:
## VBert sans pré-traitement

In [None]:
## Chargement du checkpoint

In [None]:
## Comparaison des performances

# MonoT5

Pour expérimenter le modèle T5, on utilisera une librairie différente implémentée par pyTerrier. 

In [None]:
from pyterrier_t5 import MonoT5ReRanker
monoT5 = MonoT5ReRanker(text_field='abstract')

br = pt.BatchRetrieve(index) % 30
pipeline = (br >> pt.text.get_text(dataset, 'abstract') >> monoT5)
pt.Experiment(
    [br, pipeline],
    dataset.get_topics('description'),
    dataset.get_qrels(),
    names=['DPH', 'DPH >> T5'],
    eval_metrics=["map", "recip_rank", "ndcg", "ndcg_cut.10", "mrt"]
)