# Universit√© Paul Sabatier

M1IAFA - Recherche d'information

**TP 4**

Enseignants : Lynda Tamine et Jes√∫s Lov√≥n

Notebook propos√© par : Jos√© G. Moreno


2024

---

üí° Penser √† d√©velopper des scripts et fonctions auxiliaires qui vont permettre r√©utiliser les commandes r√©currentes dans ce TP et les prochains. Ceci aussi vous permettra de garder de bon pratique du code et faciliter vos d√©bogages.

---


### Attention ‚ùó‚ùó Pour la note du TP :
üö® *Questions de code* : Remplir le code manquant dans les parties correspondantes (le code comment√© b√©n√©ficie des meilleures notes).

üö® *Questions ouvertes* : Ecrivez votre r√©ponse textuelle sous forme de commentaires dans les cellules correspondantes.

üö® *Laissez vos sorties* pour les cellules o√π vous √©crivez le code. Les sorties vides (notebook ou cellules non ex√©cut√©es) correspondent √† 0 points.

---

# TP 4. PyTerrier - Learning to Rank



Ce TP √† comme objetif la construction des pipelines dans [PyTerrier](https://github.com/terrier-org/pyterrier). Toutes les exp√©riences sont men√©es en utilisant le [corpus CORD19](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7251955/) et la [collection de tests TREC Covid](https://ir.nist.gov/covidSubmit/). Finalement, vous serez amen√© √† refaire le processus avec une collection de questions-r√©ponses.

Ce TP est divis√© en deux.

En particulier, dans la **premi√®re partie**, vous allez exp√©rimenter pour :
 - comprendre le mod√®le de donn√©es PyTerrier ;
 - comprendre la notion g√©n√©rale de PyTerrier et les op√©rateurs permettant de combiner plusieurs recherches ;
 - entreprendre des exp√©riences sur la collection de tests TREC Covid.

Dans la **deuxi√®me partie**, vous ferez des exp√©riences pour :
 - construire et apprendre des pipelines pour le Learning to Rank ;
 - √©valuer et analyser des pipelines pour le Learning to Rank.


# Premi√®re partie

## 0. Installation


In [26]:
# Install requirements
!pip install -q --upgrade fastrank lightgbm==3.1.1
!pip install -q python-terrier

In [27]:
# Load pyterrier and CORD19 dataset
import pyterrier as pt
if not pt.started():
  pt.init()
cord19 = pt.datasets.get_dataset('irds:cord19/trec-covid')


## 1. Indexation


In [28]:
!rm -rf ./terrier_cord19/* # remove if previous index

In [29]:
import os

pt_index_path = './terrier_cord19' # <- index path

if not os.path.exists(pt_index_path + "/data.properties"):
    # create the index, using the IterDictIndexer indexer
    indexer = pt.index.IterDictIndexer(pt_index_path, blocks=True)

    # we give the dataset get_corpus_iter() directly to the indexer
    # while specifying the fields to index and the metadata to record
    index_ref = indexer.index(cord19.get_corpus_iter(),
                              fields=('abstract',),
                              meta=('docno',))

else:
    # if you already have the index, use it.
    index_ref = pt.IndexRef.of(pt_index_path + "/data.properties")

cord19/trec-covid documents:   0%|          | 0/192509 [00:00<?, ?it/s]

  index_ref = indexer.index(cord19.get_corpus_iter(),


18:44:44.282 [ForkJoinPool-2-worker-3] ERROR org.terrier.structures.indexing.Indexer - Could not finish MetaIndexBuilder: 
java.io.IOException: Key 8lqzfj2e is not unique: 37597,11755
For MetaIndex, to suppress, set metaindex.compressed.reverse.allow.duplicates=true
	at org.terrier.structures.collections.FSOrderedMapFile$MultiFSOMapWriter.mergeTwo(FSOrderedMapFile.java:1374)
	at org.terrier.structures.collections.FSOrderedMapFile$MultiFSOMapWriter.close(FSOrderedMapFile.java:1308)
	at org.terrier.structures.indexing.BaseMetaIndexBuilder.close(BaseMetaIndexBuilder.java:321)
	at org.terrier.structures.indexing.classical.BasicIndexer.indexDocuments(BasicIndexer.java:270)
	at org.terrier.structures.indexing.classical.BasicIndexer.createDirectIndex(BasicIndexer.java:388)
	at org.terrier.structures.indexing.Indexer.index(Indexer.java:377)
	at org.terrier.python.ParallelIndexer$3.apply(ParallelIndexer.java:131)
	at org.terrier.python.ParallelIndexer$3.apply(ParallelIndexer.java:120)
	at java.

## 2. Operateurs

Vous aurez remarqu√© que BatchRetrieve poss√®de une m√©thode `transform()` qui prend en entr√©e un dataframe, et retourne un autre dataframe, qui est en quelque sorte une *transformation* du dataframe pr√©c√©dent (par exemple, un r√©sultat de la recherche).

En fait, `BatchRetrieve` n'est qu'un des nombreux objets similaires dans PyTerrier, que nous appelons [transformers](https://pyterrier.readthedocs.io/en/latest/transformer.html) (repr√©sent√©s par la classe `TransformerBase`).
Par exemple, on peut sauvegarder explicitement dans la varible ```tfidf``` l'application du mod√®le tfidf


In [30]:
tfidf = pt.BatchRetrieve(index_ref, wmodel="TF_IDF")

La capacit√© int√©ressante de tous les transformateurs est qu'ils peuvent √™tre combin√©s √† l'aide d'op√©rateurs Python (c'est ce qu'on appelle la *surcharge d'op√©rateurs*).

Concr√®tement, imaginez que vous voulez encha√Æner des transformateurs ensemble - par exemple, trier des documents d'abord par tf puis retrier les documents par tfidf. Nous pouvons le faire en utilisant l'op√©rateur `>>` - nous appelons cela *composition*.

Il existe un certain nombre d'op√©rateurs PyTerrier - il y a plus d'exemples dans la [documentation PyTerrier sur les op√©rateurs](https://pyterrier.readthedocs.io/en/latest/operators.html)




## Q1 - Construction de pipelines



Cr√©ez un *ranker* (une classe que permet de chercher sur l'ind√®xe) qui effectue les op√©rations suivantes :
 - obtenir les 10 documents les mieux not√©s par tf (`wmodel="Tf"`)
 - obtenir les 10 documents les mieux not√©s par tfidf (`wmodel="TF_IDF"`)
 - ne remet en ordre que les documents trouv√©s dans l'un ou l'autre des param√®tres de recherche pr√©c√©dents en utilisant BM25.

en utilisant des op√©rateurs PyTerrier combinant diff√©rentes instances de BatchRetrieve.


In [31]:
class Ranker:

  def rank(self,index):
      TF_IDF =  pt.BatchRetrieve(index, wmodel= "TF_IDF")
      TF =  pt.BatchRetrieve(index, wmodel= "Tf")
      BM25 = pt.BatchRetrieve(index, wmodel= "BM25")
      pipeline = (TF_IDF | TF) >> BM25
      return pipeline


## Q2 - \# documents



Combien de documents sont r√©cup√©r√©s par ce pipeline complet pour la requ√™te `"chemical"` ?
> Hint: Si vous obtenez la bonne solution, le document avec le docno `"8hykq71k"` devrait avoir un score proche de $12.646089$ pour la requ√™te `"chemical"`.

Conseils :
 - choisissez soigneusement vos [op√©rateurs PyTerrier](https://pyterrier.readthedocs.io/en/latest/operators.html)
 - vous ne devriez pas avoir √† effectuer d'op√©rations sur les dataframes.

In [32]:
# r√©ponse Q2
ranker = Ranker()
pipeline = ranker.rank(index_ref)
print(pipeline)

Compose(Union(BR(TF_IDF), BR(Tf)), BR(BM25))


In [33]:
pipeline.search("chemical")
#1373 documents sont r√©cup√©r√©s par ce pipeline.

Unnamed: 0,qid,docid,docno,rank,score,query
0,1,37771,jn5qi1jb,0,12.426309,chemical
1,1,15671,8hykq71k,1,12.413269,chemical
2,1,134305,0smev8vt,2,12.292890,chemical
3,1,142104,77c9ohxj,3,12.226076,chemical
4,1,87642,ck6clsty,4,12.155804,chemical
...,...,...,...,...,...,...
1368,1,7551,itfnu5dz,1368,3.261031,chemical
1369,1,14973,ie7mc8ti,1369,3.058071,chemical
1370,1,31086,e170ymw3,1370,2.563479,chemical
1371,1,88200,t473tbm9,1371,2.531990,chemical


## 3. √âvaluation dans un pipeline
√Ä difference du TP3 o√π nous avons fait nous m√™me l'√©valuation, dans ce TP nous allons utiliser le module d'√©valuation int√©gr√© pour les pipelines en pyterrier. Donc, pour faire des exp√©riences (√©valuer un mod√®le) sur pyterrier, on peut utiliser la classe `Experiment`. Voici le code qui √©value la performance de tfidf pour la collection cord19.  

In [34]:
# T√©l√©charger la collection

topics = cord19.get_topics(variant='description')
qrels = cord19.get_qrels()


In [35]:
len(topics), len(qrels)

(50, 69318)

In [36]:
# Voici le code pour √©valuer avec Experiment
from pyterrier.measures import *
pt.Experiment(
  #le pipeline
  [tfidf],
  topics,
  qrels,
  eval_metrics=[MAP, nDCG, nDCG@10],
  # on utilise TFIDF pour les tests statistiques
  baseline=0,
  names=["TFIDF"]
)



Unnamed: 0,name,AP,nDCG,nDCG@10,AP +,AP -,AP p-value,nDCG +,nDCG -,nDCG p-value,nDCG@10 +,nDCG@10 -,nDCG@10 p-value
0,TFIDF,0.188578,0.400915,0.638799,,,,,,,,,


# Deuxi√®me Partie  ‚Äì Learning to Rank

Dans cette partie du TP, vous ferez la construction, l'apprentissage,  l'√©valuation et l'analyse des pipelines d'apprentissage du classement (Learning to Rank).


Tout d'abord, r√©partissons les annotations (rankings) en ensembles d'entra√Ænement, de validation et de test. TREC Covid ne comporte que 50 annotations, ce qui n'est pas beaucoup pour l'appprentissage. Nous allons r√©partir 30 annotations pour l'entra√Ænement, 5 pour la validation et 15 pour l'√©valuation. Nous examinerons √©galement les differences statistiques, m√™me si elle est petite, pour 15 annotations.

Nous n'allons classer que les 10 premiers documents pour chaque requ√™te - nous esp√©rons que l'apprentissage du classement pourra nous aider √† retrier les 10 premiers documents pour qu'ils soient plus efficaces.


In [37]:
RANK_CUTOFF = 10
SEED=42

from sklearn.model_selection import train_test_split

tr_va_topics, test_topics = train_test_split(topics, test_size=15, random_state=SEED)
train_topics, valid_topics =  train_test_split(tr_va_topics, test_size=5, random_state=SEED)


test_qrels = qrels # seulement les annotations des topics en r√©ponse sont utilis√©s, donc pas de probl√®me si on utilise tout
train_qrels = qrels
valid_qrels = qrels

## 1. Ensemble de caract√©ristiques

D√©finissons notre ensemble de caract√©ristiques.  Nous allons avoir un total de 6 caract√©ristiques :

1. le score abstrait de TFIDF ;
2. le r√©sum√© contient-il "coronavirus covid", not√© par TFIDF ;
3. le score TFIDF sur le titre (m√™me si nous ne l'avons pas index√© plus t√¥t !);
4. l'article a-t-il √©t√© publi√© en 2020 ? Ici, on a l'hypoth√®se que les articles r√©cents √©taient plus utiles pour cette t√¢che ;
5. L'article a-t-il un DOI, c'est-√†-dire s'agit-il d'une publication officielle ?
6. le score de correspondance des coordonn√©es pour la requ√™te - c'est-√†-dire combien de termes de la requ√™te apparaissent dans le r√©sum√©.

Plusieurs de ces caract√©ristiques n√©cessitent des m√©tadonn√©es suppl√©mentaires `["title", "date", "doi"]`. Heureusement, le jeu de donn√©es TREC Covid nous permet d'obtenir plus de m√©tadonn√©es apr√®s l'indexation. Nous utilisons `pt.text.get_text(cord19, ["title", "date", "doi"])` pour r√©cup√©rer ces colonnes de m√©tadonn√©es suppl√©mentaires.



In [38]:
ltr_feats1 = (tfidf % RANK_CUTOFF) >> pt.text.get_text(cord19, ["title", "date", "doi"]) >> (
    pt.transformer.IdentityTransformer()
    ** # score of text for query 'coronavirus covid'
    (pt.apply.query(lambda row: 'coronavirus covid') >> tfidf)
    ** # score of title (not originally indexed)
    (pt.text.scorer(body_attr="title", takes='docs', wmodel='TF_IDF') )
    ** # date 2020
    (pt.apply.doc_score(lambda row: int("2020" in row["date"])))
    ** # has doi
    (pt.apply.doc_score(lambda row: int( row["doi"] is not None and len(row["doi"]) > 0) ))
    ** # abstract coordinate match
    pt.BatchRetrieve(index_ref, wmodel="CoordinateMatch")
)

# for reference, lets record the feature names here too
fnames=["TFIDF", 'coronavirus covid', 'title', "2020", "hasDoi", "CoordinateMatch"]

Voyons le r√©sultat pour une requ√™te particuli√®re. Nous pouvons voir que nous avons maintenant des colonnes suppl√©mentaires de m√©tadonn√©es de document `["title", "date", "doi"]`, ainsi que les colonnes `"features"` tr√®s importantes. Cela fait que le dataframe a le type $R_f$. En effet, c'est cette colonne que nous utilisons pour l'apprentissage.

In [39]:
ltr_feats1.search("Movie")



Unnamed: 0,qid,docid,docno,rank,score,query,title,date,doi,features
0,1,23347,qiwq0pe5,0,12.970648,Movie,Sentiment Analysis on Movie Scripts and Review...,2020-05-06,10.1007/978-3-030-49161-1_36,"[12.97064764826613, 0.0, 0.7458647062217206, 1..."
1,1,23343,vmetwotq,1,12.923459,Movie,Improving Movie Recommendation Systems Filteri...,2020-05-04,10.1007/978-3-030-49190-1_17,"[12.923458775835545, 0.0, 1.0350775514913675, ..."
2,1,78848,mmq44kwx,2,12.207116,Movie,"Smoking in top-grossing movies--United States,...",2011,,"[12.207115891520253, 0.0, 0.8744620693633965, ..."
3,1,70132,eynhsuz8,3,11.372312,Movie,The Post: A token woman leader's transformation,2020,10.1002/hrdq.21391,"[11.372311997669033, 1.499168191418449, 0.0, 1..."
4,1,24731,o7ckdng4,4,10.805086,Movie,Movies Emotional Analysis Using Textual Contents,2020-05-26,10.1007/978-3-030-51310-8_19,"[10.80508574921903, 0.0, 0.9277829272514087, 1..."
5,1,118935,25khbzk0,5,9.594602,Movie,CinemaGazer: a System for Watching Video at Ve...,2011-10-04,,"[9.594602481582845, 0.0, 0.0, 0.0, 0.0, 1.0]"
6,1,16001,3lhpdpiv,6,9.058977,Movie,The Aliens in Us and the Aliens Out There: Sci...,2013-11-17,10.1007/978-1-4614-7175-2_2,"[9.058977465455175, 0.0, 0.9880285718781234, 0..."
7,1,18722,gt3xayqp,7,8.579994,Movie,The Unfairness of Popularity Bias in Music Rec...,2020-03-24,10.1007/978-3-030-45442-5_5,"[8.579993656638317, 0.0, 0.0, 1.0, 1.0, 1.0]"
8,1,86076,opbwnnai,8,8.242861,Movie,Preparing for an influenza pandemic: mental he...,2009,,"[8.242860905714242, 0.0, 0.0, 0.0, 0.0, 1.0]"
9,1,5238,5z3pbbfb,9,8.042828,Movie,Characteristics of airborne Staphylococcus aur...,2014-05-07,10.1007/s10453-014-9342-6,"[8.042828188746888, 0.0, 0.0, 0.0, 1.0, 1.0]"


Nous pouvons √©galement examiner les valeurs brutes des caract√©ristiques (dans ce cas, pour le premier document class√©). Notez que le BM25 dans la colonne "score" ci-dessus est √©galement la premi√®re valeur dans le tableau des caract√©ristiques (proche de 12), parce que nous avons utilis√© un transformateur d'identit√©.

In [40]:
ltr_feats1.search("Movie").iloc[0]["features"]



array([12.97064765,  0.        ,  0.74586471,  1.        ,  1.        ,
        1.        ])

## 2. Analysis

Ici nous analisons les performances de chaque caract√©ristique ind√©pendamment. Pour cela, nous composons le pipeline de caract√©ristiques (`ltr_feats1`) avec `pt.ltr.feature_to_score(i)` pour un certain nombre de caract√©ristiques $i$.

In [41]:
pt.Experiment(
    [ltr_feats1 >> pt.ltr.feature_to_score(i) for i in range(len(fnames))],
    test_topics,
    test_qrels,
    names=fnames,
    eval_metrics=["map", "ndcg", "ndcg_cut_10", "num_rel_ret"])



  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "


Unnamed: 0,name,map,ndcg,ndcg_cut_10,num_rel_ret
0,TFIDF,0.010519,0.047832,0.589368,96.0
1,coronavirus covid,0.010816,0.047858,0.58478,96.0
2,title,0.0122,0.054099,0.647125,96.0
3,2020,0.010942,0.048751,0.591473,96.0
4,hasDoi,0.010437,0.04781,0.575902,96.0
5,CoordinateMatch,0.010204,0.046617,0.570048,96.0


Il est int√©ressant de noter que la caract√©ristique "coronavirus covid" a obtenu un NDCG@10 de 0,5847. Il s'agit donc d'une baseline forte pour cette t√¢che.



## 3. Learning

Dans cette partie du TP, nous appliquons trois techniques diff√©rentes d'apprentissage du classement :

 - l'ascension des coordonn√©es √† partir de FastRank, une technique lin√©aire par liste
 - les for√™ts al√©atoires de `scikit-learn`, une technique d'arbre de r√©gression par liste
 - LambdaMART de LightGBM, une technique d'arbre de r√©gression par liste.

Dans chaque cas, nous prenons notre pipeline de caract√©ristiques, `ltr_feats1`, et nous le composons (`>>`) avec le mod√®le appris. Nous utilisons `pt.ltr.apply_learned_model()` qui sait comment g√©rer les diff√©rents apprenants.

Le pipeline complet est ensuite ajust√© (appris) en utilisant `.fit()`, en sp√©cifiant les annotations d'entra√Ænement et les qrels. Il est important de noter que les √©tapes pr√©c√©dentes du pipeline (r√©cup√©ration et calcul des caract√©ristiques) sont appliqu√©es aux annotations d'entra√Ænement afin d'obtenir les r√©sultats, qui sont ensuite transmis √† la technique d'apprentissage par classement. LightGBM a un arr√™t pr√©coce activ√©, qui utilise un ensemble de annotations de validation - de la m√™me mani√®re, les annotations de validation sont transform√©s en r√©sultats de validation.

Enfin, `%time` est la "commande magique" qui affiche le temps d'apprentissage pour chaque technique. L'apprentissage pour chaque technique prend < 30 secondes.

In [42]:
import fastrank

train_request = fastrank.TrainRequest.coordinate_ascent()

params = train_request.params
params.init_random = True
params.normalize = True
params.seed = 1234567

ca_pipe = ltr_feats1 >> pt.ltr.apply_learned_model(train_request, form='fastrank')

%time ca_pipe.fit(train_topics, train_qrels)



  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "


CPU times: user 31.5 s, sys: 115 ms, total: 31.7 s
Wall time: 19.9 s


In [43]:
from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor(n_estimators=400, verbose=1, random_state=42, n_jobs=2)

# on utilisant ca_pipe comme exemple, proposez la d√©finition de rf_pipe
rf_pipe = ltr_feats1 >> pt.ltr.apply_learned_model(rf)

%time rf_pipe.fit(train_topics, train_qrels)



  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "
[Parallel(n_jobs=2)]: Using backend ThreadingBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  46 tasks      | elapsed:    0.3s
[Parallel(n_jobs=2)]: Done 196 tasks      | elapsed:    1.9s


CPU times: user 8.18 s, sys: 112 ms, total: 8.29 s
Wall time: 7.44 s


[Parallel(n_jobs=2)]: Done 400 out of 400 | elapsed:    3.5s finished


In [44]:
import lightgbm as lgb

# this configures LightGBM as LambdaMART
lmart_l = lgb.LGBMRanker(
    task="train",
    silent=False,
    min_data_in_leaf=1,
    min_sum_hessian_in_leaf=1,
    max_bin=255,
    num_leaves=31,
    objective="lambdarank",
    metric="ndcg",
    ndcg_eval_at=[10],
    ndcg_at=[10],
    eval_at=[10],
    learning_rate= .1,
    importance_type="gain",
    num_iterations=100,
    early_stopping_rounds=5
)

lmart_x_pipe = ltr_feats1 >> pt.ltr.apply_learned_model(lmart_l, form="ltr", fit_kwargs={'eval_at':[10]})

%time lmart_x_pipe.fit(train_topics, train_qrels, valid_topics, valid_qrels)



  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "


You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 268
[LightGBM] [Info] Number of data points in the train set: 24870, number of used features: 6
[1]	valid_0's ndcg@10: 0.890216
Training until validation scores don't improve for 5 rounds
[2]	valid_0's ndcg@10: 0.912274
[3]	valid_0's ndcg@10: 0.901911
[4]	valid_0's ndcg@10: 0.899687
[5]	valid_0's ndcg@10: 0.902509
[6]	valid_0's ndcg@10: 0.906468
[7]	valid_0's ndcg@10: 0.908917
Early stopping, best iteration is:
[2]	valid_0's ndcg@10: 0.912274
CPU times: user 4.9 s, sys: 63.6 ms, total: 4.96 s
Wall time: 4.83 s




## 4. Evaluation

Comparons maintenant nos pipelines de classement sur nos 15 annotations de teste versus la r√©f√©rence de base BM25. Dans tous les cas, nous ne classons que 10 r√©sultats par requ√™te, donc le MAP sera carr√©ment plus faible.

Nous allons rapporter le temps de r√©ponse moyen (`"mrt"`) ainsi que les mesures MAP, NDCG et NDCG@10.

In [45]:
pt.Experiment(
    [tfidf % RANK_CUTOFF, ca_pipe, rf_pipe, lmart_x_pipe],
    test_topics,
    test_qrels,
    names=["TFIDF",  "TFIDF + CA(6f)", "TFIDF + RF(6f)", "TFIDF + LMart(6f)"],
    baseline=0,
    eval_metrics=["map", "ndcg", "ndcg_cut_10", "mrt"])



  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "
[Parallel(n_jobs=2)]: Using backend ThreadingBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  46 tasks      | elapsed:    0.0s
[Parallel(n_jobs=2)]: Done 196 tasks      | elapsed:    0.2s
[Parallel(n_jobs=2)]: Done 400 out of 400 | elapsed:    0.3s finished




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "


Unnamed: 0,name,map,ndcg,ndcg_cut_10,mrt,map +,map -,map p-value,ndcg +,ndcg -,ndcg p-value,ndcg_cut_10 +,ndcg_cut_10 -,ndcg_cut_10 p-value
0,TFIDF,0.010519,0.047832,0.589368,73.925129,,,,,,,,,
1,TFIDF + CA(6f),0.011788,0.051866,0.628723,142.774284,9.0,1.0,0.062295,9.0,1.0,0.014166,9.0,1.0,0.008923
2,TFIDF + RF(6f),0.011907,0.051449,0.627952,203.546284,8.0,4.0,0.038993,9.0,3.0,0.090934,9.0,3.0,0.078531
3,TFIDF + LMart(6f),0.011828,0.052731,0.622488,156.959693,6.0,5.0,0.217733,5.0,6.0,0.161192,5.0,6.0,0.223187


## 4.1. Question.
Les trois mod√®les appris ont pu am√©liorer NDCG@10 sur TFIDF ? Analysez les r√©sultats, en indicant s'il y a des am√©lorations statistiques.

oui , on peut voir que l'ajout de CA , RF ou LMart avec 6 caracteristiques ameliore le NDCG@10 par rapport √† TFIDF seul

## T√¢che pratique - Concat√©nation

Notre mod√®le appris a un faible rappel car seulement 10 documents sont reclass√©s. Cr√©ons une petite fonction, `append_baseline()`, qui peut ajouter les r√©sultats de la ligne de base BM25 √† la sortie du mod√®le appris. Ceci est d√©fini en utilisant les [op√©rateurs de transformation] (https://pyterrier.readthedocs.io/en/latest/operators.html) (`^` et `%`).

Comme exercice, appliquez `append_baseline()` √† chacun des pipelines de mod√®les appris d√©finis ci-dessus, et rapportez le MAP et le NDCG calcul√©s sur les 1000 r√©sultats class√©s.

**Question**. Lequel des mod√®les appris r√©sulte en une am√©lioration significative de MAP et NDCG ?

In [46]:
def append_baseline(sys, baseline, max= 1000):
    return (sys ^ baseline) % max

BM25 = pt.BatchRetrieve(index_ref, wmodel="BM25")


lmart_bm25= append_baseline(lmart_x_pipe,BM25)
ca_bm25 = append_baseline(ca_pipe , BM25)
rf_bm25 = append_baseline(rf_pipe, BM25)
pt.Experiment(
    [tfidf % RANK_CUTOFF, ca_bm25, lmart_bm25, rf_bm25],
    test_topics,
    test_qrels,
    names=["TFIDF",  "TFIDF + CA(6f)", "TFIDF + RF(6f)", "TFIDF + LMart(6f)"],
    baseline=0,
    eval_metrics=["map", "ndcg", "ndcg_cut_10", "mrt"])



  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "




  warn("Got number of results different expected from %s, expected %d received %d, feature scores for any "
[Parallel(n_jobs=2)]: Using backend ThreadingBackend with 2 concurrent workers.
[Parallel(n_jobs=2)]: Done  46 tasks      | elapsed:    0.0s
[Parallel(n_jobs=2)]: Done 196 tasks      | elapsed:    0.1s
[Parallel(n_jobs=2)]: Done 400 out of 400 | elapsed:    0.2s finished


Unnamed: 0,name,map,ndcg,ndcg_cut_10,mrt,map +,map -,map p-value,ndcg +,ndcg -,ndcg p-value,ndcg_cut_10 +,ndcg_cut_10 -,ndcg_cut_10 p-value
0,TFIDF,0.010519,0.047832,0.589368,85.304733,,,,,,,,,
1,TFIDF + CA(6f),0.141759,0.333549,0.58802,235.826407,14.0,1.0,5.1e-05,14.0,1.0,2e-06,9.0,2.0,0.975433
2,TFIDF + RF(6f),0.141651,0.333769,0.57229,236.112614,13.0,2.0,5.6e-05,13.0,2.0,3e-06,5.0,7.0,0.766615
3,TFIDF + LMart(6f),0.141749,0.332501,0.577885,287.273574,14.0,1.0,5.5e-05,14.0,1.0,3e-06,9.0,4.0,0.834835


l'ajout de BM25 a amelior√© les r√©sultats

# T√¢che pratique

Utilisez les mod√®les impl√©ment√©s pour cord19 dans une t√¢che de question-r√©ponse. Dans ce contexte, les requ√™tes sont de questions et les documents sont des documents qui pourraient contenir la r√©ponse. Notez que vous devez refaire l'indexation ainsi que les autres √©tapes √©tudi√©es dans ce TP. Voici un exemple du dataset √† utiliser :

```json
"question": "Why are big companies like Apple or Google not included in the Dow Jones Industrial Average (DJIA) index?",

"answers":{
  "290156": {
    "text":" That is a pretty exclusive club and for the most part they are not interested in highly volatile companies like Apple and Google. Sure, IBM is part of the DJIA, but that is about as stalwart as you can get these days. The typical profile for a DJIA stock would be one that pays fairly predictable dividends, has been around since money was invented, and are not going anywhere unless the apocalypse really happens this year. In summary, DJIA is the boring reliable company index." ,
    "timestamp": "Sep 11 '12 at 0:53"}
 }

```
Vous pouvez le t√©l√©charger en utilisant les lines de code ci-dessous.

In [47]:
fiqa = {}
fiqa['train'] = pt.datasets.get_dataset('irds:beir/fiqa/train')
fiqa['valid'] = pt.datasets.get_dataset('irds:beir/fiqa/dev')
fiqa['test'] = pt.datasets.get_dataset('irds:beir/fiqa/test')

test_topics = fiqa['test'].get_topics(variant='text')
test_qrels = fiqa['test'].get_qrels()

train_topics = fiqa['train'].get_topics(variant='text')
train_qrels = fiqa['train'].get_qrels()

valid_topics = fiqa['valid'].get_topics(variant='text')
valid_qrels = fiqa['valid'].get_qrels()

In [54]:
!rm -rf ./terrier_fiqa/* # remove if previous index

In [55]:
pt_index2 = './terrier_fiqa'

In [56]:
from itertools import chain

indexer2 = pt.index.IterDictIndexer(pt_index2, blocks=True)
all_docs_iter = chain(
        fiqa['train'].get_corpus_iter(),
        fiqa['valid'].get_corpus_iter(),
        fiqa['test'].get_corpus_iter()
    )
index_ref2 = indexer2.index(all_docs_iter, fields=('text',), meta=('docno',))


beir/fiqa/train documents:   0%|          | 0/57638 [00:00<?, ?it/s]

beir/fiqa/dev documents:   0%|          | 0/57638 [00:00<?, ?it/s]

beir/fiqa/test documents:   0%|          | 0/57638 [00:00<?, ?it/s]

  index_ref2 = indexer2.index(all_docs_iter, fields=('text',), meta=('docno',))


18:58:22.632 [ForkJoinPool-4-worker-3] ERROR org.terrier.structures.indexing.Indexer - Could not finish MetaIndexBuilder: 
java.io.IOException: Key 100 is not unique: 115281,57643
For MetaIndex, to suppress, set metaindex.compressed.reverse.allow.duplicates=true
	at org.terrier.structures.collections.FSOrderedMapFile$MultiFSOMapWriter.mergeTwo(FSOrderedMapFile.java:1374)
	at org.terrier.structures.collections.FSOrderedMapFile$MultiFSOMapWriter.close(FSOrderedMapFile.java:1308)
	at org.terrier.structures.indexing.BaseMetaIndexBuilder.close(BaseMetaIndexBuilder.java:321)
	at org.terrier.structures.indexing.classical.BasicIndexer.indexDocuments(BasicIndexer.java:270)
	at org.terrier.structures.indexing.classical.BasicIndexer.createDirectIndex(BasicIndexer.java:388)
	at org.terrier.structures.indexing.Indexer.index(Indexer.java:377)
	at org.terrier.python.ParallelIndexer$3.apply(ParallelIndexer.java:131)
	at org.terrier.python.ParallelIndexer$3.apply(ParallelIndexer.java:120)
	at java.base

In [61]:
ranker2 = Ranker()
resultat = ranker2.rank(index_ref2)
resultat.search("chemical")

Unnamed: 0,qid,docid,docno,rank,score,query
0,1,45295,471602,0,15.577164,chemical
1,1,6810,70226,1,14.960861,chemical
2,1,34793,361265,2,14.883239,chemical
3,1,4890,50969,3,14.149135,chemical
4,1,24022,248855,4,13.761755,chemical
...,...,...,...,...,...,...
112,1,2185,22653,112,4.541658,chemical
113,1,10213,105210,113,3.560738,chemical
114,1,178,2035,114,2.743128,chemical
115,1,38247,397677,115,1.978864,chemical


In [66]:
tfidf2 = pt.BatchRetrieve(index_ref2, wmodel="TF_IDF")
pt.Experiment(
    [tfidf2],
    test_topics,
    test_qrels,
    eval_metrics=["map", "ndcg"],
    baseline=0,
    names=["TFIDF"]
)

Unnamed: 0,name,map,ndcg,map +,map -,map p-value,ndcg +,ndcg -,ndcg p-value
0,TFIDF,0.209598,0.338366,,,,,,


r√©ponse