# Recherche d'Information et traitement de données massives
## Lab 3 : Modèles de recherche Probabilistes

L'objectif de cette séance est de mettre en oeuvre les différents modèles de recherche dits "probabilistes" vus en cours 3. La première partie du Lab correspond à des exercices d'application de cours. La deuxième partie est la mise en oeuvre des différents modèles sur le corpus TIME.


## Partie 1 : Exercices




## Partie 2  : Mise en oeuvre sur la collection TIME


Dans cette partie, il s'agit de **mettre en oeuvre les différents modèles probabilistes sur la collection TIME** en utilisant : 
 + la représentation de la collection sous la forme d'un index inversé et 
 + des requêtes ayant subies les mêmes traitements que ceux appliqués aux documents lors de la phase d'indexation. 

En effet, il est nécessaire de garantir que l'espace de représentation de la requête et du document sont les mêmes. Les modèles probabilistes font partis de l'ensemble des modèles de recherche en RI. Durant le LAB2 vous avez mis en pratique les modèles dits booléens et vectoriels. Ces derniers modélisent la pertinence d'un document par rapport à une requête en considérant respectivement un degrès de pertinence binaire ou de similarité (score basé sur le produit vectoriel entre représentation du document et celle de la requête). 

Les modèles probabilistes quant à eux poussent un peu plus loin la finesse de la modélisation et le calcul de la pertinence. Le principe général des modèles probabilistes consiste à inférer, étant données d'une part la représentation d'un document et d'autre part la représentation d'une requête, la probabilité de pertinence du document sachant la requête. L'idée principale est que plus la probabilité de pertinence d'un document de la collection est élevée plus le document répond au besoin de l'utilisateur tel que formulé par sa requête. C'est ainsi que les probabilités sont utilisées pour l'ordonnancement des documents par ordre de pertinence. Nous allons mettre en oeuvre deux modèles probabilistes populaires : **MIB** et **BM25** en implémentant pour chacun leur fonction score d'ordonnancement, toutes deux vues en cours.


**Préliminaires** 
Tout d'abord, nous allons charger l'index inversé de la collection TIME construit et sauvegardé sous la forme d'un fichier dans le LAB1. Les différents index sont disponibles [ici](./Index). Nous avons aussi mis dans le répertoire [Utils](./Utils) un ensemble de modules python permettant de charger les index. Ensuite, nous avons besoin d'avoir accès aux requêtes pré-processées comme cela a été fait durant le LAB2 par la construction de la fonction `pre_processed_query(query)`. Nous vous proposons de la ré-utiliser ainsi que les fonctions écrites dans le LAB1. Pour des raisons pratiques, nous vous fournissons ces fonctions dans le fichier [Lab12.py](./Utils/Lab12.py) du répertoire [Utils](./Utils). 

In [1]:
from Utils.saveandload_pickle import *
from Utils.Lab12 import *

#chargement des index inverses (document et frequence)
document_index = load_inverted_index_pickle('./Index/index_document.pickle')
frequence_index = load_inverted_index_pickle('./Index/index_frequence.pickle')
#print(document_index)

#chargement de la collection 
collection_TIME = loadData("./Data/Time/TIME.ALL")
pre_processed_collection_TIME = collection_lemmatize(remove_stop_words(tokenize_Regexp_corpus(collection_TIME),"./Data/Time/TIME.STP"))

#Exemple de requete pre-processee
pre_processed_query("KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP")

423 articles ont été parsés


['KENNEDY', 'ADMINISTRATION', 'PRESSURE', 'NGO', 'DINH', 'DIEM', 'STOP']

## Modèle d'Indépendance Binaire (MIB)

**Fonction d'ordonnancement probabiliste du MIB ($RSV^{MIB}$)**

La formulation de la **fonction d'ordonnancement du Modèle d'Indépendance Binaire** est :

$$Score\_MIB(d,q)=\sum_{j:t_{j}=r_{j}=1} log \left( \frac{p_{j} (1-s_{j})}{s_{j} (1-p_{j})} \right)$$

où,
 + $r_j=1 \,(\mbox{resp}. t_j=1)\, \mbox{signifie la présence du}\; j \, \mbox{ème terme}\, t_j\, \mbox{du vocabulaire}\, (j \in \{1, \ldots , V \})\, \mbox{dans la requête}\, q\, (\mbox{resp. dans le document}\, d$) ;
 + $p_j = P(t_{j}=1|R)\, \mbox{la probabilité de pertinence du terme}\, t_j$ ;
 + $s_j = P(t_{j}=1|NR)\, \mbox{la probabilité de non-pertinence du terme}\, t_j$.


Nous avons vu en cours comment théoriquement calculer les probabilités, $p_j\, \mbox{et} \, s_j$ à l'aide d'une table de contingence des occurrences des documents dans la collection pour une requête donnée. Cependant pour pouvoir compléter cette table nous avons besoin d'avoir accès à des données annotées (données d'apprentissage). C'est à dire pour lesquelles nous connaisons le résultat de pertinence et où nous avons accès à l'information de pertinence. Ici ce n'est pas  notre cas. On va devoir donc envisager une alternative. Une solution proposée dans le cours est d'utiliser l'approximation suivante :
$$s_j \approx \frac{df_{t_j}}{N}$$
où, $N$ est le nombre de documents de la collection et $df_{t_j}$ le nombre de documents de la collection contenant le terme $t_j$.
Quant à $p_j$ plusieurs possibilités d'approximation exitent : 
 + considérer $p_j$ constante, par exemple : 0.5 si aucune information n'est disponnible [Croft and Harper] ;
 + considérer $p_j$ proportionnelle à la probabilité d'occurrence dans la collection ;
 + considérer $p_j$ proportionnelle au logarithme de la probabilité d'occurence dans la collection [GREIFF, Sigir 98].

1- Ecrire une fonction `get_sj(term,index_frequence,nb_doc)` qui calcule l'approximation de $s_j$ pour un terme $t_j$. En entrée de la fonction vous pouvez utiliser le terme `term` et l'index de fréquence `index_frequence` précédement chargé ainsi que le nombre de documents de la collection `nb_doc`. Il est égal à 523 pour la collection TIME mais si vous le souhaitez, vous pouvez le récupérer via le dictionnaire de statistiques construit dans le LAB2.


In [2]:
from math import *

def get_sj(term,index_frequence,nb_doc):
    return len(index_frequence[term].keys())/nb_doc
               
get_sj("NASSAU",frequence_index,523)
#test = len(frequence_index["NASSAU"].keys())
#print(test)
#print(frequence_index["NASSAU"].keys())

0.01338432122370937

2- Ecrire une fonction `score_MIB_1 (doc_ID, query, index_frequence, nb_doc)` qui calcule le score de pertinence du modèle MIB pour un document identifié dans l'`index_frequence` par son `doc_ID` et une requête `query`, tous donnés en entrée pour le cas où $p_j=0.5$. 

In [3]:
def score_MIB_1 (doc_ID, query, index_frequence, nb_doc):
    pj=0.5
    cj_all= [] #liste vide de stockage
    query_pre_processed = pre_processed_query(query)
    #Boucle sur chaque term sous la condition que le terme soit a la fois present dans doc et requete
    for term in query_pre_processed:
        if doc_ID in index_frequence[term]:
            sj = get_sj(term, index_frequence, nb_doc)
            cj = log(pj*(1-sj)/sj*(1-pj))
            cj_all.append(cj)
    return sum(cj_all) #return la somme de la liste

    

3- Appliquer cette fonction pour le cas de la requête "KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP" et un document au choix de la collection. N'hésitez pas à changer de document 2 ou 3 fois et à répéter le test. 

In [4]:
score_MIB_test=score_MIB_1('017',"KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP",frequence_index,523)

print(score_MIB_test)


0.9289758914014707


4- **(question optionnelle)** Ecrire les fonctions `score_MIB_2 ()` et `score_MIB_3 ()` correspondant aux deux autres solutions de calcul de $p_j$.

5- Ecrire une fonction `ranking_score_MIB_1 ()` qui calcule pour une requête donnée en entrée le `score_MIB_1` avec tous les documents "pertinents" de la collection et renvoit en sortie la liste des couples : document pertinent puis score, ordonnée par score de pertinence décroissant. 

N.B : un document est dit ici "pertinent" dans le sens où il contient au moins un terme de la requête. Cela n'a rien à voir avec la notion de pertinence du cours.

In [5]:
#Creation d'une fonction pour créer la liste des documents pertinents associés à une requête
def create_relevant_doc_IDs (query, index_frequence):
    query_pre_processed = pre_processed_query(query)
    relevant_doc_IDs = set()
    for term in query_pre_processed:
        relevant_doc_IDs.update(index_frequence[term].keys())
    return sorted(relevant_doc_IDs)

#test = create_relevant_doc_IDs("KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP",frequence_index)
#print(test) 

def ranking_score_MIB_1 (query, index_frequence, nb_doc):
    query_pre_processed = pre_processed_query(query)
    score = {}
    relevant_doc_IDs=create_relevant_doc_IDs(query,index_frequence)
    for doc_ID in relevant_doc_IDs:
        score[doc_ID] = score_MIB_1(doc_ID, query, index_frequence, nb_doc)   
    #Ordonner
    ordered_scores = OrderedDict(sorted(score.items(), key=lambda t: t[1], reverse=True))
    # score.items() convert to a list of (elem, cnt) pairs
    #return
    return ordered_scores

ranking_score_MIB_1("KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP",frequence_index,523)

OrderedDict([('464', 7.610525952144638),
             ('480', 7.261789520009904),
             ('269', 6.7143604560997705),
             ('363', 6.7143604560997705),
             ('334', 6.681550060743168),
             ('390', 6.298922483626336),
             ('418', 6.298922483626336),
             ('544', 6.298922483626336),
             ('053', 5.369946592224867),
             ('228', 5.369946592224867),
             ('320', 5.369946592224867),
             ('396', 5.369946592224867),
             ('414', 5.369946592224867),
             ('434', 5.369946592224867),
             ('470', 5.369946592224867),
             ('498', 5.369946592224867),
             ('508', 5.369946592224867),
             ('519', 5.369946592224867),
             ('533', 5.369946592224867),
             ('559', 5.369946592224867),
             ('516', 4.513638340559659),
             ('163', 4.1652326830614115),
             ('071', 4.132422287704809),
             ('227', 3.584993223794676),
             

6- **(question optionnelle)** Faire de même pour les cas des fonctions `score_MIB_2 ()` et `score_MIB_3 ()`.

7- **(question optionnelle)** Ecrire une fonction globale pour le "ranking" de documents pertinents par score MIB avec un paramètre d'entrée permettant de choisir parmi les fonctions de score `score_MIB_1 ()`, `score_MIB_2 ()` et `score_MIB_3 ()`.

8- Quelle information présente dans l'index inversé n'est pas utilisée par la modélisation MIB ? Quelle modélisation permet d'utiliser cette information pertinente ?

**Réponse**: Le nombre d'occurrence des termes. Le modèle BM25 va permettre de pousser un peu plus loin la modélisation MIB par l'utilisation de cette information appelée aussi `tf`. 

## Modèle BM 25 ("Best Match")



Le modèle BM 25, aussi nommé OKAPI BM 25, est une référence dans le développement des systèmes de recherche. Il est fondé sur un "principe d'indexation probabiliste" dont l'idée sous-jacente est qu'un bon descripteur de document est un terme assez fréquent dans ce document mais qui est relativement rare dans la collection. Cette idée a pour notions de bases la division des documents en deux ensembles élites $E$ et non élites $\bar{E}$ et aussi celles de probabilités de pertinence d'un terme $p_j$ et $s_j$. En effet, sous le modèle BM 25 nous allons réecrire la fonction de score du modèle MIB en y intégrant :
   + la notion d'élitisme des termes ;
   + l'hypothèse que la fréquence d'un mot dans un document ne dépend que de l'appartenance du document à l'ensemble élite.

En particulier, cela signifie qu'on va considérer que,
   $p_j = P(TF_{j}=tf_{t_j,d} |R )$
et que, 
   $s_j = P(TF_{j}=tf_{t_j,d} |NR )$

avec $tf_{t_j,d}$ le nombre d'occurrences du terme dans le document. Quand le terme est absent $tf_{t_j,d}=0$. Ainsi, quand le terme est présent, le modèle tiendra aussi compte de sa fréquence d'apparition contrairement au modèle de base MIB.

**Fonction d'ordonnancement probabiliste du BM 25**

La formulation, ou plus exactement son approximation, de la **fonction d'ordonnancement du Modèle BM 25** est :

$Score\_BM25(d,q) = \sum_{j:t_j=r_j=1} \frac{(k_1 + 1) \times tf_{t_j,d}}{k_1 ((1-b) + b \frac{L_d}{m} )+ tf_{t_j,d}} \times \frac{(k_3 + 1) \times tf_{t_j,q}}{k_3 + tf_{t_j,q}} \times \log \frac{N - df_{t_j} + 0.5}{df_{t_j} + 0.5}$

où,
 + $r_j=1$ (resp. $t_j=1$) signifie la présence du $j$ème terme $t_j$ du vocabulaire ($j \in \{1, \ldots , V \}$) dans la requête $q$ (resp. dans le document $d$) ;
 + $p_j = P(TF_{j}=tf_{t_j,d} |R )$ la probabilité de pertinence du terme $t_j$ ;
 + $s_j = P(TF_{j}=tf_{t_j,d} |NR )$ la probabilité de non-pertinence du terme $t_j$ ;
 + $df_{t_j}$ est le nombre de documents de la collection contenant le terme $t_j$ ;
 + $L_d$ est la longueur du document $d$ ;
 + $ m = \frac{1}{N} \sum_{d \in \mathcal{C}} L_d$ est la moyenne des tailles des documents de la collection ;
 + $k_1$ est le paramètre contrôlant la prise en compte de la fréquence des termes, par défaut $k_1 = 1.2$ ;
 + $b$ est le paramètre contrôlant la prise en compte de la longueur, par défaut $b = 0.75$ ;
 + $k_3$ est le paramètre contrôlant la prise en compte de la fréquence $tf_{t_i,q}$, par défaut on fixe $k_3 = 1000$ ;
 + $tf_{t_j,q}$ est le nombre d'occurrences du terme $t_j$ dans la requête $q$.


A ce stade du LAB, nous savons calculer $tf_{t_j,d}$, $tf_{t_j,q}$, $df_{t_j}$ et nous connaissons $N$. Pour les éléments $k_1$, $k_2$, $k_3$ et $b$ il nous est possible de les fixer aux valeurs par défauts. Il nous reste donc à construire une fonction calculant $tf_{t_j,q}$ puis à calculer $L_d$ et $m$. Nous aurons alors à disposition tous le nécessaire pour calculer la fonction score du modèle BM 25. 

9- Ecrire une fonction `get_tf_q (term, query)` permettant de calculer le nombre d'occurrence dans une requête `query` d'un `term` donnés tous deux en entrée.

In [6]:
def get_tf_q (term, query):
    query_pre_processed = pre_processed_query(query)
    query_index_frequence={}
    for term in query_pre_processed:
        if term in query_index_frequence:
            query_index_frequence[term] = query_index_frequence[term] + 1
        else:
            query_index_frequence[term] = 1       
    return query_index_frequence[term]

test = get_tf_q("NGO", "KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP")
print(test)


1


10- Ecrire une fonction `create_dict_size_docs_collection(pre_processed_collection_TIME)` qui construit à partir de la collection pré-processée (chargée au début de ce Lab) un dictionnaire où les clées sont les identifiants des documents et les valeurs les longueurs $L_d$ des documents. Puis calculer la longueur moyenne `m` des tailles des documents de la collection.

In [7]:
import numpy as np

def create_dict_size_docs_collection(pre_processed_collection_TIME):
    size_docs = {}
    for doc_ID in pre_processed_collection_TIME:
        size_docs[doc_ID] = len(pre_processed_collection_TIME[doc_ID])
    return size_docs
#Dictionnaire : pour chaque doc_ID on a sa longueur L_d
dict_size_docs = create_dict_size_docs_collection(pre_processed_collection_TIME)
#print(dict_size_docs)

#Calcul de la moyenne des longueurs de documents de la collection
sizes_docs = np.fromiter(dict_size_docs.values(), dtype=float)#to directly create numpy arrays from the dictionary values 
m = np.mean(sizes_docs)
print(m)

568.8416075650118


11- Ecrire une fonction `score_BM25 (doc_ID, query, index_frequence, nb_doc, dict_size_docs, m)` qui calcule le score de pertinence du modèle BM25 pour un document identifié dans l'`index_frequence` par son `doc_ID` et une requête `query`. En entrée, vous pouvez utiliser les éléments créés à la question précédentes : `m`et `dict_size_docs`.

In [8]:


def score_BM25 (doc_ID, query, index_frequence, nb_doc, dict_size_docs, m):
    #valeurs par defaut
    k1 = 1.2
    k3 = 1000
    b = 0.75
    query_pre_processed = pre_processed_query(query)
    score_j_all = []
    #Boucle sur chaque term sous la condition que le terme soit a la fois present dans doc et requete
    for term in query_pre_processed:
        if doc_ID in index_frequence[term]:
            tf_dj = get_tf(term, doc_ID, frequence_index)
            tf_qj = get_tf_q(term, query)
            L_d = dict_size_docs[doc_ID]
            df = len(index_frequence[term].keys())
            first_j = ((k1+1)*tf_dj)/(k1*((1-b)+b*L_d/m)+tf_dj)
            second_j = ((k3+1)*tf_qj)/(k3+tf_qj)
            third_j = log((nb_doc - df + 0.5)/(df + 0.5))
            score_j_all.append(first_j*second_j*third_j)
    return sum(score_j_all)


score_BM25_test= score_BM25('017',"KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP",frequence_index,523, dict_size_docs, m)

print(score_BM25_test)

3.5497494628268647


12- Ecrire une fonction `ranking_score_BM25 ()` qui calcule pour une requête donnée en entrée le `score_BM25` avec tous les documents "pertinents" de la collection et renvoit en sortie la liste des couples : document pertinent puis score, ordonnée par score de pertinence décroissant. 

N.B : un document est dit ici "pertinent" dans le sens où il contient au moins un terme de la requête. Cela n'a rien à voir avec la notion de pertinence du cours.


In [9]:
def ranking_score_BM25 (query, index_frequence, nb_doc):
    query_pre_processed = pre_processed_query(query)
    score = {}
    relevant_doc_IDs=create_relevant_doc_IDs(query,index_frequence)
    for doc_ID in relevant_doc_IDs:
        score[doc_ID] = score_BM25(doc_ID, query, index_frequence, nb_doc, dict_size_docs, m)
    #Ordonner
    ordered_scores = OrderedDict(sorted(score.items(), key=lambda t: t[1], reverse=True))
    # score.items() convert to a list of (elem, cnt) pairs
    #return
    return ordered_scores

ranking_score_BM25("KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP",frequence_index,523)

OrderedDict([('464', 17.767475692080396),
             ('544', 17.48714198930351),
             ('390', 16.923057580337595),
             ('508', 16.819066451132443),
             ('498', 16.443196305842825),
             ('320', 15.44506385560713),
             ('334', 15.397777303825062),
             ('363', 15.12125251685056),
             ('480', 14.540766569892472),
             ('396', 14.144275719857431),
             ('414', 14.08066767572192),
             ('559', 13.868939522131058),
             ('434', 13.788863042706133),
             ('418', 13.710249832976041),
             ('228', 13.31905964537699),
             ('533', 12.761181650968538),
             ('269', 12.606834930038026),
             ('470', 11.928420082970135),
             ('053', 10.821636846516585),
             ('519', 10.801513325638467),
             ('227', 10.510300681885656),
             ('516', 8.853844093123287),
             ('183', 8.610878564047477),
             ('492', 7.954134823085159),


13- Comparer les deux ranking renvoyés par chacun des modèles de recherche probabilistes pour une même requête `"KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP"`.

14- Comparer les rankings renvoyés par tous les modèles de recherches vus durant les Labs (probabilistes et vectoriel) pour la même requête `"KENNEDY ADMINISTRATION PRESSURE ON NGO DINH DIEM TO STOP"`.