In [87]:
import numpy as np
from collections import Counter
import porter as p
import re
from Weighter import Weighter1
from IRModel import Vectoriel
from Parser import Parser
from IndexerSimple import IndexerSimple

- Données test (Docs / Requêtes)

In [88]:
docs=["the new home has been saled on top forecasts",
     "the home sales rise in july",
     "there is an increase in home sales in july",
     "july encounter a new home sales rise"]

reqs = ["top sales",
       "sales increase july",
       "new home"]

stopWords=["the","a","an","on","behind","under","there","in"]

index = {}
for i in range(len(docs)):
    index[i] = dict(Counter(map(p.stem, [word for word in (str.lower(docs[i])).split() if word not in stopWords])))           
            
indexInverse = {}
for numDoc, dico in index.items():
    for word, tf in dico.items():
        if(word not in indexInverse):
            indexInverse[word]= {}
        indexInverse[word][numDoc] = tf

- Pertinence des requêtes

In [89]:
pertiReq = {0:{0},      #doc1 pertinent pour req1
           1:{1,2},     #doc2 et 3 pertinent pour req2 (doc2 plus pertinent que doc3)
           2:{}}        #aucuns docs pertinents pour req3

In [90]:
if 1 in pertiReq[0]:
    print("hello")

## Exercice 1.

- modèle booléen

In [91]:
def booleen(query):
    req = list(np.unique(list(map(p.stem, query.split())))) 
    #représentation du résultat comme unensemble de documents
    res=set(index)
    for stem in req:
        res=res.intersection(indexInverse[stem])#On récupère l'intersection des documents contenant un mot de la requete
    return res

In [92]:
booleen(reqs[1])

{2}

- modele vectoriel

In [93]:
#modele vectoriel
def vect(query):
    nbDoc = 4
    req = list(np.unique(list(map(p.stem,query.split()))))
    res = [indexInverse[i] for i in req]
    doc = []
    doc_res = np.zeros(nbDoc)
    for w in res:
        doc.append(set(w.keys()))
    for w in doc:
        for d in w:
            doc_res[d]+=1
    return doc_res

#### Precision (capacité à ne retourner que des docs pertinents)

In [94]:
def preci(idQuery, modele = 0):
    if modele == 0:
        docs_retournés = booleen(reqs[idQuery])
    elif modele == 1:
        docs_retournés = vect(reqs[idQuery])
    pert = set(pertiReq[idQuery])     #docs jugés pertinents
    tp = docs_retournés.intersection(pert)  #True positifs (R & P)
    fp = docs_retournés.difference(preci)   #False positifs (R-P)
    if len(tp) == 0 & len(fp) == 0:
        return 0
    return len(tp)/(len(tp)+len(fp))     #mesure de précision

In [95]:
def preciRangk(rang,idQuery,score,jugement):
    """ score: dict() -> {idDoc: scoreDoc} dépend du modèle de poids adopté
        (trié par score décroissant)
        jugement : pertinence des requêtes"""
    k = rang
    res = 0
    for i in k:
        if score[i] in jugement[idQuery]:
            res+=1
    return res/k

#### Rappel (capacité à retourner tous les docs pertinents)

In [96]:
def rappel(idQuery, modele = 0):
    if modele == 0:
        docs_retournés = booleen(reqs[idQuery])
    elif modele == 1:
        docs_retournés = set(vect(reqs[idQuery]))
    pert = set(pertiReq[idQuery])      #docs jugés pertinents
    tp = docs_retournés.intersection(pert)    #True positifs (R & P)
    fn = pert.difference(docs_retournés)      #False negatifs (P-R)
    if len(tp) == 0 & len(fn) == 0:
        return 0
    return len(tp)/(len(tp)+len(fn))      #mesure de rappel

In [97]:
def rappelRangk(rang,idQuery,score,jugement):
    """ score: dict() -> {idDoc: scoreDoc} dépend du modèle de poids adopté
        (trié par score décroissant)
        jugement : pertinence des requêtes"""
    k = rang
    res = 0
    for i in k:
        if score[i] in jugement[idQuery]:
            res+=1
    return res/len(jugement[idQuery])

In [98]:
rappel(2,1)

0

In [99]:
def fMesure(idQuery, rang):
    r = rappel(idQuery)
    p = preci(idQuery)
    fact1 = 1+rang**2
    fact2 = (p*r)/(p*(rang**2)+r)
    return fact1*fact2

## Exercice 2.

## 1. Chargement des requêtes et de leur docs pertinents

In [100]:
class Query():
    def __init__(self, idQuery):
        self.identifiant = int(idQuery)
        self.texte = ""
        self.docsPertinents = []
     
    #GETTERS
    def getIdentifiant(self):
        return self.identifiant
        
    def getTexte(self):
        return self.texte
        
    def getDocspertinents(self):
        return self.docsPertinents
    
    # SETTERS
    def setTexte(self, texte):
        self.texte = texte
        
    def setDocspertinents(self, docs):
        self.docsPertinents = docs
        
        
    # METHODES
    def addTexte(self, texte):
        self.texte += texte
        
    def addDocspertinents(self,doc):
        self.docsPertinents.append(doc)

In [101]:
class ParserQuery():
    
    def parseQRY(chemin):
        """ 
        Fonction permettant de parser les fichers QRY (requêtes avec leurs identifiants et leur texte)
        """
        file = open(chemin, 'r') 

        res = {}
        currentI = None
        currentBalise = None 
        currentQuery = None

        while True:
            #lis une seule ligne
            line = file.readline()

            #si ligne vide, fin du fichier
            if not line:
                break

            #récupère la ligne sous forme de mots
            words=line.split()

            #Si la ligne n'est pas vide
            if(len(words)>0):
                #Test si on est sur une balise et laquelle
                if(words[0]==".I"):

                    if(currentQuery != None):
                        #J'enregistre la requete courante avant d'en créer une autre
                        res[currentQuery.getIdentifiant()] = currentQuery 

                    del currentQuery
                    currentQuery = Query(words[1])# Création d'une requete avec son identifiant
                    currentI = words[1]
                    currentBalise = 'I' 

                elif(words[0]==".W"):
                    currentBalise='W' #J'indique que je suis danc une balise W
                elif(words[0][0]=='.'): 
                    currentBalise='unknown' #J'indique que je suis dans une balsie inconnue
                else: 
                    #On est dans le contenu d'une balise
                    if(currentBalise=='W'):
                        currentQuery.addTexte(line)#J'ajoute la ligne au texte de la requête

        #J'enregistre la requête courante avant de quitter
        res[currentQuery.getIdentifiant()] = currentQuery

        file.close()
        return res
    
    
    def parseREL(chemin, reqs):
        
        file = open(chemin, 'r') 
        
        while True:
            #lis une seule ligne
            line = file.readline()

            #si ligne vide, fin du fichier
            if not line:
                break
            words=line.split()
            
            if int(words[0][0]) == 0:
                docPertinent = int(re.split('^0*',words[1])[1])
                reqs[int(words[0][1])].addDocspertinents(docPertinent)
            else:
                docPertinent = int(re.split('^0*',words[1])[1])
                reqs[int(words[0])].addDocspertinents(docPertinent)
                     
        file.close()
        return reqs

In [102]:
req1 = ParserQuery.parseQRY('cacm.qry')
req2 = ParserQuery.parseREL('cacm.rel',req1)

In [103]:
req2[1].getTexte()

' What articles exist which deal with TSS (Time Sharing System), an\noperating system for IBM computers?\n'

## 2. Métriques

In [104]:
class EvalMesure():
    
    def __init__(self):
        self.query = None
        
    def evalQuery(self,liste):
        pass
    
    #GETTERS
    def getQuery(self):
        return self.query
    
    #SETTERS
    def setQuery(self, query):
        self.query = query

In [105]:
class Precision(EvalMesure):
    
    def __init__(self,k):
        
        super().__init__()
        self.rang = k #rang de précision
        
    def evalQuery(self, scores):
        """ scores: liste() -> [idDoc] dépend du modèle de poids adopté
        (trié par score décroissant)"""
        res = 0
        for i in range(self.rang):
            if scores[i] in self.query.getDocspertinents():
                res+=1
        return res/self.rang

In [106]:
class Rappel(EvalMesure):
    
    def __init__(self,k):
        
        super().__init__()
        self.rang = k #rang de rappel
        
    def evalQuery(self, scores):
        """ scores: liste() -> [idDoc] dépend du modèle de poids adopté
        (trié par score décroissant)"""
        res = 0
        for i in range(self.rang):
            if scores[i] in self.query.getDocspertinents():
                res+=1
        return res/len(self.query.getDocspertinents())

In [107]:
class NGCD(EvalMesure):
    
    def __init__(self,k):
        
        super().__init__()
        self.rang = k #nombre de résultats à considérer
        
    def evalQuery(self, scores):
        """ scores: liste() -> [idDoc] dépend du modèle de poids adopté
        (trié par score décroissant)"""
        
        #relevance of returned docs above
        rel = [1 if d in self.query.getDocspertinents() else 0 for d in scores]
        
        #sorted relevance rank
        sorted_rel = np.sort(rel, axis=0)[::-1]
        metric = np.log([2+i for i in range(self.rang)])
        dcg = np.sum(rel[:self.rang]/metric)
        dcg_max = np.sum(sorted_rel[:self.rang]/metric)
        
        if not dcg_max:
            return 0
        else:
            return dcg/dcg_max

In [108]:
class AP(EvalMesure):
    """Avg precision"""
    
    def __init__(self,k):
        
        super().__init__()
        self.rang = k
        
    def evalQuery(self, scores):
        """ calcul de la preci moyenne"""
        return np.mean([self.preci(scores,k) for k in range(self.rang)])
     
    def preci(self, scores, k):
        """ scores: liste() -> [idDoc] dépend du modèle de poids adopté
        (trié par score décroissant)"""
        res = 0
        for i in range(k):
            if scores[i] in self.query.getDocspertinents():
                res+=1
        return res/k

## Test

In [109]:
print(reqs)
print(docs)
print(pertiReq)

['top sales', 'sales increase july', 'new home']
['the new home has been saled on top forecasts', 'the home sales rise in july', 'there is an increase in home sales in july', 'july encounter a new home sales rise']
{0: {0}, 1: {1, 2}, 2: {}}


In [110]:
#Test query
reqs_test = [Query(idQuery, ) for idQuery, docsPerti in pertiReq.items()]
for query in reqs_test:
    queryId = query.getIdentifiant()
    query.setTexte(reqs[queryId])
    query.setDocspertinents(list(pertiReq[queryId]))

In [111]:
# IR Model
weighter = Weighter1(index, indexInverse)
vect = Vectoriel(weighter, True)
q = reqs_test[1]
q_text = q.getTexte()
scores = vect.getScores(q_text)
ranking = vect.getRanking(scores) #Liste des docs pertinent dans l'ordre décroissant de pertinence
print(ranking)

[2, 1, 3, 0]


In [112]:
#Eval mesure : NGCD
k=3 #rang
evalMesure = NGCD(k)
evalMesure.setQuery(reqs_test[1]) #Query to consider
evalMesure.evalQuery(ranking)

1.0

## 3. Plateforme d'évaluation

In [138]:
class EvalIRModel():
    
    def __init__(self, irModels, evalMesures, indexerSimple, querys):
        
        self.irModels = irModels #(Liste)Objets IRModel (Vectoriel, Okapi, ... + Weighter associé)
        self.evalMesures = evalMesures #(Liste)Objets EvalMesure
        self.indexerSimple = indexerSimple #Collection de docs parsés + index, indexInv.
        self.querys = querys #liste d'objets requêtes parsées (avec docs pertinents)
        
    def evaluationSimple(self,idIRModel, idEvalMesure):
        model, mesure = self.irModels[idIRModel], self.evalMesures[idEvalMesure]
        evals = []
        for idq,query in self.querys.items():
            mesure.setQuery(query)
            query_text = query.getTexte()
            scores = model.getScores(query_text)
            ranking = model.getRanking(scores)
            evals.append(mesure.evalQuery(ranking))
        return evals
            
    def getQuerys(self):
        return self.querys
    
    def getIRModels(self):
        return self.irModels
    
    def getEvalMesures(self):
        return self.evalMesures
    

In [None]:
"""Main"""

docs_path = #to complete
querys_path = #to complete
querys_relevance = #to complete

#Parse + indexation Docs
collec1 = Parser.parseCacmCisi('cacmShort-good.txt')
indexer=IndexerSimple(collec1)
indexer.indexation()

#Parse querys
req1 = ParserQuery.parseQRY('cacm.qry')
querys = ParserQuery.parseREL('cacm.rel',req1)

#Init irModel
index = indexer.getIndex()
indexInverse = indexer.getIndexInv()
weighter = Weighter1(index, indexInverse)
irModel = Vectoriel(weighter, True)





## Test EvalIRModel (CACM)

In [116]:
#Parse + indexation Docs
collecCacm = Parser.parseCacmCisi('cacm.txt')
indexer=IndexerSimple(collecCacm)
indexer.indexation()
index, indexInverse = indexer.getIndex(), indexer.getIndexInv()

In [117]:
#Parse querys
req1 = ParserQuery.parseQRY('cacm.qry')
querys = ParserQuery.parseREL('cacm.rel',req1)

In [122]:
#Init irModel
index = indexer.getIndex()
indexInverse = indexer.getIndexInv()
weighter = Weighter1(index, indexInverse)
irModel1 = Vectoriel(weighter, True)

In [123]:
#Init evaluation modes
k=3 #rang
evalMesure1 = NGCD(k)

In [137]:
#EvalIRModel init

evalIRModel = EvalIRModel([irModel1],[evalMesure1],indexer,querys)
evalIRModel.evaluationSimple(0,0)

NameError: name 'evalmesure' is not defined