# Recuperação da Informação - 2018.1 -- Lab01, parte 2
#### *Hadrizia Santos*
  Nessa atividade serão implementadas várias instanciações do modelo vetorial, além de terem suas eficiências comparadas em termos de Mean Average Precision (MAP).
  
## 1. Construindo índice invertido
### 1.1. Importar bibliotecas e dados
  O primeiro passo é importar as bibliotecas que serão utilizadas e os documentos que serão indexados:

In [31]:
import pandas as pd
import collections
import operator
import nltk
import ast
import math
import numpy
import string
nltk.download("punkt")

dictionary = collections.defaultdict(list)

idf_dict = {}

FILE_NAME = 'estadao_noticias_eleicao.csv'

df = pd.read_csv(FILE_NAME)
df = df.replace(numpy.NAN, "")

# criação de uma nova coluna para a junção do título da notícia com seu conteúdo
df['noticia'] = df.titulo + ' ' + df.subTitulo + ' ' + df.conteudo

total_docs = len(df.noticia)

[nltk_data] Downloading package punkt to /home/hadrizia/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### 1.2. Implementar funções auxiliares

In [32]:
def pre_process_data(text):
    return text.lower()

def create_indexes(tokens, docId):
    for word in tokens:
        if word in dictionary: 
            if docId in dictionary[word]:
                dictionary[word][docId] += 1 
            else:
                dictionary[word][docId] = 1 
        else:
            dictionary[word] = {}
            dictionary[word][docId] = 1
            
def create_idf(word):
    idf = calculate_idf(word)
    idf_dict[word] = idf
    
def calculate_idf(word):
    M = total_docs
    k = len(dictionary[word].keys())
    idf = math.log((M + 1) / k)
    return idf

def calculate_bm25(tf, k):
    return (( k + 1) * tf) / ( tf + k)

### 1.3. Criar índice invertido, calcular TF e IDF
  A seguir criaremos o índice invertido, contendo cada palavra do dicionário, o número de vezes que essa palavra aparece em cada documento (chamado **TF** - *term frequency*) e um valor que tenta rankear as palavras de acordo com o número total de documentos e o número de documentos que contém cada palavra (chamado **IDF** - *inverse document frequency*)

In [33]:
for index, row in df.iterrows():  
    tokens = nltk.word_tokenize(pre_process_data(row.noticia)) 
    create_indexes(tokens, row.idNoticia)
for word in dictionary:
    create_idf(word)

## 2. Modelos Vetoriais
### 2.1 Representação binária
Este modelo se assemelha a uma busca booleana AND, que leva em consideração apenas a ocorrência ou não dos termos nos documentos, e retorna os documentos que contém todos os termos da consulta.

In [34]:
def binary_representation(query):
    query = query.lower().split(' ')
    intersect_dict = {}
    aux = {}

    for docId in dictionary[query[0]]:
        aux[docId] = 1
    
    for word in query[1:]:   
        for docId in dictionary[word]:
            if docId in aux:
                intersect_dict[docId] = 1
        
    rank = [(k, intersect_dict[k]) for k in sorted(intersect_dict, key=intersect_dict.get, reverse=True)]

    return [doc[0] for doc in rank[:5]] 

### 2.2 Term Frequency
Esse modelo é um pouco melhor que a representação binária, pois leva em consideração o número de vezes que a palavra ocorre nos documentos, retornando assim os documentos que contém todos os termos da busca e que mais aparecem também.

In [35]:
def tf(query):
    query = query.lower().split(' ')
    intersect_dict = {}
    aux = {}

    for docId in dictionary[query[0]]:
        aux[docId] = dictionary[query[0]][docId]
    
    for word in query[1:]:   
        for docId in dictionary[word]:
            if docId in aux:
                intersect_dict[docId] = aux[docId] + dictionary[word][docId]
        
    rank = [(k, intersect_dict[k]) for k in sorted(intersect_dict, key=intersect_dict.get, reverse=True)]

    return [doc[0] for doc in rank[:5]]       

### 2.3 TF-IDF
O modelo TF-IDF leva em consideração a proporção de frequência dos termos em todo os documentos, a fim de penalizar os termos mais populares.

In [36]:
def tf_idf(query):
    query = query.lower().split(' ')
    intersect_dict = {}
    aux = {}

    for docId in dictionary[query[0]]:
        aux[docId] = dictionary[query[0]][docId] * idf_dict[query[0]]
    
    for word in query[1:]:   
        for docId in dictionary[word]:
            if docId in aux:
                intersect_dict[docId] = aux[docId] + (dictionary[word][docId] * idf_dict[word])
        
    rank = [(k, intersect_dict[k]) for k in sorted(intersect_dict, key=intersect_dict.get, reverse=True)]

    return [doc[0] for doc in rank[:5]]

### 2.4 BM25
O modelo BM25 considera a relevância do termo baseado no TF e em um número k arbitrário.

In [37]:
def bm25(query, k):
    query = query.lower().split(' ')
    intersect_dict = {}
    aux = {}

    for docId in dictionary[query[0]]:
        aux[docId] = calculate_bm25(dictionary[query[0]][docId], k) * idf_dict[query[0]]
    
    for word in query[1:]:   
        for docId in dictionary[word]:
            if docId in aux:
                intersect_dict[docId] = aux[docId] + (calculate_bm25(dictionary[query[0]][docId], k) * idf_dict[word])
        
    rank = [(i, intersect_dict[i]) for i in sorted(intersect_dict, key=intersect_dict.get, reverse=True)]

    return [doc[0] for doc in rank[:5]]

## 3. Validando os modelos
Para validação, utilizaremos o MAP (*Mean Average Precision*) para comparar a eficiência dos modelos.

### 3.1 Executando  consultas

In [65]:
GABARITO_FILE_NAME = 'gabarito.csv'
gabarito = pd.read_csv(GABARITO_FILE_NAME)

queries = ['segundo turno', 'lava jato', 'projeto de lei', 'compra de voto', 'ministério público']
binary_representation_results = []
tf_results = []
tf_idf_results = []
bm25_results = []

for query in queries:
    binary_representation_results.append(binary_representation(query))
    tf_results.append(tf(query))
    tf_idf_results.append(tf_idf(query))
    bm25_results.append(bm25(query, 100))

In [39]:
def apk(actual, predicted, k=10):
    """
    Computes the average precision at k.

    This function computes the average prescision at k between two lists of
    items.

    Parameters
    ----------
    actual : list
             A list of elements that are to be predicted (order doesn't matter)
    predicted : list
                A list of predicted elements (order does matter)
    k : int, optional
        The maximum number of predicted elements

    Returns
    -------
    score : double
            The average precision at k over the input lists

    """
    if len(predicted)>k:
        predicted = predicted[:k]

    score = 0.0
    num_hits = 0.0

    for i,p in enumerate(predicted):
        if p in actual and p not in predicted[:i]:
            num_hits += 1.0
            score += num_hits / (i+1.0)

    if not actual:
        return 0.0

    return score / min(len(actual), k)

def mapk(actual, predicted, k=10):
    """
    Computes the mean average precision at k.

    This function computes the mean average prescision at k between two lists
    of lists of items.

    Parameters
    ----------
    actual : list
             A list of lists of elements that are to be predicted 
             (order doesn't matter in the lists)
    predicted : list
                A list of lists of predicted elements
                (order matters in the lists)
    k : int, optional
        The maximum number of predicted elements

    Returns
    -------
    score : double
            The mean average precision at k over the input lists

    """
    return numpy.mean([apk(a,p,k) for a,p in zip(actual, predicted)])

In [66]:
def obj_to_list(obj):
    matrix = []
    for list_obj in obj:
        x = ast.literal_eval(list_obj)
        matrix.append(x)
    return matrix 

print('Resultado MAP de acordo com o gabarito')

print ("Precisão gabarito e busca binária: %f" % (mapk(obj_to_list(gabarito.busca_binaria), binary_representation_results, k=5)))
print ("Precisão gabarito e TF: %f" % (mapk(obj_to_list(gabarito.tf), tf_idf_results, k=5)))
print ("Precisão gabarito e TF-IDF: %f" % (mapk(obj_to_list(gabarito.tfidf), tf_idf_results, k=5)))
print ("Precisão gabarito e BM25: %f \n" % (mapk(obj_to_list(gabarito.bm25), bm25_results, k=5)))

print('Resultado MAP de acordo com o google')

print ("Precisão google e busca binária: %f" % (mapk(obj_to_list(gabarito.google), binary_representation_results, k=5)))
print ("Precisão google e TF: %f" % (mapk(obj_to_list(gabarito.google), tf_idf_results, k=5)))
print ("Precisão google e TF-IDF: %f" % (mapk(obj_to_list(gabarito.google), tf_idf_results, k=5)))
print ("Precisão google e BM25: %f" % (mapk(obj_to_list(gabarito.google), bm25_results, k=5)))

Resultado MAP de acordo com o gabarito
Precisão gabarito e busca binária: 0.240000
Precisão gabarito e TF: 0.592000
Precisão gabarito e TF-IDF: 0.748667
Precisão gabarito e BM25: 0.780667 

Resultado MAP de acordo com o google
Precisão google e busca binária: 0.013333
Precisão google e TF: 0.088000
Precisão google e TF-IDF: 0.088000
Precisão google e BM25: 0.073333


   Como se pode observar acima, os modelos tiveram resultados bem diversos mas dentro do esperado. Se sabe que entre os modelos implementados, a **representação binária** é a mais ruim, por causa da aleatoriedade na hora de retornar os 5 melhores documentos, uma vez que todos eles possuem score igual a 1 e desta forma fica difícil retornar os mesmos elementos que o gabarito. O **TF** obteve um resultado melhor que a representação binária, pois como já foi tido anteriormente, ele leva em conta a frequência dos termos da busca e desta forma fica mais fácil fazer o ranking. Este modelo também possui limitações, pois quando a palavra é comum (por exemplo: a, para, de) o score aumenta bastante mas nem sempre os documentos retornados estarão no ranking ideal. O **TF-IDF** tenta minimizar este problema levando em consideração o IDF também, penalizando os termos mais comuns e gratificanto os termos mais raros dos documentos, tornando a recuperação mais relevante e por isso obteve melhor nota que os anteriores. O último e mais bem avaliado modelo é o **BM25**, que leva em conta o IDF, o TF e um parâmetro k arbitrário, que junto ao TF penaliza os termos que ocorrem muitas vezes em um documento e retorna os documentos mais relevantes que os demais, por levar vários aspectos em consideração na hora de calcular os scores e fazer o ranking.