## Modelo Vetorial

### Importando-se os pacotes necessários para a atividade

In [113]:
import pandas as pd
import re
from math import log
from collections import Counter
from unicodedata import normalize

### Obtendo-se a coleção

In [114]:
data_frame = pd.read_csv("results.csv")
documentos = data_frame["text"].tolist()

### 1) Reconstruir o índice considerando o conjunto de dados que indicamos. Esses são os dados coletados por Bernardi e os estaremos usando para facilitar a correção da atividade. Se você já estiver usando esses dados não precisa reconstruir o índice

#### Gerando-se os índices invertidos

#### Algoritmo "parse" para obter os tokens de um determinado documento

In [115]:
def is_pontuacao(token):
    '''
        Retorna-se um booleano indicando se o token passado por parâmetro é uma pontuação.
    '''
    lista_pontuacoes = [",", ".", "!", "?", ":", "/", "#", "*", "(", ")", ";", ""]
    return token.strip() in lista_pontuacoes

def remove_acentuacoes(token):
    '''
        Remove as acentuações de um token.
    '''
    token_unicode = unicode(token, "utf-8")
    return normalize('NFKD', token_unicode).encode('ASCII','ignore')

def parse(texto):
    '''
        Transforma o texto em uma lista de tokens, eliminando espaços vazios, acentuações e pontuações, e
        tranforma todas as palavras em letras minúsculas.
    '''
    texto = re.sub(r'[,.!?:*();]', ' ', str(texto))
    texto = re.sub(r'\n', ' ', texto)
    lista_texto = texto.split(' ')

    tokens = []
    for palavra in lista_texto:
        token = palavra.lower()
        token = token.strip()
        token = remove_acentuacoes(token)

        if(not is_pontuacao(token)):
            tokens.append(token)
    
    return tokens

#### Algoritmo para obtenção dos índices invertidos com frequência (IDF)

In [127]:
def get_indices_invertidos_com_frequencia(documentos):
    '''
        Obtém uma lista de índices invertidos a partir de uma lista de documentos,
        com a frequência do índice em cada um desses documentos.
    '''
    indices_invertidos = {}
    for i in range(len(documentos)):
        doc = parse(documentos[i])
        documento_counter = Counter(doc)
        
        for indice in documento_counter.keys():
            if(len(indice) > 3):
                if(indice in indices_invertidos):
                    indices_invertidos[indice][i] = documento_counter[indice]
                else:
                    indices_invertidos[indice] = { i: documento_counter[indice] }
    
    return indices_invertidos

### 2) Refinar o índice invertido de forma a também incluir o IDF (inverse document frequency) de cada termo do dicionário.

#### Obtendo-se os índices com IDF

In [129]:
indices_invertidos_com_frequencia = get_indices_invertidos_com_frequencia(documentos)

### 3) Implementar as seguintes versões do modelo vetorial:

    1. Representação binária;
    2. TF (lembre-se que esse modelo já está implementado);
    3. TF-IDF;
    4. BM25* (não usaremos Okapi já que os documentos não tem grande variação de tamanho)

#### Algoritmos úteis para as implementações

In [118]:
def get_tuplas_documentos_ordenados_peso(dic_documentos):
    '''
        Obtém-se tuplas de documentos ordenados decrescentemente pelo peso, a partir de um dicionário
        que tem como chave o documento, e valor o peso.
    '''
    documentos_tuplas = dic_documentos.items()
    indice_peso = 1
    documentos_tuplas.sort(key = operator.itemgetter(indice_peso), reverse=True)
    
    return documentos_tuplas

def get_K_primeiros_ids_documentos(documentos_tuplas, k):
    '''
        Obtendo-se a lista de id dos k primeiros documentos, a partir de uma lista de tuplas, as quais
        o primeiro índice é o id do documento e o segundo é o seu peso.
    '''
    id_documentos_ordenados = [id_documento for id_documento, peso in documentos_tuplas]
    k_primeiros_id_documentos = id_documentos_ordenados[:k]
    
    return k_primeiros_id_documentos

def idf(quantidade_documentos_colecao, quantidade_documentos_com_palavra):
    '''
        Calcula o Inverse Document Frequency (IDF).
    '''
    return log((quantidade_documentos_colecao + 1) / quantidade_documentos_com_palavra)

#### Implementação do algoritmo para a *Representação Binária*

In [130]:
def get_documentos_ordem_representacao_binaria(consulta, indices_invertidos, k_primeiros_elementos):
    '''
        Obtém os documentos ordenados segundo a ideia de "Representação Binária",
        na qual, os documentos que possuem a maior quantidade de termos da consultas
        são os mais representativos.
    '''
    # Separando-se os termos da pesquisa, de forma a evitar a contagem de palavras repetidas. Por exemplo,
    # uma consulta por "thaynan andrey thaynan", evitaria que eu calculasse "thaynan" duas vezes.
    termos_counter = Counter(consulta)
    
    # Obtendo-se os documentos e seus respectivos pesos para a consulta
    documentos_com_peso = {}
    for termo in termos_counter.keys():
        
        if(termo in indices_invertidos):
            for id_doc in indices_invertidos[termo].keys():
                if(id_doc in documentos_com_peso):
                    documentos_com_peso[id_doc] = documentos_com_peso[id_doc] + 1
                else:
                    documentos_com_peso[id_doc] = 1
    
    documentos_tuplas = getTuplasDocumentosOrdenadosPeso(documentos_com_peso)
    k_primeiros_id_documentos = get_K_primeiros_ids_documentos(documentos_tuplas, k_primeiros_elementos)
    
    return k_primeiros_id_documentos
    
get_documentos_ordem_representacao_binaria(["bolsonaro", "de", "lula"], indices_invertidos_com_frequencia, 10)

[137, 14, 25, 167, 171, 72, 203, 215, 233, 235]

#### Implementação do algoritmo para a *TF*

In [131]:
def get_documentos_ordem_TF(consulta, indices_invertidos, k_primeiros_elementos):
    '''
        Obtém os documentos ordenados segundo a ideia de "Term Frequency Weighting",
        na qual, quanto mais o termo se repete na consulta ou no documento, mais pesos
        ele tem.
    '''
    # Separando-se os termos da pesquisa, de forma a contar a repetição de cada termo,
    # para assim utilizá-lo no cálculo do peso.
    termos_counter = Counter(consulta)
    
    # Obtendo-se os documentos e seus respectivos pesos para a consulta
    documentos_com_peso = {}
    for termo in termos_counter.keys():
        
        if(termo in indices_invertidos):
            peso_consulta_termo = termos_counter[termo]
            
            for id_doc in indices_invertidos[termo].keys():
                peso_doc_termo = indices_invertidos[termo][id_doc]
                peso_termo = peso_consulta_termo * peso_doc_termo
                
                if(id_doc in documentos_com_peso):
                    documentos_com_peso[id_doc] = documentos_com_peso[id_doc] + peso_termo
                else:
                    documentos_com_peso[id_doc] = peso_termo
    
    documentos_tuplas = get_tuplas_documentos_ordenados_peso(documentos_com_peso)
    k_primeiros_id_documentos = get_K_primeiros_ids_documentos(documentos_tuplas, k_primeiros_elementos)
    
    return k_primeiros_id_documentos
    
get_documentos_ordem_TF(["bolsonaro", "de", "lula"], indices_invertidos_com_frequencia, 10)

[150, 165, 206, 18, 215, 41, 207, 14, 25, 224]

#### Implementação do algoritmo para a *TF-IDF*

In [132]:
def get_documentos_ordem_TF_IDF(consulta, indices_invertidos, k_primeiros_elementos):
    '''
        Obtém os documentos ordenados segundo a ideia de "Term Frequency Weighting" acrescentado do IDF,
        no qual, termos muito populares no documento são penalizados e termos pouco populares são valorizados,
        o que evita que stop words se sobreponham a outras palavras.
    '''
    quantidade_documentos_colecao = len(documentos)
    
    # Separando-se os termos da pesquisa, de forma a contar a repetição de cada termo,
    # para assim utilizá-lo no cálculo do peso.
    termos_counter = Counter(consulta)
    
    # Obtendo-se os documentos e seus respectivos pesos para a consulta
    documentos_com_peso = {}
    for termo in termos_counter.keys():
        
        if(termo in indices_invertidos):
            peso_consulta_termo = termos_counter[termo]
            quantidade_documentos_com_termo = len(indices_invertidos[termo].keys())
            
            for id_doc in indices_invertidos[termo].keys():
                peso_doc_termo = indices_invertidos[termo][id_doc] * idf(quantidade_documentos_colecao, quantidade_documentos_com_termo)
                peso_termo = peso_consulta_termo * peso_doc_termo
                
                if(id_doc in documentos_com_peso):
                    documentos_com_peso[id_doc] = documentos_com_peso[id_doc] + peso_termo
                else:
                    documentos_com_peso[id_doc] = peso_termo
    
    documentos_tuplas = get_tuplas_documentos_ordenados_peso(documentos_com_peso)
    k_primeiros_id_documentos = get_K_primeiros_ids_documentos(documentos_tuplas, k_primeiros_elementos)
    
    return k_primeiros_id_documentos
    
get_documentos_ordem_TF_IDF(["bolsonaro", "de", "lula"], indices_invertidos_com_frequencia, 10)

[150, 165, 206, 18, 14, 215, 41, 207, 25, 233]

#### Implementação do algoritmo para a *BM25*

In [143]:
def get_documentos_ordem_bm25(consulta, indices_invertidos, k):
    '''
        Obtém os documentos ordenados segundo a ideia de "Term Frequency Weighting" acrescentado do IDF,
        no qual, termos muito populares no documento são penalizados e termos pouco populares são valorizados,
        o que evita que stop words se sobreponham a outras palavras.
    '''
    quantidade_documentos_colecao = len(documentos)
    
    # Separando-se os termos da pesquisa, de forma a contar a repetição de cada termo,
    # para assim utilizá-lo no cálculo do peso.
    termos_counter = Counter(consulta)
    
    # Obtendo-se os documentos e seus respectivos pesos para a consulta
    documentos_com_peso = {}
    for termo in termos_counter.keys():
        
        if(termo in indices_invertidos):
            peso_consulta_termo = termos_counter[termo]
            quantidade_documentos_com_termo = len(indices_invertidos[termo].keys())
            
            for id_doc in indices_invertidos[termo].keys():
                numerador_peso_doc_termo = (k + 1) * indices_invertidos[termo][id_doc] * idf(quantidade_documentos_colecao, quantidade_documentos_com_termo)
                denominador_peso_doc_termo = indices_invertidos[termo][id_doc] + k
                peso_doc_termo = numerador_peso_doc_termo / denominador_peso_doc_termo
                peso_termo = peso_consulta_termo * peso_doc_termo
                
                if(id_doc in documentos_com_peso):
                    documentos_com_peso[id_doc] = documentos_com_peso[id_doc] + peso_termo
                else:
                    documentos_com_peso[id_doc] = peso_termo
    
    documentos_tuplas = get_tuplas_documentos_ordenados_peso(documentos_com_peso)
    k_primeiros_id_documentos = get_K_primeiros_ids_documentos(documentos_tuplas, k)
    
    return k_primeiros_id_documentos
    
get_documentos_ordem_bm25(["bolsonaro", "de", "lula"], indices_invertidos_com_frequencia, 10)

[14, 215, 150, 165, 206, 18, 233, 25, 203, 235]

### 4) Execute os algoritmos separadamente em 3 consultas de sua escolha e retorne os top-5 documentos mais similares à cada consulta

### 5) Compare os resultados encontrados e responda.

### 5.1) Quais modelos você acha que trouxe os melhores resultados? Por que? Inspecione os documentos retornados para melhor embasar sua resposta.

### 5.2) Calcule e reporte o overlap par-a-par entre os resultados de cada modelo (usando o índice de Jaccard).