# Indexação e Processamento de Consulta para a coleção de artigos obtidos no site Carta Capital

## Importando-se os pacotes necessários para a atividade

In [10]:
import pandas as pd
import re
import operator
from collections import Counter
from unicodedata import normalize

## Obtendo-se coleção do site Carta Capital

In [11]:
data_frame = pd.read_csv("results.csv")
documentos = data_frame["text"].tolist()

### 1) Execute o algoritmo ilustrado na Fig. 5.8 do livro texto (pag. 157) para gerar um índice similar o mostrado na Fig. 5.4 (pag. 134). Guarde o índice em disco em formato csv.

In [12]:
def is_pontuacao(token):
    '''
        Retorna-se um booleano indicando se o token passado por parâmetro é uma pontuação.
    '''
    lista_pontuacoes = [",", ".", "!", "?", ":", "/", "#", "*", "(", ")", ";", ""]
    return token.strip() in lista_pontuacoes

def remove_acentuacoes(token):
    '''
        Remove as acentuações de um token.
    '''
    token_unicode = unicode(token, "utf-8")
    return normalize('NFKD', token_unicode).encode('ASCII','ignore')

def parse(texto):
    '''
        Transforma o texto em uma lista de tokens, eliminando espaços vazios, acentuações e pontuações, e
        tranforma todas as palavras em letras minúsculas.
    '''
    lista_texto = str(texto).split(" ")

    tokens = []
    for palavra in lista_texto:
        token = palavra.lower()
        token = token.strip()
        token = re.sub(r'[,.!?:*();]', '', token)
        token = remove_acentuacoes(token)
        
        if(not is_pontuacao(token)):
            tokens.append(token)
    
    return tokens

def get_indices_invertidos(documentos):
    '''
        Obtém uma lista de índices invertidos a partir de uma lista de documentos.
    '''
    indices_invertidos = {}
    for i in range(len(documentos)):
        doc = parse(documentos[i])
        documento_counter = Counter(doc)
        
        for indice in documento_counter.keys():
            if(indice in indices_invertidos):
                indices_invertidos[indice][i] = documento_counter[indice]
            else:
                indices_invertidos[indice] = { i: documento_counter[indice] }
    
    return indices_invertidos

indices_invertidos = get_indices_invertidos(documentos)

df_indices_invertidos = pd.DataFrame(pd.Series(indices_invertidos).reset_index()).set_axis(['Termo','Lista Invertida {documentID: Frequência}'],1,inplace=False)
df_indices_invertidos.set_index('Termo', inplace=True)
df_indices_invertidos.to_csv("indices_invertidos.csv")

### 2) Implemente as abordagens de processamento de consulta documento-por-vez e termo-por-vez (Fig. 5.16 e 5.18)

In [13]:
def documento_por_vez(consulta, k, indices_invertidos, documentos):
    L = []
    R = []

    for termo in consulta:
        li = indices_invertidos.get(termo)
        if li is not None:
            L.append(li)

    for d in range(1, len(documentos) + 1):
        score = 0
        for li in L:
            if d in li:
                score += li[d]

        if score > 0:
            R.append((score, d))

    R.sort(key = operator.itemgetter(0), reverse=True)

    return R[:k]


def termo_por_vez(consulta, k, indices_invertidos, documentos):
    L = []
    R = []

    for termo in consulta:
        li = indices_invertidos.get(termo)
        if li is not None:
            L.append(li)

    for d in range(1, len(documentos) + 1):
        score = 0
        for li in L:
            if d in li:
                score += li[d]

        if score > 0:
            R.append((score, d))

    R.sort(key = operator.itemgetter(0), reverse=True)
    
    return R[:k]

### 2.1) Defina 5 consultas de um termo somente.

In [6]:
'''
    Palavras a serem consultadas:
        - bolsonaro
        - brasil
        - casa
        - nome
        - vida
'''

'\n    Palavras a serem consultadas:\n        - bolsonaro\n        - brasil\n        - casa\n        - nome\n        - vida\n'

### 2.2) Execute as 5 consultas em cada algoritmo retornando os top-10 documentos (parâmetro k do algoritmo)

In [18]:
print("Consulta para documento por vez")
print("Consulta para bolsonaro")
print(documento_por_vez(["bolsonaro"], 10, indices_invertidos, documentos))
print("Consulta para brasil")
print(documento_por_vez(["brasil"], 10, indices_invertidos, documentos))
print("Consulta para casa")
print(documento_por_vez(["casa"], 10, indices_invertidos, documentos))
print("Consulta para nome")
print(documento_por_vez(["nome"], 10, indices_invertidos, documentos))
print("Consulta para vida")
print(documento_por_vez(["vida"], 10, indices_invertidos, documentos))

print

print("Consulta para termo por vez")
print("Consulta para bolsonaro")
print(termo_por_vez(["bolsonaro"], 10, indices_invertidos, documentos))
print("Consulta para brasil")
print(termo_por_vez(["brasil"], 10, indices_invertidos, documentos))
print("Consulta para casa")
print(termo_por_vez(["casa"], 10, indices_invertidos, documentos))
print("Consulta para nome")
print(termo_por_vez(["nome"], 10, indices_invertidos, documentos))
print("Consulta para vida")
print(termo_por_vez(["vida"], 10, indices_invertidos, documentos))

Consulta para documento por vez
Consulta para bolsonaro
[(22, 425), (17, 338), (16, 12), (16, 31), (16, 355), (13, 168), (13, 348), (12, 79), (12, 374), (12, 383)]
Consulta para brasil
[(16, 104), (16, 141), (14, 361), (14, 430), (12, 374), (11, 77), (11, 144), (10, 48), (10, 102), (9, 114)]
Consulta para casa
[(11, 107), (7, 425), (4, 368), (3, 138), (3, 268), (3, 281), (3, 352), (3, 419), (2, 2), (2, 9)]
Consulta para nome
[(5, 68), (4, 112), (3, 158), (3, 301), (3, 324), (3, 406), (2, 18), (2, 125), (2, 176), (2, 224)]
Consulta para vida
[(6, 107), (5, 27), (5, 267), (4, 102), (4, 160), (4, 173), (4, 425), (3, 34), (3, 61), (3, 190)]

Consulta para termo por vez
Consulta para bolsonaro
[(22, 425), (17, 338), (16, 12), (16, 31), (16, 355), (13, 168), (13, 348), (12, 79), (12, 374), (12, 383)]
Consulta para brasil
[(16, 104), (16, 141), (14, 361), (14, 430), (12, 374), (11, 77), (11, 144), (10, 48), (10, 102), (9, 114)]
Consulta para casa
[(11, 107), (7, 425), (4, 368), (3, 138), (3, 