# Trabalho de Recuperação de Informação
## Desenvolvido por Ronald Albert

In [None]:
import regex as re
import pandas as pd
from functools import reduce

In [None]:
def normalize(doc):
    return doc.lower()

In [None]:
def tokenize(doc, sep_list):
    default_sep = sep_list[0]
    
    for sep in sep_list[1:]:
        doc = doc.replace(sep, default_sep)
        
    doc = re.sub(r"\s+", " ", doc)
    doc = doc.strip()

    tokens = doc.split(default_sep)
    return tokens


In [None]:
def eliminate_stopwords(tokens, stopwords):
    return [token for token in tokens if token not in stopwords]

In [None]:
def clean_doc(doc, sep_list, stopwords):
    doc = normalize(doc)
    tokens = tokenize(doc, sep_list)
    tokens = eliminate_stopwords(tokens, stopwords)
    
    return tokens

In [None]:
def incidence_matrix(docs):
    token_set = set()
    
    for doc in docs:
        for token in doc:
            token_set.add(token)
    
    doc_list = list(range(0, len(docs)))
    
    incidence_matrix = pd.DataFrame(columns=doc_list)
    
    for token in token_set:
        token_series = pd.Series(index=doc_list, dtype='object')
        
        for index,value in token_series.iteritems():
            token_series[index] = docs[int(index)].count(token)/len(docs[int(index)])
        
        incidence_matrix = incidence_matrix.append(token_series, ignore_index=True)
        
    incidence_matrix.index = token_set
    return incidence_matrix

In [None]:
M=[['Parasita é o grande vencedor do Oscar 2020, com quatro prêmios'],
['Green Book, Roma e Bohemian Rhapsody são os principais vencedores do Oscar 2019'],
['Oscar 2020: Confira lista completa de vencedores. Parasita e 1917 foram os grandes vencedores da noite'],
['Em boa fase, Oscar sonha em jogar a Copa do Mundo da Rússia'],
['Conheça os indicados ao Oscar 2020; Cerimônia de premiação acontece em fevereiro'],
['Oscar Schmidt receberá Troféu no Prêmio Brasil Olímpico 2019. Jogador de basquete com mais pontos em Jogos Olímpicos.'],
['Seleção brasileira vai observar de 35 a 40 jogadores para definir lista da Copa América'],
['Oscar 2020: saiba como é a escolha dos jurados e como eles votam'],
['Bem, Amigos! discute lista da Seleção, e Galvão dá recado a Tite: Cadê o Luan?'],
['IFAL-Maceió convoca aprovados em lista de espera do SISU para chamada oral'],
['Arrascaeta e Matías Viña são convocados pelo Uruguai para eliminatórias da Copa. Além deles, há outros destaques na lista.'],
['Oscar do Vinho: confira os rótulos de destaque da safra 2018'],
['Parasita é o vencedor da Palma de Ouro no Festival de Cannes'],
['Estatísticas. Brasileirão Série A: Os artilheiros e garçons da temporada 2020'],
['Setembro chegou! Confira o calendário da temporada 2020/2021 do futebol europeu']] #conjunto de documentos

stopwords=['a', 'o', 'e', 'é', 'de', 'do', 'da', 'no', 'na', 'são', 'dos', 'com','como',
'eles', 'em', 'os', 'ao', 'para', 'pelo'] #lista de stopwords

q='oscar 2020' #consulta

separadores=[' ',',','.','!','?',':',';','/'] #separadores para tokenizacao

In [None]:
M_cleaned = [clean_doc(doc[0], separadores, stopwords) for doc in M]
M_cleaned

In [None]:
freq_matrix = incidence_matrix(M_cleaned)
freq_matrix

In [None]:
# Modificando a matriz para estar no modelo booleano

boolean_model = freq_matrix.applymap(lambda x: 0 if x == 0 else 1)
boolean_model

In [None]:
boolean_model[boolean_model.iloc[:,14] > 0]

In [None]:
print('0b'+''.join(str(e) for e in boolean_model.loc['saiba']))
print('0b'+''.join(str(e) for e in boolean_model.loc['festival']))

In [None]:
# Convertendo as ocorrências nos documentos para binário para realizar
# a operação de AND e OR bitwise.
def convert_token_to_bin(token):
    if token in boolean_model.index:
        return '0b'+''.join(str(e) for e in boolean_model.loc[token])
    else :
        return '0b'+('0'*boolean_model.shape[1])
    
# Função para retornar o número dos documentos na string de binario,
# a função procura pelos char's 1 dentro da string e retorna seus indices.
def return_documents(binary):
    return [index for index, char in enumerate(binary) if char == '1']

def and_query(query):
    num_docs = boolean_model.shape[1]
    
    token_list = clean_doc(query, separadores, stopwords)
    token_doc_bin = [int(convert_token_to_bin(token),2) for token in token_list]
    
    result = reduce(lambda x,y : x & y, token_doc_bin)
    return return_documents(format(result,'0'+str(num_docs)+'b'))

def or_query(query):
    num_docs = boolean_model.shape[1]
    
    token_list = clean_doc(query, separadores, stopwords)
    token_doc_bin = [int(convert_token_to_bin(token),2) for token in token_list]
     
    result = reduce(lambda x,y : x | y, token_doc_bin)
    return return_documents(format(result,'0'+str(num_docs)+'b'))

In [None]:
and_query('temporada 2020 confira')

In [None]:
or_query('temporada 2020 confira')