# Parte I - Fundamentos

* Recuperação da informação (RI)
* Arquitetura de um sistema de recuperação da informação
* Modelos de RI
    * Modelo booleano
    * Modelo vetorial
    * Modelo probabilístico
* Ponderação
    * TF-IDF
    * Normalização pelo tamanho dos documentos
* Modelo probabilístico
    * BM25
* Introdução à avaliação da recuperação
* Tópico especial: stop words

# Conceitos

Os documentos abaixo serão usados para ilustrar os conceitos. Vamos considerar que cada elemento da lista é um documento da nossa base.

In [8]:
docs=["the house had a tiny little mouse",
      "the cat saw the mouse",
      "the mouse ran away from the house",
      "the cat finally ate the mouse",
      "the end of the mouse story"]

### Bag of words

O modelo de bag of words (saco de palavras) é a representação mais comum utilizada em sistemas de recuperação da informação. Consiste basicamente do conjunto de termos únicos de todos os documentos da coleção. É este conjunto que comporá a estrutura de dados utilizada para recuperação - o índice invertido.

In [9]:
#Quebra documentos nos espaços (tokeniza)
docs_in_tokens = [e.split(' ') for e in docs]

#Transforma os tokens em um bag of words
bag_of_words = set([item for elem in docs_in_tokens for item in elem])

A bag of words dos nossos documentos de exemplo é a listada abaixo.

In [10]:
bag_of_words 

{'a',
 'ate',
 'away',
 'cat',
 'end',
 'finally',
 'from',
 'had',
 'house',
 'little',
 'mouse',
 'of',
 'ran',
 'saw',
 'story',
 'the',
 'tiny'}

## Term Frequency - TF

Reflete o quão frequente um termo ocorre em um documento.

In [11]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

cv = CountVectorizer(stop_words=None)
cv = cv.fit(docs)

word_count_vector = cv.transform(docs)

tf_df = pd.DataFrame(word_count_vector.toarray(),columns=cv.get_feature_names(), index=None)
tf_df

Unnamed: 0,ate,away,cat,end,finally,from,had,house,little,mouse,of,ran,saw,story,the,tiny
0,0,0,0,0,0,0,1,1,1,1,0,0,0,0,1,1
1,0,0,1,0,0,0,0,0,0,1,0,0,1,0,2,0
2,0,1,0,0,0,1,0,1,0,1,0,1,0,0,2,0
3,1,0,1,0,1,0,0,0,0,1,0,0,0,0,2,0
4,0,0,0,1,0,0,0,0,0,1,1,0,0,1,2,0


## Inverse Document Frequency - IDF

In [12]:
from sklearn.feature_extraction.text import TfidfTransformer

tfidf_transformer=TfidfTransformer()
tfidf_transformer.fit(word_count_vector)

idf_df = pd.DataFrame(tfidf_transformer.idf_, index=cv.get_feature_names(),columns=["idf_weights"])
 
# sort ascending
idf_df.sort_values(by=['idf_weights'])

Unnamed: 0,idf_weights
mouse,1.0
the,1.0
cat,1.693147
house,1.693147
ate,2.098612
away,2.098612
end,2.098612
finally,2.098612
from,2.098612
had,2.098612


# Gerando uma lista de stop words

Uma abordagem para se gerar uma lista de stopwords a ser utilizada no sistema de RI é analisar a frequência das palavras no corpus. Em relação ao uso de uma lista de stopwords fixa, esta abordagem traz a vantagem de estar alinhada ao contexto da busca, uma vez que a utilidade de uma palavra está relacionado ao domínio em que ela aparece.

Além disso, o padrão de uso das palavras muda com o tempo. Assim, é interessante manter a lista de stopwords atualizada conforme tendências de uso da linguagem caso uma lista esteja sendo usada.

Há diferentes abordagens para se gerar lista de stopwords, por exemplo pela lei de Zipf ou pela divergência de Kullback-Leibler (entropia relativa). 

Aqui vamos utilizar a métrica IDF (inverse document frequency) para se ter uma ideia dos termos mais comuns do nosso corpus - os atos normativos da Presidência do TCU. 

No paper abaixo, há a exploração de diferentes técnicas para geração de uma lista de stop words:

Automatically Building a Stopword List for an Information Retrieval System - 
http://terrierteam.dcs.gla.ac.uk/publications/rtlo_DIRpaper.pdf

## Configurações

In [None]:
RELATIVE_DOCS_FOLDER = 'Dados/atos-original' 

## Obter dados

Lê todos os atos normativos para uma lista de documentos.

In [14]:
import glob, os

def find_files(folder, remove_empty = False):
    """
    Find all files in [folder]

    folder  :   string
                    folder to search (not recursive)
    """
    files =  glob.iglob(folder + '**/*.txt', recursive=True)
    return files

def get_sentences(input_file_pointer):
    sentences = ''
    while True:
        line = input_file_pointer.readline()
        
        if not line:
            break
        
        processed_line = line.strip()
        
        if processed_line:
            sentences += processed_line + " "
        
    return sentences

In [15]:
# Diretório deste notebook
diretorio_notebook = os.getcwd()

# Diretório onde estão armazenados os dados
diretorio_dados = os.path.join(diretorio_notebook, os.path.pardir, RELATIVE_DOCS_FOLDER)

files = find_files(diretorio_dados)

documentos = []

for i, fpath in enumerate(files):
    with open(fpath, encoding="utf8") as f:
        sentences = get_sentences(f)
        documentos.append(sentences)

## TF-IDF Vectorizer

Obtém uma lista com os termos ordenados pelo IDF

In [19]:
cv_stop = CountVectorizer(stop_words=None)
cv_stop = cv_stop.fit(documentos)

word_count_vector_stop = cv_stop.transform(documentos)

tfidf_transformer_stop=TfidfTransformer()
tfidf_transformer_stop.fit(word_count_vector_stop)

idf_df_stop = pd.DataFrame(tfidf_transformer_stop.idf_, index=cv_stop.get_feature_names(),columns=["idf_weights"])
 
# sort ascending
idf_df_stop.sort_values(by=['idf_weights'])

Unnamed: 0,idf_weights
da,1.000000
de,1.000322
tribunal,1.001289
no,1.001611
contas,1.001934
união,1.003225
do,1.004841
em,1.005488
resolve,1.008731
art,1.009706
