In [1]:
from IPython.display import HTML

HTML('''<script>
code_show=true; 
function code_toggle() {
 if (code_show){
 $('div.input').hide();
 } else {
 $('div.input').show();
 }
 code_show = !code_show
} 
$( document ).ready(code_toggle);
</script>
<form action="javascript:code_toggle()"><input type="submit" value="Click here to toggle on/off the raw code."></form>''')

# Vector Model

In [2]:
from ast import literal_eval
from math import log

from IPython.display import Markdown, display, HTML
import pandas as pd

## Load Data

In [3]:
inv_index = pd.read_csv("../output/inverted_index.csv").set_index(['word'])\
            .drop('vivoÉ').drop('ônibusFoi') #remove nltk tokenization mistake
inv_index["doc_id:freq"] = inv_index["doc_id:freq"].apply(lambda x: literal_eval(x))
display(Markdown("## Inverted Index"))

inv_index.head(5)

## Inverted Index

Unnamed: 0_level_0,doc_id:freq
word,Unnamed: 1_level_1
juíza,"[(0, 2), (1, 1)]"
federal,"[(0, 1), (1, 1), (2, 1), (6, 2), (14, 1), (36,..."
Ivani,"[(0, 1), (1, 1)]"
Silva,"[(0, 3), (1, 1), (5, 1), (13, 2), (25, 1), (72..."
Luz,"[(0, 3), (1, 1), (124, 1)]"


## Adding Inverse Document Frequency  (IDF)

In [4]:
# number of documents in the collection
n_docs = inv_index["doc_id:freq"].apply(lambda x: list(i[0] for i in x)).sum()
n_docs = len(set(n_docs))
display(Markdown("* Let's employ the number  of documents in this particular \
                  collection (N={}) in our calculations".format(n_docs)))

* Let's employ the number  of documents in this particular                   collection (N=249) in our calculations

In [5]:
inv_index["IDF"] = inv_index["doc_id:freq"].apply(lambda x: log((n_docs + 1)/len(x)))
inv_index.sample(5)

Unnamed: 0_level_0,doc_id:freq,IDF
word,Unnamed: 1_level_1,Unnamed: 2_level_1
jogado,"[(55, 1), (56, 2)]",4.828314
contrasta,"[(187, 1), (207, 1)]",4.828314
loucos,"[(24, 2), (28, 1), (68, 1), (77, 1)]",4.135167
servia,"[(5, 1)]",5.521461
Sasha,"[(62, 1)]",5.521461


## Strategies Implementation

In [6]:
query = ["1964","golpe","ditadura"]

def binary_vm(**kwargs):
    
    index = kwargs["index"]
    query = kwargs["query"]
    doc_id = kwargs["doc_id"]

    result = inv_index.loc[set(query)]["doc_id:freq"]
    result = result.apply(lambda x: 0 if not list(w for w in x if w[0] == doc_id) else 1)
    result = result.sum()
    
    return result

def tf_vm(**kwargs):
    
    index = kwargs["index"]
    query = kwargs["query"]
    doc_id = kwargs["doc_id"]
    
    # Calculate frequency in query
    query_fd = {}
    for term in query:
        if term not in query_fd:
            query_fd[term] = 0

        query_fd[term] += 1

    
    # Get document frequency from inverted index
    term_f_in_doc = index.loc[set(query)]["doc_id:freq"]\
                      .apply(lambda x: list(w for w in x if w[0] == doc_id))\
                      .apply(lambda x: x[0][1] if not (len(x) == 0) else 0) # Extract freq 

    # Combine doc freq and query frequency to make score
    score = 0
    for term, freq in query_fd.items():
        query_score = freq 
        doc_score = term_f_in_doc.xs(term)
        score += query_score * doc_score

    return score

def tf_idf_vm(**kwargs):
    
    index = kwargs["index"]
    query = kwargs["query"]
    doc_id = kwargs["doc_id"]
    
    # Calculate frequency in query
    query_fd = {}
    for term in query:
        if term not in query_fd:
            query_fd[term] = 0

        query_fd[term] += 1

    # Get document frequency from inverted index
    term_f_in_doc = index.loc[set(query)]
    term_f_in_doc["doc_id:freq"] = term_f_in_doc["doc_id:freq"].\
                                   apply(lambda x: list(w for w in x if w[0] == doc_id))
    term_f_in_doc["doc_id:freq"] = term_f_in_doc["doc_id:freq"].\
                                   apply(lambda x: x[0][1] if not (len(x) == 0) else 0)

    # Combine doc freq and query frequency to make score
    score = 0
    for term, freq in query_fd.items():
        query_score = freq 
        doc_score = term_f_in_doc.xs(term)['doc_id:freq']
        idf_score = term_f_in_doc.xs(term)['IDF']
        score += query_score * doc_score * idf_score
        
    return score

def bm25_vm(**kwargs):
    
    index = kwargs["index"]
    query = kwargs["query"]
    doc_id = kwargs["doc_id"]
    k = kwargs["k"]
    
    # Calculate frequency in query
    query_fd = {}
    for term in query:
        if term not in query_fd:
            query_fd[term] = 0

        query_fd[term] += 1

    # Get document frequency from inverted index
    term_f_in_doc = index.reset_index().set_index('word').loc[set(query)]
    term_f_in_doc["doc_id:freq"] = term_f_in_doc["doc_id:freq"].\
                                   apply(lambda x: list(w for w in x if w[0] == doc_id))
    term_f_in_doc["doc_id:freq"] = term_f_in_doc["doc_id:freq"].\
                                   apply(lambda x: x[0][1] if not (len(x) == 0) else 0)

    # Combine doc freq and query frequency to make score
    score = 0
    for term, freq in query_fd.items():
        query_score = freq 
        doc_count = term_f_in_doc.xs(term)['doc_id:freq']
        doc_score = 0 if doc_count == 0 else (doc_count * (k + 1)) / (doc_count + k)
        idf_score = term_f_in_doc.xs(term)['IDF']
        score += query_score * doc_score * idf_score

    return score

### Strategy Wrapper

In [7]:
from bisect import insort_left

query1 = ["1964","golpe","ditadura","Bolsonaro","militar"]
n = 10

def get_n_best_docs(**kwargs):
    
    n = kwargs.pop("n")
    strategy = kwargs.pop("strategy")
    
    if "docs" in kwargs:
        docs = kwargs.pop("docs")
    else:        
        docs = inv_index["doc_id:freq"].apply(lambda x: list(w[0] for w in x)).sum()
        docs = list(set(docs))
        
    rank = []
    for doc in docs:
        score = strategy(doc_id=doc,**kwargs)
        insort_left(rank, (score,doc))
        rank = rank[-n:]

    return rank

## Strategy Comparison

In [8]:
source = pd.read_csv("../output/results.csv")
display(Markdown("#### Inverted Index's source data"))
source["title"].head()

#### Inverted Index's source data

0    “A sociedade foi Rubens Paiva  não os facínora...
1    Justiça suspende decisão que proibia Forças Ar...
2    Governo Bolsonaro prega “negacionismo históric...
3    Quando os pais de Gabo perceberam que tinham u...
4    Rádios canadenses banem músicas de Michael Jac...
Name: title, dtype: object

Let's gather the id of all documents to supply the algorithms:

In [9]:
all_docs = inv_index["doc_id:freq"].apply(lambda x: list(w[0] for w in x)).sum()
all_docs = list(set(all_docs))
pd.DataFrame(all_docs, columns=["docs"]).describe()

Unnamed: 0,docs
count,249.0
mean,124.0
std,72.024301
min,0.0
25%,62.0
50%,124.0
75%,186.0
max,248.0


In [10]:
query1 = ["1964","golpe","ditadura","Bolsonaro","militar"]
query2 = ["árabe","islâmico"]
query3 = ["feminismo","mulher","feminista"]

display(Markdown("##### We'll employ the three following queries:"))
display(Markdown("* Query 1 : {}".format(', '.join(query1))))
display(Markdown("* Query 2 : {}".format(', '.join(query2))))
display(Markdown("* Query 3 : {}".format(', '.join(query3))))

##### We'll employ the three following queries:

* Query 1 : 1964, golpe, ditadura, Bolsonaro, militar

* Query 2 : árabe, islâmico

* Query 3 : feminismo, mulher, feminista

### K-effect on BM25

In [11]:
strategies = [bm25_vm,bm25_vm,bm25_vm,bm25_vm]
columns = ["BM25(k=0)","BM25(k=1)","BM25(k=10)","BM25(k=100)"]
k_values =[0,1,10,100]
rows = []

for idx in range(0,len(strategies)):
    top_10 = get_n_best_docs(n=5, k=k_values[idx], docs=all_docs,index=inv_index,
                             query=query1, strategy=strategies[idx])
    
    top_10 = list(reversed(top_10))
    top_10 = [i[1] for i in top_10]
    
    rows.append(top_10)
    
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 documents by k for 'Query 1' (title)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['title'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 documents by k for 'Query 1' (title)

BM25(k=0),BM25(k=1),BM25(k=10),BM25(k=100)
Atos pró e contra ditadura militar terminam em confrontos em São Paulo,Boris Fausto e o golpe de 64: “É impossível ir contra fatos estabelecidos”,Boris Fausto e o golpe de 64: “É impossível ir contra fatos estabelecidos”,Boris Fausto e o golpe de 64: “É impossível ir contra fatos estabelecidos”
“Não me arrependo de nada”,Bolsonaro escancara cadáver insepulto da ditadura com celebração do golpe,Bolsonaro manda festejar o crime,Bolsonaro manda festejar o crime
Um Brasil de dedo em riste às portas do Mackenzie,Bolsonaro manda festejar o crime,Bolsonaro escancara cadáver insepulto da ditadura com celebração do golpe,Quem mandou matar Marielle? E por quê?
Bolsonaro escancara cadáver insepulto da ditadura com celebração do golpe,“A sociedade foi Rubens Paiva não os facínoras que o mataram”,Um Brasil de dedo em riste às portas do Mackenzie,Bolsonaro escancara cadáver insepulto da ditadura com celebração do golpe
A fuga simbólica de Bolsonaro para Israel no 55º aniversário da ditadura brasileira,Um Brasil de dedo em riste às portas do Mackenzie,Governo Bolsonaro prega “negacionismo histórico” sobre a ditadura,Um Brasil de dedo em riste às portas do Mackenzie


* An improvement in the results is visible as k increases
    + The documents retrieved for k=1 seem more relevant than those retrieve with k=0
    + The documents retrieved with k=1 and k=10 seem to be approximately as relevant
    + In documents retrieved with k=100 we start to see a decline in relevance (The document about 'Marielle' isn't as directly related to the query as the rest)

In [12]:
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 documents by k for 'Query 1' (url)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['url'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 documents by k for 'Query 1' (url)

BM25(k=0),BM25(k=1),BM25(k=10),BM25(k=100)
https://brasil.elpais.com/brasil/2019/04/01/politica/1554118634_296372.html,https://brasil.elpais.com/brasil/2019/03/30/politica/1553984610_147330.html,https://brasil.elpais.com/brasil/2019/03/30/politica/1553984610_147330.html,https://brasil.elpais.com/brasil/2019/03/30/politica/1553984610_147330.html
https://brasil.elpais.com/brasil/2019/03/28/politica/1553789942_315053.html,https://brasil.elpais.com/brasil/2019/03/26/politica/1553609505_570456.html,https://brasil.elpais.com/brasil/2019/03/27/opinion/1553688411_058227.html,https://brasil.elpais.com/brasil/2019/03/27/opinion/1553688411_058227.html
https://brasil.elpais.com/brasil/2019/03/27/politica/1553717682_889482.html,https://brasil.elpais.com/brasil/2019/03/27/opinion/1553688411_058227.html,https://brasil.elpais.com/brasil/2019/03/26/politica/1553609505_570456.html,https://brasil.elpais.com/brasil/2019/03/13/opinion/1552485039_897963.html
https://brasil.elpais.com/brasil/2019/03/26/politica/1553609505_570456.html,https://brasil.elpais.com/brasil/2019/03/26/politica/1553638410_317117.html,https://brasil.elpais.com/brasil/2019/03/27/politica/1553717682_889482.html,https://brasil.elpais.com/brasil/2019/03/26/politica/1553609505_570456.html
https://brasil.elpais.com/brasil/2019/04/01/opinion/1554078976_839038.html,https://brasil.elpais.com/brasil/2019/03/27/politica/1553717682_889482.html,https://brasil.elpais.com/brasil/2019/04/05/politica/1554419295_939718.html,https://brasil.elpais.com/brasil/2019/03/27/politica/1553717682_889482.html


* Although the topic of military dictatorship and Bolsonaro is mentioned/discussed in the article about 'Marielle' (k=100) it isn't as central to the article as in other topics.
    + The results for (k=100) are of good quality but we start to see a sightly fall in relevance.

In [13]:
strategies = [bm25_vm,bm25_vm,bm25_vm,bm25_vm]
columns = ["BM25(k=0)","BM25(k=1)","BM25(k=10)","BM25(k=100)"]
k_values =[0,1,10,100]
rows = []

for idx in range(0,len(strategies)):
    top_10 = get_n_best_docs(n=5, k=k_values[idx], docs=all_docs,index=inv_index,
                             query=query2, strategy=strategies[idx])
    
    top_10 = list(reversed(top_10))
    top_10 = [i[1] for i in top_10]
    
    rows.append(top_10)
    
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 documents by k for 'Query 2' (title)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['title'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 documents by k for 'Query 2' (title)

BM25(k=0),BM25(k=1),BM25(k=10),BM25(k=100)
Bolsonaro troca embaixada por escritório em Jerusalém mas não evita retaliação palestina,Bolsonaro troca embaixada por escritório em Jerusalém mas não evita retaliação palestina,As três espanholas do Estado Islâmico: “Só queremos ir embora”,As três espanholas do Estado Islâmico: “Só queremos ir embora”
As três espanholas do Estado Islâmico: “Só queremos ir embora”,As três espanholas do Estado Islâmico: “Só queremos ir embora”,Bolsonaro troca embaixada por escritório em Jerusalém mas não evita retaliação palestina,Bolsonaro troca embaixada por escritório em Jerusalém mas não evita retaliação palestina
Brunei começa a punir com apedrejamento o adultério e a homossexualidade,Brunei começa a punir com apedrejamento o adultério e a homossexualidade,Brunei começa a punir com apedrejamento o adultério e a homossexualidade,Brunei começa a punir com apedrejamento o adultério e a homossexualidade
Tatiana Roque: “O problema da esquerda não é a pauta dita identitária mas sim a lacração”,Tatiana Roque: “O problema da esquerda não é a pauta dita identitária mas sim a lacração”,Tatiana Roque: “O problema da esquerda não é a pauta dita identitária mas sim a lacração”,Tatiana Roque: “O problema da esquerda não é a pauta dita identitária mas sim a lacração”
Dois aviões russos chegam à Venezuela com uma centena de militares,Dois aviões russos chegam à Venezuela com uma centena de militares,Dois aviões russos chegam à Venezuela com uma centena de militares,Dois aviões russos chegam à Venezuela com uma centena de militares


* The biggger the k the more relevant the retrieved documents
* Results for k=10 and k=100 are the same

In [14]:
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 documents by k for 'Query 2' (url)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['url'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 documents by k for 'Query 2' (url)

BM25(k=0),BM25(k=1),BM25(k=10),BM25(k=100)
https://brasil.elpais.com/brasil/2019/03/31/politica/1554060705_325198.html,https://brasil.elpais.com/brasil/2019/03/31/politica/1554060705_325198.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554297555_947058.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554297555_947058.html
https://brasil.elpais.com/brasil/2019/04/03/internacional/1554297555_947058.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554297555_947058.html,https://brasil.elpais.com/brasil/2019/03/31/politica/1554060705_325198.html,https://brasil.elpais.com/brasil/2019/03/31/politica/1554060705_325198.html
https://brasil.elpais.com/brasil/2019/04/03/internacional/1554284355_385703.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554284355_385703.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554284355_385703.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554284355_385703.html
https://brasil.elpais.com/brasil/2019/03/20/politica/1553037448_213932.html,https://brasil.elpais.com/brasil/2019/03/20/politica/1553037448_213932.html,https://brasil.elpais.com/brasil/2019/03/20/politica/1553037448_213932.html,https://brasil.elpais.com/brasil/2019/03/20/politica/1553037448_213932.html
https://brasil.elpais.com/brasil/2019/03/24/internacional/1553458236_783517.html,https://brasil.elpais.com/brasil/2019/03/24/internacional/1553458236_783517.html,https://brasil.elpais.com/brasil/2019/03/24/internacional/1553458236_783517.html,https://brasil.elpais.com/brasil/2019/03/24/internacional/1553458236_783517.html


* The articles themselves are consistent with the results gathered through their titles.

In [15]:
strategies = [bm25_vm,bm25_vm,bm25_vm,bm25_vm]
columns = ["BM25(k=0)","BM25(k=1)","BM25(k=10)","BM25(k=100)"]
k_values =[0,1,10,100]
rows = []

for idx in range(0,len(strategies)):
    top_10 = get_n_best_docs(n=5, k=k_values[idx], docs=all_docs,index=inv_index,
                             query=query3, strategy=strategies[idx])
    
    top_10 = list(reversed(top_10))
    top_10 = [i[1] for i in top_10]
    
    rows.append(top_10)
    
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 documents by k for 'Query 3' (title)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['title'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 documents by k for 'Query 3' (title)

BM25(k=0),BM25(k=1),BM25(k=10),BM25(k=100)
A ética da solidariedade feminista,A feminista Susan Sontag contra Norman Mailer,A feminista Susan Sontag contra Norman Mailer,A feminista Susan Sontag contra Norman Mailer
A feminista Susan Sontag contra Norman Mailer,A ética da solidariedade feminista,Não há ‘backlash’ provocado pelo feminismo,Não há ‘backlash’ provocado pelo feminismo
Igualdade radical,Igualdade radical,A ética da solidariedade feminista,A ética da solidariedade feminista
Atos pró e contra ditadura militar terminam em confrontos em São Paulo,Não há ‘backlash’ provocado pelo feminismo,Igualdade radical,O que a fama fez com Susan Boyle a mulher que revolucionou a música a televisão e as redes sociais
Não há ‘backlash’ provocado pelo feminismo,Atos pró e contra ditadura militar terminam em confrontos em São Paulo,O que a fama fez com Susan Boyle a mulher que revolucionou a música a televisão e as redes sociais,Igualdade radical


* k = 1 represents a clear improvement over k=0
* Starting with k=10 we see an introduction of a less relevant document (about Susan Boyle)
    + With k=100 this less relevant document takes the place of a relevant document (about Igualdade radical)

In [16]:
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 documents by k for 'Query 3' (url)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['url'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 documents by k for 'Query 3' (url)

BM25(k=0),BM25(k=1),BM25(k=10),BM25(k=100)
https://brasil.elpais.com/brasil/2019/03/01/opinion/1551471471_656137.html,https://brasil.elpais.com/brasil/2019/03/05/cultura/1551786137_303043.html,https://brasil.elpais.com/brasil/2019/03/05/cultura/1551786137_303043.html,https://brasil.elpais.com/brasil/2019/03/05/cultura/1551786137_303043.html
https://brasil.elpais.com/brasil/2019/03/05/cultura/1551786137_303043.html,https://brasil.elpais.com/brasil/2019/03/01/opinion/1551471471_656137.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551994753_797742.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551994753_797742.html
https://brasil.elpais.com/brasil/2019/03/07/opinion/1551972628_054337.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551972628_054337.html,https://brasil.elpais.com/brasil/2019/03/01/opinion/1551471471_656137.html,https://brasil.elpais.com/brasil/2019/03/01/opinion/1551471471_656137.html
https://brasil.elpais.com/brasil/2019/04/01/politica/1554118634_296372.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551994753_797742.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551972628_054337.html,https://brasil.elpais.com/brasil/2019/04/04/cultura/1554380845_480636.html
https://brasil.elpais.com/brasil/2019/03/07/opinion/1551994753_797742.html,https://brasil.elpais.com/brasil/2019/04/01/politica/1554118634_296372.html,https://brasil.elpais.com/brasil/2019/04/04/cultura/1554380845_480636.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551972628_054337.html


* The document about Susan Boyle is indeed less relevant

> Up to moderate values (k=1 to k=10) an increase in k overall translates into more relevant results.

> If increased too much (e.g. k=100) we see either no change or the addition of less relevant results.

### Result's relevance

In view of the previous section's results we shall use k=10 for the algorithm BM25 

In [17]:
strategies = [binary_vm,tf_vm,tf_idf_vm,bm25_vm]
columns = ["Binary","TF","TF-IDF","BM25(k=10)"]
k_values =[None,None,None,10]
rows = []

for idx in range(0,len(strategies)):
    top_10 = get_n_best_docs(n=5, k=k_values[idx], docs=all_docs,index=inv_index,
                             query=query1, strategy=strategies[idx])
    
    top_10 = list(reversed(top_10))
    top_10 = [i[1] for i in top_10]
    
    rows.append(top_10)
    
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 best docs by strategy for query1 (title)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['title'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 best docs by strategy for query1 (title)

Binary,TF,TF-IDF,BM25(k=10)
Atos pró e contra ditadura militar terminam em confrontos em São Paulo,Quem mandou matar Marielle? E por quê?,Bolsonaro manda festejar o crime,Boris Fausto e o golpe de 64: “É impossível ir contra fatos estabelecidos”
“Não me arrependo de nada”,Bolsonaro manda festejar o crime,Boris Fausto e o golpe de 64: “É impossível ir contra fatos estabelecidos”,Bolsonaro manda festejar o crime
Um Brasil de dedo em riste às portas do Mackenzie,Boris Fausto e o golpe de 64: “É impossível ir contra fatos estabelecidos”,Quem mandou matar Marielle? E por quê?,Bolsonaro escancara cadáver insepulto da ditadura com celebração do golpe
Bolsonaro escancara cadáver insepulto da ditadura com celebração do golpe,Dois assessores de Bolsonaro doaram mais de 100.000 reais a campanhas da família,Bolsonaro escancara cadáver insepulto da ditadura com celebração do golpe,Um Brasil de dedo em riste às portas do Mackenzie
A fuga simbólica de Bolsonaro para Israel no 55º aniversário da ditadura brasileira,Bolsonaro escancara cadáver insepulto da ditadura com celebração do golpe,Um Brasil de dedo em riste às portas do Mackenzie,Governo Bolsonaro prega “negacionismo histórico” sobre a ditadura


* The strategy that provided the best results, in terms of titles, was BM25(k=1)
    + Its documents e.g. cite Bolsonaro directly 

In [18]:
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 best docs by strategy for query1 (url)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['url'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 best docs by strategy for query1 (url)

Binary,TF,TF-IDF,BM25(k=10)
https://brasil.elpais.com/brasil/2019/04/01/politica/1554118634_296372.html,https://brasil.elpais.com/brasil/2019/03/13/opinion/1552485039_897963.html,https://brasil.elpais.com/brasil/2019/03/27/opinion/1553688411_058227.html,https://brasil.elpais.com/brasil/2019/03/30/politica/1553984610_147330.html
https://brasil.elpais.com/brasil/2019/03/28/politica/1553789942_315053.html,https://brasil.elpais.com/brasil/2019/03/27/opinion/1553688411_058227.html,https://brasil.elpais.com/brasil/2019/03/30/politica/1553984610_147330.html,https://brasil.elpais.com/brasil/2019/03/27/opinion/1553688411_058227.html
https://brasil.elpais.com/brasil/2019/03/27/politica/1553717682_889482.html,https://brasil.elpais.com/brasil/2019/03/30/politica/1553984610_147330.html,https://brasil.elpais.com/brasil/2019/03/13/opinion/1552485039_897963.html,https://brasil.elpais.com/brasil/2019/03/26/politica/1553609505_570456.html
https://brasil.elpais.com/brasil/2019/03/26/politica/1553609505_570456.html,https://brasil.elpais.com/brasil/2019/03/21/politica/1553173153_987739.html,https://brasil.elpais.com/brasil/2019/03/26/politica/1553609505_570456.html,https://brasil.elpais.com/brasil/2019/03/27/politica/1553717682_889482.html
https://brasil.elpais.com/brasil/2019/04/01/opinion/1554078976_839038.html,https://brasil.elpais.com/brasil/2019/03/26/politica/1553609505_570456.html,https://brasil.elpais.com/brasil/2019/03/27/politica/1553717682_889482.html,https://brasil.elpais.com/brasil/2019/04/05/politica/1554419295_939718.html


Inspecting the articles we can see that BM25(k=1) really is the strategy with the best results
* TF retrieved documents who talk about Bolsonaro but not directly about dictatorship
* TF-IDF retrieved the document about 'Marielle' where as mentioned before Bolsonaro/Dictatorship isn't the central topic

In [19]:
strategies = [binary_vm,tf_vm,tf_idf_vm,bm25_vm]
columns = ["Binary","TF","TF-IDF","BM25(k=10)"]
k_values =[None,None,None,10]
rows = []

for idx in range(0,len(strategies)):
    top_10 = get_n_best_docs(n=5, k=k_values[idx], docs=all_docs,index=inv_index,
                             query=query2, strategy=strategies[idx])
    
    top_10 = list(reversed(top_10))
    top_10 = [i[1] for i in top_10]
    
    rows.append(top_10)
    
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 best docs by strategy for query2 (title)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['title'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 best docs by strategy for query2 (title)

Binary,TF,TF-IDF,BM25(k=10)
Bolsonaro troca embaixada por escritório em Jerusalém mas não evita retaliação palestina,As três espanholas do Estado Islâmico: “Só queremos ir embora”,As três espanholas do Estado Islâmico: “Só queremos ir embora”,As três espanholas do Estado Islâmico: “Só queremos ir embora”
As três espanholas do Estado Islâmico: “Só queremos ir embora”,Bolsonaro troca embaixada por escritório em Jerusalém mas não evita retaliação palestina,Bolsonaro troca embaixada por escritório em Jerusalém mas não evita retaliação palestina,Bolsonaro troca embaixada por escritório em Jerusalém mas não evita retaliação palestina
Brunei começa a punir com apedrejamento o adultério e a homossexualidade,Brunei começa a punir com apedrejamento o adultério e a homossexualidade,Brunei começa a punir com apedrejamento o adultério e a homossexualidade,Brunei começa a punir com apedrejamento o adultério e a homossexualidade
Tatiana Roque: “O problema da esquerda não é a pauta dita identitária mas sim a lacração”,Tatiana Roque: “O problema da esquerda não é a pauta dita identitária mas sim a lacração”,Tatiana Roque: “O problema da esquerda não é a pauta dita identitária mas sim a lacração”,Tatiana Roque: “O problema da esquerda não é a pauta dita identitária mas sim a lacração”
Dois aviões russos chegam à Venezuela com uma centena de militares,Dois aviões russos chegam à Venezuela com uma centena de militares,Dois aviões russos chegam à Venezuela com uma centena de militares,Dois aviões russos chegam à Venezuela com uma centena de militares


* Excluding Binary all strategies performed the same
* Binary had a worse result, it's top document is less relevant than that of the other strategies

In [20]:
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 best docs by strategy for query2 (url)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['url'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 best docs by strategy for query2 (url)

Binary,TF,TF-IDF,BM25(k=10)
https://brasil.elpais.com/brasil/2019/03/31/politica/1554060705_325198.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554297555_947058.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554297555_947058.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554297555_947058.html
https://brasil.elpais.com/brasil/2019/04/03/internacional/1554297555_947058.html,https://brasil.elpais.com/brasil/2019/03/31/politica/1554060705_325198.html,https://brasil.elpais.com/brasil/2019/03/31/politica/1554060705_325198.html,https://brasil.elpais.com/brasil/2019/03/31/politica/1554060705_325198.html
https://brasil.elpais.com/brasil/2019/04/03/internacional/1554284355_385703.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554284355_385703.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554284355_385703.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554284355_385703.html
https://brasil.elpais.com/brasil/2019/03/20/politica/1553037448_213932.html,https://brasil.elpais.com/brasil/2019/03/20/politica/1553037448_213932.html,https://brasil.elpais.com/brasil/2019/03/20/politica/1553037448_213932.html,https://brasil.elpais.com/brasil/2019/03/20/politica/1553037448_213932.html
https://brasil.elpais.com/brasil/2019/03/24/internacional/1553458236_783517.html,https://brasil.elpais.com/brasil/2019/03/24/internacional/1553458236_783517.html,https://brasil.elpais.com/brasil/2019/03/24/internacional/1553458236_783517.html,https://brasil.elpais.com/brasil/2019/03/24/internacional/1553458236_783517.html


* The articles themselves are consistent with the results gathered through their titles.

In [21]:
strategies = [binary_vm,tf_vm,tf_idf_vm,bm25_vm]
columns = ["Binary","TF","TF-IDF","BM25(k=10)"]
k_values =[None,None,None,10]
rows = []

for idx in range(0,len(strategies)):
    top_10 = get_n_best_docs(n=5, k=k_values[idx], docs=all_docs,index=inv_index,
                             query=query3, strategy=strategies[idx])
    
    top_10 = list(reversed(top_10))
    top_10 = [i[1] for i in top_10]
    
    rows.append(top_10)
    
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 best docs by strategy for query3 (title)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['title'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 best docs by strategy for query3 (title)

Binary,TF,TF-IDF,BM25(k=10)
A ética da solidariedade feminista,A feminista Susan Sontag contra Norman Mailer,A feminista Susan Sontag contra Norman Mailer,A feminista Susan Sontag contra Norman Mailer
A feminista Susan Sontag contra Norman Mailer,O que a fama fez com Susan Boyle a mulher que revolucionou a música a televisão e as redes sociais,Não há ‘backlash’ provocado pelo feminismo,Não há ‘backlash’ provocado pelo feminismo
Atos pró e contra ditadura militar terminam em confrontos em São Paulo,Não há ‘backlash’ provocado pelo feminismo,O que a fama fez com Susan Boyle a mulher que revolucionou a música a televisão e as redes sociais,A ética da solidariedade feminista
Não há ‘backlash’ provocado pelo feminismo,As três espanholas do Estado Islâmico: “Só queremos ir embora”,A ética da solidariedade feminista,Igualdade radical
Boris Fausto e o golpe de 64: “É impossível ir contra fatos estabelecidos”,Quem mandou matar Marielle? E por quê?,Igualdade radical,O que a fama fez com Susan Boyle a mulher que revolucionou a música a televisão e as redes sociais


* Binary retrieved documents of little relevance (e.g. about Brazilian dictatorship)
* The document of little relevance about Susan Boyle was featured by TF, TF-IDF and BM25(k=10)
    + It was given a higher ranking by TF and TF-IDF than by BM25(k=10)
    
* Overall BM25(k=10) performed better

In [22]:
pd.set_option('max_colwidth', -1)
display(Markdown("#### Top 5 best docs by strategy for query3 (url)"))
display(HTML(pd.DataFrame(list(zip(*[list(map(lambda x: source.xs(x)['url'], el)) for el in rows])),
                          columns=columns).to_html(index=False)))

#### Top 5 best docs by strategy for query3 (url)

Binary,TF,TF-IDF,BM25(k=10)
https://brasil.elpais.com/brasil/2019/03/01/opinion/1551471471_656137.html,https://brasil.elpais.com/brasil/2019/03/05/cultura/1551786137_303043.html,https://brasil.elpais.com/brasil/2019/03/05/cultura/1551786137_303043.html,https://brasil.elpais.com/brasil/2019/03/05/cultura/1551786137_303043.html
https://brasil.elpais.com/brasil/2019/03/05/cultura/1551786137_303043.html,https://brasil.elpais.com/brasil/2019/04/04/cultura/1554380845_480636.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551994753_797742.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551994753_797742.html
https://brasil.elpais.com/brasil/2019/04/01/politica/1554118634_296372.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551994753_797742.html,https://brasil.elpais.com/brasil/2019/04/04/cultura/1554380845_480636.html,https://brasil.elpais.com/brasil/2019/03/01/opinion/1551471471_656137.html
https://brasil.elpais.com/brasil/2019/03/07/opinion/1551994753_797742.html,https://brasil.elpais.com/brasil/2019/04/03/internacional/1554297555_947058.html,https://brasil.elpais.com/brasil/2019/03/01/opinion/1551471471_656137.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551972628_054337.html
https://brasil.elpais.com/brasil/2019/03/30/politica/1553984610_147330.html,https://brasil.elpais.com/brasil/2019/03/13/opinion/1552485039_897963.html,https://brasil.elpais.com/brasil/2019/03/07/opinion/1551972628_054337.html,https://brasil.elpais.com/brasil/2019/04/04/cultura/1554380845_480636.html


* The articles themselves are consistent with the results gathered through their titles.

> All queries' results put together, *BM25(k=10) performed better than the other strategies* (retrieved the most relevant documents) 