# Introdução

Neste exercício vamos dar os primeiros passos na construção de um sistema de recuperação de informação.
Vamos tratar aqui: construção do vocabulário e implementação de um modelo booleano

In [92]:
import csv
import collections
import spacy
import nltk
import time
import os

from nltk.stem.porter import *

path_home = os.getenv("HOME") #Captura o caminho da pasta HOME do Usuario
path_pasta_data = path_home + '/Recuperacao_Informacao_Dados/'


FILE = path_pasta_data + 'data/articles1_sample.csv' # Para rodar o arquivo completo, trocar para articles1.csv

# Retorna o conteúdo do i-ésimo documento
def getDocInFile(pos):
    with open(FILE) as fp:
        for i, line in enumerate(fp):
            if i-1 == pos:
                return line

            
# Retorna uma coleção de (id, title)
def getDocTitles(pos):
    count = 0
    result = []
    if not isinstance(pos, set):
        pos2 = set()
        pos2.add(pos)
        pos = pos2
    
    posMax = int(max(pos))
    #print(posMax, type(posMax))
    

    with open(FILE, newline='') as csvfile:
        spamreader = csv.reader(csvfile, delimiter=',', quotechar='"')
        next(spamreader) # Pula a primeira linha do arquivo
        #Ao ler o arquivo: #row[0]: id; row[2]:title; row[9]: content
        for row in spamreader:
            if str(count) in str(pos):
                result.append((row[0], row[2]))
                
            if count >= posMax:
                break
            count=count+1
    return result



# Tarefa 0: Aquecimento

Testar as funções de leitura do arquivo.
 - getDocInFile(pos): mostra o documento de id 'pos'. Teste essa função
 - getDocTitle(pos): essa função retorna uma lista de id e titulos de documentos. Seria o retorno da sua consulta. A função recebe uma posição ou um conjunto (set) de posições. Teste com os dois tipos de parâmetros

In [93]:
print('\n1) Retornando um documento:')
print(getDocInFile(0))

print('\n2) Retornando o titulo de um documento:')
result_getDocTitle = getDocTitles(0)
for result in result_getDocTitle:
    print("Posicao:",result[0],"Titulo: ", result[1])
    
print('\n3) Retornando os titulos de um conjunto de documentos:')
result_getDocTitle = getDocTitles(set([1,2,3,4,5]))
for result in result_getDocTitle:
    print("Posicao:",result[0],"Titulo: ", result[1])





1) Retornando um documento:
0,17283,House Republicans Fret About Winning Their Health Care Suit - The New York Times,New York Times,Carl Hulse,2016-12-31,2016.0,12.0,,"WASHINGTON  —   Congressional Republicans have a new fear when it comes to their    health care lawsuit against the Obama administration: They might win. The incoming Trump administration could choose to no longer defend the executive branch against the suit, which challenges the administration’s authority to spend billions of dollars on health insurance subsidies for   and   Americans, handing House Republicans a big victory on    issues. But a sudden loss of the disputed subsidies could conceivably cause the health care program to implode, leaving millions of people without access to health insurance before Republicans have prepared a replacement. That could lead to chaos in the insurance market and spur a political backlash just as Republicans gain full control of the government. To stave off that outcome, Republican

# Tarefa 1: Processando texto

Complete a função abaixo para retornar uma lista com os termos-chave de um texto. 

Exemplo de uso: 

```python
text = 'The Woodstock Music & Art Fair—informally, the Woodstock Festival or simply Woodstock—was a music festival in the United States in 1969'
print(getKeysFromText(text))
```

Possível retorno:

```python
['woodstock', 'music', 'art', 'fair', 'informally', 'woodstock', 'festival', 'simply', 'woodstock', 'music', 'festival', 'united', 'states', '1969']
```

Dica: 
* Use o spacy para essa tarefa (ver em https://spacy.io/usage/ e http://leportella.com/pt-br/2017/11/30/brincando-de-nlp-com-spacy.html)
* Tire símbolos indesejados, normalize as palavras, remova stopwords, etc.

In [94]:
# Retorna uma lista de palavras pertencentes ao texto.
def getKeysFromText(text):
    nlp = spacy.load('en')
    doc = nlp(text)
    lista_de_termos = []
    #vet = doc.text.split()
    #print(vet)
    #vet1 = [token.orth_ for token in doc] #Pegando as strings que cada Token contem
    #vet1 = [token.orth_ for token in doc if not token.is_punct] #Pegando as strings que cada Token contem (So palavras)
    vet1 = [token.orth_.lower() for token in doc if not token.is_punct if not token.is_stop] #Pegando as strings que cada Token contem (So palavras) e retirando stopwords
    lista_de_termos = vet1
    #Faça seu código aqui
    return lista_de_termos #retorne a lista de termos (remova o [] do retorno)

text = 'The Woodstock Music & Art Fair—informally, the Woodstock Festival or simply Woodstock—was a music festival in the United States in 1969'
print(getKeysFromText(text))

['woodstock', 'music', 'art', 'fair', 'informally', 'woodstock', 'festival', 'simply', 'woodstock', 'music', 'festival', 'united', 'states', '1969']


# Tarefa 2: Criando o índice invertido

Vamos utilizar um hash (chamado de dict no python) onde cada chave estará associada a um conjunto (tipo set).

Cada conjunto será formado pelos identificadores dos documentos (primeira coluna do arquivo).

Complete o método abaixo e teste a indexação.

Observação:
- Estamos usando apenas um sample de 10 linhas do arquivo original. Se quiser testar, pode colocar o arquivo completo:
``` FILE = 'data/articles1.csv' ```



In [95]:
index = collections.defaultdict(set) # Esse será nosso índice invertido
def createInvertedIndex():
    print('------- Criando arquivo invertido')
    start_time = time.time()
    count = 1

    with open(FILE, newline='') as csvfile:
        spamreader = csv.reader(csvfile, delimiter=',', quotechar='"')
        next(spamreader) # Pula a primeira linha do arquivo
        #Ao ler o arquivo: #row[0]: id; row[2]:title; row[9]: content
        for row in spamreader:
            #coloque seu código aqui. 
            #Para cada termo no conteúdo do doc (apenas o conteúdo, não titulo e demais informações), 
            #  inserir o identificaodor do doc na posição do hash relativa ao termo que o doc possui.
            tokens = getKeysFromText(row[9]) #Retorna todos os tokens do texto
            #Retirando espaços vazios do vetor
            tokens_2 = []
            for token in tokens:
                if token[0] != ' ':
                    tokens_2.append(token)
            #tokens_2 = set(tokens_2)
            for token in tokens_2:
                index[token].update(row[0])
            #index[row[0]] = set(tokens_2)
            if count % 10 == 0:
                print(' Processadas as primeiras', count, 'linhas.')
            count=count+1
    
    print(' Índice criado.')
    print(" Tempo de criação %s segundos ---" % (time.time() - start_time))
    print(' Tamanho do vocabulário:', len(index), 'termos.')


createInvertedIndex()

# Você pode testar a indexação imprimindo o conteúdo do índice invertido
print(index)

------- Criando arquivo invertido
 Índice criado.
 Tempo de criação 4.564732074737549 segundos ---
 Tamanho do vocabulário: 3762 termos.


# Tarefa 3: Implementando buscas

Ao usar ``` index['washington']``` você tem acesso ao conjunto de identificadores dos docs que possuem esse termo
Por exemplo, o método abaixo retorna o título de todos os docs que possuem o termo washington
Dica: nesta tarefa vamos manipular objetos do tipo set.

In [96]:
#buscar todos os documentos com um dado termo
retorno = getDocTitles(index['washington'])
print(retorno)

[('0', 'House Republicans Fret About Winning Their Health Care Suit - The New York Times'), ('1', 'Rift Between Officers and Residents as Killings Persist in South Bronx - The New York Times'), ('6', 'Taiwan’s President Accuses China of Renewed Intimidation - The New York Times'), ('7', 'After ‘The Biggest Loser,’ Their Bodies Fought to Regain Weight - The New York Times')]


## Tarefa 3.1: busca composta
Mostre o titulo de todos os documentos que possuem os termos washington e south

In [97]:
#retorno = #faça seu código aqui
retorno = getDocTitles(index['washington'].intersection(index['south']))
print(retorno)

[('1', 'Rift Between Officers and Residents as Killings Persist in South Bronx - The New York Times'), ('6', 'Taiwan’s President Accuses China of Renewed Intimidation - The New York Times')]


## Tarefa 3.2: busca composta
Mostre o titulo de todos os documentos que possuem os termos washington ou south.

In [98]:
#retorno = #faça seu código aqui
retorno = getDocTitles(index['washington'].union(index['south']))
print(retorno)

[('0', 'House Republicans Fret About Winning Their Health Care Suit - The New York Times'), ('1', 'Rift Between Officers and Residents as Killings Persist in South Bronx - The New York Times'), ('4', 'Kim Jong-un Says North Korea Is Preparing to Test Long-Range Missile - The New York Times'), ('6', 'Taiwan’s President Accuses China of Renewed Intimidation - The New York Times'), ('7', 'After ‘The Biggest Loser,’ Their Bodies Fought to Regain Weight - The New York Times')]


## Tarefa 3.3: busca composta
Mostre o titulo de todos os documentos que possuem os termos washington mas não possuem o termo south.

In [99]:
retorno = getDocTitles(index['washington']-index['south'])
print(retorno)

[('0', 'House Republicans Fret About Winning Their Health Care Suit - The New York Times'), ('7', 'After ‘The Biggest Loser,’ Their Bodies Fought to Regain Weight - The New York Times')]


# Tarefa 4: Verificando o tamanho do vocabulário
Faça com que a função ```getKeysFromText``` agora guarde apenas termos stemmizados.

Verifique a diferença no tamanho do seu vocabulário após essa alteração.

In [100]:
# Retorna uma lista de palavras pertencentes ao texto.
def getKeysFromText_stemming(text):
    nlp = spacy.load('en')
    doc = nlp(text)
    lista_de_termos = []
    vet1 = [token.orth_.lower() for token in doc if not token.is_punct if not token.is_stop] #Pegando as strings que cada Token contem (So palavras) e retirando stopwords
    stemmer = PorterStemmer() #Cria um classe PorterStemmer
    for token in vet1:
        lista_de_termos.append(stemmer.stem(token)) #Passa cada token pelo Stemmer e adiciona na lista de retorno
    return lista_de_termos #retorne a lista de termos (remova o [] do retorno)

text = 'The Woodstock Music & Art Fair—informally, the Woodstock Festival or simply Woodstock—was a music festival in the United States in 1969'
print(getKeysFromText_stemming(text))

['woodstock', 'music', 'art', 'fair', 'inform', 'woodstock', 'festiv', 'simpli', 'woodstock', 'music', 'festiv', 'unit', 'state', '1969']


In [101]:
index_2 = collections.defaultdict(set) # Esse será nosso índice invertido
def createInvertedIndex_2():
    print('------- Criando arquivo invertido')
    start_time = time.time()
    count = 1

    with open(FILE, newline='') as csvfile:
        spamreader = csv.reader(csvfile, delimiter=',', quotechar='"')
        next(spamreader) # Pula a primeira linha do arquivo
        #Ao ler o arquivo: #row[0]: id; row[2]:title; row[9]: content
        for row in spamreader:
            tokens = getKeysFromText_stemming(row[9]) #Retorna todos os tokens do texto com a nova função (PoterStemmer)
            #Retirando espaços vazios do vetor
            tokens_2 = []
            for token in tokens:
                if token[0] != ' ':
                    tokens_2.append(token)
            #tokens_2 = set(tokens_2)
            for token in tokens_2:
                index_2[token].update(row[0])
            #index[row[0]] = set(tokens_2)
            if count % 10 == 0:
                print(' Processadas as primeiras', count, 'linhas.')
            count=count+1
    
    print(' Índice criado.')
    print(" Tempo de criação %s segundos ---" % (time.time() - start_time))
    print(' Tamanho do vocabulário:', len(index_2), 'termos.')


createInvertedIndex_2()

# Você pode testar a indexação imprimindo o conteúdo do índice invertido
print(index_2)

------- Criando arquivo invertido
 Índice criado.
 Tempo de criação 4.713918685913086 segundos ---
 Tamanho do vocabulário: 3016 termos.
defaultdict(<class 'set'>, {'washington': {'7', '0', '6', '1'}, 'congression': {'0'}, 'republican': {'0'}, 'new': {'0', '8', '1', '3', '4', '7', '5', '2'}, 'fear': {'0', '1'}, 'come': {'0', '1', '3', '6', '4', '7'}, 'health': {'7', '0'}, 'care': {'7', '0', '1', '2'}, 'lawsuit': {'0', '1'}, 'obama': {'0', '6'}, 'administr': {'0', '4', '6', '2'}, 'win': {'0', '1'}, 'incom': {'0', '6'}, 'trump': {'0', '4', '6'}, 'choos': {'0'}, 'longer': {'0'}, 'defend': {'7', '0', '1'}, 'execut': {'8', '0', '3'}, 'branch': {'0'}, 'suit': {'0'}, 'challeng': {'7', '0', '6', '1'}, '’s': {'0', '8', '1', '3', '4', '6', '7', '5', '2'}, 'author': {'8', '0', '1', '2'}, 'spend': {'7', '0', '8'}, 'billion': {'7', '0', '6'}, 'dollar': {'7', '0', '6'}, 'insur': {'0'}, 'subsidi': {'0'}, 'american': {'0', '3', '6', '4', '7', '2'}, 'hand': {'0', '3', '1', '2'}, 'hous': {'0', '3', '1',

In [102]:
#reconstrua o índice
print(len(index_2))

3016


In [103]:
#Diferença entre o primeiro índice(Sem PorterStemmer) e o segundo índice(Com PorterStemmer)
print("Tamanho do primeiro indice:",len(index))
print("Tamanho do segundo indice:", len(index_2))
print("Diminuicao de:",len(index) - len(index_2), "termos!")

Tamanho do primeiro indice: 3762
Tamanho do segundo indice: 3016
Diminuicao de: 746 termos!
