# Introdução

Neste exercício vamos dar os primeiros passos na construção de um sistema de recuperação de informação.
Vamos tratar aqui: construção do vocabulário e implementação de um modelo booleano

In [None]:
import csv
import collections
import spacy
import time


FILE = 'data/articles1_sample.csv' # Para rodar o arquivo completo, trocar para articles1.csv

# Retorna o conteúdo do i-ésimo documento
def getDocInFile(pos):
    with open(FILE) as fp:
        for i, line in enumerate(fp):
            if i-1 == pos:
                return line

            
# Retorna uma coleção de (id, title)
def getDocTitles(pos):
    count = 0
    result = []
    if not isinstance(pos, set):
        pos2 = set()
        pos2.add(pos)
        pos = pos2
    
    posMax = int(max(pos))
    print(posMax, type(posMax))
    

    with open(FILE, newline='') as csvfile:
        spamreader = csv.reader(csvfile, delimiter=',', quotechar='"')
        next(spamreader) # Pula a primeira linha do arquivo
        #Ao ler o arquivo: #row[0]: id; row[2]:title; row[9]: content
        for row in spamreader:
            if str(count) in str(pos):
                result.append((row[0], row[2]))
                
            if count >= posMax:
                break
            count=count+1
    return result



# Tarefa 0: Aquecimento

Testar as funções de leitura do arquivo.
 - getDocInFile(pos): mostra o documento de id 'pos'. Teste essa função
 - getDocTitle(pos): essa função retorna uma lista de id e titulos de documentos. Seria o retorno da sua consulta. A função recebe uma posição ou um conjunto (set) de posições. Teste com os dois tipos de parâmetros

In [None]:
print('1) Retornando um documento:')
#insira seu código aqui

print('2) Retornando o titulo de um documento:')
#insira seu código aqui

print('3) Retornando os titulos de um conjunto de documentos:')
#insira seu código aqui



# Tarefa 1: Processando texto

Complete a função abaixo para retornar uma lista com os termos-chave de um texto. 

Exemplo de uso: 

```python
text = 'The Woodstock Music & Art Fair—informally, the Woodstock Festival or simply Woodstock—was a music festival in the United States in 1969'
print(getKeysFromText(text))
```

Possível retorno:

```python
['woodstock', 'music', 'art', 'fair', 'informally', 'woodstock', 'festival', 'simply', 'woodstock', 'music', 'festival', 'united', 'states', '1969']
```

Dica: 
* Use o spacy para essa tarafa (ver em https://spacy.io/usage/ e http://leportella.com/pt-br/2017/11/30/brincando-de-nlp-com-spacy.html)
* Tire símbolos indesejados, normalize as palavras, remova stopwords, etc.

In [None]:
# Retorna uma lista de palavras pertencentes ao texto.
def getKeysFromText(text):
    nlp = spacy.load('en')
    doc = nlp(text)
    lista_de_termos = []
    #Faça seu código aqui
    return lista_de_termos #retorne a lista de termos (remova o [] do retorno)

text = 'The Woodstock Music & Art Fair—informally, the Woodstock Festival or simply Woodstock—was a music festival in the United States in 1969'
print(getKeysFromText(text))

# Tarefa 2: Criando o índice invertido

Vamos utilizar um hash (chamado de dict no python) onde cada chave estará associada a um conjunto (tipo set).

Cada conjunto será formado pelos identificadores dos documentos (primeira coluna do arquivo).

Complete o método abaixo e teste a indexação.

Observação:
- Estamos usando apenas um sample de 10 linhas do arquivo original. Se quiser testar, pode colocar o arquivo completo:
``` FILE = 'data/articles1.csv' ```



In [None]:
index = collections.defaultdict(set) # Esse será nosso índice invertido
def createInvertedIndex():
    print('------- Criando arquivo invertido')
    start_time = time.time()
    count = 1

    with open(FILE, newline='') as csvfile:
        spamreader = csv.reader(csvfile, delimiter=',', quotechar='"')
        next(spamreader) # Pula a primeira linha do arquivo
        #Ao ler o arquivo: #row[0]: id; row[2]:title; row[9]: content
        for row in spamreader:
            #coloque seu código aqui. 
            #Para cada termo no conteúdo do doc (apenas o conteúdo, não titulo e demais informações), 
            #  inserir o identificaodor do doc na posição do hash relativa ao termo que o doc possui.
            
            if count % 10 == 0:
                print(' Processadas as primeiras', count, 'linhas.')
            count=count+1
    
    print(' Índice criado.')
    print(" Tempo de criação %s segundos ---" % (time.time() - start_time))
    print(' Tamanho do vocabulário:', len(index), 'termos.')


createInvertedIndex()

# Você pode testar a indexação imprimindo o conteúdo do índice invertido
print(index)

# Tarefa 3: Implementando buscas

Ao usar ``` index['washington']``` você tem acesso ao conjunto de identificadores dos docs que possuem esse termo
Por exemplo, o método abaixo retorna o título de todos os docs que possuem o termo washington
Dica: nesta tarefa vamos manipular objetos do tipo set.

In [None]:
#buscar todos os documentos com um dado termo
retorno = getDocTitles(index['washington'])
print(retorno)

## Tarefa 3.1: busca composta
Mostre o titulo de todos os documentos que possuem os termos washington e south

In [None]:
retorno = #faça seu código aqui
print(retorno)

## Tarefa 3.2: busca composta
Mostre o titulo de todos os documentos que possuem os termos washington ou south.

In [None]:
retorno = #faça seu código aqui
print(retorno)

## Tarefa 3.3: busca composta
Mostre o titulo de todos os documentos que possuem os termos washington mas não possuem o termo south.

In [None]:
retorno = #faça seu código aqui
print(retorno)

# Tarefa 4: Verificando o tamanho do vocabulário
Faça com que a função ```getKeysFromText``` agora guarde apenas termos stemmizados.

Verifique a diferença no tamanho do seu vocabulário após essa alteração.

In [None]:
#reconstrua o índice
print(len(index))