# Introdução à Recuperação de Informações

----
**Aluno:** Franklin Alves de Oliveira

----

## Lista de exercícios 1

Todos os exercícios requerem uma implementação funcional do problema, no corpo do notebook. Para cada exercício consultas de teste devem ser propostas para demonstrar que a implementação atende aos requisitos do exercício.
As resposta devem ser enviadas como um notebook (.ipynb) para o professor.

<font color='red'>Antes de começar o exercício, vamos importar algumas bibliotecas e o corpus com o qual vamos trabalhar...</font>

In [1]:
# imports 
import os
import nltk
import string
import pandas as pd

from collections import defaultdict

# métodos do nltk
from nltk.corpus import stopwords
from nltk.tokenize import WordPunctTokenizer as WPT
from nltk.stem.snowball import SnowballStemmer

# instanciando o Stemmer
Stemmer = SnowballStemmer('english')

<br>

**Corpus escolhido:** Para a realização desse exercício, vamos utilizar um corpus composto por *reviews* de produtos eletrônicos do site [Amazon.com](www.amazon.com). 

Esse corpus, e muitos outros semelhantes, podem ser encontrados nesse [link](http://jmcauley.ucsd.edu/data/amazon/). 

In [7]:
# importanto o corpus (selecionando apenas mil observações)
corpus = pd.read_csv('../Amazon_electronics_reviews.csv', sep=',', encoding='utf-8', 
                                                          index_col=0, nrows=10000)
# removendo linhas sem reviews
corpus = corpus.dropna(subset=['reviewText'])

corpus.head()

Unnamed: 0,reviewerID,asin,reviewerName,helpful,reviewText,overall,summary,unixReviewTime,reviewTime
0,AO94DHGC771SJ,528881469,amazdnu,"[0, 0]",We got this GPS for my husband who is an (OTR)...,5.0,Gotta have GPS!,1370131200,"06 2, 2013"
1,AMO214LNFCEI4,528881469,Amazon Customer,"[12, 15]","I'm a professional OTR truck driver, and I bou...",1.0,Very Disappointed,1290643200,"11 25, 2010"
2,A3N7T0DY83Y4IG,528881469,C. A. Freeman,"[43, 45]","Well, what can I say. I've had this unit in m...",3.0,1st impression,1283990400,"09 9, 2010"
3,A1H8PY3QHMQQA0,528881469,"Dave M. Shaw ""mack dave""","[9, 10]","Not going to write a long review, even thought...",2.0,"Great grafics, POOR GPS",1290556800,"11 24, 2010"
4,A24EV6RXELQZ63,528881469,Wayne Smith,"[0, 0]",I've had mine for a year and here's what we go...,1.0,"Major issues, only excuses for support",1317254400,"09 29, 2011"


In [8]:
corpus.shape

(1689188, 9)

In [9]:
corpus.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1689188 entries, 0 to 1689187
Data columns (total 9 columns):
reviewerID        1689188 non-null object
asin              1689188 non-null object
reviewerName      1664309 non-null object
helpful           1689188 non-null object
reviewText        1688117 non-null object
overall           1689188 non-null float64
summary           1689173 non-null object
unixReviewTime    1689188 non-null int64
reviewTime        1689188 non-null object
dtypes: float64(1), int64(1), object(7)
memory usage: 128.9+ MB


Note que, do dataframe **`corpus`**, nossa coluna de interesse nesse exercício é a `reviewText`, que contém exatamente os textos de avaliação de produtos eletrônicos escritos pelos usuários.

<br>

### Exercício 1: Truncagem e revocação.

Baseando-se no indice invertido construído na prática 1, Calcule a diferença de revocação com e sem a utilização de "stemming", ou truncagem na construção do índice.

#### <font color='red'>Solução:</font>

**1. Vamos começar preparando o corpus para a criação do índice invertido.**

In [3]:
# preparando lista de stopwords (em inglês)
swu = stopwords.words('english') + list(string.punctuation)

# note que também vamos remover caracteres especiais do texto
print('stopwords:', swu[:10])
print('caracteres especiais:', string.punctuation)

stopwords: ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]
caracteres especiais: !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


<br>

Em seguida, vamos tokenizar os textos (*reviews*). A técnica de *stemming* consiste em reduzir o termo ao seu radical, removendo afixos e vogais temáticas. A tabela a seguir exibe alguns exemplos de palavras "stemizadas": 

| token  | stem |
|---|---|
| impressed  | impress |
| professional  | profession  | 
| hoing  | hope | 

In [4]:
# tokenizando os textos
corpus['tokenized'] = corpus['reviewText'].apply(lambda x:WPT().tokenize(str(x).lower()))

In [5]:
# removendo stopwords
corpus['tokenized'] = corpus['tokenized'].apply(lambda w:[i for i in w if i not in swu])

In [6]:
# vamos criar uma coluna com o texto "stemizado"
corpus['stemmed'] = corpus['tokenized'].apply(lambda y:[Stemmer.stem(j) for j in y])

In [7]:
print('Tokens:', corpus['tokenized'].iloc[1][:10])
print('Stems:', corpus['stemmed'].iloc[1][:10])

Tokens: ['professional', 'otr', 'truck', 'driver', 'bought', 'tnd', '700', 'truck', 'stop', 'hoping']
Stems: ['profession', 'otr', 'truck', 'driver', 'bought', 'tnd', '700', 'truck', 'stop', 'hope']


----
**OBS:** Na coluna `tokenized`, temos apenas o texto tokenizado e sem *stopwords*. Já na coluna `stemmed`, além de tokenizado e removidas as *stopwords*, também "stemizamos" o texto.

----

**2. Agora, vamos criar um índice invertido para as colunas `tokenized` e `stemmed`.**

In [8]:
def inv_index(lista_textos):
    '''
    Cria um índice invertido para uma lista de textos (tokenizados). 
    Retorna o ID do documento em que a palavra foi encontrada.
    '''
    indice = defaultdict(lambda:set([]))
    
    for i, texto in enumerate(lista_textos):
        for term in texto:
            indice[term].add(i)

    return indice

In [9]:
indice_token = inv_index(corpus['tokenized'].values)
indice_stem = inv_index(corpus['stemmed'].values)

In [10]:
print(indice_token['professional'])              # busca no texto tokenizado
print(indice_stem[Stemmer.stem('professional')]) # busca no texto "stemizado"

{256, 1, 355, 580, 710, 742, 171, 363}
{256, 1, 355, 580, 710, 742, 171, 363}


<br>

**3. Antes de continuarmos, vamos criar uma função de busca**

In [11]:
def search(query, index, kind_index='token'):

    # tokenizando a busca
    tokens = WPT().tokenize(query.lower())
    
    if kind_index == 'stem':
        tokens = [Stemmer.stem(w) for w in tokens]

    # criando um conjunto para armazenar o resultado (conj. para eliminar duplicados)
    result = set()
    
    # definindo o tipo de operador (or, and or not)
    operator = 'and'
    if 'and' in tokens:
        operator = 'and'
    elif 'or' in tokens:
        operator = 'or'
    elif 'not' in tokens:
        operator = 'not'
    
    # faz a consulta (query)
    for token in tokens:
        if token == 'and' or token == 'or' or token == 'not':
            continue
            
        temp = index[token]
        
        if operator == 'or':
            result = result | temp
        elif operator == 'not':
            result = result - temp
        elif operator == 'and':
            result = result | temp
        else:
            print('operador não definido')
        
    return result

In [12]:
search('professional and hoping', indice_token, kind_index='token')

{1, 171, 256, 291, 355, 363, 387, 438, 488, 529, 580, 710, 713, 734, 742, 897}

<br>

----
Agora, vamos analisar as taxas de **precisão**(*precision*) e **revocação** (*recall*) baseadas no índice invertido que acabamos de criar. A taxa de precisão pode ser calculada conforme a fórmula abaixo:

$$Precisão = \frac{\#\{ \text{documentos recuperados} \cap \text{documentos relevantes} \}}{\#\{ \text{documentos recuperados}\}}$$

<br>

Que é exatamente a taxa de resultados corretos em relação aos resultados retornados. Já a taxa de revocação, é definida como 

<br>

$$Revocação = \frac{\#\{ \text{documentos recuperados} \cap \text{documentos relevantes} \}}{\#\{ \text{documentos relevantes}\}}$$

<br>

que é o o número de resultados corretos dividido pelo número de resultados que deveriam ter sido retornados. 

----

Com isso em mente, 

**4. Vamos definir funções para calcular as taxas de precisão e revocação**

In [13]:
def precisao(recuperados, relevantes):
    return len(recuperados & relevantes)/len(recuperados)

def revocacao(recuperados, relevantes):
    return len(recuperados &  relevantes)/len(relevantes)

**5. Comparando precisão e revocação para os textos com e sem _stemming_**

In [14]:
# Texto tokenizado (sem stemming)
expression = 'professional and hoping'

# Resultados da busca
res_normal = search(expression,indice_token, kind_index='token')
res_stem = search(expression, indice_stem, kind_index='stem')

print('Quantidade de Resultados Não-Stemmizados: ', len(res_normal))
print('Quantidade de Resultados Stemmizados:', len(res_stem))

Quantidade de Resultados Não-Stemmizados:  16
Quantidade de Resultados Stemmizados: 41


In [15]:
prec = precisao(res_normal, res_stem)
rev = revocacao(res_normal, res_stem)

print('Precisão: ', prec)
print('Revocação: ', rev)

print('\nDiferença:', prec - rev)

Precisão:  1.0
Revocação:  0.3902439024390244

Diferença: 0.6097560975609756


<br>

### Exercício 2: Expansão de consultas
Crie grupos de equivalência para alguns termos de busca e calcule a diferença em termos de revocação e, possivelmente precisão, na resposta a consultas expandidas e não expandidas. Dica: use tempos verbais, pluralização, sinônimos, etc.

In [41]:
group = ['impressed', 'impress', 'impression']

In [42]:
# procurando termos equivalentes (sem stemming)
res1 = set()

print('Documentos encontrados (s/ stemming):')
for word in group:
    res = search(word, indice_token)
    res1.update(res)
    print('\t- {}: {}'.format(word, len(res)))
print('TOTAL: {}'.format(len(res1)))

Documentos encontrados (s/ stemming):
	- impressed: 17
	- impress: 1
	- impression: 2
TOTAL: 20


In [43]:
# procurando termos equivalentes (com stemming)
res2 = set()

print('Documentos encontrados (com stemming):')
for word in group:
    res = search(Stemmer.stem(word), indice_stem)
    res2.update(res)
    print('\t- {}: {}'.format(word, len(res)))
print('TOTAL: {}'.format(len(res2)))

Documentos encontrados (com stemming):
	- impressed: 27
	- impress: 27
	- impression: 27
TOTAL: 27


In [46]:
print('Precisão: ', precisao(res1, res2))
print('Revocação: ', revocacao(res1, res2))

print('\nDiferença:', precisao(res1, res2) - revocacao(res1, res2))

Precisão:  1.0
Revocação:  0.7407407407407407

Diferença: 0.2592592592592593


<br>

### Exercício 3: Verificação ortográfica

Implemente uma expansão de consulta por meio da correção ortográfica. Utilize o corretor ortográfico [Pyenchant](http://pythonhosted.org/pyenchant/) para fazer as correções.


<font color='red'>**Solução:**</font>

- Link para o [repositório do PyEnchant](https://github.com/rfk/pyenchant/blob/master/website/content/tutorial.rst).

In [47]:
# importando a biblioteca PyEnchant
import enchant

In [48]:
# dicionario
dic = enchant.Dict("en_US")

Conforme solicitado no exercício, vamos criar uma função de busca "expandida" que, caso a consulta esteja errada, ela sugere novas palavras.

In [85]:
def check_word(word):
    if not dic.check(word):
        print('Em vez disso, experimente pesquisar por: ')  # parecido com a sugestão do Google
        for w in dic.suggest(word)[:3]:
            print('  -', w)

In [86]:
check_word('plobrem')

Em vez disso, experimente pesquisar por: 
  - problem


In [88]:
def correct_search(word, index, dic):
    # faz a correção ortográfica
    if not dic.check(word):
        res = set()
        for token in dic.suggest(word):
            res = res | index[token]
    else:
        res = index[word]    
    return res

def extSearch(query, index, kind_index = 'token'):
    # define o dicionário da língua
    dic = enchant.Dict('en_US')

    # tokenizando a busca
    tokens = WPT().tokenize(query.lower())
    
    if kind_index == 'stem':
        tokens = [Stemmer.stem(w) for w in tokens]

    # criando um conjunto para armazenar o resultado (conj. para eliminar duplicados)
    result = set()
    
    # definindo o tipo de operador (or, and or not)
    operator = 'and'
    if 'and' in tokens:
        operator = 'and'
    elif 'or' in tokens:
        operator = 'or'
    elif 'not' in tokens:
        operator = 'not'
    
    # faz a consulta (query)
    for token in tokens:
        if token == 'and' or token == 'or' or token == 'not':
            continue
            
        temp = correct_search(token, index, dic)
        
        if operator == 'or':
            result = result | temp
        elif operator == 'not':
            result = result - temp
        elif operator == 'and':
            result = result | temp
        else:
            print('operador não definido')
        
    return result

<br>

Agora, vamos fazer um teste comparando a função de busca do **Exercício 1** com a função de busca extendida que acabamos de criar.

In [109]:
p = 'awfur'

print('Resultados de busca "crua" (naïve)')
print('\t- Nº de resultados (não stemizados):', len(search(p, indice_token)))
print('\t- Nº de resultados (stemizados):', len(search(p, indice_stem, kind_index='stem')))

print('\n')
check_word(p)

print('\nResultados de busca com correção ortográfica')
print('\t- Nº de resultados (não stemizados):', len(extSearch(p, indice_token)))
print('\t- Nº de resultados (stemizados):', len(extSearch(p, indice_stem, kind_index='stem')))

Resultados de busca "crua" (naïve)
	- Nº de resultados (não stemizados): 0
	- Nº de resultados (stemizados): 0


Em vez disso, experimente pesquisar por: 
  - awful
  - aw fur
  - aw-fur

Resultados de busca com correção ortográfica
	- Nº de resultados (não stemizados): 9
	- Nº de resultados (stemizados): 0


<br>

### Exercício 4: Consultas por frases
Implemente um indice invertido que permita consulta por frases, conforme definido na aula 2.

<br>

<font color='red'>**Solução:**</font>

Vamos implementar uma função de busca para fazer consultas por frase.

**1. Primeiramente, vamos criar um novo índice para fazermos a busca por frase.**

In [172]:
from nltk.tokenize.treebank import TreebankWordDetokenizer as TWD

In [190]:
# "limpando" os reviews (removendo stopwords, tokenizando e stemizando)
def clean_text(text):
    cleanText = [Stemmer.stem(token) for token in WPT().tokenize(str(text).lower()) if token not in swu]
    cleanText = TWD().detokenize(cleanText)
    
    return cleanText

# "limpando todos os reviews"
corpus['clean_review'] = corpus['reviewText'].apply(clean_text)

In [210]:
# criando o índice de frases
indice_frase = defaultdict(lambda: defaultdict(list))

for text_id, text in enumerate(corpus['clean_review'].apply(lambda x: WPT().tokenize(x))):
    for token_id, token in enumerate(text):
        indice_frase[token][text_id].append(token_id)

In [211]:
corpus['clean_review'].iloc[10]

'item describ origin descript work without issu seen good product'

In [219]:
# testando o índice
word = 'described'

indice_frase[Stemmer.stem(word)].keys() # retorna documentos que contém a palavra

dict_keys([5, 10, 72, 138, 146, 246, 273, 417, 503, 510, 584, 595, 640, 647, 700, 731, 841, 862, 887, 947, 955, 959])

**2. Criando uma nova função de busca...**

In [220]:
def words_proximity(list1, list2, distance):
    '''
    Compara a proximidade entre palavras em duas listas. 
    
    Retorna a média da distância entre elas quando estas estão próximas (mais próximas que a 
    distância passada)
    '''
    res = []
    
    for w1 in list1:
        for w2 in list2:
            if abs(w1-w2) <= distance:
                res.append(round((w1+w2)/2))
                
    return res

In [221]:
def search_phrase(phrase, index):
    '''
    Retorna o índice do documento que contém a frase buscada.
    '''
    tokens = [Stemmer.stem(token.lower()) for token in WPT().tokenize(phrase) if token not in swu]
     
    # armazena os elementos encontrados 
    matches = defaultdict(lambda:defaultdict(lambda:set([])))
    for token in tokens:
        matches[token] = index[token]
    
    # armazena os reviews encontrados ("documento")
    documents = set(matches[tokens[0]])
    for token in tokens:
        documents = documents.intersection(set(matches[token]))
    
    res = set([]) 
    for doc in documents:
        for pos in matches[tokens[0]][doc]:
            if all((pos + token_id + 1 in matches[token][doc]) for token_id, token in enumerate(tokens[1:len(tokens)])):
                res.add(doc) 
                
    return res

In [222]:
corpus['reviewText'].iloc[10]

'This item is just as was described in the original description, works without any issues to be seen. Good product'

In [223]:
search_phrase("just as was described", indice_frase)

{5,
 10,
 72,
 138,
 146,
 246,
 273,
 417,
 503,
 510,
 584,
 595,
 640,
 647,
 700,
 731,
 841,
 862,
 887,
 947,
 955,
 959}

<br>

### Exercício 5: Consulta híbrida.

Modifique a solução acima para permitir respostas alternativas caso a frase não retorne resultados. Por exemplo, retornar, documentos que contenham parte da frase, ou uma busca booleana simples combinando as palavras da frase.

<br>

<font color='red'>**Solução:**</font>

Para resolver esse exercício, vamos utilizar a biblioteca [whoosh](https://whoosh.readthedocs.io/en/latest/intro.html). 

In [295]:
import whoosh
from whoosh.fields import *
from whoosh.qparser import QueryParser
from whoosh.index import create_in, open_dir

print('Using whoosh version', whoosh.versionstring())

Using whoosh version 2.7.4


In [296]:
# esse código foi escrito de acordo com o tutorial na página do Whoosh
schema = Schema(content=TEXT(phrase=True, stored=True))

if os.path.exists('indexdir'):
    ix = open_dir('indexdir')
else:
    os.mkdir('indexdir')
    ix = create_in("indexdir", schema)
    writer = ix.writer()
    for txt in corpus['reviewText']:
        writer.add_document(content=txt)
    writer.commit()


searcher = ix.searcher()

In [297]:
def new_search_phrase(phrase):
        
    tokens = [Stemmer.stem(token.lower()) for token in WPT().tokenize(phrase) if token not in swu]
 
    res = search_phrase(phrase, indice_frase)
    
    # se não encontrar a frase, faz a busca pelo whoosh (retorna o resultado mais próximo)
    if res == set([]):
        searcher = ix.searcher()
        query = QueryParser("content", ix.schema).parse(phrase)
        new_res = searcher.search(query)
        return new_res.docs()
    else:
        return res

In [363]:
# define uma frase para busca
frase = 'love this product'

new_search_phrase(frase) # retorna quais documentos contém essa frase (ou algo semelhante)

{101, 280, 351, 458, 596}

In [362]:
# conferindo se o resultado está correto
for i in new_search_phrase(frase):
    texto = corpus['reviewText'].iloc[i]
    
    if frase in texto:
        # frase aparece exatamente igual
        texto = texto.replace(frase, '\033[42;37m{}\033[m'.format(frase))
        print(texto)
    else:
        # se a frase não está no texto, colore as palavras que aparecem   
        for word in [Stemmer.stem(j) for j in WPT().tokenize(frase) if j not in swu]:
            texto = texto.replace(word, '\033[41;38m{}\033[0m'.format(word))
        print(texto)
    
    print('\n')

Totally [42;37mlove this product[m!! I bought two - one for living room, one for bedroom.  I decided to try my hand in the bedroom first (in case I got frustrated and didn't finish the project).I've gotten items needing to be assembled before with all the hardware in one bag -- not so with this product!!  I'm impressed! Every nut, bolt, screw, washer, etc. is clearly packaged (individually by size and labeled!)The Arm also comes assembled -- which I disassembled for easier handling (the wall plate is attached to the Arm with two Carriage Bolts / easy to remove and makes holding in place while bolting to the wall a breeze).Took me 1-1/2 hours from start (gathering my tools) to finish (hanging the TV)  Oh, and I'm a 56 yr old disabled female.  I do have a  lot of construction/tool knowledge however.


my girlfriend uses it every single day. i bought it for her as a christmas present. and she [41;38mlove[0ms it.


It's a fine tablet.  The screen is excellent.  The speakers are very go