# Full Text Search

<div style="text-align:justify">
Este notebook implementa uma solução de FTS sem utilizar soluções de bancos de dados para busca textual. O objetivo é resolver o problema de busca textual em situações onde o conjunto de dados é pequeno e não vale a pena adotar uma solução robusta só pra isso.
</div>

### Carregando Pacotes

In [1]:
import numpy as np
import operator
import math

### Dicionário

<div style="text-align:justify">
O dicionário é base para o cálculo de distância, através dele vamos registrar a frequência dos termos (TF-IDF) e criar uma visão vetorial dos dados a serem buscados. 
</div>

In [2]:
base = ['a','b','c','d','e','f',
        'g','h','i','j','k','l',
        'm','n','o','p','q','r',
        's','t','u','v','x','w',
        'y','z',' ']

### Base de Dados

<div style="text-align:justify">
A base de dados, aqui representada por uma estrutura <code>dict</code>, corresponde aos recursos textuais onde as buscas serão realizadas. Um exemplo destes recursos textuais pode ser as funcionalidades de um aplicativo mobile. Veja:
</div>

In [3]:
data = {
    'home': None,
    'atualizar dados cadastrais': None,
    'ativar cartao': None,
    'texto de teste': None
}

for key in data:
    data[key] = np.zeros(len(base)).tolist()

### Cálculo TF-IDF

<div style="text-align:justify">
A seguir, vamos criar um vetor de características baseadas na frequência de termos (TF-IDF). Note que cada item do nosso banco de recursos é representado por um vetor numérico:
</div>

In [4]:
for key in data:
    for c in key:
        i = base.index(c)
        data[key][i] += 1

### Função de Similaridade

<div style="text-align:justify">
Vamos definir uma função de similaridade que estabeça uma relação de semelhança entre as informações registradas no banco de recursos e o texto de busca. Essa função se baseia na ortoganalidade cossenoidal de um ângulo entre dois vetores. Veja:  
</div>

<img src="similarity.png" align="left">

In [5]:
def similarity(v1, v2):
    sumxx, sumxy, sumyy = 0, 0, 0
    for i in range(len(v1)):
        x = v1[i]; y = v2[i]
        sumxx += x*x
        sumyy += y*y
        sumxy += x*y

    return sumxy / math.sqrt(sumxx*sumyy)

<div style="text-align:justify">
Note que a função recebe dois vetores de tamanho N e retorna um número entre 0 e 1, que corresponde a similidade. Dois vetores iguais possuem máxima semelhança, ou seja, será similaridade 1.  
</div>

### Função de Transformação

<div style="text-align:justify">
A função de transformação a seguir transforma o texto de busca digitado pelo usuário em um vetor de features de frequência (TF-IDF). Essa função servirá como uma função utilitária para a função de busca.
</div>

In [6]:
def text_to_array(text):
    array = np.zeros(len(base)).tolist()
    for c in text:
        i = base.index(c)
        array[i] += 1

    return array

### Função de Busca

<div style="text-align:justify">
A função de busca recebe o texto digitado pelo usuário e devolve o dicionário de recursos ordenados pela similaridade. O termo mais parecido com o critério de busca possui maior similaridade.
</div>

In [7]:
def find(text):
    result = {}
    array= text_to_array(text)
    for key in data:
        result[key] = similarity(data[key], array)

    return sorted(result.items(), key=operator.itemgetter(1), reverse = True)

## Exemplos de Uso

<div style="text-align:justify">
A seguir vamos apresentar dois exemplos de uso da solução de Full Text Search que desenvolvemos. É importante lembrar que o dicionário de dados compreende apenas caracteres não acentuados e em letras minúsculas. Números e caracteres especiais devem ser removidos do texto digitado pelo usuário, antes de realizar a busca. O texto também deve ter os caracteres em lower case e os acentos devem ser removidos.
</div>

### Exemplo 1: Busca por Termo

In [8]:
find('cadastro')

[('atualizar dados cadastrais', 0.8764598212022147),
 ('ativar cartao', 0.8221083073205848),
 ('texto de teste', 0.35),
 ('home', 0.15811388300841897)]

### Exemplo 2: Busca por Termo

In [9]:
find('ativacao')

[('ativar cartao', 0.8933250005738371),
 ('atualizar dados cadastrais', 0.7692338911025561),
 ('texto de teste', 0.21128856368212914),
 ('home', 0.1336306209562122)]