In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

In [2]:
from time import perf_counter
from random import shuffle

# Busca

## Introdução
A exemplo do que acontece na ordenação, Python também tem um recurso poderoso para buscas: o operador `in`.

In [3]:
5 in [1, 3, 5, 7, 9]

True

In [4]:
'a' in 'ortogonal'

True

In [5]:
3 in (2, 4, 6, 8)

False

In [6]:
'abc' in {'xyz': 2, 'aeiou':1, 'abc':0}

True

No caso geral, um problema de busca consiste em, dada um valor e uma coleção de objetos cujos atributos incluem uma *chave*, encontrar nessa coleção um ou mais objetos cujas chaves sejam iguais ao valor dado.   

Neste caso, nos interessa conhecer e comparar alguns algoritmos de busca clássicos.    
Embora esses algoritmos sejam aplicáveis a qualquer coleção cujos itens possam ser comparados, os exemplos usarão listas de inteiros e como chaves os próprios valores dos itens.

## Busca sequencial
Numa busca sequencial, as chaves dos itens da coleção são comparadas uma a uma com o valor dado, até que a igualdade entre eles seja satisfeita ou a coleção se esgote.

Se estivermos interessados apenas em saber se existe ou não algum item cuja chave seja igual ao valor dado, esse raciocínio pode ser implementado diretamente por um `while`, como no exemplo abaixo.

In [7]:
def busca_sequencial(valor, coleção):
    i, achei = 0, False
    while not achei and i < len(coleção):
        if v == coleção[i]:
            achei = True
        else:
            i += 1
    return achei

In [8]:
col = [x for x in range(1, 6, 2)]
col

for v in range(6):
    print(busca_sequencial(v, col), end = ' ')
print()

[1, 3, 5]

False True False True False True 


Com uma pequena adaptação, esse algoritmo pode indicar também o índice do item cuja chave tem o valor procurado, como mostra o exemplo abaixo.

In [9]:
def busca_sequencial(valor, coleção):
    i, achei = 0, False
    while not achei and i < len(coleção):
        if v == coleção[i]:
            achei = True
        else:
            i += 1
    if achei:
        return i
    else:
        return None

In [10]:
col = [x for x in range(1, 6, 2)]
col

for v in range(6):
    print(busca_sequencial(v, col), end = ' ')
print()

[1, 3, 5]

None 0 None 1 None 2 


O desempenho do algoritmo de busca sequencial pode ser resumido como mostra a tabela abaixo:
\begin{array}{ l | c | c | c |}
    \textsf{Caso} & \textsf{Melhor} & \textsf{Pior} & \textsf{Médio} \\
    \hline
    \textrm{item está presente}     & 1 & n & \frac{n}{2}  \\
    \textrm{item não está presente} & n & n & n
\end{array}

Quando a coleção está ordenada, é possível melhorar o desempenho do algoritmo nos casos em que o item não existe porque, em vez de percorrer a coleção completa, é possível interromper a busca assim que for encontrado um item cuja chave é maior do que o valor procurado.

In [11]:
def busca_sequencial(valor, coleção):
    i, achei, chega = 0, False, False
    while not achei and not chega and i < len(coleção):
        if valor == coleção[i]:
            achei = True
        elif valor < coleção[i]:
            chega = True
        else:
            i += 1
    if achei:
        return i
    else:
        return None

In [12]:
col = [x for x in range(1, 6, 2)]
col

for v in range(6):
    print(busca_sequencial(v, col), end = ' ')
print()

col

[1, 3, 5]

None 0 None 1 None 2 


[1, 3, 5]

Com essa alteração, o desempenho do algoritmo de busca sequencial passa a ser
\begin{array}{ l | c | c | c |}
    \textsf{Caso} & \textsf{Melhor} & \textsf{Pior} & \textsf{Médio} \\
    \hline
    \textrm{item está presente}     & 1 & n & \frac{n}{2}  \\
    \textrm{item não está presente} & 1 & n & \frac{n}{2}
\end{array}

## Busca binária
O modelo de busca binária aplica-se apenas a coleções ordenadas. O valor procurado é comparado com a chave do elemento central da coleção.    
Se forem iguais, o problema está resolvido.   
Se forem diferentes, e como a coleção está ordenada, uma das metades da coleção pode ser descartada com segurança.   
Como o tamanho do trecho que deve ser examinado se reduz à metade a cada passo do algoritmo, o número máximo de passos para uma coleção com $n$ itens será $\log_2{n}$ e, portanto, a complexidade do algoritmo será $\mathcal{O}(log_2{n}).$ 

In [13]:
def busca_binária(valor, coleção, esq=0, dir=None):
    if dir is None:
        dir = len(coleção) - 1
    if (dir < esq):
        return False
    else:
        med = (esq + dir) // 2
        if valor == coleção[med]:
            return True
        elif valor > coleção[med]:
            return busca_binária(valor, coleção, med + 1, dir)
        else:
            return busca_binária(valor, coleção, esq, med - 1)

In [14]:
col = [x for x in range(1, 6, 2)]
col

for v in range(6):
    print(busca_binária(v, col), end = ' ')
print()

col

[1, 3, 5]

False True False True False True 


[1, 3, 5]

Chamadas recursivas no final de uma função caracterizam “*recursividade de cauda*”, que é fácil de remover...

In [15]:
def busca_binária(valor, coleção, esq=0, dir=None):
    if dir is None:
        dir = len(coleção) - 1
    achei = False
    while not achei and esq <= dir:
        med = (esq + dir) // 2
        if valor == coleção[med]:
            achei = True
        elif valor > coleção[med]:
            esq = med + 1
        else:
            dir = med - 1
    return achei

In [16]:
col = [x for x in range(1, 6, 2)]
col

for v in range(6):
    print(busca_binária(v, col), end = ' ')
print()

col

[1, 3, 5]

False True False True False True 


[1, 3, 5]

Agora vamos comparar o desempenho desses três algoritmos...

In [17]:
def busca_sequencial(valor, coleção):
    i, achei = 0, False
    while not achei and i < len(coleção):
        if valor == coleção[i]:
            achei = True
        else:
            i += 1
    return achei

In [18]:
def busca_sequencial_ordenada(valor, coleção):
    i, achei, chega = 0, False, False
    while not achei and not chega and i < len(coleção):
        if valor == coleção[i]:
            achei = True
        elif valor < coleção[i]:
            chega = True
        else:
            i += 1
    return achei

In [19]:
def busca_binária(valor, coleção, esq=0, dir=None):
    if dir is None:
        dir = len(coleção) - 1
    achei = False
    while not achei and esq <= dir:
        med = (esq + dir) // 2
        if valor == coleção[med]:
            achei = True
        elif valor > coleção[med]:
            esq = med + 1
        else:
            dir = med - 1
    return achei

Para o teste, vamos criar uma lista com os $n$ primeiros números ímpares e depois “embaralhá-la”.    
Em seguida, faremos buscas com os $2 \times n$ primeiros inteiros. Vamos calcular e exibir o tempo gasto e o número de fracassos e sucessos nessas buscas.

In [20]:
print(f"{'n':>7}  {'   busca sequencial':25}" +  \
      f"  {'   busca seq ordenada':25}  {'   busca binária':25}")
for i in range(1, 5):
    n = 10 ** i
    l = [2 * x + 1 for x in range(n)]
    shuffle(l)
    
    qbs = [0, 0]
    ini = perf_counter()
    for k in range(2 * n):
        qbs[busca_sequencial(k, l)] += 1
    tbs = perf_counter() - ini

    l.sort()

    qbso = [0, 0]
    ini = perf_counter()
    for k in range(2 * n):
        qbso[busca_sequencial_ordenada(k, l)] += 1
    tbso = perf_counter() - ini

    qbb = [0, 0]
    ini = perf_counter()
    for k in range(2 * n):
        qbb[busca_binária(k, l)] += 1
    tbb = perf_counter() - ini

    print(f"{n:7}  {tbs:11.6f}{str(qbs):14}  {tbso:11.6f}{str(qbso):14}  {tbb:11.6f}{str(qbb):14}")

      n     busca sequencial           busca seq ordenada         busca binária         
     10     0.000030[10, 10]           0.000027[10, 10]           0.000022[10, 10]      
    100     0.002151[100, 100]         0.001895[100, 100]         0.000305[100, 100]    
   1000     0.204131[1000, 1000]       0.179944[1000, 1000]       0.003906[1000, 1000]  
  10000    21.090964[10000, 10000]    18.404745[10000, 10000]     0.055875[10000, 10000]


Para comparação, vamos executar as mesmas buscas, usando o operador `in` sobre uma lista e uma lista ordenada construídas como no caso acima.    
Finalmente, vamos criar um dicionário usando a representação textual dos $n$ primeiros ímpares como chave.   
Os tempos e resultados serão calculados e exibidos como nos exemplos anteriores.

In [21]:
print(f"{'n':>7} {'    in (lista)':25}" +  \
      f"  {'    in (lista ordenada)':25}  {'    in (dicionário)':25}")
for i in range(1, 5):
    n = 10 ** i
    l = [2 * x + 1 for x in range(n)]
    shuffle(l)
    

    dl = {}
    for k in range(n):
        dl[str(l[k])] = k
    
    
    qin = [0, 0]
    ini = perf_counter()
    for k in range(2 * n):
        qin[k in l] += 1
    tin = perf_counter() - ini
    
    qdl = [0, 0]
    ini = perf_counter()
    for k in range(2 * n):
        qdl[str(k) in dl] += 1
    tdl = perf_counter() - ini

    l.sort()

    qino = [0, 0]
    ini = perf_counter()
    for k in range(2 * n):
        qino[k in l] += 1
    tino = perf_counter() - ini

    print(f"{n:7}  {tin:11.6f}{str(qin):14}  {tino:11.6f}{str(qino):14}" + \
          f"  {tdl:11.6f}{str(qdl):14}")

      n     in (lista)                 in (lista ordenada)        in (dicionário)      
     10     0.000005[10, 10]           0.000005[10, 10]           0.000008[10, 10]      
    100     0.000162[100, 100]         0.000162[100, 100]         0.000066[100, 100]    
   1000     0.014790[1000, 1000]       0.013565[1000, 1000]       0.000729[1000, 1000]  
  10000     1.635501[10000, 10000]     1.367732[10000, 10000]     0.007261[10000, 10000]
