## Métodos de busca

Vamos considerar o seguinte cenário: Vocês querem procurar um livro na biblioteca. Existe uma única estante linear, com uma única prateleira que contém 100 livros mas não tem absolutamente nenhuma marcação sobre início e fim das letras alfabéticas. Para piorar, todos os livros estão com a lombada para dentro da estante e as páginas viradas para vocês, de forma que será necessário puxar um livro para ver o título. Como vocês procurariam o livro? Demoraria muito tempo?


_Mas por que devemos nos preocupar tanto com o custo? Não vamos achar o elemento do mesmo jeito?_

Bom, devemos nos preocupar com o custo porque a busca é uma das operações mais comuns em computação. Certamente vamos querer procurar uma informação, seja no banco de dados, em memória etc. Agora, pensem em uma lista com 100.000.000 de elementos. 
 
Que tal se nosso programa fizesse 5 pesquisas diferentes nesse 100.000.000 de elementos a fim de encontrar os resultados desejados (que por sinal estão nas últimas 5 posições da lista, mas a gente não tem como saber disso...). Vai demorar um bocado de tempo para nosso programa responder, não vai?
 
Então, precisamos de mecanismos para realizar essas buscas de forma mais eficiente, a fim de otimizar o tempo, a memória, consumir menos processamento etc.

### Busca sequencial

Bom gente, sobre o algoritmo de busca sequencial nem vale a pena perdermos tempo falando, pois a implementação dele é trivial. É o algoritmo mais básico de pesquisa. É só percorrer a lista procurando um elemento e fim de papo. 

Contudo, podemos pensar em algumas melhorias para ele, certo?

Vamos pensar que temos uma lista não ordenada de 50 elementos não repetidos.

Durante a execução do nosso programa vamos procurar elementos nessa lista inúmeras vezes. Mas muitas mesmo. Podemos fazer algum tipo de melhoria no algoritmo da busca sequencial, com base nessa informação?



E se eu disser que podemos pesquisar o mesmo número várias vezes em sequência. Por exemplo, pesquisamos o número 33 umas 15 vezes seguidas. E agora, com essas informações, podemos fazer alguma melhoria na busca sequencial?



Então, temos 2 opções de melhorias que podem ser feitas.

Podemos:

- Fazer a transposição do número encontrado uma casa pra esquerda na lista, puxando ele cada vez mais pra frente
- Colocar o número encontrado na primeira posição da lista


Essas duas estratégias podem ser úteis no cenário que eu descrevi.

In [None]:
# Base
def sequential_search(curr_list, x):
    count = 0
    for idx, value in enumerate(curr_list):
        count += 1
        if x == value:
            print("Count: ", count)
            return curr_list, value
    print("Count: ", count)
    return curr_list, None

In [None]:
# Transpondo valores

def transpond_sequential_search(curr_list, x):
    count = 0
    for idx, value in enumerate(curr_list):
        count += 1
        if x == value:
            print("Count: ", count)
            if idx-1 > 0:
                curr_list[idx-1], curr_list[idx] = curr_list[idx], curr_list[idx-1]
            return curr_list, value
    print("Count: ", count)
    return curr_list, None

In [None]:
# Colocando em primeiro

def to_first_sequential_search(curr_list, x):
    count = 0
    for idx, value in enumerate(curr_list):
        count += 1
        if x == value:
            print("Count: ", count)
            curr_list[0], curr_list[idx] = curr_list[idx], curr_list[0]                
            return curr_list, value
    print("Count: ", count)
    return curr_list, None

Agora, caso a lista já esteja ordenada, podemos fazer outro tipo de melhoria.

Podemos verificar se o número que estamos olhando na lista é maior que o que procuramos. Caso seja, podemos parar de procurar, economizando tempo e espaço.


In [None]:
# Parando o algoritmo em caso de a lista estar ordenada e o elemento for maior que o procurado

def for_ordered_sequential_search(curr_list: List, value: int):
    found = None
    count = 0
    for i in curr_list:
        count += 1
        if i == value:
            found = i
            break
        elif i > value:
            break
    print("Count: ", count)
    return curr_list, found

### Busca binária

Outra abordagem possível para realizar a busca por elementos em uma lista, com uma condição especial, Alguém sabe qual condição é essa?

**O array deve estar ordenado.**

Essa necessidade se deve à característica da construção do algoritmo de busca binária. Mas como ele funciona?


Voltando ao nosso problema inicial da procura de livros na biblioteca, que tal se adotássemos a seguinte estratégia para procurar nosso livro:
 
1. Nos deslocamos para o meio da estante.
2. Puxamos o livro do meio da estante (n/2) e vemos se é o que procuramos.
3. Se for o que procuramos, retornamos o livro.
4. Se não for o livro, e seu título estiver na parte da direita da estante dividida, devolvemos o livro para a estante e repetimos os passos 1, 2 e 3 na "subestante" da direita. Se o título estiver à esquerda, repetimos 1, 2 e 3 na subestante da esquerda.
 
Repetimos os 4 passos acima até não ter mais estante para procurar ou achar o livro.
 
&nbsp;
 
Esse mecanismo de busca é chamado de Busca Binária, uma vez que reduzimos pela metade o espaço de busca a cada iteração. Tal técnica se encaixa no paradigma conhecido como **Dividir e Conquistar**, pois dividimos o problema em subproblemas menores a fim de encontrar nossa solução.

In [None]:
# Busca binária

def binary_search(curr_list, x):
    lower = 0
    upper = len(curr_list)-1
    while lower <= upper:
        mid = floor((lower + upper)/ 2)
        print(f'lower: {lower}, upper: {upper}, mid: {mid}')
        if curr_list[mid] == x:
            return curr_list[mid]
        elif curr_list[mid] < x:
            lower = mid + 1
        else:
            upper = mid - 1

Além dos métodos já citados para busca, podemos utilizar também a busca interpolada (variante da busca binária, que depende dos dados ordenados e uniformemente distribuídos)busca em árvores e o _Hashing_, dependendo da estrutura de dados que armazena nossos dados.

## Métodos de ordenação

Tentem imaginar a seguinte situação: há muito tempo, quando não havia internet, existia um caderno enorme amarelo, com nomes, telefones, mapas da cidade, endereços, etc. A famosa lista telefônica. Caso estes dados **não** estivessem ordenados por ordem alfabética, conseguem imaginar a dificuldade de localizar um telefone nessa situação?

Pois é, esse é só um exemplo da importância da ordenação. Facilitar nosso trabalho para pesquisar coisas.

Todos os métodos de ordenação que vamos ver realizam a ordenação com base em comparação de chaves. Outros métodos baseados em distribuição não serão vistos em aula. Mas para quem tiver curiosidade, podem pesquisar por bucket sort ou radix sort na internet.

&nbsp;

O primeiro método que nós vamos ver é o famoso Bubble Sort.

### Bubble Sort

É um método simples e efetivo para listas com poucos elementos. Ele realiza a ordenação movendo o maior elemento para o final da estrutura, sendo que essa movimentação é realizada `n` vezes onde `n` é a quantidade de itens existentes na estrutura.

Vamos implementar ele:

In [None]:
#bubble_sort(lista):
#   para i := até tamanho_lista-1, ate 0, diminui 1
#       para j := até i
#           se lista[j] > lista[j+1]
#               lista[j], lista[j+1] := lista[j+1], lista[j]
#    retorna lista

def bubble_sort(my_list):
    for i in range(len(my_list)-1,0,-1): # começa no len, para no 0, diminui 1 em 1
        for j in range(i):
            if my_list[j] > my_list[j+1]:
                my_list[j], my_list[j+1] = my_list[j+1], my_list[j]
    return my_list

Olhando para o algoritmo, vocês conseguem perceber um problema nele? Uma dica, não é nada relacionado à implementação, e sim comportamental...
 
Então, no Bubble Sort nós temos dois laços aninhados - `for` - o que faz com que sua complexidade seja `O(n`<sup>`2`</sup>`)` em todos os casos (melhor, médio e pior, mesmo que o array esteja ordenado.

Agora que implementamos ele, alguém sabe me dizer por que ele não é muito bom para listas grandes?

Exato, ele pega um elemento e compara com todo o resto da lista, movendo ele pro final se for maior.

Vamos contar quantas operações ele vai fazer, pra ordenar 50 elementos.


Agora extrapolem pra uma lista com 500.000 registros. 1 milhão, 10 milhões, etc.

Ele é fácil de lembrar e implementar. Vale a pena usar ele pra listas pequenas.

Pra listas maiores, tem outros melhores.

## Comparação Big-O
Abaixo podemos visualizar a complexidade de alguns dos algoritmos desenvolvidos:
 
Algoritmo         | melhor caso       | média               | pior caso
---------         | ------            | ------              | ------
Bubble Sort       | O(n<sup>2</sup>)  | O(n<sup>2</sup>)    | O(n<sup>2</sup>)

### Insertion Sort

Acho que todos aqui já jogaram cartas pelo menos uma vez na vida. Seja poker, canastra, truco ou qualquer outro. Na maioria das vezes, quando pegamos as cartas na mão, separamos as trincas e depois as sequências. À medida que compramos novas cartas, e elas entram em algum ponto da sequência, inserimos ela na posição correta.
 
O algoritmo Insertion Sort segue a mesma dinâmica, como o nome sugere. Vamos inserir os elementos já ordenados, para que não exista o custo posterior de ordená-lo. Ele também é melhor quando utilizado em listas/arrays pequenos ou quando os dados já estão parcialmente ordenados.

Vamos implementar ele agora

In [None]:
#insertion_sort(lista):
#   i := 0
#   j := 0
#   temporario := 0
#   enquanto j < tamanho_lista faça
#       temporario := lista[j]
#       i := j - 1
#       enquanto i >= 0 e lista[i] > temporario faça
#           lista[i+1] := lista[i]
#           i := i - 1
#       lista[i+1] := temporario
#       j := j + 1
#   retorna lista

def insertion_sort(my_list):
    i = 0
    j = 0
    temporary = 0
    while j < len(my_list):
        temporary = my_list[j]
        i = j-1
        while i >= 0 and my_list[i] > temporary:
            my_list[i+1] = my_list[i]
            i -= 1
        my_list[i+1] = temporary
        j += 1
    return my_list

No Insertion Sort, para cada item da lista vamos percorrer ela da posição `0` até a posição `i = j - 1`, analisando se o elemento da posição `i` é maior que o da posição `j` (o `temporario`). Se for, avança os maiores para a próxima casa, e por fim adiciona o `temporário` na posição correta (`i + 1`).
 
No melhor dos casos, quando a lista já está ordenada, ele vai percorrer uma vez só a lista de tamanho `n`, o que nos dá uma complexidade `O(n)`. No pior dos casos, em que a ordem da lista está invertida, percorreremos 2 vezes a lista `n`, e a complexidade deste algoritmo passa a ser `O(n`<sup>`2`</sup>`)`. Na média, seu desempenho é `O(n`<sup>`2`</sup>`)`.

## Comparação Big-O
Abaixo podemos visualizar a complexidade de alguns dos algoritmos desenvolvidos:
 
Algoritmo         | melhor caso       | média               | pior caso
---------         | ------            | ------              | ------
Bubble Sort       | O(n<sup>2</sup>)  | O(n<sup>2</sup>)    | O(n<sup>2</sup>)
Insertion Sort    | O(n)              | O(n<sup>2</sup>)    | O(n<sup>2</sup>)

### Merge Sort

Existe uma estratégia de resolução de problemas na computação chamada de **Dividir e Conquistar**, descrita abaixo.
 
> Dada uma entrada de tamanho `n`, dividir e conquistar sugere que a entrada original seja dividida em `k` subconjuntos menores distintos em que `1 < k < n`, gerando assim `k` subproblemas. Estes subproblemas devem ser resolvidos, e por fim deve existir um método que combine estes subproblemas resolvidos em uma solução para o todo.
>
> Caso a entrada `n` seja grande, de forma que os subproblemas `k` ainda sejam grandes após a aplicação da divisão, o método de divisão pode ser reaplicado até encontrar subproblemas menores que possam ser tratados.
&nbsp;
 
O algoritmo Merge Sort utiliza a estratégia de divisão e conquista, dividindo um array de tamanho `n` em partes menores (de tamanho `n/2`) e ordenando estas partes menores na hora de realizar a união delas. Ao chegar na entrada de tamanho `n`, ela está ordenada.

vamos implementar ele agora

In [None]:
#call_merge_sort(lista):
#   retorna merge_sort(lista, 0, tamanho_lista-1)

#merge_sort(lista, inf, sup)
#   se inf < sup
#       meio := floor((inf + sup) / 2)
#       merge_sort(lista, inf, meio)
#       merge_sort(lista, meio + 1, sup)
#       retorna merge_sort_join(lista, inf, meio, sup)   

#merge_sort_join(lista, inf, meio, sup)
#   h := inf
#   i := inf
#   j := meio + 1
#   nova_lista := inicializa lista com valor -1 em todas as posições, de tamanho igual a lista
#   enquanto h <= meio e j <= sup faça
#       se lista[h] <= lista[j] então
#           nova_lista[i] := lista[h]
#           incrementa h
#       senão
#           nova_lista[i] := lista[j]
#           incrementa j
#       incrementa i
#   se h > meio então
#       k := j
#       enquanto k <= sup faça
#           nova_lista[i] := lista[k]
#           incrementa k
#           incrementa i
#   senão
#       k := h
#       enquanto k <= meio, faça
#           nova_lista[i] := lista[k]
#           incrementa k
#           incrementa i
#   k := inf
#   enquanto k <= sup faça
#           lista[k] := nova_lista[k]
#           incrementa k
#   retorna nova_lista

from math import floor

def call_merge_sort(my_list):
    return merge_sort(my_list, 0, len(my_list)-1)

def merge_sort(my_list, lower, upper):
    if lower < upper:
        mid = floor((lower + upper) / 2)
        merge_sort(my_list, lower, mid)
        merge_sort(my_list, mid+1, upper)
        return merge_sort_join(my_list, lower, mid, upper)

def merge_sort_join(my_list, lower, mid, upper):
    h = lower
    i = lower
    j = mid + 1
    aux_list = [-1] * len(my_list)
    while h <= mid and j <= upper:
        if my_list[h] <= my_list[j]:
            aux_list[i] = my_list[h]
            h += 1
        else:
            aux_list[i] = my_list[j]
            j += 1
        i += 1
    if h > mid:
        k = j
        while k <= upper:
            aux_list[i] = my_list[k]
            k += 1
            i += 1
    else:
        k = h
        while k <= mid:
            aux_list[i] = my_list[k]
            k += 1
            i += 1
    k = lower
    while k <= upper:
        my_list[k] = aux_list[k]
        k += 1
    return my_list


In [None]:
from random import randint

my_list = []
for i in range(50):
    x = randint(0,200)
    while x in my_list:
        x = randint(0,200)
    my_list.append(x)

print(my_list)

In [None]:
alist = call_merge_sort(my_list)
print(alist)

Podemos observar que o algoritmo Merge Sort realiza sucessivas chamadas recursivas no array de tamanho `n`, dividindo do `índice menor` até o `meio` do array, e do `meio + 1` até o `índice maior`, até que o subproblema (chamado de `sp` mais adiante) tenha tamanho `1`,
 
Quando ele tem tamanho `1`, começa a retornar, fazendo a ordenação do `sp[indice menor, meio]` com o `sp(meio+1, indice maior)`. Para facilitar o entendimento, observe a representação do funcionamento desse algoritmo em formato de árvore, ilustrando as chamadas realizadas para um array `a` de tamanho `n = 10`

![MergeSort Arvore](https://s3-sa-east-1.amazonaws.com/lcpi/1da35c08-ffba-4259-a396-a8b6572abb1e.png)

#### Comparação Big-O
Abaixo podemos visualizar a complexidade de alguns dos algoritmos desenvolvidos:
 
Algoritmo         | melhor caso       | média               | pior caso
---------         | ------            | ------              | ------
Bubble Sort       | O(n<sup>2</sup>)  | O(n<sup>2</sup>)    | O(n<sup>2</sup>)
Insertion Sort    | O(n)              | O(n<sup>2</sup>)    | O(n<sup>2</sup>)
Merge Sort        | O(n log n)        | O(n log n)          | O(n log n)

### Quick Sort
 
O algoritmo Quick Sort utiliza o mesmo conceito de divisão e conquista que o Merge Sort, porém aplicado de uma forma diferente.
 
Enquanto o `Merge Sort` divide o array de tamanho `n` em `k` partes menores e ordena na união deles (ou seja, o trabalho está na `conquista` da estratégia), o `Quick Sort` divide o array em `k` partes menores, mas realiza o ordenamento na separação do array (ou seja, o trabalho está na `divisão`). Quando precisa juntar o array, ele já está ordenado, só é necessário agrupar os valores.
 
Vamos implementar o quick sort

In [None]:
#quick_sort(lista, inf, sup)
#   se inf < sup
#       pivo := divide(lista, inf, sup)
#       lista = quick_sort(lista, inf, pivo -1)
#       lista = quick_sort(lista, pivo + 1, sup)
#   retorna lista  

#divide(lista, inf, sup)
#   pivo := lista[sup]
#   i := inf-1
#   j := int
#   enquanto j <= sup-1 faça
#       se lista[j] <= pivo então
#           incrementa i
#           lista[i], lista[j] := lista[j], lista[i]
#       incrementa j
#   lista[i+1], lista[sup] := lista[sup], lista[i+1]
#   retorna i+1

Ao receber um array `A`, com o indicativo do início `A[0]` e do fim do array `A[n]`, o quicksort realiza os seguintes procedimentos:
 
Seleciona um `pivot`, neste caso o elemento final `A[n]` do array que vai da posição inicial até a final (`A[0 ... n]`) e reorganiza o array de forma que os elementos à `esquerda` do `pivot` sejam menores ou iguais a ele, e a `direita` maiores ou iguais a ele. Neste momento não importa a ordem destes elementos, apenas a relação entre eles e o pivot. Esse procedimento é chamado de particionamento, e a posição final do pivot é a posição devolvida ao fim do método `Particiona`, chamada de posição `i`.
 
Após inserir o `pivot` na posição correta, realizamos uma nova chamada recursiva para o sub-array `k`, que vai da posição inicial `A[0]` até a posição `A[i - 1]` e outra chamada que vai da posição `A[i + 1]` até `A[n]`, assim sucessivamente até que atinja a condição de parada da recursão. Neste caso, é quando a posição final é maior do que a posição inicial no array (`i - 1 < 0` e `i + 1 < n`).
 
Ao final do método, o array já está ordenado, e não é necessário realizar nenhum procedimento adicional.

#### Comparação Big-O
Abaixo podemos visualizar a complexidade de alguns dos algoritmos desenvolvidos:
 
Algoritmo         | melhor caso       | média               | pior caso
---------         | ------            | ------              | ------
Bubble Sort       | O(n<sup>2</sup>)  | O(n<sup>2</sup>)    | O(n<sup>2</sup>)
Insertion Sort    | O(n)              | O(n<sup>2</sup>)    | O(n<sup>2</sup>)
Merge Sort        | O(n log n)        | O(n log n)          | O(n log n)
Quick Sort        | O(n log n)        | O(n log n)          | O(n<sup>2</sup>)

### Recapitulando
- Ordenação é uma atividade comum e extremamente importante na computação
- A escolha de um algoritmo de ordenação deve ser feita com base na necessidade do programador. Para entradas pequenas, poucas operações de ordenação ou demais casos que julgar sem tanta necessidade do melhor algoritmo pode ser escolhido o método mais simples de implementar.
- Quando a ordenação é um elemento crucial, executada muitas vezes ou com entradas muito grandes, devemos optar pela que apresente melhor desempenho.
- O Bubble Sort é simples, mas com um desempenho ruim para entradas grandes.
- O Insertion Sort é bom para quando são poucos elementos a serem ordenados, ou já está quase tudo ordenado.
- Merge e Quick Sort possuem excelente desempenho em praticamente todos os cenários.