# Aula 8 - Bubble Sort

## Objetivos:
- Implementar o Bubble Sort em Python
- Comparar o tempo puro do Bubble Sort com o método `sort` da classe `list`
- Exercitar a notação Big O com um novo problema

## Algoritmos de ordenação
A partir da aula anterior, iniciamos o estudo de algoritmos de ordenação. Isto é, algoritmos que recebem um *array* com elementos fora de ordem os coloca em ordem ascendente. Há diversos algoritmos com essa finalidade. Hoje implementaremos o *bubble sort*. Nas próximas aulas estudaremos outros algoritmos e faremos sua implementação. Cada vez que um novo algoritmo for implementado, faremos a comparação de desempenho entre eles.

## Ordenação com o *Bubble Sort*

Vimos na aula anterior que o *bubble sort* compreende essencialmente quatro procedimentos com início nos índices 0 e 1:

1. Apontar dois itens consecutivos no *array* e comparar os dois elementos;
2. Se estiverem foram de ordem, trocá-los de posição, caso contrário não fazer nada;
3. Mover os ponteiros uma célula à direita e repetir os pasos 1 e 2 até o final do *array* ou até um elemento que já esteja na ordem correta (como resultado do algoritmo). Cada vez que se conclui o procedimento 3, ocorreu uma passagem;
4. Repetir os passos 1 a 3 até que ocorra uma passagem em que não foi necessária a realização de trocas. O *array* estará ordenado.

Após cada passagem, um elemento adicional ao final do *array* fica na ordem correta, do final para o início. A figura a seguir mostra a aplicação do *bubble sort* para o *array* `[4, 2, 7, 1, 3]`.

![alt text](https://docs.google.com/uc?export=download&id=1asBq5jSr3ajfOezaiBdTgbS2NaFSpACp)

Vemos ao todo quatro passagens (procedimento 3). Nos passos 1, 4, 6, 9, 11 e 13 a comparação dos dois valores mostra que estão fora de ordem e a troca é realizada no passo seguinte (2, 5, 7, 10, 12 e 14). Nos passos 3, 8, 15 e 16 os valores estão em ordem e a troca não é necessária. Note também que ao final de cada passagem o maior número é colocado na posição correta como consequência de trocas sucessivas. Na passagem 4, como nenhuma troca foi necessária, o algoritmo encerra e o *array* está ordenado.


**Exercício:** Implemente uma função em Python chamada `bubble_sort` para ordenação de um *array* regular que recebe como argumento uma lista com elementos em qualquer ordem e que devolve uma lista com os elementos ordenados. Teste para diferentes listas de entrada.

In [0]:
def bubble_sort(array):
  troca = 0
  ordenado = False
  indice_nao_ordenado = len(array)-1
  while not ordenado:
    ordenado = True
    for i in range(indice_nao_ordenado):
      if array[i] > array[i+1]:
        ordenado = False
        array[i],array[i+1] = array[i+1], array[i]
        troca += 1
        print(f'troca efetuada em {i}')
        print(array)
    indice_nao_ordenado -= 1
        
  print(f'{array}: array ordenado com {troca} trocas')
  
  
def bubble_sort2(list):
  unsorted_until_index = len(list) - 1
  sorted = False
    
  while not sorted:
    sorted = True
    for i in range(unsorted_until_index):
      if list[i] > list[i+1]:
        sorted = False
        list[i], list[i+1] = list[i+1], list[i]
    unsorted_until_index = unsorted_until_index - 1
 

In [65]:
array = [4,2,7,1,3]
bubble_sort(array)

troca efetuada em 0
[2, 4, 7, 1, 3]
troca efetuada em 2
[2, 4, 1, 7, 3]
troca efetuada em 3
[2, 4, 1, 3, 7]
troca efetuada em 1
[2, 1, 4, 3, 7]
troca efetuada em 2
[2, 1, 3, 4, 7]
troca efetuada em 0
[1, 2, 3, 4, 7]
[1, 2, 3, 4, 7]: array ordenado com 6 trocas


**Exercício:** Use as células abaixo (ou crie mais células, se necessário) para escrever códigos de teste do tempo de execução para a operação de busca linear em listas de tamanhos variados com, por exemplo, 100, 1000 e 10000 elementos, várias vezes. Use os métodos `sort` com a opção `reverse` igual a `True` da classe `list` para criar lista em ordem descendente que configuram o pior caso. Os tempos de execução observados são compatíveis com a complexidade $O(n^2)$ como visto na aula anterior?

In [73]:
lista = list(range(100,0,-1))
%timeit bubble_sort2(lista)

The slowest run took 114.79 times longer than the fastest. This could mean that an intermediate result is being cached.
100000 loops, best of 3: 7.14 µs per loop


In [74]:
lista = list(range(1000,0,-1))
%timeit bubble_sort2(lista)

The slowest run took 1320.61 times longer than the fastest. This could mean that an intermediate result is being cached.
10000 loops, best of 3: 80.3 µs per loop


In [75]:
lista = list(range(10000,0,-1))
%timeit bubble_sort2(lista)

The slowest run took 7434.60 times longer than the fastest. This could mean that an intermediate result is being cached.
1 loop, best of 3: 1.35 ms per loop


**Exercício** Repita o exercício anterior usando o método `sort` da classe `list`. Compare os resultados obtidos com os resultados do exercício anterior. É possível que o método `sort` use bubble sort para ordenar listas?

In [69]:
lista = list(range(100,0,-1))
%timeit sorted(lista)
#lista.sort()

The slowest run took 4.82 times longer than the fastest. This could mean that an intermediate result is being cached.
1000000 loops, best of 3: 1.42 µs per loop


In [67]:
lista = list(range(1000,0,-1))
%timeit sorted(lista)

100000 loops, best of 3: 12.7 µs per loop


In [68]:
lista = list(range(10000,0,-1))
%timeit sorted(lista)

10000 loops, best of 3: 126 µs per loop


## Um novo problema

Considere o problema de verificar se um *array* possui valores duplicados. O código a seguir apresenta um possível solução (uma solução equivalente pode ser implementada usando `enumerate`).

In [0]:
# Função que verifica se um array possui valores duplicados
def tem_valores_duplicados(array):
    for i in range(len(array)):
        for j in range(len(array)):
            if i != j and array[i] == array[j]:
                   return True
    return False

**Exercício:** Teste a função `tem_valores_duplicados` para alguns exemplos com e sem valores duplicados e certifique-se de que ela funciona.

In [82]:
array = [1,2,6,8,8,9]
print(tem_valores_duplicados(array))
print('-----------------')
array1 = [1,2,2,8,9]
print(tem_valores_duplicados(array1))
print('-----------------')
array2 = [1,2,6,8,9,10]
print(tem_valores_duplicados(array2))
print('-----------------')
array3 = [1,2,6,8,9,9]
print(tem_valores_duplicados(array3))

0 0 1 1
0 1 1 2
0 2 1 6
0 3 1 8
0 4 1 8
0 5 1 9
1 0 2 1
1 1 2 2
1 2 2 6
1 3 2 8
1 4 2 8
1 5 2 9
2 0 6 1
2 1 6 2
2 2 6 6
2 3 6 8
2 4 6 8
2 5 6 9
3 0 8 1
3 1 8 2
3 2 8 6
3 3 8 8
3 4 8 8
True
-----------------
0 0 1 1
0 1 1 2
0 2 1 2
0 3 1 8
0 4 1 9
1 0 2 1
1 1 2 2
1 2 2 2
True
-----------------
0 0 1 1
0 1 1 2
0 2 1 6
0 3 1 8
0 4 1 9
0 5 1 10
1 0 2 1
1 1 2 2
1 2 2 6
1 3 2 8
1 4 2 9
1 5 2 10
2 0 6 1
2 1 6 2
2 2 6 6
2 3 6 8
2 4 6 9
2 5 6 10
3 0 8 1
3 1 8 2
3 2 8 6
3 3 8 8
3 4 8 9
3 5 8 10
4 0 9 1
4 1 9 2
4 2 9 6
4 3 9 8
4 4 9 9
4 5 9 10
5 0 10 1
5 1 10 2
5 2 10 6
5 3 10 8
5 4 10 9
5 5 10 10
False
-----------------
0 0 1 1
0 1 1 2
0 2 1 6
0 3 1 8
0 4 1 9
0 5 1 9
1 0 2 1
1 1 2 2
1 2 2 6
1 3 2 8
1 4 2 9
1 5 2 9
2 0 6 1
2 1 6 2
2 2 6 6
2 3 6 8
2 4 6 9
2 5 6 9
3 0 8 1
3 1 8 2
3 2 8 6
3 3 8 8
3 4 8 9
3 5 8 9
4 0 9 1
4 1 9 2
4 2 9 6
4 3 9 8
4 4 9 9
4 5 9 9
True


**Exercício:** Analize o código e determine o que caracteriza um passo na solução desse problema. O que caracteriza um cenário de pior caso para este problema? Qual o número de passos necessários para resolver o problema no pior caso? Se necessário, faça uma função `tem_valores_duplicados_print` que mostra os passos. Qual a ordem de crescimento ou complexidade no tempo da função `tem_valores_duplicados` usando a notação Big O?

**Digite aqui sua resposta:** a comparação no ´if´, pior caso é não ter duplicado, feito em  O(n²), pois percorre para cada elemento, ele percorre toda a lista.


**Exercício:** Use as células abaixo (ou crie mais células, se necessário) para escrever códigos de teste do tempo de execução de `tem_valores_duplicados` em listas de tamanhos variados com, por exemplo, 100, 1000 e 10000 elementos, várias vezes. Os tempos de execução observados são compatíveis com a análise dos exercícios anteriores?

In [87]:
array = range(100)
%timeit tem_valores_duplicados(array)

1000 loops, best of 3: 1.8 ms per loop


In [88]:
array = range(1000)
%timeit tem_valores_duplicados(array)

1 loop, best of 3: 217 ms per loop


In [89]:
array = range(10000)
%timeit tem_valores_duplicados(array)

1 loop, best of 3: 24 s per loop


**Digite aqui sua resposta:** Sim, os tempos de execução são compativeis com a analise anterior. multiplicando por 10 o tamanho de entrada o tempo aumenta 100 vezes (n²).

## Uma solução linear

Se você analisou corretamente a implementação anterior que resolve o problema de verificação de valores duplicados em um *array*, determinou a complexidade é $O(n^2)$. Nosso conhecimento de ordem de crescimento e análise de algoritmos já nos permite dizer que um algoritmo com tempo quadrático pode até resolver o problema, mas não é muito eficiente. Tempo quadrático é o esperado quando temos dois laços de repetição aninhados. Será possível usar um algoritmo mais eficiente para verificar se um *array* possui valores duplicados?



**Exercício:** Implemente uma função em Python chamada `tem_valores_duplicados_rapida` para ordenação de um *array* com os elementos em qualquer ordem que seja mais eficiente do que $O(n^2)$.

In [0]:
def tem_valores_duplicados_rapida(array):
  numerosExistentes = dict()
  for i in range(len(array)):
    if(numerosExistentes.get(array[i],None)==None):
      numerosExistentes[array[i]] = 1
    else:
       return True
  return False
    

**Exercício:** Teste a função `tem_valores_duplicados_rapida` para alguns exemplos com e sem valores duplicados e certifique-se de que ela funciona.


In [95]:
print(tem_valores_duplicados_rapida([1,3,5,2,1]))
print(tem_valores_duplicados_rapida([2,3,5,6,7]))

True
False


**Exercício:** Analise o código e determine o que caracteriza um passo na solução desse problema. O que caracteriza um cenário de pior caso para este problema? Qual o número de passos necessários para resolver o problema no pior caso? Se necessário, faça uma função `tem_valores_duplicados_rapida_print` que mostra os passos. Qual a ordem de crescimento ou complexidade no tempo da função tem_valores_duplicados usando a notação Big O?

In [0]:
# digite seu código aqui

**Digite aqui sua resposta:** 

**Exercício:** Use as células abaixo (ou crie mais células, se necessário) para escrever códigos de teste do tempo de execução de `tem_valores_duplicados_rapida` em listas de tamanhos variados com, por exemplo, 100, 1000 e 10000 elementos, várias vezes. Os tempos de execução observados são compatíveis com a análise dos exercícios anteriores?

In [0]:
# digite seu código aqui

In [0]:
# digite seu código aqui

In [0]:
# digite seu código aqui