# Aula 12 - *Insertion Sort*

## Objetivos:
- Implementar o *Insertion Sort* em Python
- Avaliar o tempo puro de execução do *Insertion Sort* para o pior caso
- Comparar o tempo puro de execução do *Insertion Sort* com o *Selection Sort*, com o *Bubble Sort* e o método `sort` da classe `list` para o caso médio
- Resolver o problema de intersecção de *arrays*

## Algoritmos de ordenação
Nesta aula continuamos o estudo de algoritmos de ordenação. Nas semanas passadas implementamos o *bubble sort* e o *selection sort*. Hoje implementaremos o *insertion sort* e compararemos sua eficiência com aquela do *bubble sort* e do *selection sort*.

## Ordenação com o *Insertion Sort*

Vimos na aula anterior que o *insertion sort* compreende essencialmente quatro etapas:

1. Na primeira passagem, o valor do índice 1 é removido e armazenado em uma variável temporária; nas passagens subsequentes, os valores dos índices subsequentes são removidos e armazenados temporariamente;
2. Cada valor à esquerda do espaço vazio é comparado com a variável temporária; se for maior, é deslocado para a direita, se for menor, os deslocamentos cessam; os deslocamentos cessam também se o espaço vazio antigir a célula mais à esquerda;
3. O valor na variável temporária é inserido de volta no *array* no espaço vazio;
4. As etapas 1 a 3 são repetidas até que o *array* esteja ordenado.

A figura a seguir mostra a aplicação do *insertion sort* para o *array* `[4, 2, 7, 1, 3]`.

![alt text](https://docs.google.com/uc?export=download&id=1RrAovI2ZHD1uSxZNJQgQN_UoBP_DMZhM)

Vemos ao todo quatro passagens. No início de cada passagem um valor é removido e armazenado na variável temporária, começando no índice 1 com incrementos de 1 a cada passagem. Nos passos 1, 4, 6, 8, 10, 13, 15, e 17 a comparaçãos de um valor à esquerda é realizada com o valor da variável temporária. Notar como após o passo quatro, os deslocamentos são interrompidos, já que 4 é menor do que o valor da variável temporária. No passos 2, 7, 9, 11, 14 e 16 os valores à esquerda são deslocados para o espaço vazio à direita. Notar como no passo 11 os deslocamentos são interrompidos, já que o espaço vazio chegou à célula mais à esquerda. Nos passos 3, 5, 12 e 18 o valor da variável temporária é inserido de volta no espaço vazio do *array*. Ao final do passo 18, o *array* está ordenado.

**Exercício:** Implemente uma função em Python chamada `insertion_sort` para ordenação de um *array* regular que recebe como argumento uma lista com elementos em qualquer ordem e que devolve uma lista com os elementos ordenados. Teste para diferentes listas de entrada.

In [0]:
def insertion_sort(array):
  #remoção
  for j in range(1,len(array)):
    valor_inicial = array[j]
    print(f'valor_inicial - {valor_inicial},{j}')
    #comparação
    for i in range(j-1,-1,-1):
      #deslocamento
      if array[i] > valor_inicial:
        print(f'valor_inicial - {valor_inicial}, elemento maior - {array[i]}')
        array[j] = array[i]
        array[i] = 0
        desloc = True
        print(desloc)
        print(array)
      #inserção
      if (array[j] < valor_inicial|i==-1) & desloc == True:
        print(f'indice - {i+1}')
        array.insert(i+1,valor_inicial)
        array.remove(array[i])
        print(array)
        break
      desloc = False
  print(array)
      
def insertion_sort2(array):
  for index in range(1,len(array)):
    position = index
    temp_value = array[index]
    
    while position > 0 and array[position-1] > temp_value:
      array[position] = array[position-1]
      position -= 1
      
    array[position] = temp_value  
      
      



In [65]:
array = [4, 2, 7, 1, 3]
insertion_sort2(array)
print(array)

[1, 2, 3, 4, 7]


**Exercício:** Use as células abaixo (ou crie mais células, se necessário) para escrever códigos de teste do tempo de execução para a ordenação com *insertion sort* em listas de tamanhos variados com, por exemplo, 100, 1000 e 10000 elementos, várias vezes. Use a função `range` com um passo negativo para criar a lista em ordem descendente, o que configura o pior caso. Os tempos de execução observados são compatíveis com a complexidade $O(n^2)$ como visto na aula anterior?

In [73]:
time = []
for i in range(100):
    l = list(range(100,0,-1))
    t = %timeit -o -r 1 -n 1 -q insertion_sort2(l)
    time.append(t.best)
print(sum(time)/len(time))

0.0007325801299612067


In [74]:
time = []
for i in range(100):
    l = list(range(1000,0,-1))
    t = %timeit -o -r 1 -n 1 -q insertion_sort2(l)
    time.append(t.best)
print(sum(time)/len(time))

0.08014833555002497


In [72]:
time = []
for i in range(100):
    l = list(range(10000,0,-1))
    t = %timeit -o -r 1 -n 1 -q insertion_sort2(l)
    time.append(t.best)
print(sum(time)/len(time))

KeyboardInterrupt: ignored

**Digite aqui a sua resposta:** sim, pois o tempo de execução aumenta próximo de um comportamento quadrado

**Exercício:** Repita o exercício anterior para o "caso médio". Ou seja, crie listas com valores aleatórios. Use a função [`randint`](https://docs.python.org/3.7/library/random.html) do módulo `random` e abrangência de listas. Os resultados são consistentes com a discussão realizada na aula anterior?

In [76]:
import random
time = []
for i in range(100):
    l = [random.randint(0,100000) for i in range(100) ]
    t = %timeit -o -r 1 -n 1 -q insertion_sort2(l)
    time.append(t.best)
print(sum(time)/len(time))

0.0004152247799902398


In [77]:
time = []
for i in range(100):
    l = [random.randint(0,100000) for i in range(1000) ]
    t = %timeit -o -r 1 -n 1 -q insertion_sort2(l)
    time.append(t.best)
print(sum(time)/len(time))

0.04262075905004622


In [78]:
time = []
for i in range(100):
    l = [random.randint(0,100000) for i in range(10000) ]
    t = %timeit -o -r 1 -n 1 -q insertion_sort2(l)
    time.append(t.best)
print(sum(time)/len(time))

KeyboardInterrupt: ignored

**Digite aqui a sua resposta:**Sim, pois o tempo diminuiu pela metade

**Exercício:** Repita nas células a seguir o exercício anterior usando o *bubble sort*. Os resultados são consistentes com a discussão realizada na aula anterior?

In [0]:
# Função para ordenação de listas pelo método bubble sort
def bubble_sort(list):
    unsorted_until_index = len(list) - 1
    sorted = False
    while not sorted:
        sorted = True
        for i in range(unsorted_until_index):
            if list[i] > list[i+1]:
                sorted = False
                list[i], list[i+1] = list[i+1], list[i]
        unsorted_until_index = unsorted_until_index - 1

In [81]:
time = []
for i in range(100):
    l = [random.randint(0,100000) for i in range(100) ]
    t = %timeit -o -r 1 -n 1 -q bubble_sort(l)
    time.append(t.best)
print(sum(time)/len(time))

0.0006998358000191729


In [82]:
time = []
for i in range(100):
    l = [random.randint(0,100000) for i in range(1000) ]
    t = %timeit -o -r 1 -n 1 -q insertion_sort2(l)
    time.append(t.best)
print(sum(time)/len(time))

0.04187038353000389


In [0]:
time = []
for i in range(100):
    l = [random.randint(0,100000) for i in range(10000) ]
    t = %timeit -o -r 1 -n 1 -q insertion_sort2(l)
    time.append(t.best)
print(sum(time)/len(time))

**Digite aqui a sua resposta:**

**Exercício** Repita nas células a seguir o exercício anterior usando o *selection sort*. Os resultados são consistentes com a discussão realizada na aula anterior?

In [0]:
# Função para ordenação de listas pelo método selection sort
def selection_sort(array):
    for i in range(len(array)):
        lowestNumberIndex = i
        for j in range(i+1, len(array)):
            if array[j] < array[lowestNumberIndex]:
                lowestNumberIndex = j
        if lowestNumberIndex != i:
            array[i], array[lowestNumberIndex] = array[lowestNumberIndex], array[i]

In [84]:
time = []
for i in range(100):
    l = [random.randint(0,100000) for i in range(100) ]
    t = %timeit -o -r 1 -n 1 -q selection_sort(l)
    time.append(t.best)
print(sum(time)/len(time))

0.000329335539991007


In [85]:
time = []
for i in range(100):
    l = [random.randint(0,100000) for i in range(1000) ]
    t = %timeit -o -r 1 -n 1 -q selection_sort(l)
    time.append(t.best)
print(sum(time)/len(time))

0.03163927576002152


In [86]:
time = []
for i in range(100):
    l = [random.randint(0,100000) for i in range(10000) ]
    t = %timeit -o -r 1 -n 1 -q selection_sort(l)
    time.append(t.best)
print(sum(time)/len(time))

KeyboardInterrupt: ignored

**Digite aqui a sua resposta:**

## Intersecção de *arrays* (array based-set)

Considere o problema de obter um novo *array* a partir da intersecção de dois *arrays*. Ou seja, o novo *array* contém apenas os elementos que são comuns aos dois *arrays* iniciais. O código a seguir apresenta um possível solução.

In [0]:
# Função que cria um novo array a partir da interseção de dois arrays
def interseccao(array1, array2):
    resultado = []
    for i in array1:
        for j in array2:
            if i == j:
                resultado.append(i)
    return resultado

**Exercício:** Teste a função `interseccao` para alguns exemplos de *arrays* e certifique-se de que ela funciona.

In [90]:
array1 = [1,2,3,5,4,7]
array2 = [2,6,5,7,8,9]
interseccao(array1, array2)
array3 = [8,9,65,45,512,36]
array4 = [2,45,7,65,98,8,96]
interseccao(array3, array4)

[8, 65, 45]

**Exercício:** Analise o código e determine o que caracteriza um passo na solução desse problema(A comparação e inserção num novo array). O que caracteriza um cenário de pior caso para este problema? (todos os elementos de um array pertencer ao outro.) Qual o número de passos necessários para resolver o problema no pior caso? (n*m) Se necessário, faça uma função `interseccao` que mostra os passos. Qual a ordem de crescimento ou complexidade no tempo da função `intereseccao` usando a notação Big O? O(nm)

In [0]:
def interseccao(array1, array2):
    resultado = []
    for i in array1:
        for j in array2:
          print(i,j)
            if i == j:
              print(i,j,resultado)
                resultado.append(i)
    return resultado

In [0]:
# digite seu código aqui

**Exercício:** Use as células abaixo (ou crie mais células, se necessário) para escrever códigos de teste do tempo de execução de `intereseccao` em listas de tamanhos variados com, por exemplo, 100, 1000 e 10000 elementos, várias vezes. Os tempos de execução observados são compatíveis com a análise dos exercícios anteriores?

In [91]:
time = []
for i in range(100):
    l1 = list(range(100,0,-1))
    l2 = list(range(0,100,1))
    t = %timeit -o -r 1 -n 1 -q interseccao(l1,l2)
    time.append(t.best)
print(sum(time)/len(time))

0.0003224883599250461


In [92]:
time = []
for i in range(100):
    l1 = list(range(1000,0,-1))
    l2 = list(range(0,1000,1))
    t = %timeit -o -r 1 -n 1 -q interseccao(l1,l2)
    time.append(t.best)
print(sum(time)/len(time))

0.02737545611001224


In [93]:
time = []
for i in range(100):
    l1 = list(range(10000,0,-1))
    l2 = list(range(0,10000,1))
    t = %timeit -o -r 1 -n 1 -q interseccao(l1,l2)
    time.append(t.best)
print(sum(time)/len(time))

KeyboardInterrupt: ignored

**Digite aqui sua resposta:** 

**Exercício:** Repita o caso anterior e avalie o desempenho para o caso médio. Use a função `randint` do módulo `random` para criar listas com valores aleatórios.

In [95]:
time = []
for i in range(100):
    l1 = [random.randint(0,100000) for i in range(100)]
    l2 = [random.randint(0,100000) for i in range(100)]
    t = %timeit -o -r 1 -n 1 -q interseccao(l1,l2)
    time.append(t.best)
print(sum(time)/len(time))

0.0003389338300075906


In [96]:
time = []
for i in range(100):
    l1 = [random.randint(0,100000) for i in range(1000)]
    l2 = [random.randint(0,100000) for i in range(1000)]
    t = %timeit -o -r 1 -n 1 -q interseccao(l1,l2)
    time.append(t.best)
print(sum(time)/len(time))

0.030395440979964404


In [0]:
time = []
for i in range(100):
    l1 = [random.randint(0,100000) for i in range(10000)]
    l2 = [random.randint(0,100000) for i in range(10000)]
    t = %timeit -o -r 1 -n 1 -q interseccao(l1,l2)
    time.append(t.best)
print(sum(time)/len(time))

## Melhorando para o caso médio

Se você analisou corretamente a implementação anterior que resolve o problema de verificação de valores duplicados em um *array*, determinou a complexidade é $O(n^2)$. Será possível usar um algoritmo mais eficiente para a intersecção dos valores de dois *arrays*?

![alt text](https://docs.google.com/uc?export=download&id=1aboYRwZYOiL99MJE9McZp6TWfPLr-u_6)

A figura acima mostra o caso de aplicação da função intersecao para os *arrays* `[2, 8, 1]` e `[5, 8, 3]`. Nesta aplicação o algoritmo identica por meio de comporação os dois *arrays* possuem em comum o valor oito. Neste momento, o algoritmo poderia ser interrompido. Todavia, a implementação atual continua com as comparações e faz uma comparação desnecessária.


**Exercício:** Com base na discusão anterior, implemente uma função em Python chamada `interseccao_rapida` para copiar os valores alternados de um *array* que seja mais eficiente do que a implementação original.

In [0]:
# digite seu código aqui

**Exercício:** Teste a função `interseccao_rapida` para alguns exemplos e certifique-se de que ela funciona.


In [0]:
# digite seu código aqui

**Digite aqui sua resposta:** 

**Exercício:** Use as células abaixo (ou crie mais células, se necessário) para escrever códigos de teste do tempo de execução de `intereseccao_rapida` em listas de tamanhos variados com, por exemplo, 100, 1000 e 10000 elementos, várias vezes. Os tempos de execução observados são compatíveis com a análise dos exercícios anteriores? Foi possível obter um algoritmo mais eficiente para o caso médio?

In [0]:
# digite seu código aqui

In [0]:
# digite seu código aqui

In [0]:
# digite seu código aqui

**Digite aqui sua resposta:**