##**Programação e Algoritmos II**
Prof. Alexandre Levada

##**Algoritmos para ordenação de Dados**

Ser capaz de ordenar os elementos de um conjunto de dados é uma das tarefas básicas mais requisitadas por aplicações computacionais.

Um exemplo é justamente a Busca Binária, que requer um vetor ordenado para funcionar.

**Algoritmo Bubblesort**

O algoritmo Bubblesort é uma das abordagens mais simplistas para a ordenação de dados. A ideia básica consiste em percorrer o vetor diversas vezes, em cada passagem fazendo flutuar para o topo da lista (posição mais a direita possível) o maior elemento da sequência. Esse padrão de movimentação lembra a forma como as bolhas em um tanque procuram seu próprio nível, e disso vem o nome do algoritmo (também conhecido como o método bolha)

Exemplo: mostre o passo a passo necessário para a ordenação do seguinte vetor

[5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

Explicação em vídeo: https://www.youtube.com/watch?v=JyEZT-CdH8w&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=9

In [2]:
import numpy as np
import time

# Implementação em Python do algoritmo de ordenação Bubblesort
def BubbleSort(L):
    # Percorre cada elemento da lista L
    for i in range(len(L)-1, 0, -1):
        # Flutua o maior elemento para a posição mais a direita
        for j in range(i):
            if L[j] > L[j+1]:
                L[j], L[j+1] = L[j+1], L[j]

# Início do script
n = 100
X = list(np.random.random(n))

#X = [5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

# Imprime vetor
print('Vetor não ordenado: ')
print(X)
print()

# Aplica Bubblesort
inicio = time.time()
BubbleSort(X)
fim = time.time()

# Imprime vetor ordenado
print('Vetor ordenado: ')
print(X)
print()
print('Tempo de processamento: %.3f s' %(fim - inicio))

Vetor não ordenado: 
[0.7275905243766688, 0.8507849443030012, 0.3057154854662445, 0.8009694409484227, 0.07838799439481825, 0.37943262220719975, 0.6359752913730631, 0.7843319461102958, 0.8807771143222751, 0.4537145818025642, 0.6365482867728014, 0.2500403227699354, 0.4446494386902924, 0.6351455848701395, 0.5919231429398132, 0.941081595601543, 0.19122090536860692, 0.6556336934669141, 0.47390724826876574, 0.699961078620144, 0.9431511621798779, 0.3257968614240363, 0.804495947292104, 0.10597424062226934, 0.26538941450315445, 0.029214590831349363, 0.3195688591541641, 0.24468546376690237, 0.14096567059653142, 0.5833549350568997, 0.4914595924318268, 0.16364707120302835, 0.5465524162178478, 0.8015522832044133, 0.35034416010882474, 0.7280273058277416, 0.753246492240085, 0.07416576895077964, 0.3598183661045956, 0.03221083814632797, 0.4657416912031207, 0.08860024639924458, 0.2294966226144346, 0.5891244439467276, 0.305910543638478, 0.7294880322891912, 0.28045291908178627, 0.675834532590089, 0.046638

**Análise da complexidade do Bubblesort**

1. Melhor caso: é possível realizar uma pequena modificação na função anterior.

In [None]:
def BubbleSort(L):
    # Percorre cada elemento da lista L
    trocas = 0
    for i in range(len(L)-1, 0, -1):
        # Flutua o maior elemento para a posição mais a direita
        for j in range(i):
            if L[j] > L[j+1]:
                L[j], L[j+1] = L[j+1], L[j]
                trocas = trocas + 1
        if trocas == 0:
          break

Dessa forma, temos que no melhor caso (vetor ordenado), o for mais interno irá executar n - 1 vezes e o for mais externo apenas uma única vez, o que nos leva a $T(n) = n-1$, e portanto a complexidade $O(n)$. 

2. Pior caso

Note que no pior caso o segundo loop vai de 0 a i, sendo que na primeira vez i = n – 1, na segunda vez i = n – 2 e até i = 0. Sendo assim, o número de operações é dado por:

$$
T(n) = ( (n – 1) + (n - 2) + … + 1 )
$$

Já vimos na aula anterior que o somatório 1 + 2 + … + n é igual a:

$$
T(n) = \frac{n(n-1)}{2}
$$

o que nos leva a complexidade $O(n^2)$.

3. Caso médio

Precisamos calcular a média dos custos entre todos os casos possíveis. O primeiro caso (de menor custo) ocorre quando o laço mais externo realiza uma única iteração e o último caso (de maior custo) ocorre quando o laço externo realiza o número máximo de iterações, isto é, n-1 iterações. Como todos os casos são igualmente prováveis, o número de trocas no caso médio é dado por:

$$
T(n) = \frac{1}{n-1}\sum_{k=1}^{n-1}\left( \sum_{i=1}^{k} i \right)
$$

Explicação em vídeo: https://www.youtube.com/watch?v=JyEZT-CdH8w&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=9

**Algoritmo Selectionsort**

A ordenação por seleção é um método baseado em trocar o menor valor do vetor para a primeira posição mais a esquerda disponível, depois o de segundo menor valor para a segunda posição e assim sucessivamente, com os n – 1 elementos restantes. Esse algoritmo compara a cada iteração um elemento com os demais, visando encontrar o menor. A complexidade desse algoritmo será sempre de ordem quadrática, isto é o número de operações realizadas depende do quadrado do tamanho do vetor de entrada.  Algumas vantagens desse método são: é um algoritmo simples de ser implementado, não usa um vetor auxiliar e portanto ocupa pouca memória, é um dos mais velozes para vetores pequenos. Como desvantagens podemos citar o fato de que ele não é muito eficiente para grandes vetores.

Exemplo: mostre os passos necessários para a ordenação do seguinte vetor

[5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

Explicação em vídeo: https://www.youtube.com/watch?v=-fv_XGPfkgU&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=10


In [3]:
import numpy as np
import time

# Implementação em Python do algoritmo de ordenação Selectionsort
def SelectionSort(L):
    # Percorre todos os elementos de L
    for i in range(len(L)):
        menor = i
        # Encontra o menor elemento
        for k in range(i+1, len(L)):
            if L[k] < L[menor]:
                menor = k 
        # Troca a posição do elemento i com o menor
        L[menor], L[i] = L[i], L[menor]

# Início do script
n = 100
X = list(np.random.random(n))

#X = [5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

# Imprime vetor
print('Vetor não ordenado: ')
print(X)
print()

# Aplica Bubblesort
inicio = time.time()
SelectionSort(X)
fim = time.time()

# Imprime vetor ordenado
print('Vetor ordenado: ')
print(X)
print()
print('Tempo de processamento: %.3f s' %(fim - inicio))

Vetor não ordenado: 
[0.5482573361182351, 0.5637578975489441, 0.8780632130694053, 0.29303980197431223, 0.709406672256971, 0.9156308064076711, 0.6394403713250473, 0.5064167441377128, 0.24959036827969672, 0.309918144863469, 0.2770107982401787, 0.9744456698471703, 0.48448052366482686, 0.8282592491807466, 0.5219004472859944, 0.40088944077322397, 0.8401338501611824, 0.09923835709647477, 0.35775961126854416, 0.8662871322673503, 0.3641872624623559, 0.6420965146531493, 0.9085153549261777, 0.580620193572199, 0.06681379520746333, 0.004039433374338763, 0.37211228037455923, 0.29447389558432047, 0.7787267501491865, 0.5449574983992107, 0.6397566720395645, 0.6585541826967629, 0.18608432973052025, 0.051305046960893885, 0.19582842508558673, 0.08785783023281324, 0.5556586075128952, 0.4751337547241995, 0.202205394499271, 0.5431757759538026, 0.2546485350557558, 0.2243640177064674, 0.10350574336692964, 0.5652131892830888, 0.24838738761244805, 0.46943080733219367, 0.49881134437121943, 0.7292717941871318, 0.

**Análise da complexidade do Selectionsort**

**1. Pior caso**

Observando a função definida anteriormente, note que no pior caso o segundo loop vai de i + 1 até n, sendo que na primeira vez i = 1, na segunda vez i = 2 e até i = n - 1. Sendo assim, o número de operações é dado por:

$$
T(n) = \sum_{i=0}^{n-1}\left( 2 + \sum_{j=i+1}^{n-1} 1 \right)
$$

Resolução dos cálculos em vídeo: https://www.youtube.com/watch?v=-94G-htRbAg&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=11

**2. Melhor caso**

Note que encontrar o menor elemento da lista exige percorrer todos as posições do vetor, ou seja o loop mais interno sempre será executado o número máximo de vezes, o que nos leva a uma complexidade $O(n^2)$.

**3. Caso médio**

Como tanto o melhor quanto pior casos são quadráticos, o caso médio também tem complexidade $O(n^2)$.

**O algoritmo Insertionsort (Inserção direta)**

Podemos fazer uma comparação do Insertion sort com o modo de como algumas pessoas organizam um baralho num jogo de cartas. Imagine que você está jogando cartas. Você está com as cartas na mão e elas estão ordenadas. Você recebe uma nova carta e deve colocá-la na posição correta da sua mão de cartas, de forma que as cartas obedeçam a ordenação. A cada nova carta adicionada a sua mão de cartas, a nova carta pode ser menor que algumas das cartas que você já tem na mão ou maior, e assim, você começa a comparar a nova carta com todas as cartas na sua mão até encontrar sua posição correta. Você insere a nova carta na posição correta, e, novamente, sua mão é composta de cartas totalmente ordenadas. Então, você recebe outra carta e repete o mesmo procedimento. Então outra carta, e outra, e assim por diante, até você não receber mais cartas. Esta é a ideia por trás da ordenação por inserção. Percorra as posições do vetor, começando com o índice zero. Cada nova posição é como a nova carta que você recebeu, e você precisa inseri-la no lugar correto no sub-vetor ordenado à esquerda daquela posição.

Exemplo: mostre os passos necessários para a ordenação do seguinte vetor

[5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

Explicação em vídeo: https://www.youtube.com/watch?v=-94G-htRbAg&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=11

In [4]:
import numpy as np
import time

# Implementação em Python do algoritmo de ordenação Insertionsort
def InsertionSort(L):
    # Percorre cada elemento de L
    for i in range(1, len(L)):
        k = i
        # Insere o pivô na posição correta
        while k > 0 and L[k] < L[k-1]:
            L[k], L[k-1] = L[k-1], L[k]
            k = k - 1

# Início do script
n = 100
X = list(np.random.random(n))

#X = [5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

# Imprime vetor
print('Vetor não ordenado: ')
print(X)
print()

# Aplica Bubblesort
inicio = time.time()
InsertionSort(X)
fim = time.time()

# Imprime vetor ordenado
print('Vetor ordenado: ')
print(X)
print()
print('Tempo de processamento: %.3f s' %(fim - inicio))

Vetor não ordenado: 
[0.024660133954637842, 0.9613370072250393, 0.47070054978109355, 0.285447992173283, 0.8989614335416852, 0.9598021279041808, 0.23118114771562703, 0.14476338904399944, 0.8195006557954393, 0.26592338622871725, 0.05990406842991769, 0.12418363155910017, 0.23246368185507782, 0.15005299296327024, 0.010902912197559456, 0.575297357783379, 0.8620002361682136, 0.5037160796516315, 0.1998589126337874, 0.9090852137723718, 0.7330244588059402, 0.07569450140347467, 0.9077516823729083, 0.7280973007112267, 0.4255622129866342, 0.04396554607617176, 0.5357460628701209, 0.5162980541399441, 0.31531671683878515, 0.04820782922585054, 0.9026963491752344, 0.3793015277687397, 0.47401933843809374, 0.4477737547364492, 0.02999744476525723, 0.805453268299655, 0.06248177246993614, 0.1903897727671977, 0.375242379906751, 0.2626567910665606, 0.9300450576123067, 0.49266019075107637, 0.5466601675016673, 0.546470776604665, 0.5586969266689518, 0.757134208404029, 0.6208823182983143, 0.9100112587190272, 0.73

**Análise da complexidade do Insertionsort**

**1. Pior caso**

Note que no pior caso a posição correta do pivô será sempre em k = 0 de modo que o segundo loop vai ter de percorrer todo vetor (de i até 0), sendo que na primeira vez i = 1, na segunda vez i = 2 e até i = n - 1. Sendo assim, o número de operações é dado por:

$$
T(n) = \sum_{i=1}^{n-1}\left(1 + \sum_{j=0}^{i} 2 \right)
$$

Explicação em vídeo: https://www.youtube.com/watch?v=-94G-htRbAg&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=11

**2. Melhor caso**

Para o melhor caso, note que o pivô sempre está na posição correta, sendo que o loop mais interno não será executado nenhuma vez. Assim temos que dentro do loop mais externo apenas uma instrução será executada, o que nos leva a:

$$
T(n) = \sum_{i=1}^{n-1}1 = n - 1
$$

o que significa complexidade $O(n)$.

**3. Caso médio**

Para o caso médio, podemos aplicar uma estratégia muito similar àquela adotada na análise do Bubblesort. A ideia consiste em considerar que todos os casos são igualmente prováveis e calcular uma média de todos eles. Assim, temos:

$$
T(n) = \frac{1}{n-1}\sum_{k=1}^{n-1}\left[ \sum_{i=1}^{k} \left(1 + \sum_{j=0}^{i} 2 \right) \right]
$$

Explicação em vídeo: https://www.youtube.com/watch?v=-94G-htRbAg&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=11

**Recursão**

Dizemos que uma função é recursiva se ela é definida em termos dela mesma. Em matemática e computação uma classe de objetos ou métodos exibe um comportamento recursivo quando pode ser definido por duas propriedades:

1. Um caso base: condição de término da recursão em que o processo produz uma resposta.

2. Um passo recursivo: um conjunto de regras que reduz todos os outros casos ao caso base.

A série de Fibonacci é um exemplo clássico de recursão, pois:

$F(1) = 1$	(caso base)
$F(2) = 1$	(caso base)

Para todo n > 1, $F(n) = F(n - 1) + F(n - 2)$

**O algoritmo Quicksort**

O algoritmo Quicksort segue o paradigma conhecido como “Dividir para Conquistar” pois ele quebra o problema de ordenar um vetor em subproblemas menores, mais fáceis e rápidos de serem resolvidos. Primeiramente, o método divide o vetor original em duas partes: os elementos menores que o pivô (tipicamente escolhido como o primeiro ou último elemento do conjunto). O método então ordena essas partes de maneira recursiva. 

O algoritmo pode ser dividido em 3 passos principais:

1. Escolha do pivô: em geral, o pivô é o primeiro ou último elemento do conjunto.

2. Particionamento: reorganizar o vetor de modo que todos os elementos menores que o pivô apareçam antes dele (a esquerda) e os elementos maiores apareçam após ele (a direita). Ao término dessa etapa o pivô estará em sua posição final (existem várias formas de se fazer essa etapa)

3. Ordenação: recursivamente aplicar os passos acima aos sub-vetores produzidos durante o particionamento. O caso limite da recursão é o sub-vetor de tamanho 1, que já está ordenado.

Exemplo: mostre os passos necessários para a ordenação do seguinte vetor

[5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

Explicação em vídeo: https://www.youtube.com/watch?v=hmsUjkwuYiU&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=12

A seguir veremos uma implementação recursiva em Python para o algoritmo Quicksort.


In [None]:
import numpy as np
import time

# Implementação em Python do algoritmo de ordenação Quicksort
def QuickSort(L):
    if len(L) <= 1:
        return L
    # Pivô é o primeiro elemento da lista pode ser último ou do meio)
    m = L[0]        
    # Chamada recursiva
    return  QuickSort([x for x in L if x < m]) + [x for x in L if x == m] + QuickSort([x for x in L if x > m])

# Início do script
#n = 5000
#X = list(np.random.random(n))

X = [5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

# Imprime vetor
print('Vetor não ordenado: ')
print(X)
print()

# Aplica Bubblesort
inicio = time.time()
Y = QuickSort(X)
fim = time.time()

# Imprime vetor ordenado
print('Vetor ordenado: ')
print(Y)
print()
print('Tempo de processamento: %.3f s' %(fim - inicio))

Vetor não ordenado: 
[5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

Vetor ordenado: 
[-3, 1, 2, 4, 5, 6, 7, 10, 13, 15]

Tempo de processamento: 0.000 s


**Análise da complexidade do Quicksort**

**1. Pior caso**

Acontece quando o pivô é sempre o maior ou menor elemento, o que gera partições totalmente desbalanceadas: 

Na primeira chamada recursiva, temos uma lista de tamanho n, então  para criar as novas listas L, teremos n – 1 elementos na primeira lista, o pivô e uma lista vazia.

Isso nos permite escrever a seguinte relação de recorrência: 

$$
T(n) = T(n-1) + T(0) + n
$$

**2. Melhor caso**

Acontece quando as partições tem exatamente o mesmo tamanho, ou seja, são n/2 elementos, o pivô e mais n/2 elementos. Podemos escrever a seguinte relação de recorrência:

$$
T(n) = T\left( \frac{n}{2} \right) + T\left( \frac{n}{2} \right) + n
$$

**3. Caso médio**

Felizmente, o caso médio está muito mais próximo do melhor caso do que do pior caso. Para considerar o caso médio, suponha que alternemos as recorrências de melhor caso, M(n), com pior caso, P(n). 

Explicação em vídeo: https://www.youtube.com/watch?v=hmsUjkwuYiU&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=12

Observação: Uma estratégia empírica que, em geral, melhora o desempenho do algoritmo Quicksort consiste em escolher como pivô a mediana entre o primeiro elemento, o elemento do meio e o último elemento (requer tempo constante e ajuda muito a melhorar a eficiência do método!).

**O algoritmo Mergesort (Ordenação por intercalação)**

O algoritmo Mergesort utiliza a abordagem Dividir para Conquistar. 

A ideia básica consiste em dividir o problema em vários subproblemas e resolver esses subproblemas através da recursividade e depois conquistar, o que é feito após todos os subproblemas terem sido resolvidos através da união das resoluções dos subproblemas menores. 

Trata-se de um algoritmo recursivo que divide uma lista continuamente pela metade. Se a lista estiver vazia ou tiver um único elemento, ela está ordenada por definição (o caso base). 

Se a lista tiver mais de um elemento, dividimos a lista e invocamos recursivamente um Mergesort em ambas as metades. Assim que as metades estiverem ordenadas, a operação fundamental, chamada de intercalação, é realizada. 

Intercalar é o processo de pegar duas listas menores ordenadas e combiná-las de modo a formar uma lista nova, única e ordenada. A figura a seguir ilustra as duas fases principais do algoritmo Mergesort: a divisão e a intercalação.

![picture](https://drive.google.com/uc?id=1jqJvxmupbrR7oqrZAcifovSheGUaSh1f)

![picture](https://drive.google.com/uc?id=1JoZ0GgQc9oFDEzhZfwzkGJmg1WQmi2a1)



In [None]:
# Implementação em Python do algoritmo de ordenação MergeSort
def MergeSort(L):

    if len(L) > 1:

        meio = len(L)//2
        LE = L[:meio]   # Lista Esquerda
        LD = L[meio:]   # Lista Direita

        # Aplica recursivamente nas sublistas
        MergeSort(LE)   
        MergeSort(LD)

        # Quando volta da recursão inicia aqui!
        i, j, k = 0, 0, 0
        # Faz a intercalação das duas listas (merge)
        while i < len(LE) and j < len(LD):
            if LE[i] < LD[j]:
                L[k] = LE[i]
                i += 1
            else:
                L[k] = LD[j]
                j += 1
            k += 1

        while i < len(LE):
            L[k] = LE[i]
            i += 1
            k += 1

        while j < len(LD):
            L[k] = LD[j]
            j += 1
            k += 1

# Início do script
X = [5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

# Imprime vetor
print('Vetor não ordenado: ')
print(X)
print()

MergeSort(X)

# Imprime vetor ordenado
print('Vetor ordenado: ')
print(X)

Vetor não ordenado: 
[5, 2, 13, 7, -3, 4, 15, 10, 1, 6]

Vetor ordenado: 
[-3, 1, 2, 4, 5, 6, 7, 10, 13, 15]


**Análise da complexidade do Mergesort**

Os três passos úteis dos algoritmos de dividir para conquistar, ou divide and conquer, que se aplicam ao MergeSort são: 

1. Dividir: Calcula o ponto médio do sub-arranjo, o que demora um tempo constante O(1); 
2. Conquistar: Recursivamente resolve dois subproblemas, cada um de tamanho n/2, o que contribui com T(n/2) + T(n/2) para o tempo de execução; 
3. Combinar: Unir os sub-arranjos em um único conjunto ordenado, que leva o tempo O(n);

Assim, podemos escrever a relação de recorrência como:

$$
T(n) = \begin{cases}
    O(1)       & \quad \text{se } n=1\\
    2T\left( \frac{n}{2} \right) + O(n)  & \quad \text{se } n>1
  \end{cases}
$$

Explicação em vídeo: https://www.youtube.com/watch?v=zYwkOoxK3qE&list=PL7OlISixQYm6lhuuNEadZ_ua4qCVl6zH7&index=13

Uma das maiores limitações do algoritmo MergeSort é que esse método passa por todo o longo processo mesmo se a lista L já estiver ordenada. Por essa razão, a complexidade de melhor caso é idêntica a complexidade de pior caso e de caso médio.

Porém, pode-se mostrar que para o caso de n grande, e listas compostas por números gerados aleatoriamente, o número médio de comparações realizadas pelo algoritmo MergeSort é aproximadamente $\alpha n$  menor que o número de comparações no pior caso, onde:

$$ 
\alpha = -1 + \sum_{k=0}^{\infty} \left( \frac{1}{2^k + 1} \right) \approx 0.2645
$$

**Tabela comparativa de desempenho**

![picture](https://drive.google.com/uc?id=1EPjNI8eGNUtLnA4GdeB1FlbOUfEE4mXN)


Link para o ambiente de execução Google Colab:
https://colab.research.google.com/drive/1rgdEwvn3wfD5-wUVE_9MuZvEdy7kjdNv?usp=sharing

"Absence of evidence is not evidence of absence." (Carl Sagan)