# Disciplina de Classificação e Pesquisa de Dados
 
# Laboratório #3
 
### Implementação (em Python) dos principais algoritmos de classificação por seleção, intercalação e lineares.

## Parte I: algoritmos de seleção (Heapsort e relacionados)

A seguir você encontra uma versão local do algoritmo heapsort. Ele utiliza o buildheap que constrói um max-heap a partir do array passado. Você também encontra funções auxiliares para identificar o filho esquerdo, o filho direito e o pai de um elemento no array.

O exercício consiste em implementar a função heapify, que é usada pelos algoritmos buildheap e heapsort. Também deve implementar a função heap_max, extract_max e insert_heap.

Analise o desempenho delas (tempo, comparações e trocas), em diferentes situações. 

Desafios: 
1. implemente uma função build-min-heap que constrói um min-heap. 
2. elabore a função iteractive-build-heap, que constrói um heap inserindo elemento por elemento em um array auxiliar (ou seja, não é local). Analise qual versão apresenta melhor desempenho.
3. elabore uma função build-heap que chama o heapify do início até o último nodo folha, ao invés da função que vimos, que chama do último nodo folha até o início. Analise qual versão apresenta melhor desempenho.

In [1151]:
# Bibliotecas necessárias ao script:
import numpy as np  # importa a biblioteca numpy (que trabalha com arrays numéricos)
import time         # importa a biblioteca utilizada para contar o tempo
import pandas as pd # biblioteca para trabalhar com data frames
import math
from numpy import random
 
################################################
# Algoritmos de ordenação por Seleção
################################################
 
# Seleção direta 
def selection_sort(array): 
    trocas = comparacoes = 0
    for i in range(0, len(array)-1):                                            
        menorchave = i
        for j in range(i, len(array)):                   
            comparacoes = comparacoes + 1
            if array[j] < array[menorchave]: 
                menorchave = j
        if menorchave != i:
            array[i], array[menorchave] = array[menorchave], array[i]
            trocas = trocas + 1        
    return {'trocas':trocas, 'comparacoes':comparacoes}
 
# Heapsort e funções auxiliares (testado na parte IV)
def heap_sort(array):
    log_operacoes = {'trocas':0, 'comparacoes':0}  
    heap_size = len(array)
    qtd_elementos = heap_size-1
    
    build_heap_auxiliar(array, log_operacoes) 
    
    for i in range(qtd_elementos, 0, -1):
        log_operacoes['trocas'] = log_operacoes['trocas'] + 1
        array[i], array[0] = array[0], array[i]          # troca
        heap_size = heap_size - 1
        heapify(array, 0, heap_size, log_operacoes) 
        
    return log_operacoes
 
# igual a seguinte, mas faz o registro do log com base em operações anteriores e posteriores para que o heap_sort conte-as direito
def build_heap_auxiliar(array, log_operacoes):
    ultimo_pai = math.floor(len(array)/2)-1
    for indice in range(ultimo_pai, -1, -1):                                    # range entre [ultimo_pai e -1| (i.e., 0) 
        heapify(array, indice, len(array), log_operacoes)
    return log_operacoes
 
# usada para construir heaps (fora do heap sort):
def build_heap(array):
    log_operacoes = {'trocas':0, 'comparacoes':0}  
    ultimo_pai = math.floor(len(array)/2)-1
    for indice in range(ultimo_pai, -1, -1):                                    # range entre [ultimo_pai e -1| (i.e., 0) 
        heapify(array, indice, len(array), log_operacoes)
    return log_operacoes
 
def filho_e(array, elemento):
    return math.floor(elemento*2+1)
 
def filho_d(array, elemento):
    return math.floor(elemento*2+2)
 
def pai(array, elemento):
    return math.floor(elemento/2)
 
################################################
# Implementação dos seus algoritmos:
   
# heapify: verifica se o elemento na posição passada é um heap e se não for transforma-o em um
# parâmetros: array, índice do elemento a heapificar, tamanho do heap, dicionário de logs
def heapify(array, elemento, heap_size, log_operacoes):
    esq = filho_e(array, elemento)
    dir = filho_d(array, elemento)
    maior = elemento

    # Verifica se filho esquerdo da raíz existe e se 
    # é maior que ela
    log_operacoes['comparacoes'] = log_operacoes['comparacoes'] + 1
    if esq < heap_size and array[maior] < array[esq]: 
        maior = esq 

    # Mesma coisa pro filho direito da raiz
    log_operacoes['comparacoes'] = log_operacoes['comparacoes'] + 1 
    if dir < heap_size and array[maior] < array[dir]: 
        maior = dir 

    # Troca a raiz se precisar
    log_operacoes['comparacoes'] = log_operacoes['comparacoes'] + 1 
    if maior != elemento: 
        array[elemento],array[maior] = array[maior],array[elemento] 
        log_operacoes['trocas'] = log_operacoes['trocas'] + 1 
        # Faz Heapify na raiz 
        heapify(array, maior, heap_size, log_operacoes)
    return log_operacoes
 
# retorna o maior elemento do heap
def heap_max(heap):
    log_operacoes = {'trocas':0, 'comparacoes':0}
    max = heap[0]
    return [log_operacoes,max] 

# Função para extrair o maior elemento do heap    
def extract_max(heap):
    log_operacoes = {'trocas':0, 'comparacoes':0}
    heap_size = len(heap) # tamanho do heap

    if heap_size < 1: # se menor que 1, retorna 0
        max = 0
        return {max, log_operacoes}
    
    max = heap[0] # o maior é o primeiro
    heap[0] = heap[heap_size-1] # o novo primeiro é o último
    log_operacoes['trocas'] = log_operacoes['trocas'] + 1 
    
    heap_size = heap_size - 1
    # reordena o heap
    heapify(heap, 0, heap_size, log_operacoes) 
    return {'max': max, 'log': log_operacoes}
 
# Função para inserir num heap
def heap_insert(array, elemento):
    heap_size = len(array) 
    log_operacoes = {'trocas':0, 'comparacoes':0}
    # insere o elemento no ínicio do heap
    array = np.insert(array, 0, elemento, axis=None)
    # heapifica novamente
    heapify(array, 0, heap_size, log_operacoes)
    return [log_operacoes,array]

# Função para heapificar um array, de modo a criar um min-heap
def min_heapify(array, elemento, heap_size, log_operacoes):
    esq = filho_e(array, elemento)
    dir = filho_d(array, elemento)
    menor = elemento

    # Verifica se filho esquerdo da raíz existe e se 
    # é menor que ela
    log_operacoes['comparacoes'] = log_operacoes['comparacoes'] + 1
    if esq < heap_size and array[menor] > array[esq]: 
        menor = esq 

    # Mesma coisa pro filho direito da raiz
    log_operacoes['comparacoes'] = log_operacoes['comparacoes'] + 1 
    if dir < heap_size and array[menor] > array[dir]: 
        menor = dir 

    # Troca a raiz se precisar
    log_operacoes['comparacoes'] = log_operacoes['comparacoes'] + 1 
    if menor != elemento: 
        array[elemento],array[menor] = array[menor],array[elemento] 
        log_operacoes['trocas'] = log_operacoes['trocas'] + 1 
        # Faz Heapify na raiz 
        min_heapify(array, menor, heap_size, log_operacoes)
    return log_operacoes
    
# constrói um min-heap a partir de um array
def build_min_heap(array):
    log_operacoes = {'trocas':0, 'comparacoes':0}  
    ultimo_pai = math.floor(len(array)/2)-1
    for indice in range(ultimo_pai, -1, -1):                                    
        min_heapify(array, indice, len(array), log_operacoes)
    return log_operacoes

# build-heap iterativo não local
def iteractive_build_heap(arr):
    n = len(arr)  
    aux = arr
    log_operacoes = {'trocas':0, 'comparacoes':0}
    for i in range(n):       
        log_operacoes['comparacoes'] = log_operacoes['comparacoes'] + 1       
        if aux[i] > aux[pai(aux,i)]: 
            j = i  
            log_operacoes['comparacoes'] = log_operacoes['comparacoes'] + 1 
            while aux[j] > aux[pai(aux,j)]: 
                log_operacoes['comparacoes'] = log_operacoes['comparacoes'] + 1 
                log_operacoes['trocas'] = log_operacoes['trocas'] + 1 
                aux[j], aux[pai(aux,j)] = aux[pai(aux,j)], arr[j] 
                j = pai(aux,j)
    return log_operacoes

# Sorting usando min-heap (testado na parte IV com os demais algoritmos de sorting)
def minHeapSort(array):
    log_operacoes = {'trocas':0, 'comparacoes':0}  
    heap_size = len(array)
    qtd_elementos = heap_size-1
    
    log_operacoes = build_min_heap(array) 
    
    for i in range(qtd_elementos, 0, -1):
        log_operacoes['trocas'] = log_operacoes['trocas'] + 1
        array[i], array[0] = array[0], array[i]          
        heap_size = heap_size - 1
        min_heapify(array, 0, heap_size, log_operacoes) 
        
    return log_operacoes

# Heapsort pra testar a build-heap iterativa (testado na parte IV com os demais algoritmos de sorting)
def iterative_heap_sort(array):
    log_operacoes = {'trocas':0, 'comparacoes':0}  
    heap_size = len(array)
    qtd_elementos = heap_size-1
    
    log_operacoes = iteractive_build_heap(array) 
    
    for i in range(qtd_elementos, 0, -1):
        log_operacoes['trocas'] = log_operacoes['trocas'] + 1
        array[i], array[0] = array[0], array[i]          # troca
        heap_size = heap_size - 1
        heapify(array, 0, heap_size, log_operacoes) 
        
    return log_operacoes


In [1152]:
# Testando o iteractive_build_heap para 3 arrays diferentes
log_operacoes = {'trocas':0, 'comparacoes':0}
tempo = time.process_time()

array1 = random.randint(1, 11, size=10)
array2 = random.randint(1, 101, size=100)
array3 = random.randint(1, 1001, size=1000)

log_operacoes = iteractive_build_heap(array1)
t = time.process_time() - tempo
print(array1)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

log_operacoes = iteractive_build_heap(array2)
t = time.process_time() - tempo
print("\n",array2)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

log_operacoes = iteractive_build_heap(array3)
t = time.process_time() - tempo
print("\n",array3)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

[6 5 5 4 5 1 1 2 1 2]
Comparacoes:  25
Trocas:  9
Tempo:  0.0

 [100 100  97  94  92  79  90  93  73  92  74  79  77  73  91  70  60  71
  68  85  60  63  54  73  77  77  52  65  64  89  65  68  34  43  63  68
  27  53  52  80  48  49  46  47  40  31  67  70  70  59  13  37   2  29
  25  17  31  58   1  25  10  28   7  11  26   8  31  43  29  54   3  35
   6  12   1   7  37  34  27  13  14  12  36  49  28  12  41  44   4  15
  19  17  19  44  43  57   9  59  27  56]
Comparacoes:  264
Trocas:  114
Tempo:  0.0

 [999 997 994 995 989 993 990 988 976 987 973 990 989 983 981 983 975 955
 980 985 966 973 955 964 987 967 968 970 966 976 958 945 932 949 902 913
 972 953 977 984 961 947 959 967 934 950 959 963 978 976 904 946 948 853
 966 963 951 953 960 975 925 910 919 896 919 924 907 913 827 877 867 880
 940 943 927 898 757 925 981 984 930 951 838 902 950 923 857 881 922 924
 897 942 905 914 929 892 959 976 972 842 752 877 865 928 669 899 843 824
 918 930 928 908 836 923 947 940 808 811 948 9

In [1153]:
# Testando o build_heap para 3 arrays diferentes
log_operacoes = {'trocas':0, 'comparacoes':0}
tempo = time.process_time()

array1 = random.randint(1, 11, size=10)
array2 = random.randint(1, 101, size=100)
array3 = random.randint(1, 1001, size=1000)

log_operacoes = build_heap(array1)
t = time.process_time() - tempo
print(array1)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

log_operacoes = build_heap(array2)
t = time.process_time() - tempo
print("\n",array2)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

log_operacoes = build_heap(array3)
t = time.process_time() - tempo
print("\n",array3)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

[10 10 10  7  9  8  7  2  5  4]
Comparacoes:  33
Trocas:  6
Tempo:  0.0

 [100 100  99  98  96  92  97  95  84  91  88  72  87  96  90  94  85  64
  82  70  54  86  87  68  67  86  81  86  62  59  38  84  85  71  83  61
  61  70  54  49  65  39  39  22  32  72  80  21  40  43  61  51  59  74
  36  26   6   9   9   6  14  26  24   2  48  29  64  15  22  52  23  50
  38   8  54  32  59  32  27  45  22  26  65   7  32  34   3  10  21   2
  31  40  22  22  13  20  10   9  25   4]
Comparacoes:  360
Trocas:  70
Tempo:  0.0

 [999 998 998 996 997 996 998 993 993 982 983 994 995 997 985 974 985 943
 990 968 952 980 982 924 990 990 963 986 985 972 976 972 955 978 954 925
 927 899 930 956 958 935 899 939 955 962 968 804 900 941 979 959 988 961
 921 951 970 959 967 958 970 969 942 917 963 893 914 876 946 855 875 822
 809 878 899 863 848 863 920 783 907 880 932 861 909 826 747 927 939 832
 907 878 958 823 891 780 784 818 874 934 905 924 959 846 923 815 934 903
 903 879 880 885 893 969 909 902 909 

O algoritmo iterativo faz menos comparações mas mais trocas que o recursivo em todos os casos testados. O tempo para os dois algoritmos não mudou em nenhum caso. Porém, na implementação do mergesort na parte IV, usando o build-heap iterativo, o tempo de execução do algoritmo iterativo se mostrou maior do que o do recursivo.

In [1154]:
# Testando o heap_insert para 3 arrays diferentes
log_operacoes = {'trocas':0, 'comparacoes':0}
tempo = time.process_time()

array1 = random.randint(1, 11, size=10)
array2 = random.randint(1, 101, size=100)
array3 = random.randint(1, 1001, size=1000)

build_heap(array1)
print(array1)
[log_operacoes,array1] = heap_insert(array1, 13)
t = time.process_time() - tempo
print('Elemento inserido: 13\nArray pós inserção:')
print(array1)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

build_heap(array2)
print('\n',array2)
[log_operacoes,array2] = heap_insert(array2, 11)
t = time.process_time() - tempo
print('Elemento inserido: 11\nArray pós inserção:')
print(array2)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

build_heap(array3)
print('\n',array3)
[log_operacoes,array3] = heap_insert(array3, 23)
t = time.process_time() - tempo
print('Elemento inserido: 23\nArray pós inserção:')
print(array3)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)


[8 7 8 6 5 1 8 2 1 1]
Elemento inserido: 13
Array pós inserção:
[13  8  7  8  6  5  1  8  2  1  1]
Comparacoes:  3
Trocas:  0
Tempo:  0.0

 [100  98  98  97  96  90  91  91  95  78  79  72  82  50  84  69  59  71
  86  66  64  67  54  71  58  74  66  42  22  70  82  68  67  47  21  71
  69  75  68  15  51  26  59  58  64  34  39  29  24  50  48  31  42  25
  46   6  15   3   3   6  60  37  14  34  52  39  39  18   5  19  10  46
  27  10  42  56  46  56  61   4  12  24  41  17   7  14  49  35  26  24
  41   8  24  25  12  13   9  14  23  36]
Elemento inserido: 11
Array pós inserção:
[100  98  98  91  97  96  90  84  91  95  78  79  72  82  50  82  69  59
  71  86  66  64  67  54  71  58  74  66  42  22  70  34  68  67  47  21
  71  69  75  68  15  51  26  59  58  64  34  39  29  24  50  48  31  42
  25  46   6  15   3   3   6  60  37  14  11  52  39  39  18   5  19  10
  46  27  10  42  56  46  56  61   4  12  24  41  17   7  14  49  35  26
  24  41   8  24  25  12  13   9  14  23  36]


In [1156]:
# Testando o extract_max para 3 arrays diferentes
log_operacoes = {'trocas':0, 'comparacoes':0}
tempo = time.process_time()

array1 = random.randint(1, 11, size=10)
array2 = random.randint(1, 101, size=100)
array3 = random.randint(1, 1001, size=1000)

build_heap(array1)
print('Array pré extração:\n',array1)
max = extract_max(array1).get('max')
t = time.process_time() - tempo
log_operacoes = extract_max(array1).get('log') 
print('Maior elemento: ',max)
print('Array pós extração:\n',array1)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

build_heap(array2)
print("\nArray pré extração:\n",array2)
max = extract_max(array2).get('max')
t = time.process_time() - tempo
log_operacoes = extract_max(array2).get('log')
print('Maior elemento: ',max)
print('Array pós extração:\n',array2)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)

build_heap(array3)
print("\nArray pré extração:\n",array3)
max = extract_max(array3).get('max')
t = time.process_time() - tempo
log_operacoes = extract_max(array3).get('log')
print('Maior elemento: ',max)
print('Array pós extração:\n',array3)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])
print("Tempo: ",t)


Array pré extração:
 [10 10  7  8  3  7  3  6  1  2]
Maior elemento:  10
Array pós extração:
 [8 6 7 2 3 7 3 2 1 2]
Comparacoes:  9
Trocas:  3
Tempo:  0.0

Array pré extração:
 [100  98  96  95  97  89  88  89  85  86  94  76  77  86  88  81  86  77
  77  78  78  78  94  57  69  67  51  68  79  59  67  62  63  81  65  66
  55  55  57  76  58  67  69  70  59  81  54  46  33  49  47  16  63  20
  27  67  57  52  13  40  26  10  13  22  24  31  42  39  10  43  45  29
  30  48  43  16  47  20  45  40  41  32   4   8  56  48  55  36  53  24
  58  51  43  29  50  35  38  24  33  39]
Maior elemento:  100
Array pós extração:
 [97 95 96 89 94 89 88 86 85 86 94 76 77 86 88 81 81 77 77 78 78 78 81 57
 69 67 51 68 79 59 67 62 63 39 65 66 55 55 57 76 58 67 69 70 59 51 54 46
 33 49 47 16 63 20 27 67 57 52 13 40 26 10 13 22 24 31 42 39 10 43 45 29
 30 48 43 16 47 20 45 40 41 32  4  8 56 48 55 36 53 24 58 39 43 29 50 35
 38 24 33 39]
Comparacoes:  18
Trocas:  6
Tempo:  0.0

Array pré extração:
 [999 9

In [1157]:
# Testando o build_min_heap:
log_operacoes = {'trocas':0, 'comparacoes':0}

array1 = random.randint(1, 11, size=10)

log_operacoes = build_min_heap(array1)
print(array1)
log_operacoes = heap_sort(array1)
print(array1)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])

[1 2 2 3 3 9 8 6 3 5]
[1 2 2 3 3 3 5 6 8 9]
Comparacoes:  93
Trocas:  26


## Parte II: algoritmos de intercalação

A seguir você encontra uma versão do algoritmo de merge e um exemplo de sua aplicação.

Em seguida, há uma célula com vários algoritmos a implementar, a saber:
1. two_way_merge. 
2. multi_way_merge.
2. merge_sort.

In [1158]:
# Bibliotecas necessárias ao script:
import numpy as np  # importa a biblioteca numpy (que trabalha com arrays numéricos)
import time         # importa a biblioteca utilizada para contar o tempo
import pandas as pd # biblioteca para trabalhar com data frames
import math         # para funções matemáticas 
 
################################################
# Merge
def merge(array1, array2): 
    i = j = trocas = comparacoes = 0
    qtd_a1 = len(array1)
    qtd_a2 = len(array2)
    
    elementos = True
    array_final = []
    comparacoes += 1
    while i < qtd_a1 and j < qtd_a2:
        comparacoes += 3
        if array1[i] <= array2[j]:
            trocas += 1
            array_final.append(array1[i])
            i = i + 1
        else:
            trocas += 1
            array_final.append(array2[j])
            j = j + 1

    comparacoes += 1
    if j < qtd_a2 and i >= qtd_a1:           # array 1 terminou
        array_final.extend(array2[j:qtd_a2+1])
    
    comparacoes += 1
    if i < qtd_a1 and j >= qtd_a2:           # array 2 terminou
        array_final.extend(array1[i:qtd_a1+1])
        
    return [array_final, {'trocas':trocas, 'comparacoes':comparacoes}]
     

In [1159]:
array1 = [1,2,4,5,7,10,11,12,14,15]
array2 = [2,3,4,6,11,12,14]
log_operacoes = {'trocas':0, 'comparacoes':0}
[arr,log_operacoes] = merge(array1, array2)
print(arr)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])

[1, 2, 2, 3, 4, 4, 5, 6, 7, 10, 11, 11, 12, 12, 14, 14, 15]
Comparacoes:  51
Trocas:  16


In [1160]:
# Recebe uma lista de arrays e intercala-os 2 a 2
# retorna um array com o resultado da intercalação
def two_way_merge(lst_arrays):
    trocas = comparacoes = 0 
    array_resultante = []
    n = len(lst_arrays)

    for x in range(n-1):
        i, j = 0, 0
        lst = lst_arrays[x]
        aux = lst_arrays[x+1]
        merged = [0]*(len(lst)+len(aux))

        comparacoes += 1
        while i < len(lst) and j < len(aux):
            comparacoes += 3
            if lst[i] <= aux[j]:
                trocas += 1
                merged[i+j]=lst[i]
                i += 1
            else:
                trocas += 1
                merged[i+j] = aux[j]
                j += 1  

        for i in range(i, len(lst)):
            merged[i+j] = lst[i]

        for j in range(j, len(aux)):
            merged[i+j] = aux[j]

        lst_arrays[x+1] = merged
         
    array_resultante = merged
    return [array_resultante, {'trocas':trocas, 'comparacoes':comparacoes}]

In [1161]:
array1 = [1,2,4,5,7,10,11,12,14,15]
array2 = [2,3,4,6,11,12,14]
array3 = [1,2,8,10,11,12,14,15]
array4 = [0, 3, 25, 35, 115]
  
log_operacoes = {'trocas':0, 'comparacoes':0}
[array_res,log_operacoes] = two_way_merge([array1, array2, array3, array4])
print(array_res)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])

[0, 1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 6, 7, 8, 10, 10, 11, 11, 11, 12, 12, 12, 14, 14, 14, 15, 15, 25, 35, 115]
Comparacoes:  204
Trocas:  67


In [1162]:
# Recebe uma lista de arrays e intercala-os usando estrutura similar a heap-min
# retorna um array com o resultado da intercalação
def multi_way_merge(lst_arrays):
    log_operacoes = {'trocas':0, 'comparacoes':0} 
    array_resultante = []
    n = 0 # tam da arvore

    # soma todos os tamanhos dos arrays a serem analisados   
    for lst in lst_arrays:
        n += len(lst)
    arvore = [0]*n

    j=n-1 # j começa no fim da árvore
    i=0 # i começa no primeiro elemento de cada array
    # enquanto não preencheu todaa árvore, coleta um elemento
    # de cada array por vez e vai colocando na arvore
    log_operacoes['comparacoes'] += 1
    while j>=0:
        log_operacoes['comparacoes'] += 1
        # percorre a lista dos arrays dados
        for lst in lst_arrays:
            log_operacoes['comparacoes'] += 1
            if(i < len(lst)):
                arvore[j] = lst[i] # poe na posição j da árvore o i-ésimo elemento do array atual
                j -= 1  # sobe a posição na árvore
        i += 1  # se acabar a lista de arrays, incrementa o i que indica qual elemento de cada array pegar

    log_operacoes = heap_sort(arvore)
    return [arvore,log_operacoes]

In [1163]:
array = []
log_operacoes = {'trocas':0, 'comparacoes':0} 
[array,log_operacoes] = multi_way_merge([array1, array2, array3, array4])
print(array)
print("Comparacoes: ",log_operacoes['comparacoes'])
print("Trocas: ",log_operacoes['trocas'])

[0, 1, 1, 2, 2, 2, 3, 3, 4, 4, 5, 6, 7, 8, 10, 10, 11, 11, 11, 12, 12, 12, 14, 14, 14, 15, 15, 25, 35, 115]
Comparacoes:  387
Trocas:  114


In [1164]:
# Ambos os algoritmos abaixo são testados na parte IV com os demais algoritmos de sorting

# Merge sort usando two-way merge
def merge_sort_two_way(array):
    log_operacoes = {'trocas':0, 'comparacoes':0}
    
    log_operacoes['comparacoes'] += 1 
    if len(array) <= 1:
        return [array,log_operacoes]

    m = len(array) // 2
    [esq,log_operacoes], [dir,log_operacoes] = merge_sort(array[:m]), merge_sort(array[m:])

    lista = [esq,dir]
    [array_final,log_operacoes] = two_way_merge(lista)  

    array = array_final
    return log_operacoes

# Merge sort usando multi-way merge
def merge_sort_multi_way(array):
    log_operacoes = {'trocas':0, 'comparacoes':0}
    
    log_operacoes['comparacoes'] += 1 
    if len(array) <= 1:
        return [array,log_operacoes]

    m = len(array) // 2
    [esq,log_operacoes], [dir,log_operacoes] = merge_sort(array[:m]), merge_sort(array[m:])

    lista = [esq,dir]
    [array_final,log_operacoes] = multi_way_merge(lista) 

    array = array_final 
    
    return log_operacoes

## Parte III: algoritmos lineares

A seguir você encontra a implementação dos algoritmos RADIX-sort LSD e MSD, além de alguns testes.

Analise-os.

Após, implemente o counting-sort.

Desafios:
1. Modifique o radix_sort_msd_strings de maneira que também funcione em strings com letras maiúsculas (misturadas com as minúsculas e números)
2. Crie uma versão do radix_sort_msd que trabalhe com dígitos numéricos (só para números inteiros)

In [1165]:
# Radix-sort LSD
def radix_lsd(array): 
    tamanhoMaximo = False
    RADIX = 10
    digito = 1        
    
    while not tamanhoMaximo:
        buckets = [list() for _ in range(RADIX)]
        tamanhoMaximo = True
        for n in array:
            tmp = n/digito
            buckets[int(tmp % RADIX)].append(n)
            if tamanhoMaximo and tmp>0:
                tamanhoMaximo = False
        a = 0
        for b in range( RADIX ):
            bucket = buckets[b]
            for i in bucket:
                array[a] = i
                a += 1 
        digito *= RADIX            
        
# Radix sort MSD para Strings
def radix_sort_msd_strings(L, i):
    if len(L) <= 1:
        return L
    
    done_bucket = []
    buckets = [ [] for x in range(27+10) ] # um para cada letra do alfabeto [a-z] + digitos [0-9]
 
    for s in L:
        if i >= len(s):
            done_bucket.append(s)
        else:
            pos = ord(s[i]) - ord('a')
            if pos < 0:
                pos = 27 + ord(s[i]) - ord('0')
            buckets[pos].append(s)
 
    buckets = [ radix_sort_msd_strings(b, i + 1) for b in buckets ]
 
    return done_bucket + [ b for blist in buckets for b in blist ]

# Função auxiliar para descobrir o maior elemento do array
def maior(a):
    maior = 0
    for i in range(len(a)):
        if a[i] > maior:
            maior = a[i]
    return maior

# implementação do algoritmo de Counting sort
def countingSort(a):
    log_operacoes = {'trocas':0, 'comparacoes':0}
    b = [0]*len(a)
    k = maior(a)
    c = [0]*(k+1)
    n=len(a)
    
    for i in range(n):
        c[a[i]] += 1
    for i in range(2, k):
        c[i] = c[i] + c[i-1]
    for j in range(n,-1):
        b[c[a[j]]] = a[j]
        c[a[j]] -= 1
    
    a = b
    return log_operacoes


In [1166]:
# geração de um array
 
import numpy as np
import time
 
gerador = np.random.RandomState()
qtd = 100                                # quantidade de elementos a gerar aleatoriamente 
max = qtd                                # valor máximo do intervalo de sorteio
 
arrayrandomico = gerador.randint(0, max+1, qtd)       # gera array com 'qtd' números entre 0 e 'max'
 
print('Array gerado:\n' , arrayrandomico)

Array gerado:
 [49 43 30 89 42 27 60 93 77 48 26  2 46 15 43 44 32  2 78 25 93 69 71 85
 82 26 37 65 98  8 82 33  0 93 97  1 12 24 94 33 53 71 49 18 12 16 11  1
 40 94 78 96 84  7 91 39 82 11 33 87  4 68 79 11 60 85  1 34 75 53  1  1
  7 15 23  8 73 12 74 56 38 38 26 32 12 53 48 61 81 60 86 28 42 21 81 85
 56 57 41 75]


In [1167]:
# Teste do radix LSD
 
a = np.copy(arrayrandomico) # cria uma cópia do array
 
print('Ordenando...')
tempo = time.process_time()
radix_lsd(a)                    
t = time.process_time() - tempo      
 
print('Array ordenado:\n', a)
print('Tempo: ', t)

Ordenando...
Array ordenado:
 [ 0  1  1  1  1  1  2  2  4  7  7  8  8 11 11 11 12 12 12 12 15 15 16 18
 21 23 24 25 26 26 26 27 28 30 32 32 33 33 33 34 37 38 38 39 40 41 42 42
 43 43 44 46 48 48 49 49 53 53 53 56 56 57 60 60 60 61 65 68 69 71 71 73
 74 75 75 77 78 78 79 81 81 82 82 82 84 85 85 85 86 87 89 91 93 93 93 94
 94 96 97 98]
Tempo:  0.21875


In [1168]:
radix_sort_msd_strings(['ana', 'marcio', 'joao', 'carlos', 'carla', 'cicero', 'douglas', 'jose'], 0)

['ana', 'carla', 'carlos', 'cicero', 'douglas', 'joao', 'jose', 'marcio']

In [1169]:
radix_sort_msd_strings(['10', '2', '24', '1', '100', '23', '101', '40'], 0)

['1', '10', '100', '101', '2', '23', '24', '40']

    O radix sort MSD neste caso só analisa strings, então ele trata os inteiros de acordo com o valor de cada dígito na tabela ASCII e não pelo seu real valor numérico. Por isso os primeiros números são aqueles cujo primeiro dígito seja 1 (1, 10, 100, 101...), vindo antes de números menores como o 2.

## Parte IV: teste de desempenho de todos os algoritmos

Inclua os algoritmos mergesort, heapsort e outros que desejar e avalie os seus desempenhos para diferentes tipos e tamanhos de array.

In [1170]:
# Avaliação do desempenho de diferentes algoritmos para diferentes quantidades de números

# Variáveis globais necessárias:
medicoes_dec = []                      # lista que armazena os resultados das medições em memória
medicoes_cre = []
medicoes_ran = []
medicoes_equ = []

# lista de algoritmos a testar (insira o seu, caso elabore outros):
algoritmos = { 
    'HPST': { 'nome': 'Heap sort', 'funcao': heap_sort },
    'SLST': { 'nome': 'Selection sort', 'funcao': selection_sort },
    'MNHPST': { 'nome': 'Min-Heap sort', 'funcao': minHeapSort },
    'IHPST': { 'nome': 'Iterativa Heap sort', 'funcao': iterative_heap_sort },
    'TWMGST': { 'nome': 'Two-way Merge sort', 'funcao': merge_sort_two_way},
    'MWMGST': { 'nome': 'Multi-way Merge sort', 'funcao': merge_sort_multi_way}, 
    'CTST': { 'nome': 'Counting sort', 'funcao': countingSort},
}  

# testa o desempenho dos algoritmos para diferentes quantidades (múltiplos de 10):
for qtd in [10**x for x in range(2,5)]:
    max = qtd
    array_decrescente = list(range(qtd, 0, -1))             # array decrescente
    array_crescente = list(range(1, qtd+1))                 # array crescente 
    array_random = random.randint(1, qtd+1, size=(qtd))     # array aleatório

    print('---------------------------------------------------')
    print('Testando algoritmos com array de tamanho ', qtd)
    print('---------------------------------------------------')

    print('Array gerado (decrescente) (',qtd, 'numeros):\n' , array_decrescente, '\n') 

    for algoritmo in algoritmos:                            # itera sobre cada um dos algoritmos enunciados anteriormente
        print('=> Avaliando ordenação por "',algoritmos[algoritmo]['nome'],'"...')
        
        array_tmp_decrescente = array_decrescente.copy()    # faz cópia do array para não perder
        
        tempo = time.process_time()                         # armazena o tempo de início do processamento
        m = algoritmos[algoritmo]['funcao'](array_tmp_decrescente ) # aplica algorimo e retorna quantidade de trocas e comparações em 'm'
        t = time.process_time() - tempo                     # verifica o tempo de fim de processamento e calcula a diferença
        print('\nArray ordenado:\n', array_tmp_decrescente, '\n')
        
        # armazena informações sobre a execução do algoritmo em um dicionário:
        medicao = {}
        medicao['algoritmo']=algoritmo
        medicao['tipo']='Decrescente'
        medicao['quantidade']=qtd
        medicao['trocas']=m['trocas']
        medicao['comparacoes']=m['comparacoes']
        medicao['tempo']=t
        
        medicoes_dec.append(medicao)                        # adiciona medição em uma lista de medições

    print('Array gerado (crescente) (',qtd, 'numeros):\n' , array_crescente, '\n') 

    for algoritmo in algoritmos:                       
        print('=> Avaliando ordenação por "',algoritmos[algoritmo]['nome'],'"...')
        
        array_tmp_crescente = array_crescente.copy()   
        
        tempo = time.process_time()                     
        m = algoritmos[algoritmo]['funcao'](array_tmp_crescente ) 
        t = time.process_time() - tempo                 
        print('\nArray ordenado:\n', array_tmp_crescente, '\n')
        
        medicao = {}
        medicao['algoritmo']=algoritmo
        medicao['tipo']='Crescente'
        medicao['quantidade']=qtd
        medicao['trocas']=m['trocas']
        medicao['comparacoes']=m['comparacoes']
        medicao['tempo']=t
        
        medicoes_cre.append(medicao)                              

    print('Array gerado (aleatório) (',qtd, 'numeros):\n' , array_random, '\n') 

    for algoritmo in algoritmos:                       
        print('=> Avaliando ordenação por "',algoritmos[algoritmo]['nome'],'"...')
        
        array_tmp_random = array_random.copy()                       
        
        tempo = time.process_time()                     
        m = algoritmos[algoritmo]['funcao'](array_tmp_random ) 
        t = time.process_time() - tempo                 
        print('\nArray ordenado:\n', array_tmp_random, '\n')
        
        medicao = {}
        medicao['algoritmo']=algoritmo
        medicao['tipo']='Aleatório'
        medicao['quantidade']=qtd
        medicao['trocas']=m['trocas']
        medicao['comparacoes']=m['comparacoes']
        medicao['tempo']=t
        
        medicoes_ran.append(medicao)                              

print('Fim do processamento!')


# testa o desempenho dos algoritmos para um array de 10000 elementos iguais:
array_igual = [1] * 10000                                  # array igual

print('---------------------------------------------------')
print('Testando algoritmos para um array de 10000 elementos iguais')
print('---------------------------------------------------')

print('Array gerado (10000 numeros):\n' , array_igual, '\n') 

for algoritmo in algoritmos:                       
    print('=> Avaliando ordenação por "', algoritmos[algoritmo]['nome'], '"...')
    
    array_tmp_igual = array_igual.copy()                       
    
    tempo = time.process_time()                     
    m = algoritmos[algoritmo]['funcao'](array_tmp_igual ) 
    t = time.process_time() - tempo                 
    print('\nArray ordenado:\n', array_tmp_igual, '\n')
    
    medicao = {}
    medicao['algoritmo']=algoritmo
    medicao['tipo']='Igual'
    medicao['quantidade']=qtd
    medicao['trocas']=m['trocas']
    medicao['comparacoes']=m['comparacoes']
    medicao['tempo']=t
    
    medicoes_equ.append(medicao)                                                           

print('Fim do processamento!')


, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,

In [1171]:
# Cria dataframe pandas (i.e., uma tabela) que organiza os dados relacionados com a execução dos algorimos acima
cols = ['algoritmo', 'tipo', 'quantidade', 'trocas', 'comparacoes', 'tempo']  # ordem correta das colunas 
df_dec = pd.DataFrame(medicoes_dec)
df_dec = df_dec[cols]

print(df_dec) # imprime os dados de execução dos algoritmos

df_cre = pd.DataFrame(medicoes_cre)
df_cre = df_cre[cols]

print('\n',df_cre) 

df_ran = pd.DataFrame(medicoes_ran)
df_ran = df_ran[cols]

print('\n',df_ran) 

df_equ = pd.DataFrame(medicoes_equ)
df_equ = df_equ[cols]

print('\n',df_equ) 

   algoritmo         tipo  quantidade  trocas  comparacoes      tempo
0       HPST  Decrescente         100     516         1698   0.000000
1       SLST  Decrescente         100      50         5049   0.000000
2     MNHPST  Decrescente         100     640         2070   0.000000
3      IHPST  Decrescente         100     516         1648   0.015625
4     TWMGST  Decrescente         100      50          151   0.000000
5     MWMGST  Decrescente         100     567         1851   0.000000
6       CTST  Decrescente         100       0            0   0.000000
7       HPST  Decrescente        1000    8316        26448   0.015625
8       SLST  Decrescente        1000     500       500499   0.140625
9     MNHPST  Decrescente        1000    9708        30624   0.015625
10     IHPST  Decrescente        1000    8316        25948   0.031250
11    TWMGST  Decrescente        1000     500         1501   0.015625
12    MWMGST  Decrescente        1000    8958        28374   0.031250
13      CTST  Decres