# Estudos de Classificação e Pesquisa de Dados
### Setting up the environment

In [3]:
import numpy as np # Importando a biblioteca numpy (para trabalhar com arrays)
import time #Biblioteca utilizada para contar o tempo
import pandas as pd #biblioteca para trabalhar com dataframes

gerador = np.random.RandomState() # Cria um gerador de números aleatórios

# A função log imprime um log dos dados da execução de algum dos algoritmos
# Dados registrados: algoritmo, tipo de array, quantidade de números, trocas e comparações e tempo em milissegundos
# Os tipos de array podem ser 'R'andomicos, 'C'rescente ou 'D'ecrescente
# lambda é uma keyword que permite gerar funcoes de uma linha, m é o argumento que ela recebe
log = lambda m: print('[log: {algoritmo}, {tipo}, {quantidade:d}, {trocas:d}, {comparacoes:d},{tempo:f}]'.format(algoritmo=m['algoritmo'],
                                                                                                                tipo=m['tipo'],
                                                                                                                quantidade=m['quantidade'],
                                                                                                                trocas=m['trocas'],
                                                                                                                comparacoes=m['comparacoes'],
                                                                                                                tempo=m['tempo']))

medicoes=[] # Lista que armazena os resultados das medições em memória

## Algoritmo de inserção direta (Insertion Sort)
Melhor caso: O(n) - Array ja esta ordenado e só ocorrem n comparações  
Pior caso: O(n^2) - Array esta completamente desordenado

In [7]:
#Função de inserção direta com busca linear:
def insertion_sort(array):
    trocas = comparacoes = 0
    for j in range(1, len(array)): #funcao range gera uma lista de numeros com o valor inicial de j (1) e depois o final (len(array))
        chave = array[j] #chave a ser inserida no subarray ordenado
        i = j-1 #i recebe o ultimo elemento do subarray ordenado
        comparacoes += 1
        while (i >= 0) and (array[i] > chave): #busca linear da direita para a esquerda dentro do array subordenado
            array[i+1] = array[i]
            i -= 1
            trocas += 1
        array[i+1] = chave
    return {'trocas':trocas, 'comparacoes':comparacoes}

In [8]:
#Teste do algoritmo de inserção direta com 100 elementos
max = qtd = 100 #Quantidade de elementos que serão gerados aleatoriamente
arrayRandomico = gerador.randint(0, max+1, qtd) #randint retorna inteiros aleatorio, nesse caso 'qtd' inteiros entre 0 e max 
print('Array gerado (',qtd, 'numeros ):\n', arrayRandomico)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
m = insertion_sort(arrayRandomico) #Ordena o Array e retorna a quantidade de trocas e comparacoes
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('Array ordenado:\n', arrayRandomico)

#Armazenando as informacoes sobre a execucao do algoritmo em um dicionario
medicao={}
medicao['algoritmo']='IDBL'
medicao['tipo']='R'
medicao['quantidade'] = qtd
medicao['trocas']=m['trocas']
medicao['comparacoes']=m['comparacoes']
medicao['tempo']=t

medicoes.append(medicao) #Adiciona medição em uma lista de medições

Array gerado ( 100 numeros ):
 [ 92  28  95  18  63  98   7  26   9  96  22  83  73  73  98  43  36  16
  18  49  60  90  76  34  20  94  60  89  39  92  61  36  83  77  64  96
  32   9  31  28  66  64  37  50  54  77  87 100  54  53  73  58  35  73
  67  58  19  12  25  55  71  88  97   9   6  91  42  45  38  42  94  81
   0  61  18  94  31  11  67  64  23  15  92  70   7  95  37  88  81  73
   9  26  54  14  58  89   9  48  64  45]
Array ordenado:
 [  0   6   7   7   9   9   9   9   9  11  12  14  15  16  18  18  18  19
  20  22  23  25  26  26  28  28  31  31  32  34  35  36  36  37  37  38
  39  42  42  43  45  45  48  49  50  53  54  54  54  55  58  58  58  60
  60  61  61  63  64  64  64  64  66  67  67  70  71  73  73  73  73  73
  76  77  77  81  81  83  83  87  88  88  89  89  90  91  92  92  92  94
  94  94  95  95  96  96  97  98  98 100]


In [9]:
#Exibe os dados relacionados as execuções do algoritmo de ordenação
df = pd.DataFrame(medicoes) #Estrutura de tabela da biblioteca pandas
cols = ['algoritmo', 'tipo', 'quantidade', 'trocas', 'comparacoes', 'tempo'] #Colocando as colunas na ordem certa
df = df[cols]

print(df)

  algoritmo tipo  quantidade  trocas  comparacoes  tempo
0      IDBL    R         100    2604           99    0.0


## Algoritmo de inserção direta com busca binária (binary insertion sort)

Implementar um algoritmo de busca binária no insertion sort diminuiria o numero de comparações para log_2(n), porém o custo total do algoritmo continuaria O(n^2) por causa do numero de swaps

## Shellsort
A analise de desempenho do shellsort é complexa porém usarei os seguintes valores de referencia  
Pior caso: O(n^2) (com a pior sequencia de gaps [o 'h' do algoritmo abaixo] conhecida) ou  
O(n log_2 n) com a melhor sequencia conhecida)  
Melhor caso: O(n log n)

In [4]:
def shellSort(array):
    n = len(array) # n=tamanho do array
    h = n//2 # h é a distancia entre cada segmento. O operador // faz a divisao em integer
    # Os segmentos sao os "subarray" que vao sendo ordenados parcialmente
    
    while h > 0:
        for startPosition in range(h):
            insShellSort(array, startPosition, h)
            
        print('Array parcialmente ordenado com intervalo de', h, ':\n', array, '\n')
        h = h//2
            
def insShellSort(array, startPosition, h):
    for i in range(startPosition+h, len(array), h): # Vai de startPosition+h ate o tamanho do array pulando de h em h
        chave = array[i]
        posicao = i
        
        while (posicao>=h) and (array[posicao-h]>chave): # Se alguma chave do segmento for menor que a mais da direita reordena
            array[posicao]=array[posicao-h]
            posicao = posicao-h
            
        array[posicao] = chave

In [11]:
# Teste do algoritmo shellSort
max = qtd = 10 # Quantidade de elementos que serao gerados aleatoriamente
arrayRandomico = gerador.randint(0, max+1, qtd) #max+1 pois é um intervalo aberto
print('Aray gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

shellSort(arrayRandomico)

Aray gerado ( 10 numeros ):
 [0 2 7 2 8 4 6 6 9 0] 

Array parcialmente ordenado com intervalo de 5 :
 [0 2 6 2 0 4 6 7 9 8] 

Array parcialmente ordenado com intervalo de 2 :
 [0 2 0 2 6 4 6 7 9 8] 

Array parcialmente ordenado com intervalo de 1 :
 [0 0 2 2 4 6 6 7 8 9] 



## Quicksort
Um dos algoritmos mais eficientes  
Melhor caso: O(n log n)  
Pior caso: O(n^2) - Ocorre quando os pivos selecionados sao ou o maior ou o menor elemento do array

In [8]:
def quicksort(array, begin=0, end=None): #valores defaults
    if end is None: #Caso seja a primeira execução da funcao (primeira em relacao a recursao)
            end = len(array) - 1
    if end > begin:
        pivot = particiona(array, begin, end)
        quicksort(array, begin, pivot-1)
        quicksort(array, pivot+1, end)
        

def particiona(array, begin, end):
    pivot = begin #seleciona o novo pivo da particao
    i = begin + 1 #le o array partindo do começo procurando por um elemento maior que o pivo
    j = end #le o array partindo do final procurando um elemento menor que o pivo
    
    while j > i:
        while(array[i]<array[pivot] and i<end):
            i += 1
        while(array[j]>=array[pivot] and j>begin):
            j -= 1
        if(j>i and array[i]>array[j]):
            array[i], array[j] = array[j],array[i] #swap entre os ponteiros
    
    if(array[j]<array[pivot]):
        array[pivot],array[j] = array[j],array[pivot]
        
    return j

In [11]:
# Teste do algoritmo quicksort
max = qtd = 10 # Quantidade de elementos que serao gerados aleatoriamente
arrayRandomico = gerador.randint(0, max+1, qtd) #max+1 pois é um intervalo aberto
print('Aray gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

quicksort(arrayRandomico)
print('Array ordenado com quicksort: ', arrayRandomico)


#teste de tempo do quicksort
max = qtd = 100000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
quicksort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 100.000 items:', t, 'segundos')

#teste de tempo extremo
max = qtd = 1000000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
arrayRandomico = quicksort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 1.000.000 items:', t, 'segundos')

Aray gerado ( 10 numeros ):
 [2 3 4 8 2 8 5 4 7 8] 

Array ordenado com quicksort:  [2 2 3 4 4 5 7 8 8 8]

Tempo de processamento num array de 100.000 items: 0.796875 segundos

Tempo de processamento num array de 1.000.000 items: 9.34375 segundos


## Selection Sort
Um algoritmo bem ineficiente porém para fins didaticos será incluido aqui  
Melhor caso: O(n^2)  
Pior caso: O(n^2)

In [17]:
def selectionSort(array): # n é o tamanho do array
    for i in range(0, len(array)-1):
        menor = i
        for j in range((i+1), len(array)):
            if(array[j] < array[menor]):
                menor = j
        if(i != menor):
            array[i],array[menor] = array[menor],array[i]

In [18]:
# Teste do selection sort
max = qtd = 10
arrayRandomico = gerador.randint(0,max+1, qtd)
print('Array gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

selectionSort(arrayRandomico)
print('Array ordenado com selectionSort: \n', arrayRandomico)

#teste de tempo
max = qtd = 5000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
selectionSort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 5.000 items:', t, 'segundos')

Array gerado ( 10 numeros ):
 [7 6 2 0 0 6 7 8 1 7] 

Array ordenado com selectionSort: 
 [0 0 1 2 6 6 7 7 7 8]

Tempo de processamento num array de 5.000 items: 2.484375 segundos


## Heapsort
Melhor caso: O(n log n)  
Pior caso: O(n log n)  
  
Apesar de ter um pior caso melhor que o pior caso quicksort costuma ser mais lento que o quicksort devido ao fato do pior caso do quicksort ser mais raro

In [68]:
#função heapify, que organiza o heap
def heapify(array, i, heap_size): #i é o ponto de entrada da função no array
    esquerda = (2*i)+1
    direita = (2*i)+2
    maior = i #colocando o pai na posicao de maior
    if((esquerda < heap_size) and (array[esquerda] > array[maior])): #nodo da esquerda é maior
        maior = esquerda
    if((direita < heap_size) and (array[direita] > array[maior])): #nodo da direita é maior
        maior = direita
    if(maior != i):
        array[i], array[maior] = array[maior], array[i]
        heapify(array, maior, heap_size) #heap_size é quantos elementos tem no heap

#função build-heap, organiza um array qualquer para ser um heap
def buildHeap(array):
    heap_size = len(array)
    for i in range(int((heap_size/2)-1), -1, -1): #range de heapsize até -1 de -1 em -1
        heapify(array, i, heap_size)
    return heap_size
        
#função que implementa o heapsort
def heapSort(array):
    heap_size = buildHeap(array)
    for i in range(heap_size-1, 0, -1):
        array[i],array[0] = array[0], array[i]
        heapify(array, 0, i)

In [69]:
# Teste do heapsort
max = qtd = 20
arrayRandomico = gerador.randint(0,max+1, qtd)
print('Array gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

heapSort(arrayRandomico)
print('Array ordenado com heapsort: \n', arrayRandomico)

#teste de tempo
max = qtd = 100000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
heapSort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 100.000 items:', t, 'segundos')

Array gerado ( 20 numeros ):
 [13  2 11  7  3  7  2  6  3  3  2 11 11 13  2 12 11 14  9  3] 

Array ordenado com heapsort: 
 [ 2  2  2  2  3  3  3  3  6  7  7  9 11 11 11 11 12 13 13 14]

Tempo de processamento num array de 100.000 items: 1.578125 segundos


## Mergesort
Melhor Caso: O(n log n)  
Pior Caso: O(n log n)

In [12]:
#mergesort
def mergesort(array):
    if len(array)>1 :      
        m = len(array)//2 #divisao de inteiros
        Left = array[:m]
        Right = array[m:]
        
        mergesort(Left)
        mergesort(Right)
        
        merge(array, Left, Right)
    
#Intercala as duas sequencias ordenadas
def merge(array, Left, Right):
    i=0
    j=0
    k=0
    
    while((i < len(Left)) and (j < len(Right))): #Se ainda tem elementos nos 2 arrays
        #determina qual subarray tem o maior elemento no ponteiro atual
        if Left[i] < Right[j]:
            array[k] = Left[i]
            i += 1
        else:
            array[k] = Right[j]
            j += 1
        k += 1 #incrementa o ponteiro do novo array
        
    #Cai nesses 2 whiles quando um dos subarrays ja esta vazio; Eles transferem os elementos restantes dos subarrays para o array novo
    while i < len(Left):
        array[k] = Left[i]
        i += 1
        k += 1
        
    while j < len(Right):
        array[k] = Right[j]
        j += 1
        k += 1

In [13]:
# Teste do merge sort
qtd = 20
max = 999
arrayRandomico = gerador.randint(0,max+1, qtd) #por causa da biblioteca usada para gerar os numeros randomico a var nao é uma lista mas um numpy.ndarray
arrayRandomico = arrayRandomico.tolist() #transformando ela em lista (pois a funcao buga com np.ndarrays)

print('Array gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

mergesort(arrayRandomico)
print('Array ordenado com mergeSort: \n', arrayRandomico)

#teste de tempo
max = qtd = 100000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
mergesort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 100.000 items: ', t)

#teste de tempo extremo
max = qtd = 1000000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
arrayRandomico = mergesort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 1.000.000 items:', t, 'segundos')

Array gerado ( 20 numeros ):
 [731, 213, 326, 976, 81, 419, 428, 154, 488, 536, 932, 809, 590, 354, 84, 320, 743, 445, 209, 102] 

Array ordenado com mergeSort: 
 [81, 84, 102, 154, 209, 213, 320, 326, 354, 419, 428, 445, 488, 536, 590, 731, 743, 809, 932, 976]

Tempo de processamento num array de 100.000 items:  0.859375

Tempo de processamento num array de 1.000.000 items: 9.921875 segundos


### Todo algoritmo de comparação está limitado por O(n log n), portando, Heapsort e Mergesort são assintoticamente ótimos, por isso veremos agora algoritmos de classificação com tempo LINEAR

 ## Bucketsort
 Melhor Caso: O(n) - O numero de buckets deve ser igual ao tamanho do array a ser ordenado (o que faz ter mais chance de haver 1 elemento por bucket)  
 Pior Caso: O(n^2)

In [15]:
def bucketsort(array, n):
    buckets = [[] for x in range(n)] #subdivide em n buckets
    for i, x in enumerate(array): #retorna sempre o indice e o conteudo do array
        #divide o valor de cada elemento por 10, fazendo com que cada bucket contenha elementos de um valor decimal diferente
        buckets[int(x/len(buckets))].append(x) 
    saida = [] #cria o array de saida
    for buck in buckets:
        saida += insertion_sort_novo(buck)
    return saida

#Função de inserção direta com busca linear:
def insertion_sort_novo(array):
    for j in range(1, len(array)): #funcao range gera uma lista de numeros com o valor inicial de j (1) e depois o final (len(array))
        chave = array[j] #chave a ser inserida no subarray ordenado
        i = j-1 #i recebe o ultimo elemento do subarray ordenado
        while (i >= 0) and (array[i] > chave): #busca linear da direita para a esquerda dentro do array subordenado
            array[i+1] = array[i]
            i -= 1
        array[i+1] = chave
    return array

In [20]:
# Teste do bucket sort
qtd = 20
max = 99
arrayRandomico = gerador.randint(0,max+1, qtd)
print('Array gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

array = bucketsort(arrayRandomico, len(arrayRandomico))
print('Array ordenado com bucket sort: \n', array)

#teste de tempo
max = qtd = 10000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
bucketsort(arrayRandomico, len(arrayRandomico))
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 10.000 items:', t, 'segundos')

Array gerado ( 20 numeros ):
 [63 19 73 53 92 19 87 94 76 10 89 32 88 42 15 52 67 16 10 25] 

Array ordenado com bucket sort: 
 [10, 10, 15, 16, 19, 19, 25, 32, 42, 52, 53, 63, 67, 73, 76, 87, 88, 89, 92, 94]

Tempo de processamento num array de 10.000 items: 3.75 segundos


## Radix sort

In [54]:
#definicao do radix LSD (do menos significante ao mais)
def radix_sort(array):
    modulo = 10
    div = 1
    while True: #Loop infinito (so vai parar quando retornar o resultado da funcao)
        temp_list = [[] for x in range(0,10)] #buckets, 1 para cada digito
        for value in array:
            menor_dig = value % modulo #Seleciona o resto da divisao por modulo
            menor_dig /= div #Seleciona apenas o digito mais significativo
            temp_list[int(menor_dig)].append(value)        

        modulo *= 10
        div *= 10
        
        if len(temp_list[0]) == len(array): #Se todos os elementos cairem no indice 0 da lista temporaria quer dizer que nao ha mais digitos a serem percorridos
            return array
        
        array = [] #sobreescreve o array
        for x in temp_list: #percorre cada bucket de temp_list
            for y in x: #percorre cada elemento de cada bucket
                array.append(y)

In [62]:
# Teste do radix sort
max = qtd = 20
arrayRandomico = gerador.randint(0,max+1, qtd)
print('Array gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

arrayRandomico = radix_sort(arrayRandomico)
print('Array ordenado com mergeSort: \n', arrayRandomico)

#teste de tempo normal
max = qtd = 100000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
arrayRandomico = radix_sort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 100.000 items: ', t)

#teste de tempo extremo
max = qtd = 1000000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
arrayRandomico = radix_sort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 1.000.000 items: ', t)

Array gerado ( 20 numeros ):
 [ 8 17 18  4 13  1 11 11  8 20  5  7  2  7  7 10 18 13  3 11] 

Array ordenado com mergeSort: 
 [1, 2, 3, 4, 5, 7, 7, 7, 8, 8, 10, 11, 11, 11, 13, 13, 17, 18, 18, 20]

Tempo de processamento num array de 100.000 items:  0.46875

Tempo de processamento num array de 1.000.000 items:  7.1875


## Counting Sort
Caso Medio: O(n + k), onde n é tamanho do array e k o valor mais alto do array  
Tende a ser um algoritmo muito rapido porem, exige uma prealocação de memória muito grande para ser eficiente em casos reais

In [33]:
#algoritmo counting sort
def counting_sort(array, valMax):
    saida = [0] * len(array)
    counter = [0] * (valMax + 1) #cria um array do tamanho do valor max com todos os elementos zerados
    for i in array:
        counter[i] += 1 #conta quantos elementos tem com o valor de cada index
        
    for i in range(1, len(counter)):
        counter[i] = counter[i] + counter[i-1] #conta quantos elementos menores ou iguais ao elemento do index existem no array original

    for i in range(len(array)-1, -1, -1):
        saida[counter[array[i]]-1] = array[i] #O -1 do counter serve para corrigir o fato que o index começa em 0 e nao em 1
        counter[array[i]] -= 1
        
    return saida       

In [38]:
# Teste do counting sort
max = qtd = 20
arrayRandomico = gerador.randint(0,max+1, qtd)
print('Array gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

arrayRandomico = counting_sort(arrayRandomico, max)
print('Array ordenado com counting sort: \n', arrayRandomico)

#teste de tempo normal
qtd = 100000
max = 100000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
arrayRandomico = counting_sort(arrayRandomico, max)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 100.000 items: ', t)

#teste de tempo extremo
qtd = 1000000
max = 1000000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
arrayRandomico = counting_sort(arrayRandomico, max)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 1.000.000 items: ', t)

Array gerado ( 20 numeros ):
 [ 8 13 15 15 10  6 11  1 11 13 20  9 15 20 10 12 16  6 15 19] 

Array ordenado com counting sort: 
 [1, 6, 6, 8, 9, 10, 10, 11, 11, 12, 13, 13, 15, 15, 15, 15, 16, 19, 20, 20]

Tempo de processamento num array de 100.000 items:  0.078125

Tempo de processamento num array de 1.000.000 items:  1.40625
