# Estudos de Classificação e Pesquisa de Dados
### Setting up the environment

In [11]:
import numpy as np # Importando a biblioteca numpy (para trabalhar com arrays)
import time #Biblioteca utilizada para contar o tempo
import pandas as pd #biblioteca para trabalhar com dataframes

gerador = np.random.RandomState() # Cria um gerador de números aleatórios

# A função log imprime um log dos dados da execução de algum dos algoritmos
# Dados registrados: algoritmo, tipo de array, quantidade de números, trocas e comparações e tempo em milissegundos
# Os tipos de array podem ser 'R'andomicos, 'C'rescente ou 'D'ecrescente
# lambda é uma keyword que permite gerar funcoes de uma linha, m é o argumento que ela recebe
log = lambda m: print('[log: {algoritmo}, {tipo}, {quantidade:d}, {trocas:d}, {comparacoes:d},{tempo:f}]'.format(algoritmo=m['algoritmo'],
                                                                                                                tipo=m['tipo'],
                                                                                                                quantidade=m['quantidade'],
                                                                                                                trocas=m['trocas'],
                                                                                                                comparacoes=m['comparacoes'],
                                                                                                                tempo=m['tempo']))

medicoes=[] # Lista que armazena os resultados das medições em memória

## Algoritmo de inserção direta (Insertion Sort)
Melhor caso: O(n) - Array ja esta ordenado e só ocorrem n comparações  
Pior caso: O(n^2) - Array esta completamente desordenado

In [72]:
#Função de inserção direta com busca linear:
def insertion_sort(array):
    trocas = comparacoes = 0
    for j in range(1, len(array)): #funcao range gera uma lista de numeros com o valor inicial de j (1) e depois o final (len(array))
        chave = array[j] #chave a ser inserida no subarray ordenado
        i = j-1 #i recebe o ultimo elemento do subarray ordenado
        comparacoes += 1
        while (i >= 0) and (array[i] > chave): #busca linear da direita para a esquerda dentro do array subordenado
            array[i+1] = array[i]
            i -= 1
            trocas += 1
        array[i+1] = chave
    return {'trocas':trocas, 'comparacoes':comparacoes}

In [73]:
#Teste do algoritmo de inserção direta com 100 elementos
max = qtd = 100 #Quantidade de elementos que serão gerados aleatoriamente
arrayRandomico = gerador.randint(0, max+1, qtd) #randint retorna inteiros aleatorio, nesse caso 'qtd' inteiros entre 0 e max 
print('Array gerado (',qtd, 'numeros ):\n', arrayRandomico)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
m = insertion_sort(arrayRandomico) #Ordena o Array e retorna a quantidade de trocas e comparacoes
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('Array ordenado:\n', arrayRandomico)

#Armazenando as informacoes sobre a execucao do algoritmo em um dicionario
medicao={}
medicao['algoritmo']='IDBL'
medicao['tipo']='R'
medicao['quantidade'] = qtd
medicao['trocas']=m['trocas']
medicao['comparacoes']=m['comparacoes']
medicao['tempo']=t

medicoes.append(medicao) #Adiciona medição em uma lista de medições

Array gerado ( 100 numeros ):
 [36  5 22  2 23 36 85  9 86 14 48 60 91 27 41 86 95 23 92 17 94 43 96 67 22
 45 13 30 55 66 76  1 41 99 32 49  8 42 45 77 62  9 31 59 45 33 80 57 59 20
 72 67 36 32 89 66 36 40 56 59  2  5 71 96 49 53 93 88 82 92 41  2 27 83 92
 54  1 98 77 23  3 19 10 11 42 51 35 42 53  0 25  8  5 12 46 22 17 90 33 62]
Array ordenado:
 [ 0  1  1  2  2  2  3  5  5  5  8  8  9  9 10 11 12 13 14 17 17 19 20 22 22
 22 23 23 23 25 27 27 30 31 32 32 33 33 35 36 36 36 36 40 41 41 41 42 42 42
 43 45 45 45 46 48 49 49 51 53 53 54 55 56 57 59 59 59 60 62 62 66 66 67 67
 71 72 76 77 77 80 82 83 85 86 86 88 89 90 91 92 92 92 93 94 95 96 96 98 99]


In [74]:
#Exibe os dados relacionados as execuções do algoritmo de ordenação
df = pd.DataFrame(medicoes) #Estrutura de tabela da biblioteca pandas
cols = ['algoritmo', 'tipo', 'quantidade', 'trocas', 'comparacoes', 'tempo'] #Colocando as colunas na ordem certa
df = df[cols]

print(df)

  algoritmo tipo  quantidade  trocas  comparacoes  tempo
0      IDBL    R         100    2559           99    0.0


## Algoritmo de inserção direta com busca binária (binary insertion sort)

Implementar um algoritmo de busca binária no insertion sort diminuiria o numero de comparações para log_2(n), porém o custo total do algoritmo continuaria O(n^2) por causa do numero de swaps

## Shellsort
A analise de desempenho do shellsort é complexa porém usarei os seguintes valores de referencia  
Pior caso: O(n^2) (com a pior sequencia de gaps [o 'h' do algoritmo abaixo] conhecida) ou  
O(n log_2 n) com a melhor sequencia conhecida)  
Melhor caso: O(n log n)

In [132]:
def shellSort(array):
    n = len(array) # n=tamanho do array
    h = n//2 # h é a distancia entre cada segmento. O operador // faz a divisao em integer
    # Os segmentos sao os "subarray" que vao sendo ordenados parcialmente
    
    while h > 0:
        for startPosition in range(h):
            insShellSort(array, startPosition, h)
            
        print('Array parcialmente ordenado com intervalo de', h, ':\n', array, '\n')
        h = h//2
            
def insShellSort(array, startPosition, h):
    for i in range(startPosition+h, len(array), h): # Vai de startPosition+h ate o tamanho do array pulando de h em h
        chave = array[i]
        posicao = i
        
        while (posicao>=h) and (array[posicao-h]>chave): # Se alguma chave do segmento for menor que a mais da direita reordena
            array[posicao]=array[posicao-h]
            posicao = posicao-h
            
        array[posicao] = chave

In [133]:
# Teste do algoritmo shellSort
max = qtd = 10 # Quantidade de elementos que serao gerados aleatoriamente
arrayRandomico = gerador.randint(0, max+1, qtd) #max+1 pois é um intervalo aberto
print('Aray gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

shellSort(arrayRandomico)

Aray gerado ( 10 numeros ):
 [2 3 2 3 2 4 3 7 6 1] 

Array parcialmente ordenado com intervalo de 5 :
 [2 3 2 3 1 4 3 7 6 2] 

Array parcialmente ordenado com intervalo de 2 :
 [1 2 2 3 2 3 3 4 6 7] 

Array parcialmente ordenado com intervalo de 1 :
 [1 2 2 2 3 3 3 4 6 7] 



## Quicksort
Um dos argumentos mais eficientes  
Melhor caso: O(n log n)  
Pior caso: O(n^2) - Ocorre quando os pivos selecionados sao ou o maior ou o menor elemento do array

In [135]:
def quicksort(array, begin=0, end=None): #valores defaults
    if end is None: #Caso seja a primeira execução da funcao (primeira em relacao a recursao)
            end = len(array) - 1
    if end > begin:
        pivot = particiona(array, begin, end)
        quicksort(array, begin, pivot-1)
        quicksort(array, pivot+1, end)
        

def particiona(array, begin, end):
    pivot = begin #seleciona o novo pivo da particao
    i = begin + 1 #le o array partindo do começo procurando por um elemento maior que o pivo
    j = end #le o array partindo do final procurando um elemento menor que o pivo
    
    while j > i:
        while(array[i]<array[pivot] and i<end):
            i += 1
        while(array[j]>=array[pivot] and j>begin):
            j -= 1
        if(j>i and array[i]>array[j]):
            array[i], array[j] = array[j],array[i] #swap entre os ponteiros
    
    if(array[j]<array[pivot]):
        array[pivot],array[j] = array[j],array[pivot]
        
    return j

In [136]:
# Teste do algoritmo quicksort
max = qtd = 10 # Quantidade de elementos que serao gerados aleatoriamente
arrayRandomico = gerador.randint(0, max+1, qtd) #max+1 pois é um intervalo aberto
print('Aray gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

quicksort(arrayRandomico)
print('Array ordenado com quicksort: ', arrayRandomico)


#teste de tempo do quicksort
max = qtd = 100000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
quicksort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 100.000 items: ', t)

Aray gerado ( 10 numeros ):
 [ 5  6  7  5  8  3  8  4 10  2] 

Array ordenado com quicksort:  [ 2  3  4  5  5  6  7  8  8 10]

Tempo de processamento num array de 100.000 items:  0.921875


## Selection Sort
Um algoritmo bem ineficiente porém para fins didaticos será incluido aqui  
Melhor caso: O(n^2)  
Pior caso: O(n^2)

In [8]:
def selectionSort(array): # n é o tamanho do array
    for i in range(0, len(array)-1):
        menor = i
        for j in range((i+1), len(array)):
            if(array[j] < array[menor]):
                menor = j
        if(i != menor):
            array[i],array[menor] = array[menor],array[i]

In [141]:
# Teste do selection sort
max = qtd = 10
arrayRandomico = gerador.randint(0,max+1, qtd)
print('Array gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

selectionSort(arrayRandomico)
print('Array ordenado com selectionSort: \n', arrayRandomico)

#teste de tempo
max = qtd = 5000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
selectionSort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 5.000 items: ', t)

Array gerado ( 10 numeros ):
 [ 0  4  7  6  2  2  8 10  7  9] 

Array ordenado com selectionSort: 
 [ 0  2  2  4  6  7  7  8  9 10]

Tempo de processamento num array de 5.000 items:  2.65625


## Heapsort
Melhor caso: O(n log n)  
Pior caso: O(n log n)  
  
Apesar de ter um pior caso melhor que o pior caso quicksort costuma ser mais lento que o quicksort devido ao fato do pior caso do quicksort ser mais raro

In [106]:
#função heapify, que organiza o heap
def heapify(array, i, heap_size): #i é o ponto de entrada da função no array
    esquerda = (2*i)+1
    direita = (2*i)+2
    maior = i #colocando o pai na posicao de maior
    if((esquerda < heap_size) and (array[esquerda] > array[maior])): #nodo da esquerda é maior
        maior = esquerda
    if((direita < heap_size) and (array[direita] > array[maior])): #nodo da direita é maior
        maior = direita
    if(maior != i):
        array[i], array[maior] = array[maior], array[i]
        heapify(array, maior, heap_size) #heap_size é quantos elementos tem no heap

#função build-heap, organiza um array qualquer para ser um heap
def buildHeap(array):
    heap_size = len(array)
    for i in range(int((heap_size/2)-1), -1, -1): #range de heapsize até -1 de -1 em -1
        heapify(array, i, heap_size)
    return heap_size
        
#função que implementa o heapsort
def heapSort(array):
    heap_size = buildHeap(array)
    for i in range(heap_size-1, 0, -1):
        array[i],array[0] = array[0], array[i]
        heapify(array, 0, i)

In [142]:
# Teste do selection sort
max = qtd = 20
arrayRandomico = gerador.randint(0,max+1, qtd)
print('Array gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

heapSort(arrayRandomico)
print('Array ordenado com selectionSort: \n', arrayRandomico)

#teste de tempo
max = qtd = 100000
arrayRandomico = gerador.randint(0,max+1, qtd)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
heapSort(arrayRandomico)
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('\nTempo de processamento num array de 100.000 items: ', t)

Array gerado ( 20 numeros ):
 [18 16 14  2 12  0 19  3 10 12 19 14  2  8  2  1 16  8  4  2] 

Array ordenado com selectionSort: 
 [ 0  1  2  2  2  2  3  4  8  8 10 12 12 14 14 16 16 18 19 19]

Tempo de processamento num array de 100.000 items:  1.65625
