# Estudos de Classificação e Pesquisa de Dados
### Setting up the environment

In [1]:
import numpy as np # Importando a biblioteca numpy (para trabalhar com arrays)
import time #Biblioteca utilizada para contar o tempo
import pandas as pd #biblioteca para trabalhar com dataframes

gerador = np.random.RandomState() # Cria um gerador de números aleatórios

# A função log imprime um log dos dados da execução de algum dos algoritmos
# Dados registrados: algoritmo, tipo de array, quantidade de números, trocas e comparações e tempo em milissegundos
# Os tipos de array podem ser 'R'andomicos, 'C'rescente ou 'D'ecrescente
# lambda é uma keyword que permite gerar funcoes de uma linha, m é o argumento que ela recebe
log = lambda m: print('[log: {algoritmo}, {tipo}, {quantidade:d}, {trocas:d}, {comparacoes:d},{tempo:f}]'.format(algoritmo=m['algoritmo'],
                                                                                                                tipo=m['tipo'],
                                                                                                                quantidade=m['quantidade'],
                                                                                                                trocas=m['trocas'],
                                                                                                                comparacoes=m['comparacoes'],
                                                                                                                tempo=m['tempo']))

medicoes=[] # Lista que armazena os resultados das medições em memória

## Algoritmo de inserção direta (Insertion Sort)
Melhor caso: O(n) - Array ja esta ordenado e só ocorrem n comparações  
Pior caso: O(n^2) - Array esta completamente desordenado

In [2]:
#Função de inserção direta com busca linear:
def insertion_sort(array):
    trocas = comparacoes = 0
    for j in range(1, len(array)): #funcao range gera uma lista de numeros com o valor inicial de j (1) e depois o final (len(array))
        chave = array[j] #chave a ser inserida no subarray ordenado
        i = j-1 #i recebe o ultimo elemento do subarray ordenado
        comparacoes += 1
        while (i >= 0) and (array[i] > chave): #busca linear da direita para a esquerda dentro do array subordenado
            array[i+1] = array[i]
            i -= 1
            trocas += 1
        array[i+1] = chave
    return {'trocas':trocas, 'comparacoes':comparacoes}

In [4]:
#Teste do algoritmo de inserção direta com 100 elementos
max = qtd = 100 #Quantidade de elementos que serão gerados aleatoriamente
arrayRandomico = gerador.randint(0, max+1, qtd) #randint retorna inteiros aleatorio, nesse caso 'qtd' inteiros entre 0 e max 
print('Array gerado (',qtd, 'numeros ):\n', arrayRandomico)

tempo = time.process_time() #Armazena o tempo de inicio do processamento
m = insertion_sort(arrayRandomico) #Ordena o Array e retorna a quantidade de trocas e comparacoes
t = time.process_time() - tempo #Salva em t o tempo que o processo levou
print('Array ordenado:\n', arrayRandomico)

#Armazenando as informacoes sobre a execucao do algoritmo em um dicionario
medicao={}
medicao['algoritmo']='IDBL'
medicao['tipo']='R'
medicao['quantidade'] = qtd
medicao['trocas']=m['trocas']
medicao['comparacoes']=m['comparacoes']
medicao['tempo']=t

medicoes.append(medicao) #Adiciona medição em uma lista de medições

Array gerado ( 100 numeros ):
 [ 38  47  97  13  40  78  70  62 100  30  42   4   6  29  56   2  26  68
  25  94   0  40   6  23  96  36  18  88  45  98  67  72  96  39  94  71
  65  93  60  44  65  10   8  40   9  92  40  77  34  74  37  78  45  45
  21  42 100   4   6  96  32  56  70  56   3  18  76  89  31  48  64  33
  46  55  14  60   2  61  80  98  99  61   7  26  22  70  61  85  43  97
  70  94  70  64  35  58  54  74  66  97]
Array ordenado:
 [  0   2   2   3   4   4   6   6   6   7   8   9  10  13  14  18  18  21
  22  23  25  26  26  29  30  31  32  33  34  35  36  37  38  39  40  40
  40  40  42  42  43  44  45  45  45  46  47  48  54  55  56  56  56  58
  60  60  61  61  61  62  64  64  65  65  66  67  68  70  70  70  70  70
  71  72  74  74  76  77  78  78  80  85  88  89  92  93  94  94  94  96
  96  96  97  97  97  98  98  99 100 100]


In [5]:
#Exibe os dados relacionados as execuções do algoritmo de ordenação
df = pd.DataFrame(medicoes) #Estrutura de tabela da biblioteca pandas
cols = ['algoritmo', 'tipo', 'quantidade', 'trocas', 'comparacoes', 'tempo'] #Colocando as colunas na ordem certa
df = df[cols]

print(df)

  algoritmo tipo  quantidade  trocas  comparacoes     tempo
0      IDBL    R         100    2408           99  0.000000
1      IDBL    R         100    2203           99  0.015625


## Algoritmo de inserção direta com busca binária (binary insertion sort)

Implementar um algoritmo de busca binária no insertion sort diminuiria o numero de comparações para log_2(n), porém o custo total do algoritmo continuaria O(n^2) por causa do numero de swaps

## Shellsort
A analise de desempenho do shellsort é complexa porém usarei os seguintes valores de referencia  
Pior caso: O(n^2) (com a pior sequencia de gaps [o 'h' do algoritmo abaixo] conhecida) ou  
O(n log_2 n) com a melhor sequencia conhecida)  
Melhor caso: O(n log n)

In [18]:
def shellSort(array):
    n = len(array) # n=tamanho do array
    h = n//2 # h é a distancia entre cada segmento. O operador // faz a divisao em integer
    # Os segmentos sao os "subarray" que vao sendo ordenados parcialmente
    
    while h > 0:
        for startPosition in range(h):
            insShellSort(array, startPosition, h)
            
        print('Array parcialmente ordenado com intervalo de', h, ':\n', array, '\n')
        h = h//2
            
def insShellSort(array, startPosition, h):
    for i in range(startPosition+h, len(array), h): # Vai de startPosition+h ate o tamanho do array pulando de h em h
        chave = array[i]
        posicao = i
        
        while (posicao>=h) and (array[posicao-h]>chave): # Se alguma chave do segmento for menor que a mais da direita reordena
            array[posicao]=array[posicao-h]
            posicao = posicao-h
            
        array[posicao] = chave

In [20]:
# Teste do algoritmo shellSort
max = qtd = 10 # Quantidade de elementos que serao gerados aleatoriamente
arrayRandomico = gerador.randint(0, max+1, qtd) #max+1 pois é um intervalo aberto
print('Aray gerado (', qtd, 'numeros ):\n', arrayRandomico, '\n')

shellSort(arrayRandomico)

Aray gerado ( 10 numeros ):
 [1 9 3 7 0 0 8 0 2 6] 

Array parcialmente ordenado com intervalo de 5 :
 [0 8 0 2 0 1 9 3 7 6] 

Array parcialmente ordenado com intervalo de 2 :
 [0 1 0 2 0 3 7 6 9 8] 

Array parcialmente ordenado com intervalo de 1 :
 [0 0 0 1 2 3 6 7 8 9] 

