In [88]:
import pandas as pd
import matplotlib.pyplot as plt
import time
import numpy as np
import os
import random

In [89]:
def change_directory(path):
    '''Essa função será utilizada para alterar o diretório da aplicação.'''
    if not os.getcwd() == path:
        os.chdir(path)
        return True
    return False
        

In [90]:
# LINEAR SEARCH

def linear_search(array, x) :
	passos = 0
	for i in range(0, len(array)):
		passos += 1
		if(array[i] == x):
			return passos # Retorna a quantidade de passos dados até encontrar o valor da busca
	return passos


In [91]:
# BINARY SEARCH

def binary_search(array, l, r, x, passos = 0) :
	''' Uma busca binária começa pelo elemento do meio da lista e
		a divide em duas sublistas (left, right).
		A busca verificará se esse elemento do meio é maior ou menor
		que o elemento buscado. Caso seja maior, o algoritmo verificará
		a sublista left, partindo do meio da lista. Se for menor, 
		verificará right, partindo do meio da lista.

		OBS.: Este algoritmo é ideal para fazer verificações em arrays
		ordenados.
        
        O retorno é a quantidade de passos de execução do algoritmo.
	'''
	passos += 1   # O número de passos é incrementado
    
	if(r >= l) :
		middle = l + (r - l) //2  # indice da metade da tabela

		if(array[middle] == x):
			return passos

		elif(array[middle] > x):
			return binary_search(array, l, middle-1, x, passos)

		else:
			return binary_search(array, middle+1, r, x, passos)
	else:
		return passos

In [92]:
# INTERPOLATION SEARCH

def interpolation_search(array, lo, hi, x, passos = 0):
    '''
    O algoritmo de busca por interpolação trabalha calculando
    a provável posição de um elemento.
    O cálculo da posição é feito, e se caso o elemento estiver
    nela, a quantidade de passos é retornada.
    Caso o elemento buscado for menor do que o elemento correspondente
    à esta posição, o algoritmo procurará o valor (por meio de uma recursão)
    entre os elementos que estão à esquerda.
    E caso o elemento buscado seja maior,  valor será buscado entre os elementos
    da direita.
    
    Caso o elemento não esteja presente no array, será retornado -1.
    '''
    
    passos += 1   # O número de passos é incrementado
    
    # VERIFICANDO SE X ESTÁ ENTRE [lo, hi]
    if(lo <= hi and array[lo] <= x and x <= array[hi]):
        pos = lo + (((hi - lo) * (x - array[lo])) // (array[hi] - array[lo])) 
        
        if (array[pos] == x):
           return passos
    
        elif (array[pos] < x):
           return interpolation_search(array, pos + 1, hi, x, passos)
    
        else:
           return interpolation_search(array, lo, pos - 1, x, passos)

    else:
       return passos

In [93]:
# FUNCTION TO CHECK TIME

def time_check(algo):
    start = time.time()
    passosAlgoritmo = algo
    return time.time() - start, passosAlgoritmo


In [94]:
# FUNÇÃO PARA RETORNAR UMA LISTA DOS ELEMENTOS A SEREM BUSCADOS

def elementos_a_buscar(listaPosicoes, base):
    listaElementos = []
    for i in listaPosicoes:
        listaElementos.append(base['0'][i])
    
    # Este elemento não consta em nenhuma das bases, será usado para testar o pior caso de quando não temos um elemento na lista
    listaElementos.append(1000001)   

    return listaElementos

In [95]:
# IMPORT PATH: Path onde coloquei os arquivos do projeto 
path = "C:\\Users\\vinic\\Desktop\\Projeto-II\\bases"
change_directory(path)


# IMPORTANDO AS BASES

# OBS: Os índices de cada base elemento da base foram duplicados. De qualquer forma, devem ser desprezados
baseSequencial10_4 = pd.read_csv('base_10000_sequencial.csv')
baseRandom10_4 = pd.read_csv('base_10000_random.csv')

baseSequencial10_5 = pd.read_csv('base_100000_sequencial.csv')
baseRandom10_5 = pd.read_csv('base_100000_random.csv')

baseSequencial10_6 = pd.read_csv('base_1000000_sequencial.csv')
baseRandom10_6 = pd.read_csv('base_1000000_random.csv')

In [96]:
# LABELS

# PARA OS PRÓXIMOS PASSOS, ASSUMA QUE:
#
#    l = busca linear
#    b = busca binária
#    p = busca por interpolação

In [97]:
#    BASES DE 10^4 ELEMENTOS:
#
#    Primeiro será feita uma análise da base sequencial
#    E depois da base aleatória.

In [98]:
# Lista de posições dos elementos que serão buscados
# Por que isso? Por que caso eu assuma esses valores pode ocorrer deles não estarem
# presente na lista por mais de uma vez.

listaPosicoes = [0, 10, 20, 50, 4999, 5000, 9999]
for i in range(23):
    listaPosicoes.append(random.randint(0, 9999))

    
# Elementos da busca sequencial
elementos_sequenciais_10_4 = elementos_a_buscar(listaPosicoes, baseSequencial10_4)

# Elementos da busca randômica
elementos_random_10_4 = elementos_a_buscar(listaPosicoes, baseRandom10_4)

In [99]:
# VARREDURA NA BASE SEQUENCIAL 10^4

rows = []
for e in elementos_sequenciais_10_4:
    l = time_check(linear_search(baseSequencial10_4['0'][:], e))
    b = time_check(binary_search(baseSequencial10_4['0'][:], 0, 9999, e))
    p = time_check(interpolation_search(baseSequencial10_4['0'][:], 0, 9999, e))
    
    rows.append(pd.Series({"valor": e, "l_tempo" : l[0], "l_passos" : l[1], "b_tempo" : b[0], "b_passos" : b[1], "p_tempo" : p[0], "p_passos" : p[1]}))
    
df_seq_104 = pd.DataFrame(rows)
df_seq_104.astype({"valor" : int, "l_tempo" : float, "l_passos" : int, "b_tempo" : float, "b_passos" : int, "p_tempo" : float, "p_passos" : int})

TypeError: 'NoneType' object is not iterable

In [None]:
# GRÁFICO DA RELAÇÃO ELEMENTO -> QUANTIDADE DE PASSOS

l_data = df_seq_104['l_passos'][:]
b_data = df_seq_104['b_passos'][:]
p_data = df_seq_104['p_passos'][:]

values = df_seq_104['valor'][:]

fig, ax = plt.subplots()
ax.plot(values, l_data, label= 'Linear')
ax.plot(values, b_data, label= 'Binária')
ax.plot(values, p_data, label= 'Interpolação')
ax.legend()

plt.show()

In [None]:
# VARREDURA NA BASE RANDOM 10^4

rows = []
for e in elementos_random_10_4:
    l = time_check(linear_search(baseRandom10_4['0'][:], e))
    b = time_check(binary_search(baseRandom10_4['0'][:], 0, 9999, e))
    p = time_check(interpolation_search(baseRandom10_4['0'][:], 0, 9999, e))
    
    rows.append(pd.Series({"valor": e, "l_tempo" : l[0], "l_passos" : l[1], "b_tempo" : b[0], "b_passos" : b[1], "p_tempo" : p[0], "p_passos" : p[1]}))
    
df_seq_104 = pd.DataFrame(rows)
df_seq_104.astype({"valor" : int, "l_tempo" : float, "l_passos" : int, "b_tempo" : float, "b_passos" : int, "p_tempo" : float, "p_passos" : int})