### Técnicas de hash

Outra forma de busca rápida em tabela, é dividi-la em várias sub-tabelas e identificar em qual delas está.

Determinar a posição do elemento dentro da tabela através de seu valor, através de uma função que transforma o valor do elemento numa posição da tabela (função de hash). 

O objetivo então é transformar a chave de busca em um índice na tabela, já que basta verificar se o elemento esta ou não nessa posição.

In [23]:
def hash(x):
    return x % 10

def insere(a, x):
    a[hash(x)] = x

def busca_hash(a, x):
    k = hash(x)
    if a[k] == x: return k
    return -1

4

É sempre melhor escolher uma função que use uma tabela com um número razoável de elementos. 

### Hash e Espalhamento

Problema: como tratar os elementos cujo valor da função de hash é o mesmo? Chamamos tal situação de colisões.

Basta colocar o elemento na primeira posição livre
seguinte e considerar a tabela circular (o elemento seguinte ao último a[n-1] é o primeiro a[0]). Isso se aplica tanto na inserção de novos elementos quanto na busca.

In [None]:
def hash(x, M):
    return x % M

def insere_hash(a, x):
    M = len(a)
    cont = 0
    i = hash(x, M)
    # procura a próxima posição livre
    while a[i] != None:
        if a[i] == x: return -1 # valor já existente na tabela
        cont += 1 # conta os elementos da tabela
        if cont == M: return -2 # tabela cheia
        i = (i + 1) % M # tabela circular
    # achamos uma posição livre - coloque x nesta posição
    a[i] = x
return i

def busca_hash(a, x):
    M = len(a)
    cont = 0
    i = hash(x, M)
    # procura x a partir da posição i
    while a[i] != x:
        if a[i] == None: return -1 # não achou x, pois há uma vazia
        cont += 1 # conta os elementos da tabela
        if cont == M: return -2; # a tabela está cheia
        i = (i + 1) % M # tabela circular
    # encontrou
    return i

### Lista linear - duplo hash

Quando a tabela está muito cheia a busca sequencial pode levar a um número muito grande de comparações antes que se encontre o elemento ou se conclua que ele não está na tabela.

Uma forma de permitir um espalhamento maior é fazer com que o deslocamento em vez de 1 seja dado por uma segunda função de hash.

Essa segunda função de hash tem que ser escolhida com cuidado. Não pode dar zero (loop infinito). Deve ser
tal que a soma do índice atual com o deslocamento (módulo **M**) dê sempre um número diferente até que os **M**
números sejam verificados. Para isso **M** e o valor desta função devem ser primos entre si.

Uma maneira é escolher **M** primo e garantir que a segunda função de hash tenha um valor constante **K** menor
    que **M** e maior que 1. Dessa forma **M** e **K** são primos entre si. A expressãxo (j * K) % M (j=0, ..., a
M -1) gera todos os números de 0 a M -1. O mesmo ocorre com a expressão (c + j * K) % M, onde c
é uma constante.

In [None]:
def hash(x, M):
    pass # valor da função

def hash2():
    pass # valor da função - passo

def insere_hash(a, x):
    M = len(a)
    cont = 0
    i = hash(x, M)
    k = hash2()
    # procura a próxima posição livre
    while a[i] != None:
        if a[i] == x: return -1 # valor já existente na tabela
        cont += 1 # conta os elementos da tabela
        if cont == M: return -2 # tabela cheia
        i = (i + k) % M # tabela circular
    # achamos uma posição livre - coloque x nesta posição
    a[i] = x
    return i

def busca_hash(a, x):
    M = len(a)
    cont = 0
    i = hash(x, M)
    k = hash2()
    # procura x a partir da posição i
    while a[i] != x:
        if a[i] == None: return -1 # não achou x, pois há uma vazia
        cont += 1 # conta os elementos da tabela
        if cont == M: return -2; # a tabela está cheia
        i = (i + k) % M # tabela circular
 # encontrou
 return i

### Hash com sub-listas do Python

Python pode ter listas dentro de listas, construir tabela Hash contendo sub-listas com os elementos que têm o mesmo valor da função de hash.

Colocando 23, 42, 33, 52, 12, 58 (inseridos nesta ordem) em uma tabela de 10 elementos e (x % 10) como função de hash, temos:

[None, None, [42, 52, 12], [23, 33], None, None, None, None, 58, None]

In [None]:
def hash(x, M):
    return x % M

# Insere x na tabela de hash a
# Devolve (None, None) - não inseriu porque já estava
# (i, None) - se inseriu em a[i]
# (i, j) - se inseriu em a[i][j]
def insere_hash(a, x):
    M = len(a)
    i = hash(x, M)
    # tentar inserir x na tabela
    if a[i] is None:
        a[i] = x
        return (i, None)
    # se a[i] é uma lista
    if type(a[i]) is list:
        # procura x em a[i]
        if x in a[i]:
            return (None, None) # x já está na tabela
        # pode inserir x na lista a[i]
        k = len(a[i])
        a[i].append(x)
        return (i, k)
    # a[i] é um elemento simples
    if a[i] == x:
        return (None, None) # já está
    # iniciar a lista em a[i] e inserir elemento
    a[i] = [a[i], x]
    return(i, 1)

# Procura x na tabela de hash a
# Devolve (None, None) - se x não está na tabela
# (i, None) - se x == a[i]
# (i, j) - se x == a[i][j]
def busca_hash(a, x):
    M = len(a)
    i = hash(x, M)
    # x não está na tabela
    if a[i] is None:
        return (None, None)
    # se a[i] é uma lista
    if type(a[i]) is list:
        # procura x em a[i]
        for k in range(len(a[i])):
            if x == a[i][k]:
                return (i, k)
        # não encontrou
        return (None, None)
    # a[i] é um elemento simples
    if a[i] == x:
        return (i, None) # encontrou
    # não encontrou
    return(None, None)

### Hash com listas ligadas

In [26]:
class Node:
    def __init__ (self, info, prox):
        # inicia os campos
        self._info = info
        self._prox = prox
        
class TabelaHashListaLigada:

    # métodos da classe
    def __init__ (self, M):
        ''' cria M LLs vazias.'''
        self._numheads = M
        self._head = [None] * M
    
    def hash(self, x, M):
        return x % M
    
    def insere(self, e):
        ''' adiciona elemento no inicio da LL
            adiciona sempre - inclusive se já estiver.'''
        # novo nó referencia o inicio da LL
        k = self.hash(e, self._numheads)
        novo = Node(e, self._head[k])
        # novo nó será o inicio da LL
        self._head[k] = novo
    
    def procura(self, e):
        ''' procura elemento com info = e.
            devolve referência para esse elemento ou None se não acha.'''
        k = self.hash(e, self._numheads)
        # p percorre a lista
        p = self._head[k]
        while p is not None:
            if p._info == e: return p # achou
            p = p._prox # vai para o próximo
        # se chegou aqui é porque não achou
        return None
    
    def MostraTabHash(self):
        ''' mostra cada uma das listas.'''
        for k in range(self._numheads):
            print("\nLista ", k)
            p = self._head[k]
            while p is not None:
                print("***", p._info)
                p = p._prox
                
# cria tabela de valores
tabela = [34, 54, 89, 98, 134, 85,99]
print("tabela de elementos:\n", tabela)

# Cria tabela hash ligada com NumLL LLs e insere valores
NumLL = 5
TabHash = TabelaHashListaLigada(NumLL)

# insere os elementos na tabela
for k in tabela:
    TabHash.insere(k)

# mostra a tabela construida
TabHash.MostraTabHash()

# teste - procura elementos
print("\nteste - procura elementos")
if TabHash.procura(33) is None:
    print("não achou")
if TabHash.procura(55) is None:
    print("não achou")
for elem in tabela:
    if TabHash.procura(elem) is None:
        print(elem, " * não achou")
    else:
        print(elem, " * achou")

tabela de elementos:
 [34, 54, 89, 98, 134, 85, 99]

Lista  0
*** 85

Lista  1

Lista  2

Lista  3
*** 98

Lista  4
*** 99
*** 134
*** 89
*** 54
*** 34

teste - procura elementos
não achou
não achou
34  * achou
54  * achou
89  * achou
98  * achou
134  * achou
85  * achou
99  * achou


### Tabelas dinâmicas

A busca numa tabela de hash de qualquer tipo fica mais demorada à medida que a tabela fica mais cheia.
Enquanto a tabela está com poucos elementos, a busca tende a ser sempre muito rápida.

Uma solução para o problema de tabela muito cheia é aumentar o seu tamanho quando começar a ficar cheia. 

Adotando a seguinte convenção para uma tabela de N elementos: quando a tabela passa de N/2 elementos,
dobramos o seu tamanho. Assim sempre a tabela terá menos da metade de seus elementos ocupados.

Usando váriaveis globais, temos:

In [27]:
# Inicia as variáveis globais da tabela hash dinâmica
M = 100 # tamanho da tabela
MM = 0 # novo tamanho da tabela
N = 0 # quantidade de elementos da tabela
p = [None] * M # esta é a tabela de hash em uso
q = [] # nova tabela de hash

def hash(x, T):
    # devolve a função de hash para o elemento x e tabela de tamanho T
    return x % T

# insere novamente x na nova tabela q
def insere_nova(x):
    global M, MM, N, p, q
    i = hash(x, MM);
    # procura a próxima posição livre
    # sempre tem lugar, pois a tabela foi duplicada
    while q[i] != None:
        i = (i + 1) % MM # tabela circular
    # achamos uma posição livre
    q[i] = x
    return i

# expande a tabela para o dobro do tamanho
def expande():
    global M, MM, N, p, q
    MM = 2 * M
    q = [None] * MM # nova lista com o dobro de elementos
    # insere todos os elementos na tabela nova
    for i in range(M):
        if p[i] != None: insere_nova(p[i])
    # novos valores para M e p
    M = MM
    p = q # p e q são a mesma lista

# insere elemento na tabela hash
def insere(x):
    global M, MM, N, p, q
    # verifica se o tamanho da tabela está adequado
    if M < N + N:
        # se já tem a metade cheia, é melhor expandir
        expande()
    i = hash(x, M);
    # procura a próxima posição livre - sempre vai encontrar
    while p[i] != None:
        # encontrou - insere x se já não está
        if p[i] == x: return -1 # valor já existente na tabela
        i = (i + 1) % M # tabela circular
    # achamos uma posição livre
    p[i] = x
    N += 1
    return i;

def busca_hash(x):
    global M, MM, N, p, q
    i = hash(x, M)
    cont = 0
    # procura x a partir da posição i
    while p[i] != x:
        if p[i] == None: return -1 # não achou x, pois há uma vazia
        cont += 1 # conta os elementos da tabela
        if cont == N: return -2; # esse é o último – não achou
        i = (i + 1) % M # tabela circular
    # encontrou
    return i

### Remoção de elementos

Considere a estrutura de lista simples de hash ou mesmo dupla hash. Quando se remove um elemento, a tabela
perde sua estrutura de hash. Portanto, remoções não podem ser feitas.

### Exercícios

1. Deseja-se construir uma tabela do tipo hash com os números:

   1.2 1.7 1.3 1.8 1.42 1.51
   
   Diga qual seria uma boa função de hash e o número de elementos da tabela

R. Tabela com máximo de 7 elementos, Função Hash round((x * 10 % M)) CHECK

2. E para os números 

   1.2 1.3 1.8 5.3 5.21 5.7 5.43 8.3 8.4 8.47 8.8
   
R. Tabela com máximo de 100 elementos, Função Hash round((x * np.pi * 200%100)) CHECK
   
3. Idem

   a) 7 números entre 0.1 e 0.9 (1 casa decimal)
   b) 15 números entre 35 e 70 (inteiros)
   c) 10 números entre -42 e -5 (inteiros)
   
R. Tabela com máximo de 11 elementos, Função Hash (x * 10 % M) CHECK

R. Tabela com máximo de 23 elementos, Função Hash ((x-35) * (M – 1))/(70-35)

R. Tabela com máximo de x elementos, Função Hash abs(int(round(((x+45) * (M - 1))/(-5+45)))) CHECK

4. Idem com um máximo de 1.000 números entre 0 e 1 com no máximo 5 algarismos significativos.

R. Tabela com 1021 elementos, Função Hash round((x * 10e5 % M)) CHECK

5. Idem com um máximo de 1.000.000 de números fracionários entre 0 e 1 com no máximo 10 dígitos significativos.

R. Tabela com 1048573 elementos, Função Hash round((x * 10e10 % M)) CHECK

In [302]:
import numpy as np

l = [1.2, 1.3, 1.8, 5.3, 5.21, 5.7, 5.43, 8.3, 8.4, 8.47, 8.8]

inicio, fim, N = -45, -5, 10
# l_rand = np.random.randint(inicio,fim,size = N)
# l_rand.sort()
l_rand = [-44, -43, -40, -36, -35, -27, -25, -19,  -7,  -6]

l_01 = np.random.rand(1000)

l2 = [0.1,0.3,0.4,0.5,0.6,0.8,0.9]

def hash(a, x):
    M = 15
    return round((x*np.pi*200%22))
    #return abs(int(round(((x+45)*(M - 1))/(-5+45))))

def verifica(l_inicial):
    l_nova = []
    for i in l_inicial:
        l_nova.append(hash(l_inicial,i))
    return l_nova
    
verifica(l)

[6, 3, 9, 8, 18, 17, 2, 1, 20, 20, 7]