# Hashing

Supongamos que tenemos elementos del 100 al 199.

Necesito asignarles un índice en una colección (o tabla) de 100 elementos.

Solución sencilla: $key\ mod\ 100$

*Hashing* es el proceso de mapear una llave de búsqueda a un rango limitado de índices con el propósito de proveer **acceso directo**

Las llaves están almacenadas en un arreglo llamado **hash table** y una **función hash** está asociada con la tabla

### Ejemplo

```765, 431, 96, 142, 579, 226, 903, 388```

La Hash table tiene 13 espacios ($M = 13$)

h(key) = key % M

0 388  
1  
2 431  
3  
4  
5 96  
6 226  
7 579  
8 903  
9  

10  
11 765  
12 142  

In [1]:
def hash_fn1(key):
    return key % 13

In [18]:
hash_fn1(32)

6

In [7]:
hash_fn1(96)

5

### Linear probing

Es un técnica para resolución de colisiones (cuando la función hash retorna un valor igual para dos llaves distintas). Si se da una colisión al insertar, la llave se insertará en el siguiente índice no ocupado.



### Modified Linear probing

Dado que *linear probing* deriva en clusters, podemos usar una secuencia de sondeo (probe sequence). El siguiente espacio a ser considerado para inserción puede ser determinado por

indice = (original + i*c) % M

donde i es el intento i-gesimo en la secuencia, i = 1, 2, ... M-1

```765, 431, 96, 142, 579, 226, 903, 388```

M = 13  
c = 3  
h(key) = key % M  
indice = (original + i*c) % M  

0
1 388  
2 431  
3  
4  
5 96  
6 903  
7 579  
8 226  
9  
10  
11 765  
12 142  

### Quadratic Probing

indice = (original + i^2) % M

```765, 431, 96, 142, 579, 226, 903, 388```

M = 13  
c = 3  
h(key) = key % M  
indice = (indice_original + i^2) % M  

0  
1 388  
2 431  
3  
4  
5 96  
6 226  
7 579  
8   
9  
10 903  
11 765  
12 142  
  
h(388) => 11 => 12 => 2 => 7 => 1  
h(648) => 11 => 12 => 2 => 7 => 1

### Double Hashing

h(key) = key % M  
hp(key) = 1 + key % P , donde P es una constante menor a M  
  
M = 13  
P = 8  
  
```765, 431, 96, 142, 579, 226, 903, 388```
  
  
0  
1  
2 431  
3 388  
4  
5 96  
6 903  
7 579  
8 226  
9  
10  
11 765  
12 142  

### Rehashing

```765, 431, 96, 142, 579, 226, 903, 388```

h(key) = key % M  
indice = (original + i*c)) % M  
  
M = 17  
c = 1   
  
0 765  
1 579  
2 903  
3  
4  
5 226  
6 431  
7 142  
8  
9  
10  
11 96  
12  
13  
14 388  
15  
16  
  
h(142) = 6 => 7  

load factor = # de elementos / # total de entradas en la tabla  
load factor ideal ~ 80%  

Cuando ampliemos la tabla, una buena regla es ampliarla a $2*M$ y buscar el siguiente primo mayor. Otra opción es utilizar $2*M +1$


### Chaining (open hashing)

```765, 431, 96, 142, 579, 226, 903, 388```
  
0  
1  
2 431  
3  
4  
5 96 -> 226  
6  
7 579  
8  
9  
10  
11 765  
12 142  


### Diseño de funciones hash

* La computación debería ser sencilla.
* El índice no puede ser aleatorio. Una llave siempre debería ser mapeada al mismo índice.
* Si la llave tiene múltiples partes, cada parte debería contribuir en la computación del índice.
* Si la función utiliza el operador módulo, el número de posiciones en la tabla debería ser primo.

### Division

h(key) = key % M

### Truncación

key = 4873152

h(key) = tomar digitos en posiciones pares

h(4873152) = 835

### Folding

key = 4873152

h(key) = partir en pares y sumarlos

h(4873152) = 52 + 31 + 87 + 4 = 174

### Hashing de strings

key = 'hashing'

h(key) = sum(ASCII(key))

h('hashing') = 104 + 97 + 115 + 104 + 105 + 110 + 103 = 738


a = 27

h(key) = s_0 * a^(n-1) + s_1 * a^(n-2) + ... s_(n-2) * a + s_(n-1) 

h(key) = 104 * 27^6 + 97 * 27^5 + 115 * 27^4 ... + 110*27 + 103

