# Hashing

Supongamos que tenemos elementos del 100 al 199.  
Necesito asignarle un indice en una coleccion (o tabla) de 100 elementos.  
  
SOLUCION SENCILLA: $key\ mod\ 100$  -> Acesso directo  
"Hashing" es el proceso de apear una llave de búsqueda a un rango limitado de índices con el proposito de proveer **acesso directo**.

Las llaves estan almacenadas en un arreglo llamado **hash table** y una **funcion hash** asociada con dicha tabla.


### Ejemplo 
```765, 431, 96, 142, 579, 226, 903, 388```  
Hash table tiene 13 espacios($M=13$)  
h(key)=$key%M$  

In [2]:
def hash_fnl(key):
    return key%13

In [4]:
hash_fnl(226)

5

In [5]:
hash_fnl(96)

5

¿Como resolver colisiones al insertar elementos?  
Sol 1 -> **Linear Probing**: Busqueda lineal cambiando el punto de partida, es decir, busqueda lineal partiendo desde un indice en especifico. Si el primer elemento no existe, entonces no hace falta buscarlo porque no está en la tabla.


### Linear Probing
Es una técnica para resolución de colisiones (cuando la función hash retorna un valor igual para dos llaves distintas). Si se da una colision al insertar, la llave se insertará en el siguiente índice no ocupado.  

0. 388                  linear probing
1. .                    903%13=6
2. 431
3. 
4. 
5. 96
6. Δ
7. 579
8. 903
9. 
10. 
11. 765
12. 142

### Primary Clustering
Cluster focuses around hash key  
0.  
1.                      
2.  
3.  
4.  
5.  
6.  96  
7.  903  
8.  226   
9.  579  
10. 36  
11.   
12.   

### Modified Linear Probing  
Dado que "linear probing" deriva en clusters, podemos usar una secuencia de sondeo (probe sequence). El siguiente espacio a ser considerado para inserción puede ser determinado por    

indice=(original+i*c)%M  

donde i es el intento i-gesimo en la secuencia, i = 1, 2,... M-1  
donde c es una constante mucho menor que M, 1 o 2  

```
765, 431, 96, 142, 579, 226, 903, 388  
M=13  
c=3  
h(key)=key%M 
indice=(original+i*c)%M 
```
0. 
1. 388
2. 431
3. _
4. _
5. 96
6. 903
7. 579
8. 226
9. _
10. _
11. 765
12. 142


### Quadratic Probing  
indice=(original+i^2)%M  

```
765, 431, 96, 142, 579, 226, 903, 388  
M=13  
c=3  
h(key)=key%M 
indice=(original+i^2)%M 
```
0. 
1. 388
2. 431
3. _
4. _
5. 96
6. 226 
7. 579
8. _
9. _
10. 903
11. 765
12. 142

h(388)=>11=>12=>12=>2=>7=>1
h(648)=>11=>12=>2=>7=>1

 ### Secondary Cluster
 Cluster alrededor de la llave primaria y a la secuencia de sondeo, ejemplo 648 y 388.

### Double Hashing

h(key)=key % M  
original=h(key)   
indice=(original+i*hp(key)) % M  
hp(key)=1+key % P, donde P es una constante menor a M 


M=3
P=8
```765, 431, 96, 142, 579, 226, 903, 388 ``` 

0. 
1. 
2. 431
3. 388 
4.  
5. 96
6. 903 
7. 579
8. 226
9.  
10.  
11. 765
12.  142

### Rehashing

```765, 431, 96, 142, 579, 226, 903, 388 ```  
h(key)=key%M  
indice=(original+i*c)%M  

M=17  
P=8  
c=1  

0. 765
1. 579
2. 903
3.  
4.  
5. 226
6. 431
7. 142
8. 
9.  
10.  
11. 96
12.  
13.  
14.  388
15.  
16.  

h(142)=>6=>7  
load factor= # de elementos/ #total de entradas en la tabla  
load factor ideal 80%    
Cuando ampliemos la tabla, una buena regla es ampliar a 2*M y buscar el siguiente primo mayor. Otra opcion es utilizar $2*M+1$    

### Chaining(open hashing)

```765, 431, 96, 142, 579, 226, 903, 388 ``` 

0.  
1. 
2. 431
3. 
4.  
5.  96=>226
6. 
7. 579
8. 
9. 
10. 
11.  765
12.  142

### Diseño de funciones de hash

* La computación debería ser sencilla
* El índice no puede ser aleatorio. Una llave siempre debería ser mapeada al mismo indice.
* Si la llave tiene múltiples partes, cada parte debería contribuir en la computación del índice.
* Si la función utiliza el operador módulo, el numero de posiciones en la tabla debería ser primo.  

### Division

h(key) = key % M  

### Truncación
key=4873152  
h(key)=tomar digitos en posiciones pares  
h(4873152)=835  

### Folding
key=4873152 
h(key)=partir en pres y sumarlos  
h(4873152) = 52+31+87+4 = 174

### Hashing de strings  
key='hashing'  
h(key)=sum(ASCII(key))  
h('hashing')=104+97+115+104+105+110+103=738  

a=27  
$h(key)=s_0*a^{(n-1)}+s_1*a^{(n-2)}+...s_{(n-2)}*a+s_{(n-1)}$   
$h(key)=184*27^6 + 97*27^5 + 115*27^4 ... +110*27^6 + 103 = 19935$    

Elementos   ->  tabla  
tabla       ->  función de hashing  