# Hash Taulak ( _Associative array_ , _Elkartze Arrayak_ )

   * Elementuak **taula** (zerrenda) batetan gordetzen dira
      * $Taularen \; tamaina \ge elementu \; kopurua$
   * Elementuaren arabera, bakoitzari posizio bat dagokio
      * Ez dago elementu errepikaturik $\to$ multzo bat
      * Hash funtzioa $\to$ elementu bakoitzari dagokion posizioa

<center><img src="../img/HashTable2.png" alt="Hash Table" style="height: 285px;"/></center>

## Hash Funtzioa

   * Edozein informazioren gain aplikatzean, tamaina finkoko balio bat (zenbaki bat) lortu.
   * Informazio baten _sinadura_ (laburpen) digitala.
   * Propietateak:
      * Hash balioen banaketa uniformea
      * Berdinak diren bi objektuen hash balioak berdinak dira
         * Kontrakoak ez du zertan egia izan behar. 
   * Adibide bat:
        * [SHA256:](https://andersbrownworth.com/blockchain/hash)  _informazioa_ &rarr; 256 bit

## Hash Taulen inplementazioa

   * $N$ tamainako Zerrenda bat erabili.
   * Okupazio faktorea (*load factor*):  $LF = {n_{stored}}/{N}$
   * $e$ elementu bati taulan dagokion posizioa: $i \; = \; hash(e)\; \% \; N$
   * *Talkak* edo *kolisioak* gerta daitezke
      * **Kolisioa**: Bi $e_1 , e_2$ elementu ezberdinei $i_1 = i_2$ posizio berdina esleitzea
      * $hash(e_1) = hash(e_2)$ balio berdina izan dezakete.
      * $hash(e_1) \ne hash(e_2)$ izanda ere,  $(hash(e_1)\, \% \, N) = (hash(e_2)\, \% \, N)$ gerta daiteke.

In [45]:
N=10
T = [None]*N
print(T)
for e in ("Ane","Jon","Miren","Asier","Nora"):
    i = hash(e)%N
    print(f'{e} --> {i}')
    T[i] = e
    print(T)

[None, None, None, None, None, None, None, None, None, None]
Ane --> 3
[None, None, None, 'Ane', None, None, None, None, None, None]
Jon --> 0
['Jon', None, None, 'Ane', None, None, None, None, None, None]
Miren --> 4
['Jon', None, None, 'Ane', 'Miren', None, None, None, None, None]
Asier --> 7
['Jon', None, None, 'Ane', 'Miren', None, None, 'Asier', None, None]
Nora --> 2
['Jon', None, 'Nora', 'Ane', 'Miren', None, None, 'Asier', None, None]


In [59]:
N=10
T = [None]*N
for e in ("Ane","Jon","Miren","Asier","Nora","Aiala","Eneritz","Igor"):
    i = hash(e)%N
    print(f'{e} --> {i}')
    if T[i] != None :
        print("Kolisio bat dago!!!!")
        break
    T[i] = e
    print(T)

Ane --> 3
[None, None, None, 'Ane', None, None, None, None, None, None]
Jon --> 0
['Jon', None, None, 'Ane', None, None, None, None, None, None]
Miren --> 4
['Jon', None, None, 'Ane', 'Miren', None, None, None, None, None]
Asier --> 7
['Jon', None, None, 'Ane', 'Miren', None, None, 'Asier', None, None]
Nora --> 2
['Jon', None, 'Nora', 'Ane', 'Miren', None, None, 'Asier', None, None]
Aiala --> 5
['Jon', None, 'Nora', 'Ane', 'Miren', 'Aiala', None, 'Asier', None, None]
Eneritz --> 3
Kolisio bat dago!!!!


In [53]:
print("Ane", hash("Ane"), hash("Ane")%N)
print("Eneritz", hash("Eneritz"), hash("Eneritz")%N)

Ane -4629060251877988377 3
Eneritz 2050524501275771253 3


### Kolisioen ebazpena I : Taula berdimentsionatu

* Kolisio bat ematen den bakoitzean, taularen tamaina handitu dezakegu.
* Tamaina handitzean, talka berri baten probabilitatea txikiagoa da.
   * Baina... zenbatekoa da probabilitate hori?
   * 2450 gako baditugu 1.000.000 tamaina duen taula batetan (400-etik gelaxka bakarra okupatua), guztiz uniformea den hash funtzio bat erabilita ere, talka bat gertatzeko probabilitatea 95% da
   * _Birthday Problem_ edo [Urtebetetzeen Ebazkizuna](https://eu.wikipedia.org/wiki/Urtebetetzeen_ebazkizuna)
* $LF \; \ll \; 1$
* Memoriaren erabilpen **oso kaxkarra**

### Kolisioen ebazpena II : Helbideratze Irekia (*Open addressing*)

* $e$ elementu bati taulan dagokion posizioa ez da $i \; = \; hash(e)\; \% \; N$ izango
* $i$ posiziotik abiatuko gara
    * elementua topatu arte
    * gelaxka huts bat topatu arte

<center><img src="../img/HashTable_OA2.png" alt="Hash Table - Open addressing" style="height: 285px;"/></center>


In [58]:
N=10
T = [None]*N
for e in ("Ane","Jon","Miren","Asier","Nora","Aiala","Eneritz","Igor"):
    i = hash(e)%N
    print(f'{e} --> {i}')
    while T[i] != None :
        i = (i+1)%N
        print(f'{e} --> {i}')
    T[i] = e
    print(T)

Ane --> 3
[None, None, None, 'Ane', None, None, None, None, None, None]
Jon --> 0
['Jon', None, None, 'Ane', None, None, None, None, None, None]
Miren --> 4
['Jon', None, None, 'Ane', 'Miren', None, None, None, None, None]
Asier --> 7
['Jon', None, None, 'Ane', 'Miren', None, None, 'Asier', None, None]
Nora --> 2
['Jon', None, 'Nora', 'Ane', 'Miren', None, None, 'Asier', None, None]
Aiala --> 5
['Jon', None, 'Nora', 'Ane', 'Miren', 'Aiala', None, 'Asier', None, None]
Eneritz --> 3
Eneritz --> 4
Eneritz --> 5
Eneritz --> 6
['Jon', None, 'Nora', 'Ane', 'Miren', 'Aiala', 'Eneritz', 'Asier', None, None]
Igor --> 5
Igor --> 6
Igor --> 7
Igor --> 8
['Jon', None, 'Nora', 'Ane', 'Miren', 'Aiala', 'Eneritz', 'Asier', 'Igor', None]


**Helbideratze Irekia**-ren ezaugarriak:

* Hash balioen banaketa uniformeak garrantzi handia du
* $LF \; <= \; 1$
* $LF \; > 0.7$ &rarr; **errendimendu eskasa**  &rarr; Taula berdimentsionatu

<center><img src="../img/Hash_table_average_insertion_time.png" alt="Hash Table - Average insertion time" style="width: 400px;"/></center>



### Kolisioen ebazpena III : Kateatze Banatua (*Separate Chaining*)

* $e$ elementu bati taulako $i \; = \; hash(e)\; \% \; N$ posizioko **zerrenda** dagokio 

<center><img src="../img/HashTable_CH2.png" alt="Hash Table - Separate Chaining" style="height: 285px;"/></center>


In [60]:
N=3
T = [[] for _ in range(N)]
print(T)
for e in ("Ane","Jon","Miren","Asier","Nora","Aiala","Eneritz","Igor") :
    i = hash(e)%N
    print(f'{e} --> {i}')
    T[i].append(e)
    print(T)

[[], [], []]
Ane --> 0
[['Ane'], [], []]
Jon --> 2
[['Ane'], [], ['Jon']]
Miren --> 2
[['Ane'], [], ['Jon', 'Miren']]
Asier --> 0
[['Ane', 'Asier'], [], ['Jon', 'Miren']]
Nora --> 0
[['Ane', 'Asier', 'Nora'], [], ['Jon', 'Miren']]
Aiala --> 0
[['Ane', 'Asier', 'Nora', 'Aiala'], [], ['Jon', 'Miren']]
Eneritz --> 0
[['Ane', 'Asier', 'Nora', 'Aiala', 'Eneritz'], [], ['Jon', 'Miren']]
Igor --> 0
[['Ane', 'Asier', 'Nora', 'Aiala', 'Eneritz', 'Igor'], [], ['Jon', 'Miren']]


**Kateatze Banatua**-ren ezaugarriak:

* $LF \; > \; 1$ izan daiteke
* $LF \; \gg 1$ &rarr; **errendimendu eskasa**  &rarr; Taula berdimentsionatu