# Jarova razdalja

In [42]:
# Funkcija za izračun Jarove razdalje
# Vhod: dva niza poljubnih velikosti
# Izhod: vrednost Jarove razdalje

import itertools
def jaro(a, b):
    # niz a je vedno daljši niz
    if(len(a) < len(b)):
        tmp = b
        b = a
        a = tmp
        
    #print('a=', a)
    #print('b=', b)
    
    # dolžini nizov a in b
    len_a = len(a) 
    len_b = len(b)
    
    # izračun primerjalnega okna
    window_size = (max(len_a, len_b) // 2) - 1
    #print('primerjalno okno: ', window_size)
    
    # pomožni polji boolovih spremenljivk, ki ponazarjata znakovna ujemanja; inicializiramo na vrednost False
    matches_a = [False] * len_a
    matches_b = [False] * len_b
    
    # spremenljivka m hrani število ujemanj
    m = 0
    
    # preverimo ujemanja s prehodom skozi niz a
    for i, char in enumerate(a):
        start = max(0, i - window_size)
        end = min(i + window_size + 1, len_b)
        
        for j, c in enumerate(b[start:end], start):
            
            # če imamo ponavljajoče ujemanje (ujemanje v enakem znaku), potem ne štejemo dvakrat
            if(matches_b[j]):
                continue
            
            # če imamo ujemanje
            if(c == char):
                # zabeležimo ujemanje v pomožnih poljih
                matches_a[i] = True
                matches_b[j] = True
                
                # povečamo število ujemanj
                m += 1
                break
           
    # če ni ujemanj, bo razdalja enaka 0
    distance = 0.0
    if(m == 0):
        return distance
    
    #print(a, '->', matches_a)
    #print(b, '->', matches_b)
        
    # sicer preverimo še transpozicije
    check_a = itertools.compress(a, matches_a)
    check_b = itertools.compress(b, matches_b)
    
    # izračunamo število transpozicij
    t = sum(x != y for x, y in zip(check_a, check_b))
    
    #print('ujemanja: ', m)
    #print('transpozicije: ', t)
    
    distance = ((m / len_a) + (m / len_b) + ((m - (t / 2)) / m)) / 3.0
    return distance 

### Primeri izračunov Jarove razdalje


In [43]:
a = 'rezultat'
b = 'konzulat'
jaro(a, b)

0.6833333333333332

In [44]:
a = 'rezultat'
b = 'rezultat'
jaro(a, b)

1.0

In [45]:
a = 'rezultat'
b = 'galerija'
jaro(a, b)

0.47222222222222215

In [46]:
a = 'telefon'
b = 'lepota'
jaro(a, b)

0.5317460317460317

# Jaro-Winklerjeva razdalja

In [47]:
# Funkcija za izračun Jaro-Winklerjeve razdalje
# Vhod: dva niza poljubnih velikosti
# Izhod: vrednost Jaro-Winklerjeve razdalje

def jaro_winkler(a, b, l, p=0.1):
    j = jaro(a, b)
    
    distance = j + l * p * (1 - j)
    
    return distance

### Primeri izračunov Jaro-Winklerjeve razdalje
Poigraj se z vrednostmi parametrov l in p

In [48]:
a = 'telefon'
b = 'lepota'
jaro_winkler(a, b, l=3, p=0.1)

0.6722222222222223

In [49]:
a = 'rezultat'
b = 'konzulat'
jaro_winkler(a, b, l=4, p=0.1) # Poskusi z vrednostmi za p, ki so večje od 0.25. Kaj se zgodi z vrednostjo razdalje?

0.8099999999999999

In [50]:
a = 'rezultat'
b = 'rezultat'
jaro_winkler(a, b, l=3, p=0.1)

1.0

In [51]:
a = "Mannhaton"
b = "Manhattan"
jaro_winkler(a, b, l=4, p=0.1) # Poskusi z različnimi vrednostmi za l. Kaj se zgodi z vrednostjo razdalje?

0.9111111111111111