In [None]:
!pip install numpy

In [1]:
import numpy as np

# Hammingova razdalja

In [2]:
# Funkcija za izračun Hammingove razdalje
# Vhod: dva niza istih velikosti
# Izhod: vrednost Hammingove razdalje

def ham(a, b):
    # če sta niza različnih dolžin, potem Hammingove razdalje ne moremo izračunati, zato vrnemo -1 
    if(len(a) != len(b)):
        return -1
    
    distance = 0 
    
    # prehod čez vsak znak v nizu
    for n in range(len(a)): 
        # če sta istoležna znaka različna, povečaj vrednost razdalje
        if(a[n] != b[n]):
            distance += 1
    return distance

### Primeri izračunov Hammingove razdalje


In [3]:
a = 'rezultat'
b = 'konzulat'
ham(a, b)

6

In [4]:
a = 'rezultat'
b = 'rezultat'
ham(a, b)

0

In [5]:
a = 'rezultat'
b = 'galerija'
ham(a, b)

8

# Levenshteinova razdalja

In [6]:
# Funkcija za izračun Levenshteinove razdalje
# Vhod: dva niza poljubnih velikosti
# Izhod: vrednost Levenshteinove razdalje

def lev(a, b):
    rows = len(a) + 1
    cols = len(b) + 1
    
    # inicializacija pomožne matrike
    distances = np.zeros((rows, cols))
    
    for i in range(1, rows):
        distances[i, 0] = i
        
    for j in range(1, cols):
        distances[0, j] = j
    
    # izračun vrednosti elementov pomožne matrike
    for i in range(1, rows):
        for j in range(1, cols):
            # če sta znaka enaka, potem je vrednost elementa enaka vrednosti zgornjega levega diagonalnega elementa 
            if(a[i - 1] == b[j - 1]):
                distances[i, j] = distances[i - 1, j - 1]
            
            # če znaka nista enaka, potem je vrednost elementa enaka minimalni vrednosti sosednih elementov (levega, levega diagonalnega in zgornjega) + 1
            else:
                distances[i, j] = min(distances[i - 1, j - 1], distances[i - 1, j], distances[i, j - 1]) + 1
    
    # izpis izračunanih vrednosti pomožne matrike
    print(distances)
    
    # izpis zaporedja operacij
    PrintEditOperations(distances, a, b)
    
    # vrednost Levenshteinove razdalje je v skrajnem spodnjem desnem elementu pomožne matrike
    return distances[rows - 1, cols - 1]

In [7]:
# Funkcija za izpis zaporedja operacij pri izračunu Levenshteinove razdalje
# Vhod: pomožna matrika z vsemi izračunanimi vrednostmi, dva niza poljubnih velikosti

def PrintEditOperations(distances, a, b):
    print("Za pretvorbo niza '" + a + "' v niz '" + b + "', velja naslednje zaporedje operacij:")
    
    # prehod poteka od skrajnega spodnjega desnega elementa pomožne matrike
    i = distances.shape[0] - 1
    j = distances.shape[1] - 1
    
    while(True):
        # pogoj za zaključek prehoda je, kadar pridemo v skrajni zgornji levi element pomožne matrike
        if(i == -1 or j == -1):
            break;
            
        # če sta znaka enaka, potem operacija ni potrebna in se premaknemo levo diagonalno
        if(a[i - 1] == b[j - 1]):
            i = i - 1
            j = j - 1

        # če znaka nista enaka, preverimo ali gre za zamenjavo (ali je trenutna vrednost enaka vrednosti zgoraj levo + 1?)
        elif(distances[i, j] == distances[i - 1, j - 1] + 1):
            print("zamenjava znaka '" + a[i - 1] + "' z znakom '" + b[j - 1] + "'")
            i = i - 1
            j = j - 1
            
        # če znaka nista enaka, preverimo ali gre za brisanje (ali je trenutna vrednost enaka vrednosti zgoraj + 1?)    
        elif(distances[i, j] == distances[i - 1, j] + 1):
            print("brisanje znaka '" + a[i - 1] + "'")
            i = i - 1
            
        # če znaka nista enaka, preverimo ali gre za vstavljanje (ali je trenutna vrednost enaka vrednosti levo + 1?)    
        elif(distances[i, j] == distances[i, j - 1] + 1):
            print("vstavljanje znaka '" + b[j - 1] + "'")
            j = j - 1
        
        # sicer smo na koncu in prekinemo izvajanje zanke
        else:
            break

### Levenshteinova podobnost

In [8]:
# Funkcija za izračun Levenshteinove podobnosti
# Vhod: dva niza poljubnih velikosti
# Izhod: vrednost Levenshteinove podobnosti na intervalu [0, 1]

def sim_lev(a, b):
    a_len = len(a)
    b_len = len(b)
    
    d = lev(a, b)
    print('Levenshteinova razdalja: ', d)
    similarity = ((a_len + b_len) - d)/(a_len + b_len)
    return similarity

### Primeri izračunov Levenshteinove razdalje

In [9]:
a = 'telefon'
b = 'lepota'
sim_lev(a, b)

[[0. 1. 2. 3. 4. 5. 6.]
 [1. 1. 2. 3. 4. 4. 5.]
 [2. 2. 1. 2. 3. 4. 5.]
 [3. 2. 2. 2. 3. 4. 5.]
 [4. 3. 2. 3. 3. 4. 5.]
 [5. 4. 3. 3. 4. 4. 5.]
 [6. 5. 4. 4. 3. 4. 5.]
 [7. 6. 5. 5. 4. 4. 5.]]
Za pretvorbo niza 'telefon' v niz 'lepota', velja naslednje zaporedje operacij:
zamenjava znaka 'n' z znakom 'a'
vstavljanje znaka 't'
zamenjava znaka 'f' z znakom 'p'
brisanje znaka 'e'
brisanje znaka 't'
Levenshteinova razdalja:  5.0


0.6153846153846154

In [10]:
a = "Mannhaton"
b = "Manhattan"
sim_lev(a, b)

[[0. 1. 2. 3. 4. 5. 6. 7. 8. 9.]
 [1. 0. 1. 2. 3. 4. 5. 6. 7. 8.]
 [2. 1. 0. 1. 2. 3. 4. 5. 6. 7.]
 [3. 2. 1. 0. 1. 2. 3. 4. 5. 6.]
 [4. 3. 2. 1. 1. 2. 3. 4. 5. 5.]
 [5. 4. 3. 2. 1. 2. 3. 4. 5. 6.]
 [6. 5. 4. 3. 2. 1. 2. 3. 4. 5.]
 [7. 6. 5. 4. 3. 2. 1. 2. 3. 4.]
 [8. 7. 6. 5. 4. 3. 2. 2. 3. 4.]
 [9. 8. 7. 6. 5. 4. 3. 3. 3. 3.]]
Za pretvorbo niza 'Mannhaton' v niz 'Manhattan', velja naslednje zaporedje operacij:
zamenjava znaka 'o' z znakom 'a'
vstavljanje znaka 't'
brisanje znaka 'n'
Levenshteinova razdalja:  3.0


0.8333333333333334

# Matematične lastnosti Levenshteinove razdalje

#### 1. Vrednost razdalje bo enaka vsaj absolutni razliki velikosti dveh primerjanih nizov

In [38]:
a = 'ata'
b = 'solata'

lev(a, b)

# razdalja bo enaka 3 tudi, kadar bosta niza a='solata' in b='ata'

[[0. 1. 2. 3. 4. 5. 6.]
 [1. 1. 2. 3. 3. 4. 5.]
 [2. 2. 2. 3. 4. 3. 4.]
 [3. 3. 3. 3. 3. 4. 3.]]
Za pretvorbo niza 'ata' v niz 'solata', velja naslednje zaporedje operacij:
vstavljanje znaka 'l'
vstavljanje znaka 'o'
vstavljanje znaka 's'


3.0

#### Vrednost razdalje bo enaka največ velikosti daljšega od primerjanih nizov

In [39]:
a = 'oče'
b = 'mati' # daljši niz je dolžine 4

lev(a, b)

# razdalja je 4, saj se niza razlikujeta v vseh znakih; opazimo, da je vrednost razdalje enaka največ velikosti daljšega niza

[[0. 1. 2. 3. 4.]
 [1. 1. 2. 3. 4.]
 [2. 2. 2. 3. 4.]
 [3. 3. 3. 3. 4.]]
Za pretvorbo niza 'oče' v niz 'mati', velja naslednje zaporedje operacij:
zamenjava znaka 'e' z znakom 'i'
zamenjava znaka 'č' z znakom 't'
zamenjava znaka 'o' z znakom 'a'
vstavljanje znaka 'm'


4.0

#### Vrednost razdalje bo enaka 0 takrat, ko sta oba niza enaka.

In [40]:
a = 'oče'
b = 'oče'

lev(a, b)

# razdalja je 0, saj sta niza enaka in operacije za pretvorbo niza a v b niso potrebne

[[0. 1. 2. 3.]
 [1. 0. 1. 2.]
 [2. 1. 0. 1.]
 [3. 2. 1. 0.]]
Za pretvorbo niza 'oče' v niz 'oče', velja naslednje zaporedje operacij:


0.0

#### Če sta niza enakih velikosti, potem bo vrednost Hammingove razdalje nad njima tudi zgornja meja vrednosti Levenshteinove razdalje

In [41]:
a = 'ata'
b = 'oče'

H = ham(a, b) # izračun Hammingove razdalje
L = lev(a, b) # izračun Levenshteinove razdalje

# izpis razdalj
print(f'\nham("{a}", "{b}")={H}')
print(f'lev("{a}", "{b}")={L}')

# Hammingova razdalje je 3, kar je tudi največja možna Levenshteinova razdalja med nizoma a in b

[[0. 1. 2. 3.]
 [1. 1. 2. 3.]
 [2. 2. 2. 3.]
 [3. 3. 3. 3.]]
Za pretvorbo niza 'ata' v niz 'oče', velja naslednje zaporedje operacij:
zamenjava znaka 'a' z znakom 'e'
zamenjava znaka 't' z znakom 'č'
zamenjava znaka 'a' z znakom 'o'

ham("ata", "oče")=3
lev("ata", "oče")=3.0


#### Trikotniška neenakost

Levenshteinova razdalja med dvema nizoma ne bo nikoli večja od vsote njunih vrednosti Levenshteinovih razdalj v primerjavi s tretjim nizom.

In [42]:
# definicija nizov
a = 'oče'
b = 'mati'
c = 'otrok'

# izračun razdalj med nizi
X = lev(a, b)
Y = lev(b, c)
Z = lev(a, c)

# izpis razdalj
print(f'\nlev("{a}","{b}")={X}\nlev("{b}","{c}")={Y}\nlev("{a}","{c}")={Z}\n')

# preverjanje trikotniške neenakosti
print(f'{X} <= {Y} + {Z}: {X <= Y + Z}')
print(f'{Y} <= {X} + {Z}: {Y <= X + Z}')
print(f'{Z} <= {X} + {Y}: {Z <= X + Y}')

[[0. 1. 2. 3. 4.]
 [1. 1. 2. 3. 4.]
 [2. 2. 2. 3. 4.]
 [3. 3. 3. 3. 4.]]
Za pretvorbo niza 'oče' v niz 'mati', velja naslednje zaporedje operacij:
zamenjava znaka 'e' z znakom 'i'
zamenjava znaka 'č' z znakom 't'
zamenjava znaka 'o' z znakom 'a'
vstavljanje znaka 'm'
[[0. 1. 2. 3. 4. 5.]
 [1. 1. 2. 3. 4. 5.]
 [2. 2. 2. 3. 4. 5.]
 [3. 3. 2. 3. 4. 5.]
 [4. 4. 3. 3. 4. 5.]]
Za pretvorbo niza 'mati' v niz 'otrok', velja naslednje zaporedje operacij:
zamenjava znaka 'i' z znakom 'k'
zamenjava znaka 't' z znakom 'o'
zamenjava znaka 'a' z znakom 'r'
zamenjava znaka 'm' z znakom 't'
vstavljanje znaka 'o'
[[0. 1. 2. 3. 4. 5.]
 [1. 0. 1. 2. 3. 4.]
 [2. 1. 1. 2. 3. 4.]
 [3. 2. 2. 2. 3. 4.]]
Za pretvorbo niza 'oče' v niz 'otrok', velja naslednje zaporedje operacij:
zamenjava znaka 'e' z znakom 'k'
zamenjava znaka 'č' z znakom 'o'
vstavljanje znaka 'r'
vstavljanje znaka 't'

lev("oče","mati")=4.0
lev("mati","otrok")=5.0
lev("oče","otrok")=4.0

4.0 <= 5.0 + 4.0: True
5.0 <= 4.0 + 4.0: True
4.0 <= 4.