# Odległość edycyjna
## Vitalii Rudko

>**Odległośc edycyjna** -- miara służąca do badania odmienności napisów.

Istnieją różne warianty oraz sposoby mierzenia odległości edycyjnej, w tym sprawozdaniu jest opisana odległość edycyjna Levensteina, zaproponowana przez radzieckiego matematyka Władimira Levensteina w 1965 roku. Odległość edycyjna stosuje się do przetwarzania danych tekstowych: w analizie DNA, programach antyplagiatowych, korekcie pisowni.  
 
>**Odległość Levensteina** -- jest to minimalna ilość działań wstawiania, usunięcia oraz zastąpienia jednego znaku, niezbędnych do przekształcenia jednego napisu w inny. 

  Każde działanie ma swoją cenę. Ceny mogą być różne w zależności od zadania, ale na ogół są następne:
1. Cena wstawiania znaku wynosi 1.
2. Cena usunięcia znaku wynosi 1. 
3. Cena zmiany znaku na inny wynosi 0 jeśli są sobie równe, albo 1 lub 2 jeśli nie. 

Przykładowo odległość Levensteina pomiędzy napisami "komputer" a "kompot" wynosi 3, ponieważ do przeprowadzenia jednego napisu na drugi trzeba trzech działań: zmiany litery "u" na "o" oraz dodania liter "e" i "r". Ogólny algorytm do obliczania odległości został zaprezentowany poniżej.

Niech $S_1$, $S_2$ będą napisami długości $M$ i $N$ odpowiednio nad dowolnym alfabetem. Wtedy odległość Levensteina $d(S_1,S_2)$ można wyliczyć według następnego wzoru rekurencyjnego:

$$D(i, j) = \begin{cases}\{\begin{array}{llcl}
0,&&&i = 0,\ j = 0\\
i,&&&j = 0,\ i > 0\\
j,&&&i = 0,\ j > 0\\
\min=\\\
\\
&D(i, j - 1) + 1,\\
&D(i - 1, j) + 1,&&j > 0,\ i > 0\\
&D(i - 1, j - 1) + {\rm m}(S_1[i], S_2[j])\\
\}
\end{array}\end{cases}$$

Gdzie funkcja $m$ równa się zeru gdy $S_1[i]=S_2[j]$ oraz jeden w przeciwnym przypadku. Przykad działania algorytmu zaprezentowano w tabele poniżej.

<table> 
    
<tr>
  <th> </th>
  <th> </th>
  <th> k </th>
  <th> o </th>
  <th> t </th> 
</tr>

<tr>
  <td> </td>
  <td> 0 </td>
  <td> 1 </td>
  <td> 2 </td>
  <td> 3 </td> 
</tr> 

<tr>
  <th> k </th>
  <td> 1 </td>
  <td> 0 </td>
  <td> 1 </td>
  <td> 2 </td> 
</tr>

<tr>
  <th> o </th>
  <td> 2 </td>
  <td> 1 </td>
  <td> 0 </td>
  <td> 1 </td> 
</tr>

<tr>
  <th> c </th>
  <td> 3 </td>
  <td> 2 </td>
  <td> 1 </td>
  <td> 1 </td> 
</tr>

</table>

Obliczenie odległości Levenesteina to jest jedno z klasycznych zadań programowania dynamicznego. 

>**Programowanie dynamiczne** -- sposób rozwiązania skomplikowanych zadań z własnością optymalnej podstruktury poprzez dzielenie ich na podzadania (overlapping sub-problems). 

Własność optymalnej podstruktury oznacza, że optymalne rozwiązanie zadania może być osiągnięte poprzez kombinację optymalnych rozwiązań podzadań. Z kolei angielski termin "overlapping sub-problems" oznacza małe podzadania, które są rozwiązywane przez rekursywny algorytm znowu i znowu zamiast wykonywania nowych podzadań, co optymalizuje algorytm względem czasu. Metodę programowania dynamicznego można stosować tylko po spełnieniu tych warunków. Są również dwa sposoby do napisania algorytmu dynamicznego: 
1. Podejście "top-down" cechuje się zapamiętywaniem rozwiązań podzadań oraz użytku tych rozwiązań do wykonania pozostałych podzadań. 
2. Podejście "bottom-up" polega na przekształceniu trudnego zadania w ciąg rekurencyjny prostszych podzadań (przykładowo ciąg Fibonacciego).   

Program przedstawiony w sprawozdaniu składa się z dwóch funkcji: "levenstein" oraz "znajdź". Oczywiście, że funkcja "levensteine" oblicza odległość edycyjną Levensteina według rekurencyjnego algorytmu, gdzie została zaimplementowana metoda "top-down". Funkcja "znajdź" z kolei składa się z funkcji "levensteine" do obliczenia podobieństwa słów, a dokładnie, o ile procent one są różne. Również przedstawione są sześć przykładów działania programu.

Odległość Levensteine to proste i skuteczne narzędzie, które może być stosowane w innych programach do analizy napisów. 

### Źródło
1. Wikipedia.org: 
  * https://en.wikipedia.org/wiki/Levenshtein_distance  
  * https://pl.wikipedia.org/wiki/Odległość_Levenshteina 
  * https://ru.wikipedia.org/wiki/Расстояние_Левенштейна
  * https://en.wikipedia.org/wiki/Dynamic_programming
  * https://ru.wikipedia.org/wiki/Динамическое_программирование







In [4]:
def levenstein(txt_a, txt_b): 
    """Funkcja oblicza odległość Levensteina. 
       
       INPUT
       ---------
       txt_a = string
               pierwszy napis,
           
       txt_b = string 
               drugi napis, 
               
       ==========================================================================
       
       OUTPUT
       ---------
       Wyliczona odległość edycyjna. 
       
       ==========================================================================
   """
    policzone = {}
    def licz(a,b):
        
        if (a,b) in policzone: 
            return policzone[(a,b)]
        elif not a: 
            return len(b)
        elif not b:
            return len(a)
        
        usuń = licz(a[1:], b) + 1
        wstaw = licz(a, b[1:]) + 1
        zmień = licz( a[1:], b[1:]) + (a[0] != b[0]) 
        wynik = min( zmień, usuń, wstaw)
        policzone[(a, b)] = wynik
        
        return wynik
    
    return licz(txt_a, txt_b)

def znajdź(słowo, słownik, podobieństwo):
    """Funkcja oblicza podobieństwo dwóch napisów z zadaną procentowo maksymalną odległością edycyjną Levensteina. 
       
       INPUT
       ---------
       słowo = string
               napis do którego będziemy porównywać,
           
       słownik = list 
                 lista napisów,
                 
       podobieństwo = float
                      maksymalna odległość edycyjna Levensteina w proporcji do długości największego z napisów 
                      (dla szczególnego przypadku).
               
       ==========================================================================
       
       OUTPUT
       ---------
       Lista napisów posortowanych według zadanego podobieństwa. 
       
       ==========================================================================
    """
    n = len(słowo)
    słowo = słowo.lower()
    wyniki = [(levenstein(słowo, s.lower())/max(n, len(s)), s) for s in słownik]
    wyniki = [(d, s) for d, s in wyniki if d<=podobieństwo]
    wyniki.sort()
    wyniki = [s for d, s in wyniki]
    return wyniki

## Przykłady

In [5]:
print("1)", znajdź("kotek", ["koteł", "pieseł", "Franek", "Zenek", "Kot"], 0.8))
print("2)", znajdź("małpa", ["mapa", "mop", "mała", "lampa", "samba"], 0.5))
print("3)", znajdź("1ab3", ["123er", "13rewg", "53ab", "001b", "rftw"], 0.5))
print("4)", znajdź("ABCDK", ["ASFM", "ABCK", "ABDF", "ABCJ", "JKDO"], 0.5))
print("5)", znajdź("Jola", ["Julia", "Joanna", "Jolanta", "Jan", "Jimmy" ], 0.5))
print("6)", znajdź("zvezda", ["zver", "zvonok", "zvezdolot", "zvuk", "zov"], 0.5))

1) ['koteł', 'Kot', 'Zenek', 'Franek']
2) ['mapa', 'mała', 'lampa']
3) []
4) ['ABCK', 'ABCJ', 'ABDF']
5) ['Julia', 'Jolanta', 'Joanna']
6) ['zvezdolot', 'zver']
