# Miary edycyjne

## Wprowadzenie

**Miary edycyjne** służą do porównywania napisów. Za ich pomocą można wyliczyć, na ile dwa napisy są do siebie podobne (podobieństwo) lub różne od siebie (odległość). Miary edycyjne określają, ile operacji edycyjnych (usunięcie, dodanie, zamiana) należy wykonać na jednym napisie, aby przekształcić go w drugi napis.

**Zastosowanie:** rozmyte dopasowanie (wyszukiwanie) tekstu, które dopuszcza określony stopień odstępsta od poszukiwanego wzorca, np. dla frazy *covid-19* możemy znaleźć: *covid19*, *covidu*, *covidem*, a nawet *kowid-19*.



## Przygotowanie

Biblioteka `jellyfish`

In [1]:
!pip install jellyfish
import jellyfish

Collecting jellyfish
[?25l  Downloading https://files.pythonhosted.org/packages/6c/09/927ae35fc5a9f70abb6cc2c27ee88fc48549f7bc4786c1d4b177c22e997d/jellyfish-0.8.2-cp36-cp36m-manylinux2014_x86_64.whl (93kB)
[K     |███▌                            | 10kB 15.6MB/s eta 0:00:01[K     |███████                         | 20kB 20.5MB/s eta 0:00:01[K     |██████████▌                     | 30kB 16.6MB/s eta 0:00:01[K     |██████████████                  | 40kB 10.7MB/s eta 0:00:01[K     |█████████████████▌              | 51kB 7.4MB/s eta 0:00:01[K     |█████████████████████           | 61kB 8.1MB/s eta 0:00:01[K     |████████████████████████▌       | 71kB 7.7MB/s eta 0:00:01[K     |████████████████████████████    | 81kB 7.9MB/s eta 0:00:01[K     |███████████████████████████████▌| 92kB 8.5MB/s eta 0:00:01[K     |████████████████████████████████| 102kB 5.6MB/s 
[?25hInstalling collected packages: jellyfish
Successfully installed jellyfish-0.8.2


## Przegląd miar

### Hamming

*   stosuje się do napisów o tej samej długości,
*   miara oznacza liczbę pozycji, na których dwa ciągi są różne.



In [2]:
jellyfish.hamming_distance('kłódka', 'klodka')

2



```
kłódka
klodka
-^^---
 11   = 2
```



In [3]:
jellyfish.hamming_distance('kłódka', 'kłódk')

1

```
kłódka
kłódk_
-----^
     1 = 1
```

In [4]:
jellyfish.hamming_distance('kłódka', 'łódka')

6

```
kłódka
łódka_
^^^^^^
111111 = 6
```

### Levenhstein



* wartość określa najmniejszą liczbę operacji, która jest wymagana do przekształcenia pierwszego napisu w drugi,
* możliwe operacje:
  * wstawienie nowego znaku,
  * usunięcie znaku,
  * zamianę znaku na inny znak.

In [5]:
jellyfish.levenshtein_distance('kłódka', 'klodka')

2

```
kłódka
klodka
-^^---
 zz   = 2
```

In [6]:
jellyfish.levenshtein_distance('kłódka', 'łódka')

1

```
kłódka
 łódka
^-----
u      = 1
```

### Damerau-Levenshtein



*   jest rozszerzeniem miary Levenhsteina,
*   operacje przestawienia sąsiednich znaków jest operacją atomową, tj. jej koszty jest taki sam, jak koszt wstawienie, usunięcia lub zamiany znaków.



In [7]:
jellyfish.damerau_levenshtein_distance("kłódka", "kółdka")

1

```
kłódka
kółdka
-^^---
 p     = 1
```

In [8]:
jellyfish.levenshtein_distance("kłódka", "kółdka")

2

```
kłódka
kółdka
-^^---
 zz    = 2
```

### Jaro–Winkler

*   różnice występujące na początku napisu mają wyższą wagę niż różnice na końcu napisu,
*   miara odzwierciedla podobieństwo, a nie odległość,
*   miara przyjmuje wartość z przedziału od 0 do 1, gdzie 1 oznacza tożsamość napisów.



In [9]:
jellyfish.jaro_winkler_similarity("kłódka", "kłódka")

1.0

In [10]:
jellyfish.jaro_winkler_similarity("kłódka", "monety")

0.0

In [11]:
jellyfish.jaro_winkler_similarity("kłódka", "łódka")

0.9444444444444445

In [12]:
jellyfish.jaro_winkler_similarity("kłódka", "kłódk")

0.9666666666666667

## Wydajność implementacji

### jellyfish

In [13]:
%%time
for n in range(10**5):
  jellyfish.levenshtein_distance(f"{n}kłódka", f"{n}kłódk")

CPU times: user 92.8 ms, sys: 0 ns, total: 92.8 ms
Wall time: 105 ms


### NTLK

In [14]:
from nltk.metrics.distance import edit_distance

In [15]:
%%time
for n in range(10**5):
  edit_distance(f"{n}kłódka", f"{n}kłódk")

CPU times: user 8.77 s, sys: 0 ns, total: 8.77 s
Wall time: 8.78 s


## Podsumowanie



*   **Miary edycyjne** służą do porównywania napisów
*   Przedstawione miary:
  * Odległość: **Hamming**, **Levenhstein**, **Damerau-Levenshtein**,
  * Podobieństwo: **Jaro–Winkler**
*   Dostępnych jest wiele implementacji miar edycyjnych, ale nie każda z nich jest równie wydajna.



