# Zadanie nr 4 - Odległość edycyjna

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import animation
from spacy.lang.pl import Polish
from random import random

In [2]:
def print_2d(l): return print(
    '\n'.join(map(''.join, list(map(lambda x: str(x).replace("'", ""), l)))))

## 1. Odległość edycyjna
#### odległość Levensheita

<i>1. Zaimplementuj algorytm obliczania odległości edycyjnej w taki sposób, aby możliwe było określenie przynajmniej jednej sekwencji edycji (dodanie, usunięcie, zmiana znaku), która pozwala w minimalnej liczbie kroków, przekształcić jeden łańcuch w drugi. </i>

In [3]:
LEFT = '\u2190'
UP = '\u2191'
DIAG = '\u2196'

print(LEFT, UP, DIAG)

← ↑ ↖


In [4]:
def levensheit(text_a, text_b, delta=None):
    '''
    Znajduje odległość Levensheita dla tekstów text_a i text_b. 
    
    Zwraca tę odległość oraz pomocniczą tablicę dwuwymiarową 
    pozwalającą odtworzyć drogę uzyskania minimalnej liczby kroków, 
    przekształcając text_a w text_b.
    '''
    edit = [[None for _ in range(len(text_b) + 1)]
            for _ in range(len(text_a) + 1)]
    path = [[None for _ in range(len(text_b) + 1)]
            for _ in range(len(text_a) + 1)]

    if delta is None:
        def delta(char_a, char_b): return 0 if char_a == char_b else 1

    for i in range(len(text_a) + 1):
        edit[i][0] = i
        path[i][0] = UP

    for j in range(1, len(text_b) + 1):
        edit[0][j] = j
        path[0][j] = LEFT

    for i in range(1, len(text_a)+1):
        for j in range(1, len(text_b)+1):
            options = [edit[i-1][j] + 1, edit[i][j-1] + 1,
                       edit[i-1][j-1] + delta(text_a[i-1], text_b[j-1])]
            edit[i][j] = min(options)

            if edit[i][j] == options[0]:
                path[i][j] = UP
            elif edit[i][j] == options[1]:
                path[i][j] = LEFT
            else:
                path[i][j] = DIAG

    return edit[len(text_a)][len(text_b)], path

In [5]:
def get_steps(text_a, text_b, path=None):
    '''
        zwraca przykładową listę kroków,
        które przekształcają text_a w text_b
        
        lista zawiera także elementy ['next'],
        które nie są operacjami zamiany tekstu a w b,
        ale przydają się do wizualizacji krok po kroku
    '''
    if path is None:
        _, path = levensheit(text_a, text_b)
        
    i, j = len(text_a), len(text_b)
    steps = []

    while i > 0 or j > 0:
        if path[i][j] == LEFT:
            steps.append(['insert', text_b[j-1]])
            j -= 1
        elif path[i][j] == UP:
            steps.append(['delete', text_a[i-1]])
            i -= 1
        else:
            if text_a[i-1] != text_b[j-1]:
                steps.append(['replace', text_a[i-1], text_b[j-1]])
            else:
                steps.append(['next'])

            i -= 1
            j -= 1
            
    return steps[::-1]

In [6]:
dist, path = levensheit('los', 'kloc')
print('distance:', dist, '\n')
print_2d(path)

distance: 2 

[↑, ←, ←, ←, ←]
[↑, ↖, ↖, ←, ←]
[↑, ↑, ↑, ↖, ←]
[↑, ↑, ↑, ↑, ↖]


In [7]:
print(get_steps('los', 'kloc'))

[['insert', 'k'], ['next'], ['next'], ['replace', 's', 'c']]


<i>2. Na podstawie poprzedniego punktu zaimplementuj prostą wizualizację działania algorytmu, poprzez wskazanie kolejnych wersji pierwszego łańcucha, w których dokonywana jest określona zmiana. "Wizualizacja" może działać w trybie tekstowym. Np. zmiana łańcuch "los" w "kloc" może być zrealizowana następująco:</i> 
>\*k\*los (dodanie litery k) <br>
>klo\*c\* (zamiana s->c)

In [8]:
def transform(text_a, text_b, steps):
    '''
        zwraca listę tekstów pośrednich,
        powstałych po zastosowaniu kolejnych kroków
        transformacji
    '''
    i = 0
    cur = text_a
    states = [cur]

    for step in steps:
        if step[0] == 'insert':
            cur = cur[:i] + step[1] + cur[i:]
            states.append(f'{cur[:i]}*{cur[i]}*{cur[i+1:]}')
        elif step[0] == 'replace':
            cur = cur[:i] + step[2] + cur[i+1:]
            states.append(f'{cur[:i]}*{cur[i]}*{cur[i+1:]}')
        elif step[0] == 'delete':
            cur = cur[:i] + cur[i+1:] if i + \
                1 < len(cur) else cur[:i]
            states.append(f'{cur[:i]}**{cur[i:]}')
            i -= 1

        i += 1
        
    states.append(cur)
    return states

#### animacja

In [9]:
def animate(states):
    '''
        zwraca animację kolejnych słów z tablicy states
    '''
    fig, ax = plt.subplots(figsize=(8.5, 2))
    time_text = ax.text(0, 0.5, '', fontsize=40)
    plt.axis('off')

    def updatefig(num):
        time_text.set_text(states[num])
        return time_text,

    return animation.FuncAnimation(fig, updatefig, interval=500, frames=len(states))

<i> 3. Przedstaw wynik działania algorytmu z p. 2 dla następujących par łańcuchów: </i>
* los - kloc
* Łódź - Lodz
* kwintesencja - quintessence
* ATGAATCTTACCGCCTCG - ATGAGGCTCTGGCCCCTG

In [10]:
%matplotlib notebook

animated = []

for text_a, text_b in [("kwintesencja", "quintessence"), 
                       ("los", "kloc"), ("Łódź", "Lodz"), 
                       ("ATGAATCTTACCGCCTCG", "ATGAGGCTCTGGCCCCTG")]:
    states = transform(text_a, text_b, get_steps(text_a, text_b))
    print_2d(states)
    animated.append(animate(states))
    plt.draw()
    plt.show() 
    writergif = animation.PillowWriter(fps=1) 
    animated[-1].save(f'{text_a}.gif', writer=writergif)

kwintesencja
*q*wintesencja
q*u*intesencja
quintes*s*encja
quintessenc*e*a
quintessence**
quintessence


<IPython.core.display.Javascript object>

los
*k*los
klo*c*
kloc


<IPython.core.display.Javascript object>

Łódź
*L*ódź
L*o*dź
Lod*z*
Lodz


<IPython.core.display.Javascript object>

ATGAATCTTACCGCCTCG
ATGA*G*TCTTACCGCCTCG
ATGAG*G*CTTACCGCCTCG
ATGAGGCT*C*TACCGCCTCG
ATGAGGCTCT*G*CCGCCTCG
ATGAGGCTCTG*G*CCGCCTCG
ATGAGGCTCTGGCC**CCTCG
ATGAGGCTCTGGCCCCT**G
ATGAGGCTCTGGCCCCTG


<IPython.core.display.Javascript object>

## 2. Najdłuższy wspólny podciąg

<i>4. Zaimplementuj algorytm obliczania najdłuższego wspólnego podciągu dla pary ciągów elementów.</i>

In [11]:
def get_lcs(text_a, text_b):
    '''
        zwraca:
        * długość najdłuższego wspólnego podciągu słów text_a i text_b
        * przykładowy najdłuższy wspólny podciąg
        * tablicę krotek, gdzie oprócz wspólnych znaków należących do 
            najdłuższego wspólnego podciągu,
            zapisane są również indeksy w kolejno słowach text_a i text_b,
            pod którymi znajduje się znaki podciągu
    '''
    def delta(x, y): return 0 if str(x) == str(y) else 2
    dist, path = levensheit(text_a, text_b, delta)
    
    lcs_len = (len(text_a) + len(text_b) - dist)//2

    i, j = len(text_a), len(text_b)
    common = []

    while i > 0 or j > 0:
        if path[i][j] == LEFT:
            j -= 1
        elif path[i][j] == UP:
            i -= 1
        else:
            if path[i][j] == DIAG:
                common.append((i-1, j-1, text_a[i-1]))
            i -= 1
            j -= 1

    lcs = ''.join(str(x[2]) for x in reversed(common))
    return lcs_len, lcs, common

In [12]:
dist, lcs, common = get_lcs('los', 'kloc')
print(dist, lcs, common)

2 lo [(1, 2, 'o'), (0, 1, 'l')]


#### podział tekstu na tokeny, wybranie losowej części

<i>5. Korzystając z gotowego tokenizera (np. spaCy - https://spacy.io/api/tokenizer) dokonaj podziału załączonego tekstu na tokeny.</i> 

In [20]:
nlp = Polish()
tokenizer = nlp.tokenizer

tokens = []

with open('romeo-i-julia-700.txt', 'r') as f:
    for line in f:
        tokens.append(tokenizer(line))

print(*tokens[:20])
print('(...)')

William Shakespeare
 
 Romeo i Julia
 tłum. Józef Paszkowski
 
 ISBN 978-83-288-2903-9
 
 
 
 OSOBY:
  * ESKALUS — książę panujący w Weronie
  * PARYS — młody Weroneńczyk szlachetnego rodu, krewny księcia
  * MONTEKI, KAPULET — naczelnicy dwóch domów nieprzyjaznych sobie
  * STARZEC — stryjeczny brat Kapuleta
  * ROMEO — syn Montekiego
  * MERKUCJO — krewny księcia
  * BENWOLIO — synowiec Montekiego
  * TYBALT — krewny Pani Kapulet
  * LAURENTY — ojciec franciszkanin
  * JAN — brat z tegoż zgromadzenia

(...)


<i> 6. Stwórz 2 wersje załączonego tekstu, w których usunięto 3% losowych tokenów.
</i>

In [14]:
nlp = Polish()
tokenizer = nlp.tokenizer

tokens_a = []
tokens_b = []

with open('romeo-i-julia-700.txt', 'r') as f, open('file_a.txt', 'w') as f_a, open('file_b.txt', 'w') as f_b:
    for line in f:
        tokens = tokenizer(line)
        for token in tokens[:-1]:
            if random() > 0.03:
                tokens_a.append(token)
                f_a.write(str(token) + ' ')
                
            if random() > 0.03:
                tokens_b.append(token)
                f_b.write(str(token) + ' ')
        
        tokens_a.append('\n') 
        tokens_b.append('\n')
        f_a.write('\n')
        f_b.write('\n')

<i>7. Oblicz długość najdłuższego podciągu wspólnych tokenów dla tych tekstów.</i>

In [15]:
get_lcs(tokens_a, tokens_b)[0]

2931

#### diff

<i>8. Korzystając z algorytmu z punktu 4 skonstruuj narzędzie, o działaniu podobnym do narzędzia diff, tzn. wskazującego w dwóch plikach linie, które się różnią. Na wyjściu narzędzia powinny znaleźć się elementy, które nie należą do najdłuższego wspólnego podciągu. Należy wskazać skąd dana linia pochodzi (< > - pierwszy/drugi plik) oraz numer linii w danym pliku. </i>

In [16]:
def print_diff(line_a, line_b, num):
    '''
        jeśli linie line_a i line_b się różnią,
        to funkcja wypisuje różniące się fragmenty
        
        (linie mogą być stringiem, ale też listą tokenów)
    '''
    lcs_len, _, common = get_lcs(line_a, line_b)

    if lcs_len == len(line_a) == len(line_b):
        return

    common_a = set(x[0] for x in common)
    common_b = set(x[1] for x in common)
    
    diff_a = ' '.join(str(c) for i, c in enumerate(line_a) if i not in common_a).strip()
    diff_b = ' '.join(str(c) for i, c in enumerate(line_b) if i not in common_b).strip()
    
    if diff_a == diff_b == '':
        return

    print(f"< {num} | {diff_a}")
    print(f"> {num} | {diff_b}\n")

In [17]:
def diff(file_a, file_b):
    '''
        znajduje różniące się linie w plikach 
        file_a i file_b,
        wypisuje różnice,
        funkcja porównuje kolejne linie plików, 
        nie ignoruje pustych
    '''
    nlp = Polish()
    tokenizer = nlp.tokenizer
    with open(file_a, 'r') as f_a, open(file_b, 'r') as f_b:
        for i, lines in enumerate(zip(f_a, f_b)):
            print_diff(tokenizer(lines[0]), tokenizer(lines[1]), i)

<i>9. Przedstaw wynik działania narzędzia na tekstach z punktu 6. Zwróć uwagę na dodanie znaków przejścia do nowej linii, które są usuwane w trakcie tokenizacji. </i>

In [18]:
diff('file_a.txt', 'file_b.txt')

< 11 | 
> 11 | PARYS

< 15 | 
> 15 | MERKUCJO

< 17 | Pani
> 17 | TYBALT

< 30 | 
> 30 | —

< 32 | do
> 32 | liczący

< 37 | część
> 37 | 

< 50 | wzięło
> 50 | 

< 61 | Jest
> 61 | 

< 92 | zechce
> 92 | 

< 97 | 
> 97 | Mam

< 102 | dać .
> 102 | 

< 107 | 
> 107 | rozruchać

< 112 | 
> 112 | jest

< 117 | 
> 117 | stania

< 122 | słabi
> 122 | 

< 147 | lwów
> 147 | do

< 152 | 
> 152 | dwóch

< 154 | Abraham
> 154 | 

< 184 | nastawię
> 184 | 

< 189 | 
> 189 | wykrzywię

< 194 | panie
> 194 | 

< 211 | jest
> 211 | :

< 228 | waść
> 228 | 

< 233 | 
> 233 | ?

< 250 | się głębi
> 250 | w

< 277 | 
> 277 | co

< 281 | /
> 281 | 

< 286 | ?
> 286 | 

< 290 | BENWOLIO
> 290 | 

< 298 | 
> 298 | Z

< 299 | Tego
> 299 | 

< 303 | mieszają
> 303 | 

< 306 | 
> 306 | PIERWSZY

< 308 | pałek
> 308 | 

< 311 | /
> 311 | 

< 316 | Podajcie
> 316 | 

< 327 | .
> 327 | 

< 330 | 
> 330 | /

< 344 | 
> 344 | tobą

< 346 | 
> 346 | orszakiem

< 353 | 
> 353 | Ludzie

< 357 | broń
> 357 | 

< 35

## Wnioski

- Odległość edycyjną można wykorzystać do znajdowania najdłuższego wspólnego podciągu dwóch tekstów.
- Najdłuższe wspólne podciągi mogą mieć zastosowanie do wskazywania różnic w linijkach tekstu, co jest przydatne np. w systemach typu version control.

M. Hawryluk 05.05.2021