# EDIT DISTANCE
**Problema:** date due stringhe $a$ e $b$, individuare una strategia per calcolare il numero minimo di operazioni necessario a trasformare $a$ in $b$, avendo come possibili operazioni l'inserimento di un carattere, la cancellazione di un carattere, e la sostituzione di un carattere.

## SOLUZIONE 1

- Se $a$ è nulla allora occorre aggiungere un numero di caratteri pari alla lunghezza di $b$
- Se $b$ è nulla allora occorre aggiungere un numero di caratteri pari alla lunghezza di $a$
- Se l'ultimo carattere di $a$ e $b$ è lo stesso, allora il costo è quello che calcoliamo per le sottostringhe $a_{-1}$ e $b_{-1}$
- Se infine gli ultimi caratteri di $a$ e $b$ sono diversi, occorre fare un'operazione per l'ultimo carattere più il costo inferiore per le tre coppie di sottostringhe da cui è possibile arrivare all'ultimo carattere

In [42]:
def edist(a, b, cost=0, depth=0): 
    # print(a, b, cost, depth)
    if len(a) == 0:
        return len(b)
    elif len(b) == 0:
        return len(a)
    elif a[-1] == b[-1]:
        return edist(a[:-1], b[:-1], cost, depth = depth + 1)
    else:
        return 1 + min([
            edist(a[:-1], b, cost + 1, depth = depth + 1),
            edist(a, b[:-1], cost + 1, depth = depth + 1),
            edist(a[:-1], b[:-1], cost + 1, depth = depth + 1)
        ])

In [43]:
edist('casa', 'pasta')

2

TypeError: object of type 'int' has no len()

In [30]:
import numpy as np
a, b = 'casa', 'casta'
m = np.zeros((len(a) + 1, len(b) + 1))
m

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

## SOLUZIONE 2

<table>
    <tr><td></td><td>#</td><td>c</td><td>a</td><td>s</td><td>t</td><td>o</td></tr>
    <tr><td>#</td><td>0</td><td>1</td><td>2</td><td>3</td><td>4</td><td>5</td></tr>
    <tr><td>c</td><td>1</td><td></td><td></td><td></td><td></td><td></td></tr>
    <tr><td>a</td><td>2</td><td></td><td></td><td></td><td></td><td></td></tr>
    <tr><td>s</td><td>3</td><td></td><td></td><td></td><td></td><td></td></tr>
    <tr><td>a</td><td>4</td><td></td><td></td><td></td><td></td><td></td></tr>
</table>

$E(i, j) = \min \{E(i-1, j) + 1; E(i, j-1) + 1; E(i-1,i-j) + k\}$, where $k = 1$ if $s_1(i) \geq s_2(j), k = 0$ otherwise

In [44]:
import numpy as np



In [45]:
a, b = 'casa', 'casta'

In [46]:
def nf(a, b):
    m = np.zeros((len(a) + 1, len(b) + 1))
    m[0,:] = list(range(len(b) + 1))
    m[:,0] = list(range(len(a) + 1))
    for row in range(1, len(a) + 1):
        for col in range(1, len(b) + 1):
            k = min([
                m[row-1,col], m[row,col-1], m[row-1,col-1]])
            if a[row-1] != b[col-1]:
                k += 1
            m[row,col] = k
    return m

In [47]:
m = nf('casa', 'casto')

In [48]:
m

array([[0., 1., 2., 3., 4., 5.],
       [1., 0., 1., 2., 3., 4.],
       [2., 1., 0., 1., 2., 3.],
       [3., 2., 1., 0., 1., 2.],
       [4., 3., 1., 1., 1., 2.]])

In [49]:
def ddist(a, b):
    m = np.zeros((len(a)+1, len(b)+1))
    for v in range(len(b) + 1):
        m[0][v] = v
    for v in range(len(a) + 1):
        m[v][0] = v
    return m

In [50]:
x = ddist('casa', 'casto')

In [51]:
import numpy as np

In [52]:
def D(a, b):
    row = range(0, len(b)+1)
    col = range(0, len(a)+1)
    m = np.zeros((len(a)+1, len(b)+1))
    m[0,:] = row
    m[:,0] = col
    for i, x in enumerate(a):
        iM = i + 1
        for j, y in enumerate(b):
            jM = j + 1 
            if x == y:
                cost = 0
            else:
                cost = 1
            cost += min([
                m[iM-1,jM-1], 
                m[iM,jM-1]+(1-cost),
                m[iM-1,jM]+(1-cost),
            ])
            m[iM,jM] = cost
    return m

In [53]:
r = D('casa', 'casto')

In [54]:
r

array([[0., 1., 2., 3., 4., 5.],
       [1., 0., 1., 2., 3., 4.],
       [2., 1., 0., 1., 2., 3.],
       [3., 2., 1., 0., 1., 2.],
       [4., 3., 2., 1., 1., 2.]])