# Notebooks

Questi notebook sono un misto di blocchi detti *celle*. Una cella contiene di testo (come questa) o codice Python (come il blocco sotto). Per eseguire un blocco di codice puoi:
- selezionarlo e premere il bottone Play (al suo fianco, o nella barra in alto)
- selezionarlo e premere `Ctrl + Enter`

Prova con il blocco qui sotto! Se stampa "Welcome to Python!"

In [1]:
# 0.0
print("Welcome to Python!")

Welcome to Python!


Una volta eseguito, dovresti trovare la scritta `Welcome to Python!` subito sotto il blocco. Ora al suo fianco dovresti trovare anche un numero che indica l'ordine in cui hai eseguito quel blocco di codice. Se ora provi a ri-eseguirlo, vedrai che il numero a suo fianco cambiera'!
Prova a sostituire il testo tra `"` aggiungendo il tuo nome, e ri-esegui. Vedrai che la stringa stampata si aggiorna!


Nelle celle successive non e' necessario comprendere il codice Python scritto (lo tratteremo durante il corso), ma cerca di seguire il notebook per familiarizzarti con il codice, e a modificare un pochino per vedere come si comporta. Dal menu' visualizza abilita i numeri di righe, li usiamo per indicare parti specifiche del codice. A inizio blocco troverai anche dei numeri, e.g.,

```#1.0```

Li useremo per far riferimento a blocchi specifici. Il blocco sopra e' il blocco `0.0`

---

# Edit distance e allineamento

L'allineamento tra due stringhe prevede il *matching* tra lettere delle due stringhe, e introduce due casi particolari:
- inserimento: assume una lettera mancante
- cancellazione: assume una lettera di troppo

Tra tutti i possibili matching validi, cerchiamo solitamente quello che prevede un numero minimo di inserimenti/cancellazioni, ossia il matching a costo minore.
Il costo e' definito come *edit distance*, ossia "distanza di modifica", e quantifica quante operazioni di inserimento/cancellazione/sostituzione dovremmo fare per trasformare una stringa in un'altra.

## Edit distance: straight alignment
Partiamo da due stringhe `s_A, s_B` di lunghezza $m, n$, rispettivamente, di cui indichiamo l'`i`-esimo carattere con `s_A[i]` e `s_B[i]`, rispettivamente.
Una distanza triviale, che non considera inserimenti e cancellazioni, considera semplicemente il numero di caratteri diversi nella stessa posizione: confrontiamo `s_A[i]` con `s_B[i]`.
Stiamo cercando un allineamento diretto (*straight match*).

Possiamo visualizzare questo allineamento in forma tabellare:

|  `i`  | 0   | 1   | 2   | 3   | 4   |
| ----- | --- | --- | --- | --- | --- |
| `s_A` | A   | C   | G   | T   |     |
| `s_B` | A   | A   | C   | G   | T   |
| `d`   | 0   | 1   | 1   | 1   | 1   |

Qui confrontiamo `ACGT` e `AACGT`, indicando nell'ultima riga la distanza (`d`) carattere per carattere: `0` per caratteri uguali, e `1` altrimenti.
La distanza (il numero di caratteri diversi) e' semplicemente la somma sulla riga `d`: `4`.

Questo allineamento -- detto *straight match* -- deve il suo nome al fatto che stiamo considerando confronti su una stessa colonna.


### Edit distance: oblique match

Lo straight match ignora inserimenti e cancellazioni, ma fornisce una soluzione basilare cui possiamo ricondurre un match con inserimenti/cancellazioni.
Quando simuliamo inserimenti/cancellazioni, stiamo confrontando `s_A[i]` con `s_B[j]`.
Se `j > i` stiamo confrontando un carattere in `s_A` con uno piu' avanti in `s_B`.
Se invece `j < i` stiamo confrontando un carattere in `s_A` con uno piu' indietro in `s_B`.
In altre parole, confrontando `s_A[i]` con `s_B[j]`, stiamo simulando inserimenti/cancellazioni.


Un inserimento sposta in avanti i caratteri successivi, mentre una cancellazione li tira indietro.
Visivamente, quando consideriamo `j > i` stiamo "spingendo" `s_A[i]` in avanti nella stringa, e quindi simulando degli inserimenti in `s_A`.
Se invece consideriamo `j < i` stiamo "tirando" `s_A[i]` indietro nella stringa, e quindi simulando delle cancellazioni in `s_B`.
Questo "spingi e tira" puo' essere implementato con l'aggiunta di caratteri vuoti, detti dash (`-`), che "spingono" i caratteri successivi in avanti.
Aggiungere un carattere in `ACGT` -- ignorando inserimenti a inizio e fine stringa -- genera le stringhe:
- `s_A1: A-CGT`
- `s_A2: AC-GT`
- `s_A3: ACG-T`

Ora possiamo simulare un inserimento in `s_A`, e l'effetto sulla edit distance sfruttando la nostra visualizzazione tabellare.
Abbiamo quindi le stringhe

|  `i`  | 0   | 1   | 2   | 3   | 4   |
| ----- | --- | --- | --- | --- | --- |
| `s_A` | A   | C   | G   | T   |     |
| `s_A1` | A   | -   | C   | G   | T    |
| `s_A2` | A   | C   | -   | G   | T    |
| `s_A3` | A   | C   | G   | -   | T    |

Con la simulazione di tutti i possibili inserimenti, la edit distance diventa

**`s_A` con `s_B`**
|  `i`  | 0   | 1   | 2   | 3   | 4   |
| ----- | --- | --- | --- | --- | --- |
| `s_A` | A   | C   | G   | T   |     |
| `s_B` | A   | A   | C   | G   | T   |
| `d`   | 0   | 1   | 1   | 1   | 1   |


**`s_A1` con `s_B`**
|  `i`  | 0   | 1   | 2   | 3   | 4   |
| ----- | --- | --- | --- | --- | --- |
| `s_A1` | A   | -   | C   | G   | T    |
| `s_B` | A   | A   | C   | G   | T   |
| `d`   | 0   | 1   | 0   | 0   | 0   |


**`s_A2` con `s_B`**
|  `i`  | 0   | 1   | 2   | 3   | 4   |
| ----- | --- | --- | --- | --- | --- |
| `s_A2` | A   | C   | -   | G   | T    |
| `s_B` | A   | A   | C   | G   | T   |
| `d`   | 0   | 1   | 1   | 0   | 0   |


**`s_A3` con `s_B`**
|  `i`  | 0   | 1   | 2   | 3   | 4   |
| ----- | --- | --- | --- | --- | --- |
| `s_A3` | A   | C   | G   | -   | T    |
| `s_B` | A   | A   | C   | G   | T   |
| `d`   | 0   | 1   | 1   | 1   | 0   |

Poiche' questo match crea allineamenti tra colonne diverse, e' detto *oblique* match.

L'allineamento diventa ora banale: proviamo tutti i possibili inserimenti, e consideriamo quello che genera una distanza minima!

#### Intuizione algoritmo

L'algoritmo tratta il problema in due fasi:
1. calcolo delle distanze tra `s_A`, `s_B` secondo tutti i possibili inserimenti/cancellazioni
2. ricerca degli inserimenti/cancellazioni che danno la distanza minore

In altre parole,
1. enumerazione di tutte le possibili soluzioni
2. ricerca della soluzione a costo minimo

### Ricerca
La ricerca segue un passo induttivo, ed e' costruita in modo iterativo.
A ogni iterazione, trova la soluzione ottima

### Distance matrix
Le distanze tra le varie coppie sono descritte mediante una matrice in cui in posizione `i, j` troviamo la distanza **ottimale** tra lettere in posizione `i` e `j`.
Possiamo definire queste distanze in una matrice.

### Ricerca
Una volta definita la distanza minima tra tutte le coppie, la ricerca e' triviale: partendo dall'ultimo carattere, possiamo andare a ritroso fino alla coppia `(1, 1)`.


La matrice di distanze e' implementata sotto.

In [8]:
# 1.0
import numpy


def edit_distance_matrix(s_A: str, s_B: str) -> numpy.array:
    length_A, length_B = len(s_A), len(s_B)
    distance_matrix = numpy.full(fill_value=numpy.nan, shape=(length_A + 1, length_B + 1))
    distance_matrix[:, 0] = numpy.arange(distance_matrix.shape[0])
    distance_matrix[0, :] = numpy.arange(distance_matrix.shape[1])
    
    for row in range(1, distance_matrix.shape[0]):
        for column in range(1, distance_matrix.shape[1]):
            exact_match_distance = 1 if s_A[row - 1] != s_B[column - 1] else 0
            distance_matrix[row, column] = min(
                distance_matrix[row, column - 1] + 1,
                distance_matrix[row - 1, column] + 1,
                distance_matrix[row - 1, column - 1] + exact_match_distance
            )
    
    return distance_matrix.astype(int)

s_A = "albe"
s_B = "lbero"

print(edit_distance_matrix(s_A, s_B))

[[0 1 2 3 4 5]
 [1 1 2 3 4 5]
 [2 1 2 3 4 5]
 [3 2 1 2 3 4]
 [4 3 2 1 2 3]]


Nella cella sopra, prova a modificare `s_A` e `s_B` (righe 22, 23), inserendo altre stringhe che:
- producano zeri nella diagonale (posizioni `(1, 1), (2, 2), ...`) della matrice
- non produca nessun zero nella diagonale della matrice
- non produca nessun zeri in nessuna posizione della matrice

---

### Bonus: `Python`

Nelle celle sopra trovi diversi dei costrutti principali di Python:
- valori: come in algebra, sono i valori base, e.g., numeri interi (`100, 1, 2`), numeri reali (`0.2, 0.1`), stringhe (`"Hello, Python", "Full search"`), liste di valori (`[0.1, 0.1, 0.2, 0.1]`)
- espressioni: combinano valori e/o variabili diversi in un unico valore, e.g., `0.1 + 0.1` risulta in `0.2`, `1 > 0` risulta in `vero`. La combinazione avviene mediante operatori, e.g., `+`, `-`, `/`
- variabili: salvano dei valori, dando loro dei nomi, e.g., `weights`. Il salvataggio avviene con l'operatore `=`
- funzioni: creano piccoli programmi parametrizzati che possiamo riutilizzare, anche con parametri diversi, e.g., `compare_weights`, `tree_search`. Sono definite in righe che iniziano con `def`, e poi utilizzate con il loro nome, e i parametri tra parentesi, e.g., `print("Hello, Python!")`. Solitamente calcolano un qualche valore sulla base dei parametri, e.g., dato il raggio come parametro, calcolano la circonferenza di un cerchio. In questo caso il valore calcolato viene preceduto da un `return`
- commenti: iniziano con un `#`, non fanno nulla, ma possiamo utilizzarli per spiegare cosa stiamo facendo nel codice
- moduli: impacchettano funzioni che svolgono calcoli affini tra loro, e.g., tutte le funzioni che calcolano varie statistiche su un genoma. Un modulo viene incluso nel codice con un comando `import`


Nei blocchi precedenti, prova a trovare tutti i valori, moduli, e tutte le variabili e funzioni.