# Esercizio 4 - Soluzione

### 1) Parametri in input

In [None]:
genetic_code_name = './genetic-code.txt'
embl_file_name = './M10051.embl'

### 2) Importazione del modulo `re`

In [None]:
import re

### 3) Definizione della funzione `format_fasta()`

La funzione prende come argomenti un *header* `FASTA` (contenente un simbolo `>` all'inizio), una sequenza nucleotidica (o di proteina) e la lunghezza dei *record* della sequenza. La funzione restituisce una stringa contenente la sequenza in formato `FASTA` separata in *record* di un numero di caratteri pari al valore del terzo argomento.

*Suggerimento*: usare la funzione `compile()` per produrre un'espressione regolare variabile.

In [None]:
def format_fasta(header, sequence, record_length = 80):    
    record_length = str(record_length)
    p = re.compile('\w{,' + record_length + '}')   
    return header + '\n' + '\n'.join(re.findall(p, sequence))

### 4) Lettura del file del codice genetico in una lista di righe

In [None]:
genetic_code_rows

### 5) Costruzione del dizionario del codice genetico

Costruire il dizionario che contiene il codice genetico:

- *chiave*: sequenza del codone
- *valore*: simbolo del corrispondente amminoacido

a) Costruire la lista delle tuple *(chiave, valore)*.

*Suggerimento1*: usare il metodo `split()` delle stringhe per separare la stringa invocante sulla base del separatore passato come argomento.

*Suggerimento2*: usare il metodo `rstrip()` delle stringhe per rimuovere il più lungo suffisso della stringa invocante che contiene caratteri della stringa passata come argomento. Invocando `rstrip()` senza argomento, vengono rimossi tutti i caratteri di spazio finali (compreso `\n`).

*Suggerimento3*: usare la funzione `product()` del modulo `itertools` che effettua il prodotto cartesiano tra le liste passate come argomento.

In [None]:
key_value_list

b) Costruire il dizionario.

In [None]:
genetic_code_dict

### 6) Lettura del file `EMBL` in un'unica stringa

In [None]:
with open(embl_file_name, 'r') as embl_file:
    embl_str = embl_file.read()

In [None]:
print(embl_str)

### 7) Estrazione dell'identificatore univoco e dell'organismo relativo all'entry.

Estrarre dal *record* `ID`:

    ID   M10051; SV 1; linear; mRNA; STD; HUM; 4723 BP.
    
l'identificatore univoco e l'organismo e assegnarli alle variabili `identifier` e `organism`.

In [None]:
m = re.search('^ID\s+(\w+).+\s+(\w+);', embl_str, re.M)
(identifier, organism) = m.groups()

In [None]:
identifier

In [None]:
organism

### 8) Estrazione della sequenza nucleotidica

a) Costruire la lista dei *record* della sequenza nucleotidica, escludendo da ognuno di essi gli spazi iniziali, gli spazi finali e l'intero finale.

    ggggggctgc gcggccgggt cggtgcgcac acgagaagga cgcgcggccc ccagcgctct        60

In [None]:
seq_row_list = re.findall('^\s+(.+?)\s+\d+', embl_str, re.M)

In [None]:
seq_row_list

b) Concatenare i singoli pezzi per ottenere la sequenza nucleotidica in unica stringa (in lettere minuscole).

In [None]:
nucleotide_sequence = re.sub(r'\s', '', ''.join(seq_row_list))

In [None]:
nucleotide_sequence

### 9) Estrazione della sequenza della proteina

Estrarre il prefisso della proteina contenuto nel *record*:

    FT                   /translation="MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLT

In [None]:
s = re.search('^FT\s+/translation=\"(\w+)', embl_str, re.M)
protein_prefix = s.group(1)

In [None]:
protein_prefix

b) Costruire la lista di tutti gli altri record della proteina (compreso l'ultimo):

    FT                   RLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFP
    
**Attenzione all'ultimo**:

    FT                   DGGSSLGFKRSYEEHIPYTHMNGGKKNGRILTLPRSNPS"

che termina con doppi apici `"`.

In [None]:
protein_list = re.findall('^FT\s+([A-Z]+)"?$', embl_str, re.M)

In [None]:
protein_list

b) Aggiungere in testa alla lista il prefisso trovato prima e concatenare tutti gli elementi della lista per ottenere la sequenza della proteina in un'unica stringa.

In [None]:
protein_list[:0] = [protein_prefix]
protein_sequence = ''.join(protein_list)

In [None]:
protein_sequence

### 10) Determinazione della coding sequence (CDS)

a) Estrarre dal *record*

    FT   CDS             139..4287
    
lo start e l'end (1-based) della CDS.

In [None]:
cds_start

In [None]:
cds_end

b) Estrarre la sequenza della CDS.

In [None]:
cds_sequence

### 11) Creazione della coding sequence (CDS) in formato `FASTA`

Produrre la sequenza della CDS in formato `FASTA` con il seguente *header*:

    >M10051-HUM; len = [length]; start = [yes|no]; end = [yes|no]
    
e assegnarla alla variabile `cds_sequence_fasta`.

In [None]:
print(cds_sequence_fasta)

### 12) Determinazione delle frequenze dei codoni

a) Estrarre la lista dei codoni della CDS.

In [None]:
codon_list

b) Costruire la lista di tuple *(codone, frequenza)* elencate per frequenze decrescenti.

In [None]:
codon_frequency

### 13) Determinazione delle frequenze degli amminoacidi della proteina letta dal file `EMBL`

a) Estrarre la lista degli amminoacidi della proteina.

In [None]:
ammino_list

a) Costruire la lista di tuple *(amminoacido, frequenza)* elencate per frequenza decrescente.

In [None]:
ammino_frequency

b) Produrre il diagramma a barre delle frequenze degli amminoacidi.

### 14) Validazione della sequenza della proteina letta dal file `EMBL`

a) Tradurre in proteina la sequenza della CDS.

**Alternativa1:** traduzione della lista `codon_list` da lista di codoni a lista di amminoacidi e unione in unica stringa con il metodo `join()`.

In [None]:
cds_translation

**Alternativa2:** traduzione con la funzione `sub()`.

    re.sub(regexp, r_arg, string)
    
Come secondo argomento può essere passata una funzione invece di una stringa di sostituzione. In questo caso `sub()` invocherà tale funzione passando come argomento l'oggetto `Match` restituito da ognuna delle operazioni di di ricerca dell'espressione regolare `regexp` nella stringa `string`.

Per tradurre la sequenza della CDS in proteina, il secondo argomento della funzione `sub()` si può usare una *lambda function*, cioé una funzione anonima definita "al volo" secondo la seguente sintassi:

    lambda x: expr
    
dove `x` è l'argomento della funzione ed `expr` è l'espressione che viene valutata e il cui risultato viene poi restituito dalla funzione.

E' sufficiente quindi usare come primo argomento l'espressione regolare `\w{3}` che trova tutte le occorrenze sovrapposte di tre simboli consecutivi (i codoni) e usare la seguente funzione lambda:

    lambda x: genetic_code_dict[x.group()]
    
che prende in input l'oggetto `x` di tipo `Match` generato, ogni volta, da un'occorrenza dell'espressione regolare, cioé un codone (restituito da `x.group()`) e restituisce come risultato il corrispondente amminoacido.

In [None]:
cds_translation2

Verificare che le due alternative portano alla stessa traduzione.

Verificare infine che la proteina letta dal file `EMBL` è uguale a quella ottenuta per traduzione della CDS.

### 15) Trovare una CDS "sinonima" della precedente ottenuta sostituendo il maggior numero di codoni

a) Costruire il dizionario inverso del codice genetico:

- *chiave*: simbolo di amminoacido
- *valore*: lista dei codoni che corrispondono a all'amminoacido

In [None]:
inverse_genetic_code_dict

b) Determinare la CDS sinonima.

In [None]:
syn_cds_sequence

c) Verificare che fornisca la stessa proteina.

d) Misurare la differenza con la precedente CDS tramite distanza di Hamming, che è il numero di posizioni in cui le due sequenze hanno diverso carattere.

**Esempio**: la distanza di Hamming di `ACGTG` e `GCTTG` è pari a 2, in quanto le basi diverse sono quelle in posizione 1 (`A` e `G`) e quelle in posizione 3 (`G` e `T`).

*Suggerimento*: usare la funzione `range()` passando come unico argomento la lunghezza della CDS, per produrre il range dei suoi indici di posizione. 

In [None]:
hamming_dist

Percentuale di basi differenti rispetto alla lunghezza delle due CDS:

Numero di possibili CDS che esprimono la stessa proteina: