## Esercizio 5 - Soluzione

### Parametri in input

In [1]:
gtf_file_name = './input.gtf'
reference_file_name = './ENm006.fa'
sequence_type = 'cds'

### 1) Importazione del modulo `re`.

In [2]:
import re

### 3) Definizione della funzione `format_fasta()`

La funzione prende come argomenti un *header* `FASTA` (contenente un simbolo `>` all'inizio), una sequenza nucleotidica (o di proteina) e la lunghezza dei *record* della sequenza. La funzione restituisce una stringa contenente la sequenza in formato `FASTA` separata in *record* di un numero di caratteri pari al valore del terzo argomento.

*Suggerimento*: usare la funzione `compile()` per produrre un'espressione regolare variabile.

In [3]:
def format_fasta(header, sequence, record_length = 80):    
    record_length = str(record_length)
    p = re.compile('\w{,' + record_length + '}')   
    return header + '\n' + '\n'.join(re.findall(p, sequence))

### 4) Definizione della funzione `reverse_complement()`

La funzione prende come argomento una sequenza nucleotidica (in lettere maiuscole oppure minuscole) e restituisce il *reverse and complement* della sequenza (sempre in lettere maiuscole).

In [4]:
def reverse_complement(sequence):
    complement_dict = {'A':'T', 'T':'A', 'C':'G', 'G':'C'}
    sequence = sequence.upper()[::-1]
    return ''.join(map(lambda c: complement_dict[c], sequence))

reverse_complement('ATGGGAAA')

'TTTCCCAT'

### 5) Definizione della funzione `reconstruct_sequence()`

La funzione prende come argomenti:
- la lista delle *features* che corrispondono a un trascritto oppure a una CDS, intese come tuple *(start, end)*
    - il *reference*
    - un valore di *strand*   

e ricostruisce la sequenza del trascritto oppure della CDS.

In [5]:
def reconstruct_sequence(feature_list, reference_sequence, strand):
    reconstructed_sequence = ''.join(reference_sequence[ft[0]-1:ft[1]] for ft in sorted(feature_list))
    
    if strand == '-':
        reconstructed_sequence = reverse_complement(reconstructed_sequence)
        
    return reconstructed_sequence

### 6) Lettura del file `FASTA` della genomica di riferimento per ottenere il *reference*.

**ALTERNATIVA1**: leggere il file in una lista di righe.

In [7]:
reference_file_rows

['>ENm006\n',
 'ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCC\n',
 'AGGTGTGGTGGCACATGCCTGTAATCGCAGCTACTTGGGAGGCTGAGGCA\n',
 'GAAGAATCACTTGAATCTGGGAGGCAGAAGTTGCAGTGAGTTAAGATCAT\n',
 'GCCACCGCACTCCAGCCTGGGCAACAGAGCAAGATTCTTTCTCAAAAAAT\n',
 'AAAAATAAATAAAAACATTAAAAAAAATCAGCCACAGGACTTGGTCTTGG\n',
 'ACCCAAGTTAGAGCTAGGCCATGCTTGCTTAAAGGAGTGGCTGTAATTTT\n',
 'AAACAAGGCTAGTGGGAAAGTTCCAGGCCATCTTAACATTGTAGGTTGCA\n',
 'GAATCTTAGCCAATGAGTCTTTCAGAGCTGGATTCATTAATCTGTTAATT\n',
 'AATTCATTAATTTTTTTATGCTACTGGATGACAGTAGGAATAAAATGACT\n',
 'TTTTCTGTCTGATTCAAATGCTCTGGTATTCCAAAAGGGAGATTCATATT\n',
 'TATTAAGAGAGTCTTTCCCGTTGTTTATACTTCCTGCCTAAGGATCAGCT\n',
 'TCTTTTTCTCTTTCTTCACAGCTGACAACAGATGCCCTAATTGTTTCACC\n',
 'TCAGGTTAGCACTATTGCAATTTGTCTAGCAAGACCTTATGTCCCCGCCA\n',
 'GATGAGAAATTGCAGTAAAGCCAAAGCATCAGTTTTGCATTGCTCTTCAG\n',
 'TTTCTGAGGCTACTAGTAGCAAGTCGTCTACATAGCAAATAATCATAGAT\n',
 'CCCTCTGGTGGGAGAAATTCCTCTAAGTGTTTCTGTAAATGACTAGAGAA\n',
 'AATAATGGGAGCATTCAAAACCCTTGAGGAATTCTTTGCCATAAATATCA\n',
 'GACTTTCTCATAAGC

Concatenare i *record* della sequenza in un'unica stringa.

In [9]:
reference_sequence

'ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGTGTGGTGGCACATGCCTGTAATCGCAGCTACTTGGGAGGCTGAGGCAGAAGAATCACTTGAATCTGGGAGGCAGAAGTTGCAGTGAGTTAAGATCATGCCACCGCACTCCAGCCTGGGCAACAGAGCAAGATTCTTTCTCAAAAAATAAAAATAAATAAAAACATTAAAAAAAATCAGCCACAGGACTTGGTCTTGGACCCAAGTTAGAGCTAGGCCATGCTTGCTTAAAGGAGTGGCTGTAATTTTAAACAAGGCTAGTGGGAAAGTTCCAGGCCATCTTAACATTGTAGGTTGCAGAATCTTAGCCAATGAGTCTTTCAGAGCTGGATTCATTAATCTGTTAATTAATTCATTAATTTTTTTATGCTACTGGATGACAGTAGGAATAAAATGACTTTTTCTGTCTGATTCAAATGCTCTGGTATTCCAAAAGGGAGATTCATATTTATTAAGAGAGTCTTTCCCGTTGTTTATACTTCCTGCCTAAGGATCAGCTTCTTTTTCTCTTTCTTCACAGCTGACAACAGATGCCCTAATTGTTTCACCTCAGGTTAGCACTATTGCAATTTGTCTAGCAAGACCTTATGTCCCCGCCAGATGAGAAATTGCAGTAAAGCCAAAGCATCAGTTTTGCATTGCTCTTCAGTTTCTGAGGCTACTAGTAGCAAGTCGTCTACATAGCAAATAATCATAGATCCCTCTGGTGGGAGAAATTCCTCTAAGTGTTTCTGTAAATGACTAGAGAAAATAATGGGAGCATTCAAAACCCTTGAGGAATTCTTTGCCATAAATATCAGACTTTCTCATAAGCAAAAGCAAACAAGAATTTAGATTCATCTGCTAGAGGAATGGAAAGACAGAAAATGCAGAAAATTGATCAATTACAGAGAAAAACTTTGCAGACAATGGTACCAAAGTCAGAAGAGTTGCTGGAGTAAACAGAAC

**ALTERNATIVA2**: leggere il file in un'unica stringa.

In [11]:
reference_file_string

'>ENm006\nACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCC\nAGGTGTGGTGGCACATGCCTGTAATCGCAGCTACTTGGGAGGCTGAGGCA\nGAAGAATCACTTGAATCTGGGAGGCAGAAGTTGCAGTGAGTTAAGATCAT\nGCCACCGCACTCCAGCCTGGGCAACAGAGCAAGATTCTTTCTCAAAAAAT\nAAAAATAAATAAAAACATTAAAAAAAATCAGCCACAGGACTTGGTCTTGG\nACCCAAGTTAGAGCTAGGCCATGCTTGCTTAAAGGAGTGGCTGTAATTTT\nAAACAAGGCTAGTGGGAAAGTTCCAGGCCATCTTAACATTGTAGGTTGCA\nGAATCTTAGCCAATGAGTCTTTCAGAGCTGGATTCATTAATCTGTTAATT\nAATTCATTAATTTTTTTATGCTACTGGATGACAGTAGGAATAAAATGACT\nTTTTCTGTCTGATTCAAATGCTCTGGTATTCCAAAAGGGAGATTCATATT\nTATTAAGAGAGTCTTTCCCGTTGTTTATACTTCCTGCCTAAGGATCAGCT\nTCTTTTTCTCTTTCTTCACAGCTGACAACAGATGCCCTAATTGTTTCACC\nTCAGGTTAGCACTATTGCAATTTGTCTAGCAAGACCTTATGTCCCCGCCA\nGATGAGAAATTGCAGTAAAGCCAAAGCATCAGTTTTGCATTGCTCTTCAG\nTTTCTGAGGCTACTAGTAGCAAGTCGTCTACATAGCAAATAATCATAGAT\nCCCTCTGGTGGGAGAAATTCCTCTAAGTGTTTCTGTAAATGACTAGAGAA\nAATAATGGGAGCATTCAAAACCCTTGAGGAATTCTTTGCCATAAATATCA\nGACTTTCTCATAAGCAAAAGCAAACAAGAATTTAGATTCATCTGCTAGAG\nGAATGGAAAGACAGAAAATGCAGAAAATTGATCAATTACAGAGAAAAACT\nTT

In [13]:
reference_sequence2

'ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGTGTGGTGGCACATGCCTGTAATCGCAGCTACTTGGGAGGCTGAGGCAGAAGAATCACTTGAATCTGGGAGGCAGAAGTTGCAGTGAGTTAAGATCATGCCACCGCACTCCAGCCTGGGCAACAGAGCAAGATTCTTTCTCAAAAAATAAAAATAAATAAAAACATTAAAAAAAATCAGCCACAGGACTTGGTCTTGGACCCAAGTTAGAGCTAGGCCATGCTTGCTTAAAGGAGTGGCTGTAATTTTAAACAAGGCTAGTGGGAAAGTTCCAGGCCATCTTAACATTGTAGGTTGCAGAATCTTAGCCAATGAGTCTTTCAGAGCTGGATTCATTAATCTGTTAATTAATTCATTAATTTTTTTATGCTACTGGATGACAGTAGGAATAAAATGACTTTTTCTGTCTGATTCAAATGCTCTGGTATTCCAAAAGGGAGATTCATATTTATTAAGAGAGTCTTTCCCGTTGTTTATACTTCCTGCCTAAGGATCAGCTTCTTTTTCTCTTTCTTCACAGCTGACAACAGATGCCCTAATTGTTTCACCTCAGGTTAGCACTATTGCAATTTGTCTAGCAAGACCTTATGTCCCCGCCAGATGAGAAATTGCAGTAAAGCCAAAGCATCAGTTTTGCATTGCTCTTCAGTTTCTGAGGCTACTAGTAGCAAGTCGTCTACATAGCAAATAATCATAGATCCCTCTGGTGGGAGAAATTCCTCTAAGTGTTTCTGTAAATGACTAGAGAAAATAATGGGAGCATTCAAAACCCTTGAGGAATTCTTTGCCATAAATATCAGACTTTCTCATAAGCAAAAGCAAACAAGAATTTAGATTCATCTGCTAGAGGAATGGAAAGACAGAAAATGCAGAAAATTGATCAATTACAGAGAAAAACTTTGCAGACAATGGTACCAAAGTCAGAAGAGTTGCTGGAGTAAACAGAAC

In [None]:
reference_sequence == reference_sequence2

### 7) Lettura dei *record* del file `GTF`

In [None]:
gtf_file_rows

### 8) Filtraggio dei *record* `GTF` che servono per ricostruire le sequenza scelta

Tenere nella lista `gtf_file_rows` solo i *record* che corrispondono al tipo di *feature* che compone la sequenza che si è scelto di ricostruire.

In [19]:
gtf_file_rows

['ENm006\tVEGA_Known\tCDS\t71783\t71788\t.\t-\t0\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\tCDS\t70312\t70440\t.\t-\t0\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\tCDS\t69989\t70210\t.\t-\t0\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\tCDS\t64935\t65036\t.\t-\t0\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\tCDS\t64566\t64673\t.\t-\t0\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\tCDS\t64385\t64459\t.\t-\t0\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\tCDS\t72761\t72963\t.\t-\t0\ttranscript_id "U52112.4-019"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\tCDS\t72521\t72683\t.\t-\t1\ttranscript_id "U52112.4-019"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\tCDS\t72253\t72315\t.\t-\t0\ttranscript_id "U52112.4-019"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\tCDS\t71872\t71965\t.\t-\t0\ttranscript_id "U52112.4

### 9) Costruzione del dizionario degli *strand*

Costruire il dizionario:

- *chiave*: nome del gene
- *valore*: strand del gene rispetto al *reference*

Attraversare la lista dei *record* selezionati e costruire il dizionario.

In [22]:
strand_dict

{'ARHGAP4': '-', 'AVPR2': '+'}

### 10) Determinazione dei geni per cui è stata annotata almeno una sequenza del tipo che si è scelto di ricostruire

In [24]:
gene_set

{'ARHGAP4', 'AVPR2'}

### 11) Ricostruzione delle sequenze del tipo scelto

Costruire i due dizionari seguenti:

1. il dizionario degli identificatori dei trascritti:

    - *chiave*: nome di gene
    - *valore*: insieme degli identificatori dei trascritti che compaiono insieme alla chiave (gene) nei *record* selezionati prima

    
2. il dizionario delle *features*:
    - *chiave*: identificatore di trascritto
    - *valore*: lista delle tuple *(start, end)* che associate alla chiave (trascritto) nei *record* selezionati prima nel caso si vogliano ricostruire i trascritti, e lista delle tuple *(start, end, frame)*  nel caso si vogliano ricostruire le CDS
    
Costruire inoltre, nel caso si fosse scelto di ricostruire le CDS, un terzo dizionario contenente, per ogni CDS, il valore di *frame* della sua prima *feature*:

3. il dizionario dei valori di *frame*:
    - *chiave*: identificatore di trascritto
    - *valore*: valore di *frame* della prima *feature* che compone la CDS della chiave (trascritto)

a) Attraversare la lista `gtf_file_rows` e costruire i primi due dizionari.

In [26]:
gene_dict

{'ARHGAP4': {'U52112.4-001',
  'U52112.4-003',
  'U52112.4-005',
  'U52112.4-010',
  'U52112.4-011',
  'U52112.4-017',
  'U52112.4-019',
  'U52112.4-020',
  'U52112.4-024'},
 'AVPR2': {'U52112.2-001', 'U52112.2-003'}}

In [27]:
composition_dict

{'U52112.4-005': [(71783, 71788, 0),
  (70312, 70440, 0),
  (69989, 70210, 0),
  (64935, 65036, 0),
  (64566, 64673, 0),
  (64385, 64459, 0)],
 'U52112.4-019': [(72761, 72963, 0),
  (72521, 72683, 1),
  (72253, 72315, 0),
  (71872, 71965, 0)],
 'U52112.4-017': [(72761, 72963, 0),
  (72521, 72683, 1),
  (72253, 72315, 0),
  (71865, 71965, 0)],
 'U52112.4-010': [(63857, 63942, 2),
  (62286, 62346, 0),
  (61857, 61991, 2),
  (61663, 61768, 2),
  (61328, 61561, 1),
  (61169, 61242, 1),
  (60898, 61081, 2)],
 'U52112.4-020': [(72521, 72560, 1),
  (71783, 71965, 0),
  (70724, 70843, 0),
  (70312, 70440, 0),
  (70097, 70210, 0)],
 'U52112.4-003': [(77293, 77359, 0),
  (72761, 72965, 2),
  (72521, 72683, 1),
  (72253, 72315, 0),
  (71783, 71965, 0),
  (70312, 70440, 0),
  (69989, 70210, 0),
  (64935, 65036, 0),
  (64566, 64757, 0),
  (64375, 64459, 0),
  (64181, 64208, 2),
  (63857, 63959, 1),
  (62286, 62346, 0),
  (62079, 62156, 2),
  (61857, 61991, 2),
  (61663, 61768, 2),
  (61328, 61561, 

b) Nel caso si fosse scelto di ricostruire le CDS, costruire anche il terzo dizionario.

In [29]:
frame_dict

{'U52112.4-003': 0,
 'U52112.4-017': 0,
 'U52112.4-024': 0,
 'U52112.4-005': 0,
 'U52112.4-010': 2,
 'U52112.4-011': 0,
 'U52112.4-020': 1,
 'U52112.4-001': 0,
 'U52112.4-019': 0,
 'U52112.2-003': 0,
 'U52112.2-001': 0}

c) A partire dai primi due dizionari costruiti prima, ottenere la lista di tuple *(header, sequenza)* in cui il primo elemento è l'*header* `FASTA` e il secondo elemento è la sequenza ricostruita.

L'*header* deve essere del tipo:

    >ARHGAP4; U52112.4-003; len=3235; type=transcript; strand=-
    
se si è scelto di ricostruire i trascritti e:

    >ARHGAP4; U52112.4-005; len=642; type=cds; strand=-
    
se si è scelto di ricostruire le coding sequences (CDS).

In quest'ultimo caso, costruire anche un dizionario contenente la CDS separata in codoni:
- *chiave*: identificatore di trascritto
- *valore*: stringa dei codoni della CDS, ottenuta tenendo conto del *frame* della sua prima *feature*.

**NB**: nella lista dei codoni si devono tenere anche gli eventuali codoni incompleti all'inizio e alla fine.

In [31]:
codon_list_dict

{'U52112.4-003': 'ATG GCC GCT CAC GGG AAG CTG CGG CGG GAG CGG GGG CTG CAG GCT GAG TAT GAG ACG CAA GTC AAA GAG ATG CGC TGG CAG CTG AGC GAG CAG CTG CGC TGC CTG GAG CTG CAG GGC GAG CTG CGG CGG GAG TTG CTG CAG GAG CTG GCA GAG TTC ATG CGG CGC CGC GCT GAG GTG GAG CTG GAA TAC TCC CGG GGC CTG GAA AAG CTG GCC GAG CGC TTC TCC AGC CGT GGA GGC CGC CTG GGG AGC AGC CGG GAG CAC CAA AGC TTC CGG AAG GAG CCG TCC CTC CTG TCG CCC TTG CAC TGC TGG GCG GTG CTG CTG CAG CAC ACG CGG CAG CAG AGC CGG GAG AGC GCG GCC CTG AGT GAG GTG CTG GCC GGG CCC CTG GCC CAG CGC CTG AGT CAC ATT GCA GAG GAC GTG GGG CGC CTG GTC AAG AAG AGC AGG GAT CTG GAG CAG CAG CTG CAG GAT GAG CTC CTG GAG GTG GTC TCA GAG CTC CAG ACG GCC AAG AAG ACG TAC CAG GCA TAT CAC ATG GAG AGC GTG AAT GCC GAG GCC AAG CTC CGG GAG GCC GAG CGG CAG GAG GAG AAG CGG GCA GGC CGG AGT GTC CCC ACC ACC ACC GCT GGT GCC ACT GAG GCA GGG CCC CTC CGC AAG AGC TCC CTC AAG AAG GGA GGG AGG CTG GTG GAG AAG CGG CAG GCC AAG TTC ATG GAG CAC AAA CTC AAG TGC ACA AAG GCG CGC AAC GAG TA

In [32]:
sequence_fasta_list

[('>ARHGAP4; U52112.4-003; len=2841; type=cds; strand=-',
  'ATGGCCGCTCACGGGAAGCTGCGGCGGGAGCGGGGGCTGCAGGCTGAGTATGAGACGCAAGTCAAAGAGATGCGCTGGCAGCTGAGCGAGCAGCTGCGCTGCCTGGAGCTGCAGGGCGAGCTGCGGCGGGAGTTGCTGCAGGAGCTGGCAGAGTTCATGCGGCGCCGCGCTGAGGTGGAGCTGGAATACTCCCGGGGCCTGGAAAAGCTGGCCGAGCGCTTCTCCAGCCGTGGAGGCCGCCTGGGGAGCAGCCGGGAGCACCAAAGCTTCCGGAAGGAGCCGTCCCTCCTGTCGCCCTTGCACTGCTGGGCGGTGCTGCTGCAGCACACGCGGCAGCAGAGCCGGGAGAGCGCGGCCCTGAGTGAGGTGCTGGCCGGGCCCCTGGCCCAGCGCCTGAGTCACATTGCAGAGGACGTGGGGCGCCTGGTCAAGAAGAGCAGGGATCTGGAGCAGCAGCTGCAGGATGAGCTCCTGGAGGTGGTCTCAGAGCTCCAGACGGCCAAGAAGACGTACCAGGCATATCACATGGAGAGCGTGAATGCCGAGGCCAAGCTCCGGGAGGCCGAGCGGCAGGAGGAGAAGCGGGCAGGCCGGAGTGTCCCCACCACCACCGCTGGTGCCACTGAGGCAGGGCCCCTCCGCAAGAGCTCCCTCAAGAAGGGAGGGAGGCTGGTGGAGAAGCGGCAGGCCAAGTTCATGGAGCACAAACTCAAGTGCACAAAGGCGCGCAACGAGTACCTGCTTAGCCTGGCTAGTGTCAACGCTGCTGTCAGTAACTACTACCTGCATGACGTCTTGGACCTCATGGACTGCTGTGACACAGGGTTCCACCTGGCCCTGGGGCAGGTGCTCCGGAGCTACACGGCCGCTGAGAGCCGCACCCAAGCCTCCCAAGTGCAGGGCCTGGGCAGCCTGGAAGAAGCTGTGGAGGCCCTGGAT

d) Trasformare la lista di tuple in una lista di sequenze in formato `FASTA`.

In [34]:
for seq in sequence_fasta_list:
    print(seq)

>ARHGAP4; U52112.4-003; len=2841; type=cds; strand=-
ATGGCCGCTCACGGGAAGCTGCGGCGGGAGCGGGGGCTGCAGGCTGAGTATGAGACGCAAGTCAAAGAGATGCGCTGGCA
GCTGAGCGAGCAGCTGCGCTGCCTGGAGCTGCAGGGCGAGCTGCGGCGGGAGTTGCTGCAGGAGCTGGCAGAGTTCATGC
GGCGCCGCGCTGAGGTGGAGCTGGAATACTCCCGGGGCCTGGAAAAGCTGGCCGAGCGCTTCTCCAGCCGTGGAGGCCGC
CTGGGGAGCAGCCGGGAGCACCAAAGCTTCCGGAAGGAGCCGTCCCTCCTGTCGCCCTTGCACTGCTGGGCGGTGCTGCT
GCAGCACACGCGGCAGCAGAGCCGGGAGAGCGCGGCCCTGAGTGAGGTGCTGGCCGGGCCCCTGGCCCAGCGCCTGAGTC
ACATTGCAGAGGACGTGGGGCGCCTGGTCAAGAAGAGCAGGGATCTGGAGCAGCAGCTGCAGGATGAGCTCCTGGAGGTG
GTCTCAGAGCTCCAGACGGCCAAGAAGACGTACCAGGCATATCACATGGAGAGCGTGAATGCCGAGGCCAAGCTCCGGGA
GGCCGAGCGGCAGGAGGAGAAGCGGGCAGGCCGGAGTGTCCCCACCACCACCGCTGGTGCCACTGAGGCAGGGCCCCTCC
GCAAGAGCTCCCTCAAGAAGGGAGGGAGGCTGGTGGAGAAGCGGCAGGCCAAGTTCATGGAGCACAAACTCAAGTGCACA
AAGGCGCGCAACGAGTACCTGCTTAGCCTGGCTAGTGTCAACGCTGCTGTCAGTAACTACTACCTGCATGACGTCTTGGA
CCTCATGGACTGCTGTGACACAGGGTTCCACCTGGCCCTGGGGCAGGTGCTCCGGAGCTACACGGCCGCTGAGAGCCGCA
CCCAAGCCTCCCAAGTGCAGGGCCTGGGCAGCCTGGAAGAAGCTGTGGAGGCCCTG

e) Stampare su file le sequenze ricostruite.