# Esercizio 5

Prendere in input un file in formato `GTF` (Gene Transfer Format), che annota un set di geni su una genomica di riferimento, insieme al file `FASTA` della genomica di riferimento e produrre:

- le sequenze dei trascritti oppure le sequenze delle coding sequences (CDS) per i geni annotati in formato `FASTA`, a seconda della scelta dell'utente
- il set degli HUGO NAMES dei geni per cui è stata prodotta una sequenza (trascritto oppure CDS) al punto precedente

L'*header* `FASTA` di ogni sequenza prodotta deve contenere:

- lo HUGO name del gene di riferimento
- l’identificatore del trascritto di riferimento
- la lunghezza della sequenza prodotta
- il tipo di sequenza (trascritto o CDS)
- lo strand del gene
    
Esempio di *header* per un trascritto:
         
    >ARHGAP4; U52112.4-003; len=3235 type=transcript; strand=-

Esempio di *header* per una CDS:

    >AVPR2; U52112.2-003; len=642; type=cds; strand=+
   
***

Parametri in input:

- file in formato `GTF`
- file della genomica di riferimento in formato `FASTA`
- *feature* della sequenza da ricostruire: `exon` se si vogliono ricostruire i trascritti o `CDS` se si vogliono ricostruire le coding sequences

***

Requisiti:

- deve essere definita una funzione `format_fasta()` che prenda come argomenti un header `FASTA` e una sequenza, e restituisca la sequenza in formato FASTA separata in righe di 80 caratteri.

- deve essere definita una funzione `reverse_complement()` che prenda come argomento una sequenza nucleotidica e ne restituisca il reverse&complement.

- deve essere definita una funzione `compose_feature()` che prenda come argomenti una lista di features come tuple *(start, end)*) di *features*, la genomica di riferimento, lo strand del gene di riferimento ed effettui la concatenazione delle sequenze delle *features*, eventualmente operando il reverse&complement se lo strand è `-`.

**NOTA BENE**: gli attributi del nono campo del file `GTF` non sono ad ordine fisso all'interno del campo. Per estrarre quindi un determinato attributo si deve usare un'espressione regolare e non il metodo `split()`.

***

## Soluzione

Importare il modulo `re` per usare le espressioni regolari.

In [50]:
import re

### Definizione della funzione `format_fasta()`

La funzione prende come argomento una stringa contenente un *header* `FASTA` e una sequenza (nucleotidica o di proteina) e restituisce la sequenza in formato `FASTA` separata in righe di 80 caratteri.

In [None]:
def format_fasta(header, sequence):
    return header + '\n' + '\n'.join(re.findall('\w{1,80}', sequence))

**NOTA BENE**: supporre che l'*header* in input alla funzione abbia già il simbolo `>` all'inizio, ma non il simbolo `\n` alla fine.

### Definizione della funzione `reverse_complement()`

La funzione prende come argomento una stringa contenente una sequenza nucleotidica e restituisce la versione *reverse and complement* della sequenza.

In [55]:
def reverse_complement(sequence):
    sequence = sequence.lower()
    sequence = sequence[::-1]
    complement = {'a':'t', 't':'a', 'c':'g', 'g':'c'}
    return ''.join([complement[c] for c in sequence])

reverse_complement('aaattt')

'aaattt'

**NOTA BENE**: fare in modo che la funzione sia indipendente dal caso della sequenza in input (maiuscolo o minuscolo).

### Definizione della funzione `compose_feature()`

La funzione prende come argomenti una lista di features come tuple *(start, end)*, la genomica di riferimento, lo strand del gene, ed effettua la concatenazione delle sequenze delle *features*, ed eventualmente il reverse&complement se lo strand del gene è `-`.

**NOTA BENE**: concatenare le sequenze delle *features* sempre per coordinate crescenti.

### Parametri in input

In [None]:
gtf_file_name = './input.gtf'
reference_file_name = './ENm006.fa'
feature_name = 'exon'

### Lettura del file `FASTA` della genomica di riferimento

Lettura del file della genomica di riferimento nella lista di righe `reference_file_rows`

In [None]:
reference_file_rows

Determinazione della sequenza di riferimento in un'unica stringa.

In [None]:
genomic_reference

### Lettura dei *record* del file `GTF`

Lettura dei *record* del file `GTF` nella lista di righe `gtf_file_rows`

In [None]:
gtf_file_rows

### Filtraggio dei *record* `GTF` che occorrono per ricostruire le sequenze del tipo scelto

Eliminare dalla lista `gtf_file_rows` i *record* `GTF` che non corrispondono al tipo di *feature* che compone la sequenza che si è scelto di ricostruire, cioé per i quali il terzo campo non è uguale al valore della variabile `feature_name` (`exon` se si è scelto di ricostruire i trascritti full-length e `CDS` se si è scelto di ricostruire le coding sequences).

In [34]:
gtf_file_rows

['ENm006\tVEGA_Known\texon\t71783\t71788\t.\t-\t.\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\texon\t70312\t70440\t.\t-\t.\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\texon\t69989\t70210\t.\t-\t.\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\texon\t64935\t65036\t.\t-\t.\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\texon\t64566\t64673\t.\t-\t.\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\texon\t64385\t64459\t.\t-\t.\ttranscript_id "U52112.4-005"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\texon\t79484\t79511\t.\t-\t.\ttranscript_id "U52112.4-018"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\texon\t72761\t72965\t.\t-\t.\ttranscript_id "U52112.4-018"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\texon\t72521\t72683\t.\t-\t.\ttranscript_id "U52112.4-018"; gene_id "ARHGAP4";\n',
 'ENm006\tVEGA_Known\texon\t72253\t72379\t.\t-\t.\ttranscript_id

### Costruzione del dizionario degli *strand* e del set dei geni annotati

A partire dalla lista precedente, costruire:
- il dizionario degli *strand*:
    - *chiave*: HUGO name del gene
    - *valore*: strand del gene (`+` o `-`)
    
- il set dei geni annotati relativamente al tipo di sequenza che si vuole ricostruire

**NOTA BENE**: il valore dello *strand* (settimo campo del *record* `GTF`) è costante per un determinato gene.

Inizializzazione del dizionario vuoto.

Attraversare la lista dei record `GTF` e riempire il dizionario.

In [37]:
strand_dict

{'ARHGAP4': '-', 'ATP6AP1': '+', 'AVPR2': '+'}

Estrarre dal dizionario il set dei geni annotati.

In [39]:
gene_set

{'ARHGAP4', 'ATP6AP1', 'AVPR2'}

### Ricostruzione delle sequenze

Costruire:

- il dizionario degli ID dei trascritti:
    - *chiave*: HUGO name del gene
    - *valore*: set dei `transcript_id` coinvolti in record di tipo `exon` (se si vogliono ricostruire i trascritti) oppure in record di tipo `CDS` (se si vogliono ricostruire le coding sequence)
    
    
- il dizionario delle composizioni in features:
    - *chiave*: identificatore del trascritto
    - *valore*: lista delle tuple *(start, end)* delle features (records) che compongono la sequenza da ricostruire (trascritto oppure coding sequence) per il trascritto

Inizializzare i dizionari vuoti.

Attraversare la lista `gtf_file_rows` e riempire i due dizionari.

**NOTA BENE**: un'espressione regolare simile a quella usata per estrarre lo HUGO NAME, cioé `'transcript_id\s+"(\w+)";'` non può funzionare per estrarre dal *record* l'ID del trascritto in quanto in tale ID è presente anche il simbolo di punto `.` che non fa parte della classe dei simboli di parola rappresentata da `\w`. Quindi è meglio usare l'espressione regolare `'transcript_id\s+"([^"]+)";'`.

In [42]:
id_dict

{'ARHGAP4': {'U52112.4-001',
  'U52112.4-002',
  'U52112.4-003',
  'U52112.4-004',
  'U52112.4-005',
  'U52112.4-006',
  'U52112.4-007',
  'U52112.4-008',
  'U52112.4-009',
  'U52112.4-010',
  'U52112.4-011',
  'U52112.4-012',
  'U52112.4-013',
  'U52112.4-014',
  'U52112.4-015',
  'U52112.4-016',
  'U52112.4-017',
  'U52112.4-018',
  'U52112.4-019',
  'U52112.4-020',
  'U52112.4-021',
  'U52112.4-022',
  'U52112.4-023',
  'U52112.4-024'},
 'ATP6AP1': {'XX-FW83563B9.4-001',
  'XX-FW83563B9.4-002',
  'XX-FW83563B9.4-003',
  'XX-FW83563B9.4-004',
  'XX-FW83563B9.4-006'},
 'AVPR2': {'U52112.2-001', 'U52112.2-002', 'U52112.2-003'}}

In [43]:
composition_dict

{'U52112.4-005': [(71783, 71788),
  (70312, 70440),
  (69989, 70210),
  (64935, 65036),
  (64566, 64673),
  (64385, 64459)],
 'U52112.4-018': [(79484, 79511),
  (72761, 72965),
  (72521, 72683),
  (72253, 72379),
  (71896, 71965)],
 'U52112.4-014': [(77293, 77462),
  (72761, 72965),
  (72521, 72683),
  (72253, 72315),
  (71783, 71993),
  (70312, 70440),
  (69989, 70210),
  (64935, 65036),
  (64566, 64757),
  (64375, 64459),
  (64181, 64208),
  (63857, 63959),
  (62286, 62346),
  (62079, 62156),
  (61857, 61991),
  (61663, 61768),
  (61328, 61561),
  (61169, 61242),
  (60898, 61081),
  (60600, 60692),
  (60227, 60326),
  (58626, 59119)],
 'U52112.4-022': [(86040, 86155),
  (85533, 85631),
  (85099, 85157),
  (83695, 83740),
  (83472, 83587),
  (83227, 83271),
  (72761, 72965),
  (72521, 72683),
  (72253, 72315),
  (71783, 71965),
  (70312, 70440),
  (69989, 70210),
  (64935, 65036),
  (64367, 64757)],
 'U52112.4-021': [(72521, 72556), (72253, 72315), (71569, 71965)],
 'U52112.4-006': [(

A partire dai dizionari precedenti, costruire la lista di tuple *(header, sequenza)* in cui il primo elemento è l'*header* `FASTA` e il secondo elemento è la sequenza ricostruita.

L'*header* deve essere del tipo:

    >ARHGAP4; U52112.4-003; len=3235; type=transcript; strand=-
    
se si è scelto di ricostruire i trascritti full-length, e:

    >ARHGAP4; U52112.4-005; len=642; type=cds; strand=-
    
se si è scelto di ricostruire le coding sequences (CDS).

In [46]:
sequence_fasta_list

[('>ARHGAP4; U52112.4-018; len=593; type=transcript; strand=-',
  'GTCTTCCGGTTCGCAAGCCCGCGGCGAGAGATGCGCTGGCAGCTGAGCGAGCAGCTGCGCTGCCTGGAGCTGCAGGGCGAGCTGCGGCGGGAGTTGCTGCAGGAGCTGGCAGAGTTCATGCGGCGCCGCGCTGAGGTGGAGCTGGAATACTCCCGGGGCCTGGAAAAGCTGGCCGAGCGCTTCTCCAGCCGTGGAGGCCGCCTGGGGAGCAGCCGGGAGCACCAAAGCTTCCGGAAGGAGCCGTCCCTCCTGTCGCCCTTGCACTGCTGGGCGGTGCTGCTGCAGCACACGCGGCAGCAGAGCCGGGAGAGCGCGGCCCTGAGTGAGGTGCTGGCCGGGCCCCTGGCCCAGCGCCTGAGTCACATTGCAGAGGACGTGGGGCGCCTGGTCAAGAAGAGCTTCCAGTGCCTGGCGGGGCCGCTCTGGGCAGTGCCGTGCTCACCCTTGCCTCTGCCTCTAGAGCAGGGATCTGGAGCAGCAGCTGCAGGATGAGCTCCTGGAGGTGGTCTCAGAGCTCCAGACGGCCAAGAAGACGTACCAGGCATATCACATGGAGAGCGTGAATGCCGAGGCCAAGCTCCGGGAGGCCGAGC'),
 ('>ARHGAP4; U52112.4-002; len=2817; type=transcript; strand=-',
  'CGTGGGAGCAGTGGGGTTCGACGGCGCGGCCGCGAGGCCGCCATGGCCGCTCACGGGAAGCTGCGGCGGGAGCGGGGGCTGCAGGCTGAGTATGAGACGCAAGTCAAAGAGATGCGCTGGCAGCTGAGCGAGCAGCTGCGCTGCCTGGAGCTGCAGGGCGAGCTGCGGCGGGAGTTGCTGCAGGAGCTGGCAGAGTTCATGCGGCGCCGCGCTGAGGTGGAGCTGGAATACTCCCGGGGCCTGGAAAAGCTGGCCGAGCGCTTCTCCA

Trasformare la lista di tuple in una lista di sequenze in formato `FASTA`.

In [49]:
for seq in sequence_fasta_list:
    print(seq)

>ARHGAP4; U52112.4-018; len=593; type=transcript; strand=-
GTCTTCCGGTTCGCAAGCCCGCGGCGAGAGATGCGCTGGCAGCTGAGCGAGCAGCTGCGCTGCCTGGAGCTGCAGGGCGA
GCTGCGGCGGGAGTTGCTGCAGGAGCTGGCAGAGTTCATGCGGCGCCGCGCTGAGGTGGAGCTGGAATACTCCCGGGGCC
TGGAAAAGCTGGCCGAGCGCTTCTCCAGCCGTGGAGGCCGCCTGGGGAGCAGCCGGGAGCACCAAAGCTTCCGGAAGGAG
CCGTCCCTCCTGTCGCCCTTGCACTGCTGGGCGGTGCTGCTGCAGCACACGCGGCAGCAGAGCCGGGAGAGCGCGGCCCT
GAGTGAGGTGCTGGCCGGGCCCCTGGCCCAGCGCCTGAGTCACATTGCAGAGGACGTGGGGCGCCTGGTCAAGAAGAGCT
TCCAGTGCCTGGCGGGGCCGCTCTGGGCAGTGCCGTGCTCACCCTTGCCTCTGCCTCTAGAGCAGGGATCTGGAGCAGCA
GCTGCAGGATGAGCTCCTGGAGGTGGTCTCAGAGCTCCAGACGGCCAAGAAGACGTACCAGGCATATCACATGGAGAGCG
TGAATGCCGAGGCCAAGCTCCGGGAGGCCGAGC
>ARHGAP4; U52112.4-002; len=2817; type=transcript; strand=-
CGTGGGAGCAGTGGGGTTCGACGGCGCGGCCGCGAGGCCGCCATGGCCGCTCACGGGAAGCTGCGGCGGGAGCGGGGGCT
GCAGGCTGAGTATGAGACGCAAGTCAAAGAGATGCGCTGGCAGCTGAGCGAGCAGCTGCGCTGCCTGGAGCTGCAGGGCG
AGCTGCGGCGGGAGTTGCTGCAGGAGCTGGCAGAGTTCATGCGGCGCCGCGCTGAGGTGGAGCTGGAATACTCCCGGGGC
CTGGAAAAGCTGGCCGAGCGCTTCTCCAGCCGTGGAG