# Esercizio 4

EMBL (https://www.ebi.ac.uk) è una banca di sequenze nucleotidiche sviluppata da EMBL-EBI cioé dall'European Bioinformatics Institute (EBI) che fa parte dell'European Molecular Biology Laboratory (EMBL), in cui ogni sequenza nucleotidica viene memorizzata, con altre informazioni, in un file di puro testo (*EMBL entry*) in un formato che prende il nome di `EMBL`.

**Il formato `EMBL`** è composto da *record* che iniziano con un codice a due lettere maiuscole che ne indica il loro contenuto. I soli *record* che non iniziano con un codice a due lettere sono quelli (nella parte finale) contenenti la sequenza nucleotidica.
Il record `//` segnala la fine del file.

L'esercizio richiede di considerare il file `M10051.embl` che contiene l'*entry* con identificatore `M10051` (in formato `EMBL`) che è la sequenza nucleotidica di un mRNA (cioé di un trascritto espresso da un gene).

Si richiede di produrre:

- la sequenza (nucleotidica) della coding sequence (CDS) in formato `FASTA` separata in *record* di 60 basi
- le frequenze dei codoni presenti nella CDS, elencate in ordine decrescente
- le frequenze degli amminoacidi presenti nella proteina, elencate in ordine decrescente

Inoltre, preso in input un file `genetic-code.txt` contenente il codice genetico,
- effettuare la validazione della proteina specificata nell'entry `EMBL` rispetto alla traduzione della sequenza CDS ottenuta
- trovare una CDS "sinonima" (cioé che produca la stessa proteina) sostituendo il maggior numero possibile di codoni.

***

Requisiti:

- nell’*header* della sequenza della CDS in formato `FASTA` devono comparire l’identificatore univoco della sequenza, l’organismo, la lunghezza della CDS e se la CDS inizia con lo start codon e finisce con lo stop codon, nel seguente formato: 

        >M10051-HUM; len = [length]; start = [yes|no]; end = [yes|no]
        
- deve essere definita una funzione `format_fasta()` che prenda come argomenti l'header `FASTA`, la sequenza nucleotidica (o della proteina) e un valore intero. La funzione deve restituire la sequenza in formato `FASTA` separata in *record* di un numero di caratteri pari al valore passato come terzo argomento.

- usare solo espressioni regolari per estrarre le informazioni dal file di input

***

## Indicazioni sul formato `EMBL`

- Il record che inizia con `ID` (primo record):
 
       ID   M10051; SV 1; linear; mRNA; STD; HUM; 4723 BP.

contiene l'identificatore univoco della sequenza (M10051) e l'organismo (HUM). Il fatto che il file si riferisca alla sequenza nucleotidica di un mRNA è indicato dalla presenza della parola `mRNA`.

- L'insieme di tutti i record che iniziano con `FT` contengono le *features* annotate sulla sequenza nucleotidica. In particolare tutti i record della sezione:

       FT                   /translation="MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLT
       FT                   RLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFP
       FT                   NLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRI
       FT                   LDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTI
       FT                   [...]
       FT                   DGGSSLGFKRSYEEHIPYTHMNGGKKNGRILTLPRSNPS"
        
contengono la sequenza della proteina che corrisponde alla sequenza di mRNA dell'*entry* EMBL.

- Il record:

        FT   CDS             139..4287

contiene lo start e l'end 1-based della CDS all'interno del mRNA.

- Il record che inizia con `SQ`:

        SQ   Sequence 4723 BP; 1068 A; 1298 C; 1311 G; 1046 T; 0 other;
        
introduce la sezione della sequenza nucleotidica e fornisce la sua composizione nucleotidica. 

La sequenza nucleotidica viene rappresentata tramite una serie di *record* che iniziano con degli spazi, e ogni *record* contiene un pezzo di sequenza lungo 60 basi (tranne l'ultimo). Ogni pezzo di 60 basi è a sua volta separato in pezzi di 10 basi.
Il numero intero alla fine di un *record* di sequenza fornisce la lunghezza totale della sequenza fino al *record* corrente.

La sequenza nucleotidica riportata è su alfabeto `{a,c,g,t}` nonostante rappresenti la sequenza primaria di un mRNA.

    SQ   Sequence 4723 BP; 1068 A; 1298 C; 1311 G; 1046 T; 0 other;
         ggggggctgc gcggccgggt cggtgcgcac acgagaagga cgcgcggccc ccagcgctct        60
         tgggggccgc ctcggagcat gacccccgcg ggccagcgcc gcgcgcctga tccgaggaga       120
         ccccgcgctc ccgcagccat gggcaccggg ggccggcggg gggcggcggc cgcgccgctg       180
         ctggtggcgg tggccgcgct gctactgggc gccgcgggcc acctgtaccc cggagaggtg       240
         tgtcccggca tggatatccg gaacaacctc actaggttgc atgagctgga gaattgctct       300
         gtcatcgaag gacacttgca gatactcttg atgttcaaaa cgaggcccga agatttccga       360
         gacctcagtt tccccaaact catcatgatc actgattact tgctgctctt ccgggtctat       420
         gggctcgaga gcctgaagga cctgttcccc aacctcacgg tcatccgggg atcacgactg       480
         [...]
         tttttcgttc cccccacccg cccccagcag atggaaagaa agcacctgtt tttacaaatt      4620
         cttttttttt tttttttttt tttttttttg ctggtgtctg agcttcagta taaaagacaa      4680
         aacttcctgt ttgtggaaca aaatttcgaa agaaaaaacc aaa                        4723
    //
    
Il file termina con il record `//`.

***

## Indicazioni sul file del codice genetico

Il file del codice genetico è strutturato in record di campi separati da `,`, di cui il primo è il simbolo di un amminoacido e i restanti campi sono i codoni che codificano tale amminoacido. L'ultimo record fornisce gli stop codon a cui corrisponde il simbolo `s`.

    A,gct,gcc,gca,gcg
    C,tgt,tgc
    D,gat,gac
    E,gaa,gag
    F,ttt,ttc
    G,ggt,ggc,gga,ggg
    H,cat,cac
    I,att,atc,ata
    K,aaa,aag
    L,tta,ttg,ctt,ctc,cta,ctg
    M,atg
    N,aat,aac
    P,cct,ccc,cca,ccg
    Q,caa,cag
    R,cgt,cgc,cga,cgg,aga,agg
    S,tct,tcc,tca,tcg,agt,agc
    T,act,acc,aca,acg
    V,gtt,gtc,gta,gtg
    W,tgg
    Y,tat,tac
    s,tga,taa,tag
    
***