# Esercizio 3

EMBL (https://www.ebi.ac.uk) è una banca di sequenze nucleotidiche sviluppata da EMBL-EBI (European Bioinformatics Institute (EBI) - European Molecular Biology Laboratory (EMBL),. Ogni sequenza nucleotidica (*entry*) viene memorizzata, con altre informazioni, in un file di puro testo in un formato che prende il nome di `EMBL`.

**Il formato `EMBL`** è composto da *record* a struttura variabile che iniziano con un codice a due lettere maiuscole che ne indica il contenuto. I soli *record* che non iniziano con un codice a due lettere sono quelli contenenti la sequenza nucleotidica.
Il record `//` segnala la fine dell'*entry*.

L'esercizio richiede di leggere il file `M10051.embl` che contiene la sequenza nucleotidica di un mRNA (cioé di un trascritto espresso da un gene). `M10051` è l'identificatore univoco (Accession Number) della sequenza.

Si richiede di produrre, in due file diversi, entrambi in formato `FASTA`, la sequenza nucleotidica (in lettere maiuscole e su alfabeto `{A,C,G,U}`) e la sequenza della proteina espressa da tale mRNA. La sequenza nucleotidica deve essere separata in *record* di 80 caratteri mentre quella della proteina in *record* di 60 caratteri.

Inoltre, si richiede di verificare che la composizione in basi della sequenza nucleotidica ricostruita dal file `EMBL` corrisponda a quella dichiarata nel *record*:

        SQ   Sequence 4723 BP; 1068 A; 1298 C; 1311 G; 1046 T; 0 other;

---

Requisiti dei file di output:

- nell’*header* `FASTA` della sequenza nucleotidica devono essere specificati l’identificatore univoco della sequenza e l’organismo a cui si riferisce, nel seguente formato:

        >M10051-HUM
                
- nell’*header* `FASTA` della sequenza della proteina devono essere specificati l’identificatore univoco della sequenza, l’organismo e la lunghezza della proteina, nel seguente formato:

        >M10051-HUM; len = 1382
        
***

## Indicazioni sul formato `EMBL`

- Il record che inizia con `ID` (primo record):
 
       ID   M10051; SV 1; linear; mRNA; STD; HUM; 4723 BP.

contiene l'identificatore univoco della sequenza (M10051) e l'organismo (HUM). Il fatto che il file si riferisca alla sequenza nucleotidica di un mRNA è indicato dalla presenza della parola `mRNA`.

- L'insieme dei record che iniziano con `FT` contiene le *features* annotate sulla sequenza nucleotidica. In particolare tutti i record della sezione:

       FT                   /translation="MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLT
       FT                   RLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFP
       FT                   NLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRI
       FT                   LDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTI
       FT                   [...]
       FT                   DGGSSLGFKRSYEEHIPYTHMNGGKKNGRILTLPRSNPS"
        
contengono la traduzione in proteina dell'mRNA dell'*entry*.

- Il record che inizia con `SQ`:

        SQ   Sequence 4723 BP; 1068 A; 1298 C; 1311 G; 1046 T; 0 other;
        
introduce la sezione della sequenza nucleotidica e fornisce la sua composizione nucleotidica. 

La sequenza nucleotidica viene rappresentata tramite una serie di *record* che iniziano con degli spazi, e ogni *record* contiene un pezzo di sequenza lungo 60 basi (tranne eventualmente l'ultimo). Ogni pezzo di 60 basi è a sua volta separato in pezzi di 10 basi.
Il numero intero alla fine di un *record* di sequenza fornisce la lunghezza totale della sequenza fino al *record* corrente.

La sequenza nucleotidica riportata è su alfabeto `{a,c,g,t}` nonostante rappresenti la sequenza primaria di un mRNA.

    SQ   Sequence 4723 BP; 1068 A; 1298 C; 1311 G; 1046 T; 0 other;
         ggggggctgc gcggccgggt cggtgcgcac acgagaagga cgcgcggccc ccagcgctct        60
         tgggggccgc ctcggagcat gacccccgcg ggccagcgcc gcgcgcctga tccgaggaga       120
         ccccgcgctc ccgcagccat gggcaccggg ggccggcggg gggcggcggc cgcgccgctg       180
         ctggtggcgg tggccgcgct gctactgggc gccgcgggcc acctgtaccc cggagaggtg       240
         tgtcccggca tggatatccg gaacaacctc actaggttgc atgagctgga gaattgctct       300
         gtcatcgaag gacacttgca gatactcttg atgttcaaaa cgaggcccga agatttccga       360
         gacctcagtt tccccaaact catcatgatc actgattact tgctgctctt ccgggtctat       420
         gggctcgaga gcctgaagga cctgttcccc aacctcacgg tcatccgggg atcacgactg       480
         [...]
         tttttcgttc cccccacccg cccccagcag atggaaagaa agcacctgtt tttacaaatt      4620
         cttttttttt tttttttttt tttttttttg ctggtgtctg agcttcagta taaaagacaa      4680
         aacttcctgt ttgtggaaca aaatttcgaa agaaaaaacc aaa                        4723
    //
    
Il file termina con il record `//`.

## Dataset in input

In [2]:
input_file_name = './M10051.embl'

## Importare il modulo `re`

In [3]:
import re

## Definire la funzione che formatta una sequenza in `FASTA` 

La funzione deve prende come argomenti un *header* `FASTA`, una sequenza (nucleotidica o amminoacidica) e la dimensione dei *record* in cui separare la sequenza.

La funzione dve restituire la sequenza in formato `FASTA`.

In [15]:
def format_fasta(header, sequence, record_length = 80):
    p = re.compile('.{,' + str(record_length) + '}')
    return header + '\n' + '\n'.join(re.findall(p, sequence))

## Lettura del file `EMBL`

In [18]:
with open(input_file_name, 'r') as input_file:
    file_str = input_file.read()
    
print(file_str)

ID   M10051; SV 1; linear; mRNA; STD; HUM; 4723 BP.
XX
AC   M10051;
XX
DT   02-JUL-1986 (Rel. 09, Created)
DT   14-NOV-2006 (Rel. 89, Last updated, Version 7)
XX
DE   Human insulin receptor mRNA, complete cds.
XX
KW   insulin receptor; tyrosine kinase.
XX
OS   Homo sapiens (human)
OC   Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
OC   Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae;
OC   Homo.
XX
RN   [1]
RP   1-4723
RX   DOI; 10.1016/0092-8674(85)90334-4.
RX   PUBMED; 2859121.
RA   Ebina Y., Ellis L., Jarnagin K., Edery M., Graf L., Clauser E., Ou J.-H.,
RA   Masiarz F., Kan Y.W., Goldfine I.D., Roth R.A., Rutter W.J.;
RT   "The human insulin receptor cDNA: the structural basis for
RT   hormone-activated transmembrane signalling";
RL   Cell 40(4):747-758(1985).
XX
DR   MD5; e4e6ebf2e723a500c1dd62385c279351.
DR   Ensembl-Gn; ENSG00000171105; homo_sapiens.
DR   Ensembl-Tr; ENST00000302850; homo_sapiens.
DR   Ensembl-Tr; ENST0000034

## Estrarre l'identificatore univoco e l'organismo

Estrarre dal *record* `ID`:

    ID   M10051; SV 1; linear; mRNA; STD; HUM; 4723 BP.
    
l'identificatore univoco `M10051` e l'organismo `HUM`.

a) Estrarre l'identificatore.

In [24]:
m = re.search(r'^ID\s+(\w+)', file_str, re.M)

In [39]:
identifier = m.group(1)
identifier

'M10051'

b) Estrarre l'organismo.

In [31]:
m = re.search(r'^ID\s+.+\s+(\w+);', file_str, re.M)

In [32]:
organism = m.group(1)
organism

'HUM'

In alternativa

In [36]:
m = re.search(r'^ID\s+(\w+).+\s+(\w+);', file_str, re.M)

In [40]:
identifier, organism = m.groups()
identifier, organism

('M10051', 'HUM')

## Estrarre la sequenza nucleotidica (in lettere maiuscole)

In [22]:
nucleotide_sequence

'GGGGGGCTGCGCGGCCGGGTCGGTGCGCACACGAGAAGGACGCGCGGCCCCCAGCGCTCTTGGGGGCCGCCTCGGAGCATGACCCCCGCGGGCCAGCGCCGCGCGCCTGATCCGAGGAGACCCCGCGCTCCCGCAGCCATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCGCTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATCCGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTGCAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAACTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAGGACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTGGTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACCCGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGGTCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAGGAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTCATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCGACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTGGGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTGGACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGTGTGAACTTCAGCTTCTGCCAG

## Verificare la composizione della sequenza nucleotidica rispetto a quella dichiarata nell'*entry*

a) Derivare dal *record* `SQ`:

    SQ   Sequence 4723 BP; 1068 A; 1298 C; 1311 G; 1046 T; 0 other;
    
un dizionario contenente la composizione della sequenza nucleotidica:

- **chiave**: base
- **valore**: numero di occorrenze della chiave

In [32]:
entry_seq_composition

{'A': 1068, 'C': 1298, 'G': 1311, 'T': 1046}

b) Estrarre dalla sequenza nucleotidica un dizionario analogo.

c) Confrontare i due dizionari

## Creare la sequenza nucleotidica in formato `FASTA`

Produrre la sequenza nucleotidica in formato `FASTA` con il seguente *header*:

    >M10051-HUM

In [41]:
print(nucleotide_fasta_sequence)

>M10051-HUM
GGGGGGCUGCGCGGCCGGGUCGGUGCGCACACGAGAAGGACGCGCGGCCCCCAGCGCUCUUGGGGGCCGCCUCGGAGCAU
GACCCCCGCGGGCCAGCGCCGCGCGCCUGAUCCGAGGAGACCCCGCGCUCCCGCAGCCAUGGGCACCGGGGGCCGGCGGG
GGGCGGCGGCCGCGCCGCUGCUGGUGGCGGUGGCCGCGCUGCUACUGGGCGCCGCGGGCCACCUGUACCCCGGAGAGGUG
UGUCCCGGCAUGGAUAUCCGGAACAACCUCACUAGGUUGCAUGAGCUGGAGAAUUGCUCUGUCAUCGAAGGACACUUGCA
GAUACUCUUGAUGUUCAAAACGAGGCCCGAAGAUUUCCGAGACCUCAGUUUCCCCAAACUCAUCAUGAUCACUGAUUACU
UGCUGCUCUUCCGGGUCUAUGGGCUCGAGAGCCUGAAGGACCUGUUCCCCAACCUCACGGUCAUCCGGGGAUCACGACUG
UUCUUUAACUACGCGCUGGUCAUCUUCGAGAUGGUUCACCUCAAGGAACUCGGCCUCUACAACCUGAUGAACAUCACCCG
GGGUUCUGUCCGCAUCGAGAAGAACAAUGAGCUCUGUUACUUGGCCACUAUCGACUGGUCCCGUAUCCUGGAUUCCGUGG
AGGAUAAUCACAUCGUGUUGAACAAAGAUGACAACGAGGAGUGUGGAGACAUCUGUCCGGGUACCGCGAAGGGCAAGACC
AACUGCCCCGCCACCGUCAUCAACGGGCAGUUUGUCGAACGAUGUUGGACUCAUAGUCACUGCCAGAAAGUUUGCCCGAC
CAUCUGUAAGUCACACGGCUGCACCGCCGAAGGCCUCUGUUGCCACAGCGAGUGCCUGGGCAACUGUUCUCAGCCCGACG
ACCCCACCAAGUGCGUGGCCUGCCGCAACUUCUACCUGGACGGCAGGUGUGUGGAGACCUGCCCGCCCCCGUACUACCAC
UUCCAGGACUGGCGCU

Salvare la sequenza in un file.

## Estrarre la sequenza della proteina

a) Estrarre il prefisso della proteina che è contenuto nel *record*:

    FT                   /translation="MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLT

In [44]:
protein_prefix

'MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLT'

b) Costruire la lista di tutti gli altri record della proteina.

In [46]:
protein_list

['RLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFP',
 'NLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRI',
 'LDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTI',
 'CKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCV',
 'NFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCH',
 'LLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRR',
 'SYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTTTQGKLFFHYN',
 'PKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDKASCENELLKFSYIRTSFDKILLRWE',
 'PYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHP',
 'GWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSS',
 'SQIILKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDS',
 'QKHNQSEYEDSAGECCSCPKTDSQILKELEESSFRKTFEDYLHNVVFVPRKTSSGTGAE',
 'DPRPSRKRRSLGDVGNVTVAVPTVAAFPNTSSTSVPTSPEEHRPFEKVVNKESLVISGL',
 'RHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMW',
 'QEPKEPNGLIVLYEVSYRRYGDEELHLCVSRKHFALERGCRLRGLSPGNYSVRIRATSL',
 'AGNGSWTEPTYFYVTDYLDVPSNIAKIIIGPLIFVFLF

b) Aggiungere in testa alla lista il prefisso trovato prima e concatenare tutti gli elementi della lista per ottenere la sequenza della proteina in un'unica stringa.

In [50]:
protein_sequence

'MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTTTQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDKASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIILKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQILKELEESSFRKTFEDYLHNVVFVPRKTSSGTGAEDPRPSRKRRSLGDVGNVTVAVPTVAAFPNTSSTSVPTSPEEHRPFEKVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGLIVLYEVSYRRYGDEELHLCVSRKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPSNIAKIIIGPLIFVFLFSVVIGSIYLFLRKRQPDGPLGPLYASSNPEY

## Creare la sequenza della proteina in formato `FASTA`

Produrre la sequenza della proteina in formato `FASTA` con il seguente *header*:

    >M10051-HUM; len = 1382

In [54]:
print(protein_fasta_sequence)

>M10051-HUM; len = 1382
MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLTRLHELENCSVIEGHL
QILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYAL
VIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNHIVLNKDDNE
ECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECL
GNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQG
CHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGC
TVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETL
EIGNYSFYALDNQNLRQLWDWSKHNLTTTQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQE
RNDIALKTNGDKASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQ
NVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFS
DERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIILKWKPPSDPNGNITHYLVFWE
RQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQIL
KELEESSFRKTFEDYLHNVVFVPRKTSSGTGAEDPRPSRKRRSLGDVGNVTVAVPTVAAF
PNTSSTSVPTSPEEHRPFEKVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYV
SARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGLIVLYEVSYRRYGDEELHLCV
SRKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPSNIAKIIIG


Salvare la sequenza in un file.