# Esercizio 3

EMBL (http://www.ebi.ac.uk/cgi-bin/sva/sva.pl/) è una banca di sequenze nucleotidiche sviluppata da EMBL-EBI (European Bioinformatics Institute, European Molecular Biology Laboratory), in cui ogni sequenza nucleotidica viene memorizzata, con altre informazioni, in un file di puro testo (*EMBL entry*) in un formato che prende il nome di `EMBL`.

**Il formato `EMBL`** è composto da *record* che iniziano con un codice a due lettere maisucole che ne indica il contenuto. I soli *record* che non iniziano con un codice a due lettere sono quelli (nella parte finale) contenenti la sequenza nucleotidica.
Il record `//` segnala la fine del file.

L'esercizio richiede di scaricare (in formato `EMBL`) la sequenza nucleotidica con identificatore `M10051`, contenente un mRNA (cioé un trascritto espresso da un gene), e scrivere un notebook che ottenga da tale *entry*:

- la sequenza nucleotidica in formato `FASTA`
- la sequenza della corrispondente proteina in formato `FASTA`

---

Requisiti:

- nell’*header* `FASTA` della sequenza nucleotidica devono comparire l’identificatore univoco della sequenza e l’organismo a cui si riferisce, nel seguente formato:

        >M10051-HUM
        
- la sequenza nucleotidica deve essere prodotta su alfabeto `{a,c,g,u}`
        
- nell’*header* `FASTA` della sequenza della proteina devono comparire l’identificatore univoco della sequenza, l’organismo e la lunghezza della proteina, nel seguente formato:

        >M10051-HUM; len = 1382
        
- le sequenze nucleotidiche devono essere prodotte in record di 80 caratteri (e non su unica riga)

- deve essere definita una funzione `format_fasta()` che prenda come argomenti una stringa contenente l'intestazione `FASTA` e una sequenza nucleotidica (o una proteina) e restituisca la sequenza in formato `FASTA` con la sequenza separata in righe di 80 caratteri.

- usare solo espressioni regolari per estrarre le informazioni

***

Produrre i due output in due oggetti di tipo stringa.

***

Record da considerare per l'esercizio:

- Il record che inizia con `ID`:
 
       ID   M10051; SV 1; linear; mRNA; STD; HUM; 4723 BP.

contiene l'identificatore univoco della sequenza (M10051) e l'organismo (HUM). Il fatto che il file si riferisca alla sequenza nucleotidica di un gene è indicato dalla presenza della parola `mRNA`.

- L'insieme di tutti i record che iniziano con `FT` contengono le *features* annotate sulla sequenza nucleotidica. In particolare tutti i record della sezione:

       FT                   /translation="MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLT
       FT                   RLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFP
       FT                   NLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRI
       FT                   LDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTI
       FT                   [...]
       FT                   DGGSSLGFKRSYEEHIPYTHMNGGKKNGRILTLPRSNPS"
        
contengono la sequenza della proteina che corrisponde alla sequenza di mRNA in questione.

- Il record che inizia con `SQ`:

        SQ   Sequence 4723 BP; 1068 A; 1298 C; 1311 G; 1046 T; 0 other;
        
introduce la sezione della sequenza nucleotidica e fornisce la sua composizione nucleotidica oltre che la sua lunghezza. 
La sezione termina con il record `//` (segnale di fine del file).
La sequenza nucleotidica viene rappresentata tramite una serie di record che iniziano con degli spazi, e ogni record contiene un pezzo di sequenza lungo 60 basi. Ogni pezzo di 60 basi è a sua volta separato in pezzi di 10 basi.
Il numero intero alla fine di un *record* di sequenza fornisce la lunghezza totale della sequenza fino a questo punto.

    SQ   Sequence 4723 BP; 1068 A; 1298 C; 1311 G; 1046 T; 0 other;
         ggggggctgc gcggccgggt cggtgcgcac acgagaagga cgcgcggccc ccagcgctct        60
         tgggggccgc ctcggagcat gacccccgcg ggccagcgcc gcgcgcctga tccgaggaga       120
         ccccgcgctc ccgcagccat gggcaccggg ggccggcggg gggcggcggc cgcgccgctg       180
         ctggtggcgg tggccgcgct gctactgggc gccgcgggcc acctgtaccc cggagaggtg       240
         tgtcccggca tggatatccg gaacaacctc actaggttgc atgagctgga gaattgctct       300
         gtcatcgaag gacacttgca gatactcttg atgttcaaaa cgaggcccga agatttccga       360
         gacctcagtt tccccaaact catcatgatc actgattact tgctgctctt ccgggtctat       420
         gggctcgaga gcctgaagga cctgttcccc aacctcacgg tcatccgggg atcacgactg       480
         [...]
         tttttcgttc cccccacccg cccccagcag atggaaagaa agcacctgtt tttacaaatt      4620
         cttttttttt tttttttttt tttttttttg ctggtgtctg agcttcagta taaaagacaa      4680
         aacttcctgt ttgtggaaca aaatttcgaa agaaaaaacc aaa                        4723
    //
    
**NOTA BENE**:
- l'alfabeto degli amminoacidi è {ACDEFGHIKLMNPQRSTVWY}
- la sequenza nucleotidica riportata nell'*entry* `EMBL` è su alfabeto `{a,c,g,t}` nonostante rappresenti la sequenza primaria di un mRNA. Per ottenere la sequenza su alfabeto `{a,c,g,u}` basta operare una sostituzione di tutti i simboli `t` con simboli `u`.

***

## Soluzione

### Definizione della funzione `format_fasta()`

La funzione deve prendere come argomento l'*header* `FASTA` e una sequenza e restituisce la sequenza in formato `FASTA` dopo averla separata in righe (record) di 80 caratteri.

In [11]:
def format_fasta(header, sequence):    
    splitted_sequence = '\n'.join(re.findall('\w{,80}', sequence))
    fasta_sequence = header + '\n' + splitted_sequence
    return fasta_sequence

**NOTA BENE**: supporre che l'*header* in input alla funzione abbia già il simbolo `>` all'inizio, ma non il simbolo `\n` alla fine.

### Parametri in input

In [2]:
input_file_name = './M10051.txt'

Importare il modulo `re` per utilizzare le espressioni regolari.

In [5]:
import re

### Lettura del file `EMBL` nell'unica stringa `file_str`

In [5]:
print(file_str)

ID   M10051; SV 1; linear; mRNA; STD; HUM; 4723 BP.
XX
AC   M10051;
XX
DT   02-JUL-1986 (Rel. 09, Created)
DT   14-NOV-2006 (Rel. 89, Last updated, Version 7)
XX
DE   Human insulin receptor mRNA, complete cds.
XX
KW   insulin receptor; tyrosine kinase.
XX
OS   Homo sapiens (human)
OC   Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia;
OC   Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae;
OC   Homo.
XX
RN   [1]
RP   1-4723
RX   DOI; 10.1016/0092-8674(85)90334-4.
RX   PUBMED; 2859121.
RA   Ebina Y., Ellis L., Jarnagin K., Edery M., Graf L., Clauser E., Ou J.-H.,
RA   Masiarz F., Kan Y.W., Goldfine I.D., Roth R.A., Rutter W.J.;
RT   "The human insulin receptor cDNA: the structural basis for
RT   hormone-activated transmembrane signalling";
RL   Cell 40(4):747-758(1985).
XX
DR   MD5; e4e6ebf2e723a500c1dd62385c279351.
DR   Ensembl-Gn; ENSG00000171105; homo_sapiens.
DR   Ensembl-Tr; ENST00000302850; homo_sapiens.
DR   Ensembl-Tr; ENST0000034

### Estrazione dell'identificatore univoco e dell'organismo relativo all'entry.

Estrarre dal *record* `ID`:

    ID   M10051; SV 1; linear; mRNA; STD; HUM; 4723 BP.
    
l'identificatore univoco e l'organismo e assegnarli alle variabili `identifier` e `organism`.

Estrazione dell'identificatore.

In [34]:
identifier

'M10051'

Estrazione dell'organismo.

In [59]:
organism

'HUM'

### Sequenza nucleotidica in formato `FASTA`

Ottenere la lista dei *record* della sequenza nucleotidica escludendo da ognuno di essi solo l'intero finale.

In [66]:
seq_row_list

['     ggggggctgc gcggccgggt cggtgcgcac acgagaagga cgcgcggccc ccagcgctct        ',
 '     tgggggccgc ctcggagcat gacccccgcg ggccagcgcc gcgcgcctga tccgaggaga       ',
 '     ccccgcgctc ccgcagccat gggcaccggg ggccggcggg gggcggcggc cgcgccgctg       ',
 '     ctggtggcgg tggccgcgct gctactgggc gccgcgggcc acctgtaccc cggagaggtg       ',
 '     tgtcccggca tggatatccg gaacaacctc actaggttgc atgagctgga gaattgctct       ',
 '     gtcatcgaag gacacttgca gatactcttg atgttcaaaa cgaggcccga agatttccga       ',
 '     gacctcagtt tccccaaact catcatgatc actgattact tgctgctctt ccgggtctat       ',
 '     gggctcgaga gcctgaagga cctgttcccc aacctcacgg tcatccgggg atcacgactg       ',
 '     ttctttaact acgcgctggt catcttcgag atggttcacc tcaaggaact cggcctctac       ',
 '     aacctgatga acatcacccg gggttctgtc cgcatcgaga agaacaatga gctctgttac       ',
 '     ttggccacta tcgactggtc ccgtatcctg gattccgtgg aggataatca catcgtgttg       ',
 '     aacaaagatg acaacgagga gtgtggagac atctgtccgg gtaccgcgaa gggcaagacc       ',
 '     aactgccc

Estrarre dalla lista appena costruita, la lista contenente i pezzi di lunghezza 10 della sequenza nucleotidica in modo tale che l'elemento i-esimo sia una lista annidata contenente i sei pezzi di sequenza relativi all'i-esimo *record* della lista appena costruita.

**NOTA BENE**: fare attenzione al fatto che l'ultimo pezzo potrebbe essere più corto di 10 basi.

In [73]:
seq_chunk_list

[['ggggggctgc',
  'gcggccgggt',
  'cggtgcgcac',
  'acgagaagga',
  'cgcgcggccc',
  'ccagcgctct'],
 ['tgggggccgc',
  'ctcggagcat',
  'gacccccgcg',
  'ggccagcgcc',
  'gcgcgcctga',
  'tccgaggaga'],
 ['ccccgcgctc',
  'ccgcagccat',
  'gggcaccggg',
  'ggccggcggg',
  'gggcggcggc',
  'cgcgccgctg'],
 ['ctggtggcgg',
  'tggccgcgct',
  'gctactgggc',
  'gccgcgggcc',
  'acctgtaccc',
  'cggagaggtg'],
 ['tgtcccggca',
  'tggatatccg',
  'gaacaacctc',
  'actaggttgc',
  'atgagctgga',
  'gaattgctct'],
 ['gtcatcgaag',
  'gacacttgca',
  'gatactcttg',
  'atgttcaaaa',
  'cgaggcccga',
  'agatttccga'],
 ['gacctcagtt',
  'tccccaaact',
  'catcatgatc',
  'actgattact',
  'tgctgctctt',
  'ccgggtctat'],
 ['gggctcgaga',
  'gcctgaagga',
  'cctgttcccc',
  'aacctcacgg',
  'tcatccgggg',
  'atcacgactg'],
 ['ttctttaact',
  'acgcgctggt',
  'catcttcgag',
  'atggttcacc',
  'tcaaggaact',
  'cggcctctac'],
 ['aacctgatga',
  'acatcacccg',
  'gggttctgtc',
  'cgcatcgaga',
  'agaacaatga',
  'gctctgttac'],
 ['ttggccacta',
  'tcgactggtc'

Concatenare i pezzi della lista in un'unica stringa.

In [77]:
nucleotide_sequence

'ggggggctgcgcggccgggtcggtgcgcacacgagaaggacgcgcggcccccagcgctcttgggggccgcctcggagcatgacccccgcgggccagcgccgcgcgcctgatccgaggagaccccgcgctcccgcagccatgggcaccgggggccggcggggggcggcggccgcgccgctgctggtggcggtggccgcgctgctactgggcgccgcgggccacctgtaccccggagaggtgtgtcccggcatggatatccggaacaacctcactaggttgcatgagctggagaattgctctgtcatcgaaggacacttgcagatactcttgatgttcaaaacgaggcccgaagatttccgagacctcagtttccccaaactcatcatgatcactgattacttgctgctcttccgggtctatgggctcgagagcctgaaggacctgttccccaacctcacggtcatccggggatcacgactgttctttaactacgcgctggtcatcttcgagatggttcacctcaaggaactcggcctctacaacctgatgaacatcacccggggttctgtccgcatcgagaagaacaatgagctctgttacttggccactatcgactggtcccgtatcctggattccgtggaggataatcacatcgtgttgaacaaagatgacaacgaggagtgtggagacatctgtccgggtaccgcgaagggcaagaccaactgccccgccaccgtcatcaacgggcagtttgtcgaacgatgttggactcatagtcactgccagaaagtttgcccgaccatctgtaagtcacacggctgcaccgccgaaggcctctgttgccacagcgagtgcctgggcaactgttctcagcccgacgaccccaccaagtgcgtggcctgccgcaacttctacctggacggcaggtgtgtggagacctgcccgcccccgtactaccacttccaggactggcgctgtgtgaacttcagcttctgccag

Sostituire tutti i simboli `t` con un simbolo `u`.

In [79]:
nucleotide_sequence

'ggggggcugcgcggccgggucggugcgcacacgagaaggacgcgcggcccccagcgcucuugggggccgccucggagcaugacccccgcgggccagcgccgcgcgccugauccgaggagaccccgcgcucccgcagccaugggcaccgggggccggcggggggcggcggccgcgccgcugcugguggcgguggccgcgcugcuacugggcgccgcgggccaccuguaccccggagaggugugucccggcauggauauccggaacaaccucacuagguugcaugagcuggagaauugcucugucaucgaaggacacuugcagauacucuugauguucaaaacgaggcccgaagauuuccgagaccucaguuuccccaaacucaucaugaucacugauuacuugcugcucuuccgggucuaugggcucgagagccugaaggaccuguuccccaaccucacggucauccggggaucacgacuguucuuuaacuacgcgcuggucaucuucgagaugguucaccucaaggaacucggccucuacaaccugaugaacaucacccgggguucuguccgcaucgagaagaacaaugagcucuguuacuuggccacuaucgacuggucccguauccuggauuccguggaggauaaucacaucguguugaacaaagaugacaacgaggaguguggagacaucuguccggguaccgcgaagggcaagaccaacugccccgccaccgucaucaacgggcaguuugucgaacgauguuggacucauagucacugccagaaaguuugcccgaccaucuguaagucacacggcugcaccgccgaaggccucuguugccacagcgagugccugggcaacuguucucagcccgacgaccccaccaagugcguggccugccgcaacuucuaccuggacggcagguguguggagaccugcccgcccccguacuaccacuuccaggacuggcgcugugugaacuucagcuucugccag

Produrre la sequenza nucleotidica in formato `FASTA` con il seguente *header*:

    >M10051-HUM

In [80]:
header = '>' + identifier + '-' + organism
nucleotide_fasta_sequence = format_fasta(header, nucleotide_sequence)

In [82]:
nucleotide_fasta_sequence

'>M10051-HUM\nggggggcugcgcggccgggucggugcgcacacgagaaggacgcgcggcccccagcgcucuugggggccgccucggagcau\ngacccccgcgggccagcgccgcgcgccugauccgaggagaccccgcgcucccgcagccaugggcaccgggggccggcggg\ngggcggcggccgcgccgcugcugguggcgguggccgcgcugcuacugggcgccgcgggccaccuguaccccggagaggug\nugucccggcauggauauccggaacaaccucacuagguugcaugagcuggagaauugcucugucaucgaaggacacuugca\ngauacucuugauguucaaaacgaggcccgaagauuuccgagaccucaguuuccccaaacucaucaugaucacugauuacu\nugcugcucuuccgggucuaugggcucgagagccugaaggaccuguuccccaaccucacggucauccggggaucacgacug\nuucuuuaacuacgcgcuggucaucuucgagaugguucaccucaaggaacucggccucuacaaccugaugaacaucacccg\nggguucuguccgcaucgagaagaacaaugagcucuguuacuuggccacuaucgacuggucccguauccuggauuccgugg\naggauaaucacaucguguugaacaaagaugacaacgaggaguguggagacaucuguccggguaccgcgaagggcaagacc\naacugccccgccaccgucaucaacgggcaguuugucgaacgauguuggacucauagucacugccagaaaguuugcccgac\ncaucuguaagucacacggcugcaccgccgaaggccucuguugccacagcgagugccugggcaacuguucucagcccgacg\naccccaccaagugcguggccugccgcaacuucuaccuggacggcagguguguggagaccugcccgcccccguacuaccac\nuu

### Sequenza della proteina in formato `FASTA`

Estrarre il prefisso della proteina contenuto nel *record*:

    FT                   /translation="MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLT

In [103]:
protein_prefix

'MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLT'

Ottenere la lista degli altri record di proteina:

    FT                   RLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFP
    
**NOTA BENE**: attenzione all'ultimo:

    FT                   DGGSSLGFKRSYEEHIPYTHMNGGKKNGRILTLPRSNPS"

che contiene dei doppi apici `"` finali.

In [108]:
protein_list

['RLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFP',
 'NLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRI',
 'LDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTI',
 'CKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCV',
 'NFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCH',
 'LLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRR',
 'SYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTTTQGKLFFHYN',
 'PKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDKASCENELLKFSYIRTSFDKILLRWE',
 'PYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHP',
 'GWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSS',
 'SQIILKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDS',
 'QKHNQSEYEDSAGECCSCPKTDSQILKELEESSFRKTFEDYLHNVVFVPRKTSSGTGAE',
 'DPRPSRKRRSLGDVGNVTVAVPTVAAFPNTSSTSVPTSPEEHRPFEKVVNKESLVISGL',
 'RHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMW',
 'QEPKEPNGLIVLYEVSYRRYGDEELHLCVSRKHFALERGCRLRGLSPGNYSVRIRATSL',
 'AGNGSWTEPTYFYVTDYLDVPSNIAKIIIGPLIFVFLF

Aggiungere in testa alla lista il prefisso trovato prima e concatenare tutti gli elementi della lista per ottenere la sequenza della proteina in un'unica stringa.

In [27]:
protein_sequence

'MGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPKLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDWSRILDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECLGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYTMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRSYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTTTQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQERNDIALKTNGDKASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVDIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIILKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQILKELEESSFRKTFEDYLHNVVFVPRKTSSGTGAEDPRPSRKRRSLGDVGNVTVAVPTVAAFPNTSSTSVPTSPEEHRPFEKVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGLIVLYEVSYRRYGDEELHLCVSRKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPSNIAKIIIGPLIFVFLFSVVIGSIYLFLRKRQPDGPLGPLYASSNPEY

Produrre la sequenza della proteina in formato `FASTA` con il seguente *header*:

    >M10051-HUM; len = 1382

In [99]:
protein_fasta_sequence

'>M10051-HUM; len = 1382\nMGTGGRRGAAAAPLLVAVAALLLGAAGHLYPGEVCPGMDIRNNLTRLHELENCSVIEGHLQILLMFKTRPEDFRDLSFPK\nLIMITDYLLLFRVYGLESLKDLFPNLTVIRGSRLFFNYALVIFEMVHLKELGLYNLMNITRGSVRIEKNNELCYLATIDW\nSRILDSVEDNHIVLNKDDNEECGDICPGTAKGKTNCPATVINGQFVERCWTHSHCQKVCPTICKSHGCTAEGLCCHSECL\nGNCSQPDDPTKCVACRNFYLDGRCVETCPPPYYHFQDWRCVNFSFCQDLHHKCKNSRRQGCHQYVIHNNKCIPECPSGYT\nMNSSNLLCTPCLGPCPKVCHLLEGEKTIDSVTSAQELRGCTVINGSLIINIRGGNNLAAELEANLGLIEEISGYLKIRRS\nYALVSLSFFRKLRLIRGETLEIGNYSFYALDNQNLRQLWDWSKHNLTTTQGKLFFHYNPKLCLSEIHKMEEVSGTKGRQE\nRNDIALKTNGDKASCENELLKFSYIRTSFDKILLRWEPYWPPDFRDLLGFMLFYKEAPYQNVTEFDGQDACGSNSWTVVD\nIDPPLRSNDPKSQNHPGWLMRGLKPWTQYAIFVKTLVTFSDERRTYGAKSDIIYVQTDATNPSVPLDPISVSNSSSQIIL\nKWKPPSDPNGNITHYLVFWERQAEDSELFELDYCLKGLKLPSRTWSPPFESEDSQKHNQSEYEDSAGECCSCPKTDSQIL\nKELEESSFRKTFEDYLHNVVFVPRKTSSGTGAEDPRPSRKRRSLGDVGNVTVAVPTVAAFPNTSSTSVPTSPEEHRPFEK\nVVNKESLVISGLRHFTGYRIELQACNQDTPEERCSVAAYVSARTMPEAKADDIVGPVTHEIFENNVVHLMWQEPKEPNGL\nIVLYEVSYRRYGDEELHLCVSRKHFALERGCRLRGLSPGNYSVRIRATSLAGNGSWTEPTYFYVTDYLDVPS