# Biopython

Biopython è una libreria che mette a disposizione funzionalità in ambito bioinformatico, principalmente:

- manipolare sequenze
- leggere i formati standard (ad esempio `EMBL`, `FASTA`, `FASTQ`)
- accedere a banche dati.

Importare `Bio`.

In [2]:
import Bio

## Quali classi vedremo?

- `Seq` e `MutableSeq` per rappresentare una sequenza primaria (DNA, RNA o proteina)
- `SeqRecord`  per rappresentare una sequenza primaria con annotazione
- `SeqIO`,  interfaccia di input/output per formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.)

## Classi `Seq` e `MutableSeq`

`Seq` rappresenta una sequenza immutabile, mentre `MutableSeq` rappresenta una sequenza mutabile.

Importare le due classi `Seq` e `MutableSeq`, che appartengono al modulo `Seq` (del package `Bio`) che definisce le classi per manipolare sequenze primarie.

In [3]:
from Bio.Seq import Seq

In [4]:
from Bio.Seq import MutableSeq

## Costruzione di una sequenza primaria con `Seq`

    
       Seq(string)
     
---

**Esercizio**: costruire la sequenza primaria `GTGGATTGCCGGAAATTT`.

In [5]:
primary_seq1 = Seq('GTGGATTGCCGGAAATTT')

In [6]:
str(primary_seq1)

'GTGGATTGCCGGAAATTT'

## Lunghezza di una sequenza primaria

    len(primary_seq)
    
---

**Esercizio**: ottenere la lunghezza della sequenza primaria

In [7]:
len(primary_seq1)

18

## Metodi degli oggetti  `Seq`

- `lower()` e `upper()` restituiscono la versione in minuscolo e in maiuscolo della sequenza invocante.

**Esercizio**: ottenere la versione in minuscolo.

In [8]:
primary_seq1.lower()

Seq('gtggattgccggaaattt')

- `find()` restituisce la prima occorrenza di una sottostringa nella sequenza invocante.

**Esercizio**: produrre la prima occorrenza di `GATT`.

In [9]:
primary_seq1.find('GATT')

3

- `count()` restituisce il numero di occorrenze non sovrapposte di una data sottostringa nella sequenza invocante.

**Esercizio**: contare il numero di occorrenze non sovrapposte di `AAA` nella sequenza primaria `AAAAAAA`.

In [10]:
Seq('AAAAAAA').count('AAA')

2

- `count_overlap()` restituisce il numero di occorrenze sovrapposte di una data sottostringa nella sequenza invocante.

**Esercizio**: contare il numero di occorrenze sovrapposte di `AA` nella sequenza primaria `AAAAAAA`.

In [11]:
Seq('AAAAAAA').count_overlap('AAA')

5

## Accesso alla sequenza primaria


    primary_seq[index]
    
restituisce il carattere alla posizione `index` della sequenza `primary_seq`.

---

**Esercizio**: accedere al quarto carattere.

In [12]:
primary_seq1[3]

'G'


    primary_seq[start:end]
    
restituisce la sequenza primaria ottenuta effetuando lo *slicing*.

---

**Esercizio**: accedere alla sottosequenza che va dal quinto al decimo carattere.

In [13]:
primary_seq1[4:10]

Seq('ATTGCC')

**Esercizio**: ottenere il reverse.

In [14]:
primary_seq1[::-1]

Seq('TTTAAAGGCCGTTAGGTG')

## Verifica della presenza di una sottostringa in una sequenza


    my_str in primary_seq

restituisce `True` se la stringa `my_str` occorre nella sequenza `primary_seq`

---

**Esercizio**: verificare la presenza di `CC`.

In [15]:
'CC' in primary_seq1

True

## Attraversamento di una sequenza


    for c in primary_seq:
        do_something    

---

**Esercizio**: attraversare la sequenza e stampare ogni singolo carattere.

In [16]:
for c in primary_seq1:
    print(c)

G
T
G
G
A
T
T
G
C
C
G
G
A
A
A
T
T
T


## Concatenazione di sequenze

L'operatore `+` permette di concatenare sequenze.

---

**Esercizio**: concatenare `ACGT` con `GGGGG`.

In [17]:
Seq('ACGT') + Seq('GGGGG')

Seq('ACGTGGGGG')

## Ripetizione di sequenze

L'operatore `*` permette di ripetere sequenze.

---

**Esercizio**: ripetere 50 volte la sequenza `ACGT`.

In [18]:
Seq('ACGT') * 50

Seq('ACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTACGTAC...CGT')

## Complement e Reverse&Complement di una sequenza primaria
    
- Il metodo `complement()` restituisce il complemento della sequenza invocante.

---

**Esercizio**: ottenere il complemento della sequenza `ACGTGAGGACCCTTT`.

In [19]:
Seq('ACGTGAGGACCCTTT').complement()

Seq('TGCACTCCTGGGAAA')

- Il metodo `reverse_complement()` restituisce il reverse&complement della sequenza invocante.

**Esercizio**: ottenere il reverse&complement della sequenza `ACGTGAGGACCCTTT`.

In [20]:
Seq('ACGTGAGGACCCTTT').reverse_complement()

Seq('AAAGGGTCCTCACGT')

**NOTA BENE**`: complement()` e `reverse_complement()` tengono conto dell'alfabeto esteso di DNA e di RNA (IUPAC CODE). L'alfabeto esteso di DNA o di RNA, oltre alle quattro lettere `A`, `C`, `G`, `T|U` e aggiunge lettere che rappresentano ambiguità tra basi.

    R 	A or G
    Y 	C or T|U
    S 	G or C
    W 	A or T|U
    K 	G or T|U
    M 	A or C
    B 	C or G or T|U
    D 	A or G or T|U
    H 	A or C or T|U
    V 	A or C or G
    N 	any base
    
---

**Esercizio**: ottenere il complemento della sequenza primaria `BBBB`.

In [21]:
Seq('BBBB').reverse_complement()

Seq('VVVV')

## Trascrizione di una sequenza primaria di DNA

- Il metodo `transcribe()` restituisce il risultato della trascrizione della sequenza di DNA invocante, intesa come sostituzione di ogni carattere `T` con un carattere `U`.

---

**Esercizio**: ottenere la trascrizione della sequenza primaria `ACGTGAGGACCCTTT`.

In [22]:
Seq('ACGTGAGGACCCTTT').transcribe()

Seq('ACGUGAGGACCCUUU')

## Retrotrascrizione di una sequenza primaria di RNA

- Il metodo `back_transcribe()` restituisce il risultato della retrotrascrizione della sequenza di RNA invocante, intesa come sostituzione di ogni carattere `U` con un carattere `T`.

---

**Esercizio**: ottenere la retrotrascrizione della sequenza primaria `ACGUGAGGACCCUUU`.

In [23]:
Seq('ACGUGAGGACCCUUU').back_transcribe()

Seq('ACGTGAGGACCCTTT')

## Traduzione di una sequenza primaria

- Il metodo `translate()` restituisce il risultato della traduzione della sequenza di DNA o di RNA invocante secondo il codice genetico.

**NB:** la lunghezza della sequenza invocante deve essere un multiplo di tre.

---

**Esercizio**: ottenere la traduzione della sequenza `ACGUGAGGACCCUUU`. 

In [24]:
Seq('ACGUGAGGACCCUUU').translate()

Seq('T*GPF')

**Esercizio**: ottenere la traduzione della sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG`.

In [25]:
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG').translate(to_stop = True)

Seq('MAIVMGR')

## Sequenze mutabili di tipo `MutableSeq`

**Esercizio**: creare la sequenza mutabile `ACTTTGAAAG`.

In [26]:
MutableSeq('ACTTTGAAAG')

MutableSeq('ACTTTGAAAG')

## Metodi degli oggetti di tipo `MutableSeq`

- `remove()` rimuove dalla sequenza invocante la prima occorrenza del carattere passato come argomento.

---

**Esercizio**: costruire la sequenza mutabile `AACAAAACCCTTTGGG` e rimuovere poi la prima occorrenza di `C`.

In [27]:
primary_seq2 = MutableSeq('AACAAAACCCTTTGGG')

In [28]:
primary_seq2

MutableSeq('AACAAAACCCTTTGGG')

In [29]:
primary_seq2.remove('C')

In [30]:
primary_seq2

MutableSeq('AAAAAACCCTTTGGG')

- `reverse()` effettua il reverse sulla sequenza invocante.

**Esercizio**: invertire la sequenza.

In [31]:
primary_seq2.reverse()

In [32]:
primary_seq2

MutableSeq('GGGTTTCCCAAAAAA')

- `complement(inplace = True)` effettua il complement della sequenza invocante.

**Esercizio**: eseguire il complemento.

In [33]:
primary_seq2.complement(inplace = True)

MutableSeq('CCCAAAGGGTTTTTT')

In [34]:
primary_seq2

MutableSeq('CCCAAAGGGTTTTTT')

- `reverse_complement(inplace = False|True)` effettua il reverse&complement della sequenza invocante.

**Esercizio**: eseguire il reverse&complement.

In [35]:
primary_seq2.reverse_complement(inplace = False|True)

MutableSeq('AAAAAACCCTTTGGG')

In [36]:
primary_seq2

MutableSeq('AAAAAACCCTTTGGG')

---

## Classe `SeqRecord` per rappresentare una sequenza annotata

La classe `SeqRecord` rappresenta una sequenza annotata = oggetto `Seq` + informazioni + annotazioni.

`SeqRecord` è il tipo di oggetto che viene manipolato dalle funzioni di input/output del modulo `SeqIO`.

---

Importare la classe `SeqRecord` che appartiene al modulo `SeqRecord` del package `Bio`.

In [37]:
from Bio.SeqRecord import SeqRecord

**Esercizio**: costruire "da zero" una sequenza annotata con sequenza primaria `AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA`.

In [38]:
annotated_seq = SeqRecord(Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA'))

In [39]:
annotated_seq

SeqRecord(seq=Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA'), id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=[])

Attributo `seq` (sequenza primaria):

In [40]:
annotated_seq.seq

Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA')

Attributo `id` (identificatore della sequenza):

In [41]:
annotated_seq.id

'<unknown id>'

Attributo `name` (nome della sequenza):

In [42]:
annotated_seq.name

'<unknown name>'

Attributo `description` (descrizione della sequenza):

In [43]:
annotated_seq.description

'<unknown description>'

Attributo `annotations` (dizionario delle annotazioni):

In [44]:
annotated_seq.annotations

{}

Attributo `letter_annotations` (dizionario delle annotazioni per lettera):

In [45]:
annotated_seq.letter_annotations

{}

Attributo `features` (lista delle *feaatures*)

In [46]:
annotated_seq.features

[]

Attributo `dbxrefs` (lista delle cross-references):

In [47]:
annotated_seq.dbxrefs

[]

Convertire la sequenza annotata in una stringa.

In [48]:
print(str(annotated_seq))

ID: <unknown id>
Name: <unknown name>
Description: <unknown description>
Number of features: 0
Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA')


Accedere alla prima base della sequenza.

In [49]:
annotated_seq[0]

'A'

Accedere alla prime dieci basi della sequenza con un'operazione di *slicing*.

In [50]:
annotated_seq[:10]

SeqRecord(seq=Seq('AGCCGTTTTA'), id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=[])

Ottenere la versione in minuscolo.

In [51]:
annotated_seq.lower()

SeqRecord(seq=Seq('agccgttttaaaaagccgttttaaaaagccgttttaaaaagccgttttaaaaag...aaa'), id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=[])

## Formattare una sequenza annotata

Il metodo `format()` restituisce la stringa ottenuta formattando la sequenza annotata invocante nel formato specificato dalla stringa passata come argomento.

---

**Esercizio**: formattare in `FASTA` la sequenza annotata.

In [52]:
print(annotated_seq.format('fasta'))

><unknown id> <unknown description>
AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTT
TAAAA



---

## Il package `SeqIO`

`SeqIO` è il package per input/output in uno dei formati standard (ad esempio `EMBL`, `FASTA`, `FASTQ`).

In [53]:
from Bio import SeqIO

## Funzioni principali di `SeqIO`

- `read()` legge un file composto da un solo *record* e restituisce un oggetto `SeqRecord`:

        read(file_name, format)

- `parse()` legge un file composto da più *record* e restituisce un generatore di oggetti `SeqRecord`:

        parse(file_name, format)
        
- `write()` scrive oggetti `SeqRecord` in un file in un certo formato:

        write(records, file_name, format)

---

**Esercizio**: leggere l'unico *record* del file `ENm006.fa`.

In [54]:
fasta_record = SeqIO.read('./ENm006.fa', 'fasta')

In [55]:
fasta_record

SeqRecord(seq=Seq('ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGT...ACC'), id='ENm006', name='ENm006', description='ENm006', dbxrefs=[])

Ottenere la sequenza primaria come stringa.

In [56]:
str(fasta_record.seq)

'ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGTGTGGTGGCACATGCCTGTAATCGCAGCTACTTGGGAGGCTGAGGCAGAAGAATCACTTGAATCTGGGAGGCAGAAGTTGCAGTGAGTTAAGATCATGCCACCGCACTCCAGCCTGGGCAACAGAGCAAGATTCTTTCTCAAAAAATAAAAATAAATAAAAACATTAAAAAAAATCAGCCACAGGACTTGGTCTTGGACCCAAGTTAGAGCTAGGCCATGCTTGCTTAAAGGAGTGGCTGTAATTTTAAACAAGGCTAGTGGGAAAGTTCCAGGCCATCTTAACATTGTAGGTTGCAGAATCTTAGCCAATGAGTCTTTCAGAGCTGGATTCATTAATCTGTTAATTAATTCATTAATTTTTTTATGCTACTGGATGACAGTAGGAATAAAATGACTTTTTCTGTCTGATTCAAATGCTCTGGTATTCCAAAAGGGAGATTCATATTTATTAAGAGAGTCTTTCCCGTTGTTTATACTTCCTGCCTAAGGATCAGCTTCTTTTTCTCTTTCTTCACAGCTGACAACAGATGCCCTAATTGTTTCACCTCAGGTTAGCACTATTGCAATTTGTCTAGCAAGACCTTATGTCCCCGCCAGATGAGAAATTGCAGTAAAGCCAAAGCATCAGTTTTGCATTGCTCTTCAGTTTCTGAGGCTACTAGTAGCAAGTCGTCTACATAGCAAATAATCATAGATCCCTCTGGTGGGAGAAATTCCTCTAAGTGTTTCTGTAAATGACTAGAGAAAATAATGGGAGCATTCAAAACCCTTGAGGAATTCTTTGCCATAAATATCAGACTTTCTCATAAGCAAAAGCAAACAAGAATTTAGATTCATCTGCTAGAGGAATGGAAAGACAGAAAATGCAGAAAATTGATCAATTACAGAGAAAAACTTTGCAGACAATGGTACCAAAGTCAGAAGAGTTGCTGGAGTAAACAGAAC

Ottenere l'identificatore.

In [57]:
fasta_record.id

'ENm006'

Ottenere il nome.

In [58]:
fasta_record.name

'ENm006'

Ottenere la descrizione.

In [59]:
fasta_record.description

'ENm006'

Ottenere le annotazioni.

In [60]:
fasta_record.annotations

{}

Ottenere le annotazioni per lettera.

In [61]:
fasta_record.letter_annotations

{}

Ottenere le *features*.

In [62]:
fasta_record.features

[]

Salvare il record in un file in formato `embl`.

In [63]:
fasta_record.annotations['molecule_type'] = 'DNA'

In [64]:
fasta_record.annotations

{'molecule_type': 'DNA'}

In [65]:
SeqIO.write(fasta_record, './prova.embl', 'embl')

1

---

**Esercizio**: leggere i *record* del file `ests.fa`, contenente frammenti di trascritto (Expressed Sequence Tags, ESTs).

In [66]:
fasta_record_gen = SeqIO.parse('./ests.fa', 'fasta')

Ottenere dal generatore la lista dei *record*.

In [67]:
fasta_record_list = list(fasta_record_gen)

Estrarre per il primo EST.

In [68]:
first_est = fasta_record_list[0]

Estrarre la sua sequenza primaria come stringa.

In [69]:
str(first_est.seq)

'AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCAAGGGTACCCGCCACCCAGCAGCCACTGATCAGCCTTCCACAAAGCTGCAGAAGAGGGCTTTCCCCAGCATCCTTCCTCAGCTGCCTCCAAAAGGGGCCTGGGCAGGGCTGAGGGGCAGGCAGGATGTGGAGCGGGCATCCCTGTGTGCACGGCCCCATCCCACCTCTCTGCACAGGGTGAAGTGCAGGCACCCTGCACTTGCTGGACAGGGCTGGAGAGAAGCAAGGGGGCTGGGGAGAGTGGCCGGTCCAGCGGGTAACCGCCGGGGGANCGCATCTCCAGCAGCGGCACCTCAGTGTGGCTTGGGGGTCGTGTCTAGGCCCTGGGGGTGGGAAGCTGAGGGTGAGGCTGGGCCCCAGGCGGTNGAGAAGCCTTTGTTCCTCCCAGCGGCTGCTGGCGGGGCC'

Estrarre l'identificatore.

In [70]:
first_est.id

'gnl|UG|Hs#S1027289'

Estrarre il nome.

In [71]:
first_est.name

'gnl|UG|Hs#S1027289'

Estrarre la descrizione

In [72]:
first_est.description

"gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458"

Formattare in `FASTA`.

In [73]:
print(first_est.format('fasta'))

>gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458
AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCAAGGGTA
CCCGCCACCCAGCAGCCACTGATCAGCCTTCCACAAAGCTGCAGAAGAGGGCTTTCCCCA
GCATCCTTCCTCAGCTGCCTCCAAAAGGGGCCTGGGCAGGGCTGAGGGGCAGGCAGGATG
TGGAGCGGGCATCCCTGTGTGCACGGCCCCATCCCACCTCTCTGCACAGGGTGAAGTGCA
GGCACCCTGCACTTGCTGGACAGGGCTGGAGAGAAGCAAGGGGGCTGGGGAGAGTGGCCG
GTCCAGCGGGTAACCGCCGGGGGANCGCATCTCCAGCAGCGGCACCTCAGTGTGGCTTGG
GGGTCGTGTCTAGGCCCTGGGGGTGGGAAGCTGAGGGTGAGGCTGGGCCCCAGGCGGTNG
AGAAGCCTTTGTTCCTCCCAGCGGCTGCTGGCGGGGCC



---

**Esercizio**: leggere il file `SRR18961685-5000.fastq`.

In [74]:
fastq_record_gen = SeqIO.parse('./SRR18961685-5000.fastq', 'fastq')

Ottenere la lista dei *records* (oggetto di tipo `list`).

In [75]:
fastq_record_list = list(fastq_record_gen)

Ottenere il primo *read*.

In [76]:
first_read = fastq_record_list[0]

Ottenere la sequenza primaria come stringa.

In [78]:
str(first_read.seq)

'TTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGTTTAGGGTTAGGGTTACGGATAGGGTAACGTGTAGCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCATAACCCTAACCCAA'

Ottenere l'identificatore.

In [79]:
first_read.id

'SRR18961685.1'

Ottenere il dizionario delle annotazioni per lettera.

In [83]:
first_read.letter_annotations

{'phred_quality': [31,
  32,
  30,
  32,
  34,
  35,
  33,
  36,
  34,
  36,
  36,
  36,
  34,
  36,
  34,
  36,
  36,
  36,
  34,
  36,
  34,
  36,
  36,
  29,
  31,
  31,
  34,
  36,
  36,
  36,
  34,
  36,
  34,
  30,
  36,
  36,
  34,
  30,
  34,
  36,
  36,
  14,
  14,
  36,
  34,
  15,
  36,
  36,
  14,
  14,
  25,
  15,
  36,
  13,
  14,
  14,
  34,
  12,
  31,
  28,
  10,
  35,
  25,
  15,
  13,
  13,
  34,
  8,
  35,
  12,
  30,
  14,
  14,
  14,
  25,
  16,
  31,
  31,
  31,
  29,
  32,
  33,
  34,
  34,
  35,
  33,
  34,
  35,
  35,
  35,
  36,
  34,
  35,
  35,
  35,
  35,
  35,
  34,
  35,
  35,
  35,
  35,
  36,
  34,
  35,
  35,
  35,
  35,
  36,
  34,
  35,
  35,
  35,
  35,
  36,
  34,
  35,
  27,
  35,
  11,
  35,
  34,
  35,
  35,
  10,
  35,
  36,
  34,
  11,
  26,
  35,
  11,
  21,
  34,
  35,
  27,
  11,
  9,
  13,
  34,
  11,
  12,
  25,
  11,
  33,
  34,
  11,
  12,
  31,
  12,
  11,
  31]}

Ottenere la formattazione in `FASTA`.

In [82]:
print(first_read.format('fasta'))

>SRR18961685.1 1 length=152
TTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGTTTAGGGTTAGGGTTACGG
ATAGGGTAACGTGTAGCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC
TAACCCTAACCCTAACCATAACCCTAACCCAA



---

**Esercizio**: leggere l'unico record del file `M10051.txt`, che contiene una sequenza di mRNA in formato `embl`.

In [84]:
embl_record = SeqIO.read('./M10051.txt', 'embl')

Ottenere la sequenza primaria.

In [85]:
str(embl_record.seq)

'GGGGGGCTGCGCGGCCGGGTCGGTGCGCACACGAGAAGGACGCGCGGCCCCCAGCGCTCTTGGGGGCCGCCTCGGAGCATGACCCCCGCGGGCCAGCGCCGCGCGCCTGATCCGAGGAGACCCCGCGCTCCCGCAGCCATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCGCTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATCCGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTGCAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAACTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAGGACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTGGTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACCCGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGGTCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAGGAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTCATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCGACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTGGGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTGGACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGTGTGAACTTCAGCTTCTGCCAG

Ottenere tutti gli attributi.

In [86]:
embl_record.id

'M10051.1'

In [87]:
embl_record.name

'M10051'

In [88]:
embl_record.description

'Human insulin receptor mRNA, complete cds.'

In [89]:
embl_record.annotations

{'accessions': ['M10051'],
 'sequence_version': 1,
 'topology': 'linear',
 'molecule_type': 'mRNA',
 'data_file_division': 'HUM',
 'keywords': ['insulin receptor', 'tyrosine kinase'],
 'organism': 'Homo sapiens (human)',
 'taxonomy': ['Eukaryota',
  'Metazoa',
  'Chordata',
  'Craniata',
  'Vertebrata',
  'Euteleostomi',
  'Mammalia',
  'Eutheria',
  'Euarchontoglires',
  'Primates',
  'Haplorrhini',
  'Catarrhini',
  'Hominidae',
  'Homo'],
 'references': [Reference(title='The human insulin receptor cDNA: the structural basis for hormone-activated transmembrane signalling', ...)],
 'comment': "[1] suggests that the insulin receptor may be the cellular homolog\nof the v-ros transforming (oncogene) protein.  [1] notes\nsimilarities between the insulin receptor and several growth factor\nreceptors and oncogenes.  Insulin receptor is a heterodimer\nconsisting of 2 alpha and 2 beta subunits.  Beta-prime may be a\ncleavage product produced upon binding of insulin.  [1] suggests\nthat transl

In [90]:
embl_record.letter_annotations

{}

In [91]:
embl_record.dbxrefs

['MD5:e4e6ebf2e723a500c1dd62385c279351',
 'Ensembl-Gn:ENSG00000171105',
 'Ensembl-Tr:ENST00000302850',
 'Ensembl-Tr:ENST00000341500',
 'EuropePMC:PMC2739203',
 'EuropePMC:PMC3164640',
 'EuropePMC:PMC452597']

In [92]:
embl_record.features

[SeqFeature(SimpleLocation(ExactPosition(0), ExactPosition(4723), strand=1), type='source', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(136), ExactPosition(219), strand=1), type='sig_peptide', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(138), ExactPosition(4287), strand=1), type='CDS', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(219), ExactPosition(2424), strand=1), type='mat_peptide', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(2424), ExactPosition(4284), strand=1), type='mat_peptide', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(2424), ExactPosition(2469), strand=1), type='mat_peptide', qualifiers=...)]

L'attributo `features` fornisce una lista di oggetti di tipo `SeqFeature` che rappresentano le *features* annotate sulla sequenza.

Un oggetto di tipo `SeqFeature` ha gli attributi:
- `type`: stringa che definisce il tipo di *feature* rappresentata
- `location`: oggetto di tipo `SimpleLocation` che fornisce la localizzazione della *feature* sulla sequenza

Un oggetto di tipo `SimpleLocation` possiede a sua volta i seguenti attributi:
- `start`: oggetto di tipo `ExactPosition` che fornisce lo start della localizzazione
- `end`: oggetto di tipo `ExactPosition` che fornisce l'end della localizzazione

La *feature* con `type` uguale a `CDS` rappresenta la coding sequence della sequenza. 

---

**Esercizio**: accedere al terzo oggetto della lista delle *features* (cioé la coding sequence della sequenza) e recuperare lo start e l'end della coding sequence.

In [107]:
cds_feature = embl_record.features[2]

Estrarre la coding sequence.

In [113]:
cds_sequence = embl_record[cds_feature.location.start : cds_feature.location.end]

Formattare la coding sequence in formato `FASTA`.

In [115]:
print(cds_sequence.format('fasta'))

>M10051.1 Human insulin receptor mRNA, complete cds.
ATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCG
CTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATC
CGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTG
CAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAA
CTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAG
GACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTG
GTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACC
CGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGG
TCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAG
GAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTC
ATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCG
ACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTG
GGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTG
GACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGT
GTGAACTTCAGCTTCTGCCAGGACCTGCACCACAAATGCAAGAACTCGCGGAGGCAGGGC
TGCCACCAATACGTCATTCACAACAACAAGTG