# Biopython

Biopython è un open-source package che mette a disposizione i package che contengono i moduli per usare Python in applicazioni bioinformatiche.

Package principale di Biopython: `Bio`

Installare il package `Bio`.

Importare il package `Bio`.

In [72]:
import Bio

Per vedere cosa contiene basta usare la funzione `help()` e passare come argomento il nome del package.

In [None]:
help(Bio)

## Cosa vedremo

- gli oggetti di tipo `Seq` e `MutableSeq` che rappresentano una sequenza biologica (DNA, RNA o proteina)
- l'oggetto di tipo `SeqRecord` che rappresenta una sequenza biologica annotata
- il package `Bio.SeqIO` che mette a disposizione l'interfaccia di input/output per una serie di formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.)

## Gli oggetti di tipo  `Seq` e `MutableSeq`

Le classi `Seq` e `MutableSeq` appartengono al modulo `Seq` (del package `Bio`) che è il modulo che definisce le classi per manipolare sequenze biologiche.

Importare il package `Seq`.

In [203]:
from Bio import Seq

Per vedere cosa contiene basta usare la funzione `help()` e passare come argomento il nome del package.

In [None]:
help(Seq)

Importare le due classi `Seq` e `MutableSeq`.

In [204]:
from Bio.Seq import Seq
from Bio.Seq import MutableSeq

Per vedere cosa contengono basta usare la funzione `help()` e passare come argomento il nome delle classi.

In [None]:
help(Seq)

In [None]:
help(MutableSeq)

Gli oggetti di tipo `Seq` sono immutabili, mentre quelli di tipo `MutableSeq` sono mutabili.

### Costruzione di un oggetto di tipo `Seq`

Il costruttore `Seq()` prende come argomento la stringa di una sequenza primaria (oggetto `str`):
    
       Seq(primary_string)
     
e restituisce l'oggetto che rappresenta la sequenza biologica che ha `primary_string` come sequenza primaria.

**ESERCIZIO**: costruire l'oggetto sequenza `my_seq1` che ha sequenza primaria `GTGGATTGCCGGAAATTT`.

In [205]:
my_seq1 = Seq('GTGGATTGCCGGAAATTT')
my_seq1

Seq('GTGGATTGCCGGAAATTT')

Si stampi con la funzione `print()` la sequenza.

In [206]:
print(my_seq1)

GTGGATTGCCGGAAATTT


Per convertire l'oggetto di tipo `Seq` in un oggetto di tipo `str` basta invocare la funzione `str()` con `my_seq1` come argomento.

In [207]:
str(my_seq1)

'GTGGATTGCCGGAAATTT'

### Lunghezza di una sequenza

La funzione `len()` restituisce la lunghezza della sequenza passata come argomento.

**ESERCIZIO**: ottenere la lunghezza della sequenza `my_seq1`

In [208]:
len(my_seq1)

18

### Qualche metodo degli oggetti di tipo `Seq`

- I metodi `lower()` e `upper()` restituiscono la versione in minuscolo e in maiuscolo della sequenza invocante.

**ESERCIZIO**: ottenere la versione in minuscolo della sequenza `my_seq1`.

In [209]:
my_seq1.lower()

Seq('gtggattgccggaaattt')

- Il metodo `find()` restituisce la prima occorrenza di una data sottostringa nella sequenza invocante.

**ESERCIZIO**: produrre la prima occorrenza di `GATT` nella sequenza `my_seq1`.

In [210]:
print(my_seq1)
my_seq1.find('GATT')

GTGGATTGCCGGAAATTT


3

- Il metodo `count()` restituisce il numero di occorrenze non sovrapposte di una data sottostringa nella sequenza invocante.

**ESERCIZIO**: creare la sequenza `AAAAAA` nella variablile `my_seq2` e contare il numero di occorrenze non sovrapposte di `AAA`.

In [211]:
my_seq2 = Seq('AAAAAA')
my_seq2.count('AAA')

2

**NB**: il metodo `count` degli oggetti `Seq` ha lo stesso comportamento del metodo `count` degli oggetti `str`.

- Il metodo `count_overlap()` restituisce il numero di occorrenze sovrapposte di una data sottostringa nella sequenza invocante.

**ESERCIZIO**: contare il numero di occorrenze sovrapposte di `AAA` nella sequenza `my_seq2`.

In [212]:
my_seq2.count_overlap('AAA')

4

- Il metodo `tomutable()` restituisce una copia mutabile (oggetto di tipo `MutableSeq`) della sequenza invocante.

**ESERCIZIO**: creare nella variabile `my_m_seq` una sequenza mutabile a partire dalla sequenza immutabile che ha sequenza primaria `ACTTTGAAAG`.

In [213]:
my_m_seq = Seq('ACTTTGAAAG').tomutable()
my_m_seq

MutableSeq('ACTTTGAAAG')

### Accesso alla sequenza

L'espressione:

    my_seq[index]
    
restituisce il carattere alla posizione di indice `index` della sequenza `my_seq`. L'oggetto restituito è di tipo `str`.

**ESERCIZIO**: accedere al quarto carattere della sequenza `my_seq1` dopo averla stampata con la funzione `print()`.

In [214]:
print(my_seq1)
my_seq1[3]

GTGGATTGCCGGAAATTT


'G'

L'espressione di *slicing*:

    my_seq[start:end:step]
    
restituisce i caratteri della sequenza `my_seq` a partire dalla posizione di indice `start` fino alla posizione immediatamente prima a quella di indice `end`, con un passo `step`. L'oggetto restituito è in questo caso di tipo `Seq`.

**ESERCIZIO**: accedere alla sottosequenza di `my_seq1` che va dal quinto al decimo carattere.

In [215]:
my_seq1[4:10]

Seq('ATTGCC')

**ESERCIZIO**: ottenere tramite un'operazione di *slicing* il reverse di `my_seq1`.

In [216]:
my_seq1[::-1]

Seq('TTTAAAGGCCGTTAGGTG')

### Verifica della presenza di una sottostringa in una sequenza

L'espressione:

    my_str in my_seq

restituisce `True` se la stringa `my_str` occorre nella sequenza `my_seq`

**ESERCIZIO**: verificare la presenza della stringa `CC` nella sequenza `my_seq1` dopo averla stampata con la funzione `print()`.

In [217]:
print(my_seq1)
'CC' in my_seq1

GTGGATTGCCGGAAATTT


True

### Attraversamento di una sequenza

L'operatore `in` può essere utilizzato per attraversare i caratteri di una sequenza, nel seguente modo:

    for my_char in my_seq:
        do_something    

**ESERCIZIO**: attraversare la sequenza `my_seq1` e stampare ogni singolo carattere.

In [218]:
for c in my_seq1:
    print(c)

G
T
G
G
A
T
T
G
C
C
G
G
A
A
A
T
T
T


### Concatenazione di sequenze

L'operatore `+` permette di concatenare sequenze.

**ESERCIZIO**: concatenare due sequenze di DNA uguali a `ACGT`.

In [219]:
Seq('ACGT') + Seq('ACGT')

Seq('ACGTACGT')

### Ripetizione di sequenze

L'operatore `*` permette di ripetere sequenze.

**ESERCIZIO**: ripetere due sequenze di DNA uguali a `ACGT`.

In [220]:
Seq('ACGT') * 2

Seq('ACGTACGT')

### Confronto tra sequenze

L'espressione:

    my_seq1 == my_seq2
    
restituisce `True` se la sequenza primaria di `my_seq1` è uguale a quella di `my_seq2`.

**ESERCIZIO**: confrontare due sequenze con sequenza primaria `ACGT`.

In [221]:
Seq('ACGT') == Seq('ACGT')

True

### Complement e Reverse&Complement di una sequenza di DNA o di RNA

- Il metodo `complement()` restituisce il complemento della sequenza invocante, e tiene conto dell'alfabeto ambiguo di DNA e di RNA (IUPAC CODE).

L'alfabeto ambiguo di DNA o di RNA è `{G,A,T|U,C,R,Y,W,S,M,K,H,B,V,D,N}` con `T` se DNA e `U` se RNA. Cioè è l'estensione dell'alfabeto dei quattro nucleoitidi con lettere che rappresentano ambiguità tra nucleotidi.
Precisamente:

    
    R 	A or G
    Y 	C or T|U
    S 	G or C
    W 	A or T|U
    K 	G or T|U
    M 	A or C
    B 	C or G or T|U
    D 	A or G or T|
    H 	A or C or T|U
    V 	A or C or G
    N 	any base

**ESERCIZIO**: costruire nella variabile `my_seq3` la sequenza `ACGTGAGGACCCTTT`, e ottenere il suo complement.

In [222]:
my_seq3 = Seq('ACGTGAGGACCCTTT')
my_seq3.complement()

Seq('TGCACTCCTGGGAAA')

**ESERCIZIO**: costruire nella variabile `my_seq4` la sequenza `BBBB`, e ottenere il suo complement.

In [223]:
my_seq4 = Seq('BBBB')
my_seq4.complement()

Seq('VVVV')

**NOTA BENE:** il complemento della sequenza `BBBB` è `VVVV` in quanto il carattere `B` nello IUPAC CODE codifica l'ambiguità tra `C`, `G` e `T|U`. Di conseguenza il suo complemento sarà l'ambiguità tra `G`, `C` e `A` codificata dal carattere `V`.

- Il metodo `reverse_complement()` restituisce il reverse&complement della sequenza invocante.

**ESERCIZIO**: costruire nella variabile `my_seq5` la sequenza `AAACCCTTTGGG`, e ottenere il suo reverse&complement.

In [224]:
my_seq5 = Seq('AAACCCTTTGGG')
my_seq5.reverse_complement()

Seq('CCCAAAGGGTTT')

### Trascrizione di una sequenza di DNA

- Il metodo `transcribe()` restituisce il risultato della trascrizione della sequenza di DNA invocante, intesa come sostituzione di tutti i caratteri `T` con caratteri `U`.

**ESERCIZIO**: costruire nella variabile `my_seq6` la sequenza `ACGTGAGGACCCTTT`, e ottenere la sua trascrizione.

In [225]:
my_seq6 = Seq('ACGTGAGGACCCTTT')
my_seq6.transcribe()

Seq('ACGUGAGGACCCUUU', RNAAlphabet())

- Il metodo `back_transcribe()` restituisce il risultato della retrotrascrizione della sequenza di RNA invocante, intesa come sostituzione di tutti i caratteri `U` con caratteri `T`.

**ESERCIZIO**: costruire nella variabile `my_seq7` la sequenza `ACGUGAGGACCCUUU`, e ottenere la sua retrotrascrizione.

In [226]:
my_seq7 = Seq('ACGUGAGGACCCUUU')
my_seq7.back_transcribe()

Seq('ACGTGAGGACCCTTT', DNAAlphabet())

### Traduzione di una sequenza di DNA o di RNA

- Il metodo `translate()` restituisce il risultato della traduzione della sequenza di DNA o di RNA invocante secondo il codice genetico. La lunghezza della sequenza invocante deve essere un multiplo di tre.

**ESERCIZIO**: ottenere la traduzione della sequenza `my_seq7` dopo averla stampata con la funzione `print()`. 

In [227]:
print(my_seq7)
my_seq7.translate()

ACGUGAGGACCCUUU


Seq('T*GPF', HasStopCodon(ExtendedIUPACProtein(), '*'))

**NOTA BENE**: il simbolo `*` indica che il secondo codone è uno stop codon.

**ESERCIZIO**: costruire nella variabile `my_seq8` la sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG`, e ottenere la sua traduzione.

In [228]:
my_seq8 = Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG')
my_seq8.translate()

Seq('MAIVMGR*KGAR*', HasStopCodon(ExtendedIUPACProtein(), '*'))

Passando al metodo `translate()` l'attributo `to_stop` uguale a `True` (di *default* il metodo assume che l'attributo `to_stop` sia `False`), la traduzione viene fermata al primo codone di stop incontrato.

**ESERCIZIO**: ottenere la traduzione di `my_seq8` fino al primo codone di stop.

In [229]:
my_seq8.translate(to_stop = True)

Seq('MAIVMGR', ExtendedIUPACProtein())

Il metodo `translate()` usa di *default* il codice genetico standard.

Se si vogliono usare codici differenti allora deve essere specificato il valore dell'attributo `table` che può essere scelto tra uno degli indici interi definiti da NCBI (https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi) che identifica un codice genetico tra quelli disponibili. L'indice 1 (valore di *default*) è relativo al codice standard.

**ESERCIZIO**: ottenere la traduzione della sequenza `my_seq8` sulla base del codice genetico mitocondriale (`table=2`).

In [230]:
my_seq8.translate(table = 2)

Seq('MAIVMGRWKGAR*', HasStopCodon(ExtendedIUPACProtein(), '*'))

### Sequenze mutabili

Le sequenze mutabili sono oggetti di tipo `MutableSeq`.

**ESERCIZIO**: creare la sequenza mutabile `my_m_seq` con sequenza primaria `ACTTTGAAAG`, stamparla, cambiare il primo carattere in una `T` e stamparla di nuovo.

In [231]:
my_m_seq = MutableSeq('ACTTTGAAAG')
my_m_seq

MutableSeq('ACTTTGAAAG')

### Qualche metodo degli oggetti di tipo `MutableSeq`

- Il metodo `remove()` rimuove dalla sequenza invocante la prima occorrenza del carattere passato come argomento.

**ESERCIZIO**: rimuovere da `my_m_seq` la prima occorrenza di `C`.

In [232]:
my_m_seq.remove('C')
my_m_seq

MutableSeq('ATTTGAAAG')

- Il metodo `reverse()` opera il reverse sulla sequenza invocante.

**ESERCIZIO**: operare il reverse su `my_m_seq`.

In [233]:
my_m_seq.reverse()
my_m_seq

MutableSeq('GAAAGTTTA')

- Il metodo `complement()` opera il complement sulla sequenza invocante.

**ESERCIZIO**: operare il complement su `my_m_seq`.

In [234]:
my_m_seq.complement()
my_m_seq

MutableSeq('CTTTCAAAT')

- Il metodo `reverse_complement()` opera il reverse&complement sulla sequenza invocante.

**ESERCIZIO**: operare il reverse&complement su `my_m_seq`.

In [235]:
my_m_seq.reverse_complement()
my_m_seq

MutableSeq('ATTTGAAAG')

- Il metodo `toseq()` restituisce una copia immutabile (oggetto di tipo `Seq`) della sequenza invocante.

**ESERCIZIO**: ottenere da `my_m_seq` un oggetto di tipo `Seq`.

In [236]:
my_m_seq.toseq()

Seq('ATTTGAAAG')

## L'oggetto di tipo `SeqRecord`

La classe `SeqRecord` appartiene al modulo `SeqRecord` (del package `Bio`) ed è la classe che permette di rappresentare e manipolare sequenze annotate.

Importare il modulo `SeqRecord`.

In [237]:
from Bio import SeqRecord

Per vedere cosa contiene basta invocare la funzione `help()` passando come argomento il nome del package.

In [None]:
help(SeqRecord)

La classe `SeqRecord` rappresenta una sequenza annotata, cioè un oggetto di tipo `Seq` con l'aggiunta di informazioni.

Importare la classe `SeqRecord`.

In [239]:
from Bio.SeqRecord import SeqRecord

Per vedere cosa contiene basta invocare la funzione `help()` passando come argomento il nome della classe.

In [None]:
help(SeqRecord)

Gli oggetti di tipo `SeqRecord` contengono i seguenti attributi:

- `seq`: oggetto di tipo `str` che rappresenta la sequenza biologica
- `id`: oggetto di tipo `str` che fornisce l'identificatore univoco (*Accession Number*)
- `name`: oggetto di tipo `str` che fornisce il nome della sequenza (può anche essere l'*Accession Number* stesso)
- `description`: oggetto di tipo `str` che fornisce la descrizione della sequenza
- `annotations`: oggetto di tipo `dict` che fornisce le informazioni sulla sequenza. Le chiavi sono i nomi delle informazioni e i valori sono le informazioni associate
- `letter_annotations`: oggetto di tipo `dict` che annota la sequenza lettera per lettera. Le chiavi sono i nomi delle informazioni e i valori sono liste che forniscono le informazioni per ognuna delle lettere della sequenza
- `features`: oggetto di tipo `list` che contiene oggetti di tipo `SeqFeature` che forniscono le *features* annotate sulla sequenza
- `dbxrefs`: oggetto di tipo `list` che contiene oggetti di tipo `str` che forniscono le cross-references alle banche dati in cui è memorizzata la sequenza

La classe `SeqRecord` è il tipo di oggetto che viene manipolato dalle funzioni di input/output contenute nel modulo `SeqIO` in relazione ai vari formati standard supportati (`EMBL`,`FASTA`, `FASTQ`, etc.), .

### Costruzione di una sequenza annotata *from scratch*

Di solito gli oggetti di tipo `SeqRecord` vengono ottenuti dalla lettura di un file in uno dei formati standard della Bioinformatica, ma una sequenza annotata può anche essere costruita da zero tramite il suo costruttore `SeqRecord()`, a cui può essere passato come argomento un oggetto di tipo `Seq`.

**ESERCIZIO**: costruire la sequenza annotata `annotated_sequence` con sequenza primaria `AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA`.

In [240]:
annotated_sequence = SeqRecord(Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA'))
annotated_sequence

SeqRecord(seq=Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA'), id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=[])

Si stampi l'oggetto usando la funzione `print()`

In [241]:
print(annotated_sequence)

ID: <unknown id>
Name: <unknown name>
Description: <unknown description>
Number of features: 0
Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA')


**NOTA BENE**: solo l'attributo `seq` non è *unknown* e contiene la sequenza (oggetto `Seq`) passata come argomento.

L'attributo `annotations` contiene un dizionario delle annotazioni vuoto.

In [242]:
annotated_sequence.annotations

{}

L'attributo `letter_annotations` contiene un dizionario delle annotazioni per lettera vuoto.

In [243]:
annotated_sequence.letter_annotations

{}

L'attributo `features` contiene una lista delle features vuota.

In [244]:
annotated_sequence.features

[]

Si associ a questo punto alla sequenza annotata l'identificatore univoco `AA00000` e il nome `AA00000`,

In [245]:
annotated_sequence.id = 'AA00000'

Si aggiunga la descrizione `Questa e' una sequenza annotata di prova`.

In [246]:
annotated_sequence.description = "Questa è una sequenza annotata di prova"
print(annotated_sequence)

ID: AA00000
Name: <unknown name>
Description: Questa è una sequenza annotata di prova
Number of features: 0
Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA')


Si ottenga la sequenza primaria della sequenza annotata come oggetto di tipo `str`.

In [247]:
str(annotated_sequence.seq)

'AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA'

### Formattazione di una sequenza annotata

Il metodo `format()` degli oggetti di tipo `SeqRecord` restituisce la stringa ottenuta formattando la sequenza annotata invocante nel formato specificato dalla stringa passata come argomento.

**ESERCIZIO**: formattare in `FASTA` la sequenza annotata `annotated_sequence` dopo averla stampata con la funzione `print()`.

In [249]:
print(annotated_sequence)
fasta_annotated_sequence = annotated_sequence.format('fasta')

ID: AA00000
Name: <unknown name>
Description: Questa è una sequenza annotata di prova
Number of features: 0
Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA')


Stampare la sequenza formattata usando la funzione `print()`.

In [250]:
print(fasta_annotated_sequence)

>AA00000 Questa è una sequenza annotata di prova
AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTT
TAAAA



## Il package `SeqIO`

`SeqIO` è il package per leggere/scrivere un file in uno dei formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.).

Importare il package `SeqIO`.

In [251]:
from Bio import SeqIO

Per vedere cosa contiene basta invocare la funzione `help()` passando come argomento il nome del package.

In [None]:
help(SeqIO)

- La funzione `read()` permette di leggere un file in un certo formato e composto da un solo *record* (ad esempio una sola sequenza nel caso di `FASTA`). Il nome del file viene passato come primo argomento e il formato viene passato come secondo argomento (oggetto di tipo `str`). Viene restituito un oggetto di tipo `SeqRecord`.

- La funzione `parse()` permette di leggere un file in un certo formato e composto da più *record* (ad esempio più sequenze nela caso di `FASTA`. Il nome del file viene passato come primo argomento e il formato viene passato come secondo argomento (oggetto di tipo `str`). Viene restituito un generatore di oggetti di tipo `SeqRecord`.

**ESERCIZIO**: leggere nella variabile `fasta_record` l'unico *record* del file `ENm006.fa` che contiene una sequenza genomica di riferimento. Stamparlo con la funzione `print()`.

In [252]:
fasta_record = SeqIO.read('ENm006.fa', 'fasta')
print(fasta_record)

ID: ENm006
Name: ENm006
Description: ENm006
Number of features: 0
Seq('ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGT...ACC', SingleLetterAlphabet())


Stampare l'attributo `seq` dell'oggetto `fasta_record` che contiene il riferimento alla sequenza (oggetto di tipo `Seq`) contenuta nel *record*.

In [152]:
print(fasta_record.seq)

ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGTGTGGTGGCACATGCCTGTAATCGCAGCTACTTGGGAGGCTGAGGCAGAAGAATCACTTGAATCTGGGAGGCAGAAGTTGCAGTGAGTTAAGATCATGCCACCGCACTCCAGCCTGGGCAACAGAGCAAGATTCTTTCTCAAAAAATAAAAATAAATAAAAACATTAAAAAAAATCAGCCACAGGACTTGGTCTTGGACCCAAGTTAGAGCTAGGCCATGCTTGCTTAAAGGAGTGGCTGTAATTTTAAACAAGGCTAGTGGGAAAGTTCCAGGCCATCTTAACATTGTAGGTTGCAGAATCTTAGCCAATGAGTCTTTCAGAGCTGGATTCATTAATCTGTTAATTAATTCATTAATTTTTTTATGCTACTGGATGACAGTAGGAATAAAATGACTTTTTCTGTCTGATTCAAATGCTCTGGTATTCCAAAAGGGAGATTCATATTTATTAAGAGAGTCTTTCCCGTTGTTTATACTTCCTGCCTAAGGATCAGCTTCTTTTTCTCTTTCTTCACAGCTGACAACAGATGCCCTAATTGTTTCACCTCAGGTTAGCACTATTGCAATTTGTCTAGCAAGACCTTATGTCCCCGCCAGATGAGAAATTGCAGTAAAGCCAAAGCATCAGTTTTGCATTGCTCTTCAGTTTCTGAGGCTACTAGTAGCAAGTCGTCTACATAGCAAATAATCATAGATCCCTCTGGTGGGAGAAATTCCTCTAAGTGTTTCTGTAAATGACTAGAGAAAATAATGGGAGCATTCAAAACCCTTGAGGAATTCTTTGCCATAAATATCAGACTTTCTCATAAGCAAAAGCAAACAAGAATTTAGATTCATCTGCTAGAGGAATGGAAAGACAGAAAATGCAGAAAATTGATCAATTACAGAGAAAAACTTTGCAGACAATGGTACCAAAGTCAGAAGAGTTGCTGGAGTAAACAGAACA

Per recuperare la sequenza primaria (come oggetto di tipo `str`) basta invocare la funzione `str()` passando l'attributo `seq` di `fasta_record` come argomento.

In [253]:
str(fasta_record.seq)

'ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGTGTGGTGGCACATGCCTGTAATCGCAGCTACTTGGGAGGCTGAGGCAGAAGAATCACTTGAATCTGGGAGGCAGAAGTTGCAGTGAGTTAAGATCATGCCACCGCACTCCAGCCTGGGCAACAGAGCAAGATTCTTTCTCAAAAAATAAAAATAAATAAAAACATTAAAAAAAATCAGCCACAGGACTTGGTCTTGGACCCAAGTTAGAGCTAGGCCATGCTTGCTTAAAGGAGTGGCTGTAATTTTAAACAAGGCTAGTGGGAAAGTTCCAGGCCATCTTAACATTGTAGGTTGCAGAATCTTAGCCAATGAGTCTTTCAGAGCTGGATTCATTAATCTGTTAATTAATTCATTAATTTTTTTATGCTACTGGATGACAGTAGGAATAAAATGACTTTTTCTGTCTGATTCAAATGCTCTGGTATTCCAAAAGGGAGATTCATATTTATTAAGAGAGTCTTTCCCGTTGTTTATACTTCCTGCCTAAGGATCAGCTTCTTTTTCTCTTTCTTCACAGCTGACAACAGATGCCCTAATTGTTTCACCTCAGGTTAGCACTATTGCAATTTGTCTAGCAAGACCTTATGTCCCCGCCAGATGAGAAATTGCAGTAAAGCCAAAGCATCAGTTTTGCATTGCTCTTCAGTTTCTGAGGCTACTAGTAGCAAGTCGTCTACATAGCAAATAATCATAGATCCCTCTGGTGGGAGAAATTCCTCTAAGTGTTTCTGTAAATGACTAGAGAAAATAATGGGAGCATTCAAAACCCTTGAGGAATTCTTTGCCATAAATATCAGACTTTCTCATAAGCAAAAGCAAACAAGAATTTAGATTCATCTGCTAGAGGAATGGAAAGACAGAAAATGCAGAAAATTGATCAATTACAGAGAAAAACTTTGCAGACAATGGTACCAAAGTCAGAAGAGTTGCTGGAGTAAACAGAAC

Gli attributi dell'oggetto di `fasta_record` sono:

    id

In [254]:
fasta_record.id

'ENm006'

    name

In [255]:
fasta_record.name

'ENm006'

    description

In [256]:
fasta_record.description

'ENm006'

    annotations

In [257]:
fasta_record.annotations

{}

    letter_annotations

In [258]:
fasta_record.letter_annotations

{}

    features

In [259]:
fasta_record.features

[]

    dbxrefs

In [260]:
fasta_record.dbxrefs

[]

**ESERCIZIO**: leggere nella variabile `fasta_records` i *record* del file `ests.fa` contenente frammenti di trascritto (ESTs) relativi a un gene umano.

In [262]:
fasta_records = SeqIO.parse('ests.fa', 'fasta')

I *record* (oggetti `SeqRecord`) possono essere estratti uno alla volta dal generatore `fasta_records` mediante scansione con un ciclo `for`.

Stampare uno dopo l'altro i *record* in `fasta_records` separandoli con la stringa `//`.

In [263]:
for r in fasta_records:
    print(r)
    print('//')

ID: gnl|UG|Hs#S1027289
Name: gnl|UG|Hs#S1027289
Description: gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458
Number of features: 0
Seq('AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCA...GCC', SingleLetterAlphabet())
//
ID: gnl|UG|Hs#S1072854
Name: gnl|UG|Hs#S1072854
Description: gnl|UG|Hs#S1072854 oz13f05.x1 Soares_fetal_liver_spleen_1NFLS_S1 Homo sapiens cDNA clone IMAGE:1675233 3' similar to SW:RGC1_HUMAN P98171 RHO-GAP HEMATOPOIETIC PROTEIN C1 ;, mRNA sequence /clone=IMAGE:1675233 /clone_end=3' /gb=AI078474 /gi=3412882 /ug=Hs.701324 /len=461
Number of features: 0
Seq('TTTTTTTTTTTTGGGAATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTG...CAA', SingleLetterAlphabet())
//
ID: gnl|UG|Hs#S1140573
Name: gnl|UG|Hs#S1140573
Description: gnl|UG|Hs#S1140573 qx09d10.x1 NCI_CGAP_Lym12 Homo sapiens cDNA clone IMAGE:2000851 3' similar to SW:RGC1_HUMAN P98171 RHO-GAP HEMA

In alternativa, i *record* possono essere estratti in una volta sola in una lista (da processare in seguito) invocando la funzione `list()` e passando come argomento il generatore stesso.

**NOTA BENE**: una volta che il generatore è stato *consumato*, esso risulta vuoto. Quindi prima di costruire la lista occorre invocare di nuovo il metodo `parse()` per ricostituirlo.

Costruire la lista `fasta_record_list` (oggetto di tipo `list`) dei *record* (oggetti di tipo `SeqRecord`) del generatore `fasta_records`.

In [264]:
fasta_records = SeqIO.parse('ests.fa', 'fasta')
fasta_record_list = list(fasta_records)

Il numero dei *record* (numero degli ESTs) contenuti nel file `ests.fa` è:

In [265]:
len(fasta_record_list)

242

A questo punto, per il primo EST, estrarre:

- la sequenza primaria (come oggetto di tipo `str`)

In [266]:
str(fasta_record_list[0].seq)

'AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCAAGGGTACCCGCCACCCAGCAGCCACTGATCAGCCTTCCACAAAGCTGCAGAAGAGGGCTTTCCCCAGCATCCTTCCTCAGCTGCCTCCAAAAGGGGCCTGGGCAGGGCTGAGGGGCAGGCAGGATGTGGAGCGGGCATCCCTGTGTGCACGGCCCCATCCCACCTCTCTGCACAGGGTGAAGTGCAGGCACCCTGCACTTGCTGGACAGGGCTGGAGAGAAGCAAGGGGGCTGGGGAGAGTGGCCGGTCCAGCGGGTAACCGCCGGGGGANCGCATCTCCAGCAGCGGCACCTCAGTGTGGCTTGGGGGTCGTGTCTAGGCCCTGGGGGTGGGAAGCTGAGGGTGAGGCTGGGCCCCAGGCGGTNGAGAAGCCTTTGTTCCTCCCAGCGGCTGCTGGCGGGGCC'

- l'identificatore univoco (in un oggetto di tipo `str`)

In [267]:
str(fasta_record_list[0].id)

'gnl|UG|Hs#S1027289'

- il nome (in un oggetto di tipo `str`)

In [268]:
str(fasta_record_list[0].name)

'gnl|UG|Hs#S1027289'

- la descrizione (in un oggetto di tipo `str`)

In [269]:
str(fasta_record_list[0].description)

"gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458"

Ottenere la formattazione `FASTA` del primo EST e stamparla con la funzione `print()`.

In [270]:
print(fasta_record_list[0].format('fasta'))

>gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458
AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCAAGGGTA
CCCGCCACCCAGCAGCCACTGATCAGCCTTCCACAAAGCTGCAGAAGAGGGCTTTCCCCA
GCATCCTTCCTCAGCTGCCTCCAAAAGGGGCCTGGGCAGGGCTGAGGGGCAGGCAGGATG
TGGAGCGGGCATCCCTGTGTGCACGGCCCCATCCCACCTCTCTGCACAGGGTGAAGTGCA
GGCACCCTGCACTTGCTGGACAGGGCTGGAGAGAAGCAAGGGGGCTGGGGAGAGTGGCCG
GTCCAGCGGGTAACCGCCGGGGGANCGCATCTCCAGCAGCGGCACCTCAGTGTGGCTTGG
GGGTCGTGTCTAGGCCCTGGGGGTGGGAAGCTGAGGGTGAGGCTGGGCCCCAGGCGGTNG
AGAAGCCTTTGTTCCTCCCAGCGGCTGCTGGCGGGGCC



**ESERCIZIO**: leggere nella variabile `fastq_records` il file `input.fq` che contiene quattro reads in formato `FASTQ`.

In [272]:
fastq_records = SeqIO.parse('input.fq', 'fastq')

Ottenere la lista `fastq_record_list` dei *records* (oggetto di tipo `list`).

In [273]:
fastq_record_list = list(fastq_records)

La sequenza primaria (oggetto di tipo `str`) del primo *record* (read) è:

In [274]:
str(fastq_record_list[0].seq)

'TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC'

L'identificatore del primo *record* è:

In [275]:
fastq_record_list[0].id

'HWUSI-EAS522:8:5:662:692#0/1'

Accedere al dizionario delle annotazioni per lettera del primo *record*.

In [276]:
fastq_record_list[0].letter_annotations

{'phred_quality': [64,
  64,
  64,
  64,
  63,
  64,
  64,
  63,
  64,
  64,
  63,
  60,
  62,
  62,
  63,
  64,
  64,
  63,
  62,
  52,
  58,
  62,
  64,
  63,
  61,
  59,
  59,
  52,
  51,
  54,
  57,
  63,
  55,
  61,
  48,
  55]}

Ottenere la formattazione in `FASTQ` del primo *record* e stamparla con la funzione `print()`.

In [277]:
print(fastq_record_list[0].format('fastq'))

@HWUSI-EAS522:8:5:662:692#0/1
TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC
+
aaaa`aa`aa`]__`aa`_U[_a`^\\UTWZ`X^QX



Ottenere la formattazione in `FASTA` del primo *record* (accettando di perdere la stringa di qualità) e stamparla con la funzione `print()`.

In [278]:
print(fastq_record_list[0].format('fasta'))

>HWUSI-EAS522:8:5:662:692#0/1
TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC



**ESERCIZIO**: leggere nella variabile `embl_record` l'unico record del file `M10051.txt` che contiene una sequenza di mRNA in formato `EMBL`.

In [279]:
embl_record = SeqIO.read('M10051.txt', 'embl')

L'attributo `seq` dell'oggetto `embl_record` contiene il riferimento alla sequenza (oggetto di tipo `Seq`).

In [280]:
embl_record.seq

Seq('GGGGGGCTGCGCGGCCGGGTCGGTGCGCACACGAGAAGGACGCGCGGCCCCCAG...AAA', IUPACAmbiguousDNA())

La sequenza primaria (oggetto di tipo `str`) del *record* è:

In [281]:
str(embl_record.seq)

'GGGGGGCTGCGCGGCCGGGTCGGTGCGCACACGAGAAGGACGCGCGGCCCCCAGCGCTCTTGGGGGCCGCCTCGGAGCATGACCCCCGCGGGCCAGCGCCGCGCGCCTGATCCGAGGAGACCCCGCGCTCCCGCAGCCATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCGCTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATCCGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTGCAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAACTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAGGACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTGGTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACCCGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGGTCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAGGAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTCATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCGACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTGGGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTGGACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGTGTGAACTTCAGCTTCTGCCAG

Gli attributi del *record* sono:

In [282]:
print(embl_record.id)
print(embl_record.name)
print(embl_record.description)
print(embl_record.annotations)
print(embl_record.letter_annotations)
print(embl_record.features)
print(embl_record.dbxrefs)

M10051.1
M10051
Human insulin receptor mRNA, complete cds.
{'accessions': ['M10051'], 'sequence_version': 1, 'topology': 'linear', 'molecule_type': 'mRNA', 'data_file_division': 'HUM', 'keywords': ['insulin receptor', 'tyrosine kinase'], 'organism': 'Homo sapiens (human)', 'taxonomy': ['Eukaryota', 'Metazoa', 'Chordata', 'Craniata', 'Vertebrata', 'Euteleostomi', 'Mammalia', 'Eutheria', 'Euarchontoglires', 'Primates', 'Haplorrhini', 'Catarrhini', 'Hominidae', 'Homo'], 'references': [Reference(title='The human insulin receptor cDNA: the structural basis for hormone-activated transmembrane signalling', ...)], 'comment': "[1] suggests that the insulin receptor may be the cellular homolog\nof the v-ros transforming (oncogene) protein.  [1] notes\nsimilarities between the insulin receptor and several growth factor\nreceptors and oncogenes.  Insulin receptor is a heterodimer\nconsisting of 2 alpha and 2 beta subunits.  Beta-prime may be a\ncleavage product produced upon binding of insulin.  [

L'attributo `features` fornisce in questo caso una lista di oggetti di tipo `SeqFeature` che rappresentano le *features* del *record*.

Un oggetto di tipo `SeqFeature` possiede i seguenti attributi:
- `type`: stringa che definisce il tipo di *feature* rappresentata
- `location`: oggetto di tipo `FeatureLocation` che fornisce la localizzazione della *feature* sulla sequenza cui si fa riferimento

Un oggetto di tipo `FeatureLocation` possiede a sua volta i seguenti attributi:
- `start`: oggetto di tipo `ExactPosition` che fornisce lo start della localizzazione
- `end`: oggetto di tipo `ExactPosition` che fornisce l'end della localizzazione

La *feature* con attributo `type` uguale a `CDS` rappresenta la coding sequence della sequenza (terzo oggetto nella lista delle *features*). 

Accedere quindi al terzo oggetto della lista delle *features* (cioé la coding sequence della sequenza di mRNA), recuperare il suo start e il suo end come valori interi e produrre la sequenza della coding sequence in formato `FASTA`.

Accedere prima di tutto allo start e all'end della feature CDS.

In [283]:
cds_start = int(embl_record.features[2].location.start)
cds_end = int(embl_record.features[2].location.end)

In [284]:
cds_start

138

In [285]:
cds_end

4287

**NB**: lo start viene fornito 0-based mentre l'end viene fornito 1-based in maniera che siano già pronti per effettuare lo *slicing* della sequenza annotata `embl_record` (oggetto `SeqRecord`) e ottenere così la sequenza annotata (oggetto `SeqRecord`) della coding sequence.

In [286]:
cds_sequence = embl_record[cds_start:cds_end]
cds_sequence

SeqRecord(seq=Seq('ATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTG...TAA', IUPACAmbiguousDNA()), id='M10051.1', name='M10051', description='Human insulin receptor mRNA, complete cds.', dbxrefs=[])

A questo punto la coding sequence può essere formattata in `FASTA` e stampata.

In [287]:
print(cds_sequence.format('fasta'))

>M10051.1 Human insulin receptor mRNA, complete cds.
ATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCG
CTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATC
CGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTG
CAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAA
CTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAG
GACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTG
GTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACC
CGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGG
TCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAG
GAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTC
ATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCG
ACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTG
GGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTG
GACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGT
GTGAACTTCAGCTTCTGCCAGGACCTGCACCACAAATGCAAGAACTCGCGGAGGCAGGGC
TGCCACCAATACGTCATTCACAACAACAAGTG