# Biopython

Biopython è un package che mette a disposizione funzionalità in ambito bioinformatico, principalmente manipolare sequenze, leggere i formati standard tipici della Bioinformatica (ad esempio `EMBL`, `FASTA`, `FASTQ`) e accedere alle banche dati.

Installare il package `Bio` di Biopython.

Importare il package `Bio`.

In [None]:
import Bio

Per vedere cosa contiene basta usare la funzione `help()` e passare come argomento il nome del package.

In [None]:
help(Bio)

## Cosa vediamo?

- `Seq` e `MutableSeq`, classi per rappresentare una sequenza biologica (DNA, RNA o proteina)
- `SeqRecord`, classe per rappresentare una sequenza biologica annotata
- `Bio.SeqIO`,  interfaccia input/output per formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.)

## Oggetti `Seq` e `MutableSeq` per rappresentare sequenze

Le classi `Seq` e `MutableSeq` appartengono al modulo `Seq` che definisce le classi per manipolare sequenze biologiche. `Seq` rappresenta una sequenza immutabile mentre `MutableSeq` rappresenta una sequenza mutabile.

Importare il modulo `Seq`.

In [None]:
from Bio import Seq

Per vedere cosa contiene basta usare la funzione `help()` e passare come argomento il nome `Seq`.

In [None]:
help(Bio.Seq)

Importare le due classi `Seq` e `MutableSeq`.

In [None]:
from Bio.Seq import Seq
from Bio.Seq import MutableSeq

Per vedere cosa contengono basta usare la funzione `help()` e passare come argomento il nome delle classi.

In [None]:
help(Seq)

In [None]:
help(MutableSeq)

### Costruzione di un oggetto di tipo `Seq`

L'espressione:
    
       Seq(primary_string)
     
restituisce un oggetto `Seq` che rappresenta la sequenza primaria specificata da `primary_string` passata come argomento.

Costruire una sequenza `my_seq1` che ha sequenza primaria `GTGGATTGCCGGAAATTT`.

In [None]:
my_seq1 = Seq('GTGGATTGCCGGAAATTT')

Stampare la sequenza.

In [None]:
my_seq1

Convertire la sequenza in un oggetto di tipo `str`.

In [None]:
str(my_seq1)

### Lunghezza di una sequenza

La funzione `len()` restituisce la lunghezza della sequenza passata come argomento.

Ottenere la lunghezza della sequenza `my_seq1`

In [None]:
len(my_seq1)

### Qualche metodo degli oggetti di tipo `Seq`

- `lower()` e `upper()` restituiscono la versione in minuscolo e in maiuscolo della sequenza invocante.

Ottenere la versione in minuscolo della sequenza `my_seq1`.

In [None]:
my_seq1.lower()

- `find()` restituisce la prima occorrenza di una sottostringa nella sequenza invocante.

Produrre la prima occorrenza di `GATT` nella sequenza `my_seq1`.

In [None]:
my_seq1.find('GATT')

- `count()` restituisce il numero di occorrenze non sovrapposte di una data sottostringa nella sequenza invocante.

Creare la sequenza `AAAAAA` e contare il numero di occorrenze non sovrapposte di `AAA`.

In [None]:
Seq('AAAAA').count('AA')

- `count_overlap()` restituisce il numero di occorrenze sovrapposte di una data sottostringa nella sequenza invocante.

Contare il numero di occorrenze sovrapposte di `AAA` nella sequenza precedente.

In [None]:
Seq('AAAAA').count_overlap('AA')

- `tomutable()` restituisce una copia mutabile (oggetto di tipo `MutableSeq`) della sequenza invocante.

Creare una sequenza mutabile a partire dalla sequenza immutabile che ha sequenza primaria `ACTTTGAAAG`.

In [None]:
Seq('ACTTTGAAAG').tomutable()

### Accesso alla sequenza

L'espressione:

    my_seq[my_index]
    
restituisce il carattere alla posizione di indice `my_index` della sequenza `my_seq`.

Accedere al quarto carattere della sequenza `my_seq1`.

In [None]:
my_seq1

In [None]:
my_seq1[3]

L'espressione di *slicing*:

    my_seq[start:end:step]
    
restituisce i caratteri della sequenza `my_seq` a partire dalla posizione di indice `start` fino alla posizione immediatamente prima a quella di indice `end`, con un passo `step`.

Accedere alla sottosequenza di `my_seq1` che va dal quinto al decimo carattere.

In [None]:
my_seq1

In [None]:
my_seq1[4:10]

Ottenere tramite un'operazione di *slicing* il reverse di `my_seq1`.

In [None]:
my_seq1[::-1]

### Verifica della presenza di una sottostringa in una sequenza

L'espressione:

    my_str in my_seq

restituisce `True` se la stringa `my_str` occorre nella sequenza `my_seq`

Verificare la presenza della stringa `CC` nella sequenza `my_seq1`.

In [None]:
my_seq1

In [None]:
'CC' in my_seq1

### Attraversamento di una sequenza

L'operatore `in` può essere utilizzato per attraversare i caratteri di una sequenza, nel seguente modo:

    for my_char in my_seq:
        do_something    

Attraversare la sequenza `my_seq1` e stampare ogni singolo carattere.

In [None]:
for c in my_seq1:
    print(c)

### Concatenazione di sequenze

L'operatore `+` permette di concatenare sequenze.

Concatenare due sequenze di DNA uguali a `ACGT`.

In [None]:
Seq('ACGT') + Seq('ACGT')

### Ripetizione di sequenze

L'operatore `*` permette di ripetere sequenze.

Ripetere due volte una sequenza di DNA uguale a `ACGT`.

In [None]:
Seq('ACGT') * 2

### Confronto tra sequenze

L'espressione:

    my_seq1 == my_seq2
    
restituisce `True` se la sequenza primaria di `my_seq1` è uguale a quella di `my_seq2`.

Confrontare due sequenze con sequenza primaria `ACGT`.

In [None]:
Seq('ACGT') == Seq('ACGT')

### Complement e Reverse&Complement di una sequenza di DNA o di RNA
    
- Il metodo `complement()` restituisce il complemento della sequenza invocante.

Costruire la sequenza `ACGTGAGGACCCTTT` e ottenere il suo complement.

In [None]:
Seq('ACGTGAGGACCCTTT').complement()

- Il metodo `reverse_complement()` restituisce il reverse&complement della sequenza invocante.

Costruire la sequenza `ACGTGAGGACCCTTT`, e ottenere il suo reverse&complement.

In [None]:
Seq('ACGTGAGGACCCTTT').reverse_complement()

**NOTA BENE**`: complement()` e `reverse_complement()` tengono conto dell'alfabeto ambiguo di DNA e di RNA (cioé dello IUPAC CODE).

L'alfabeto ambiguo di DNA o di RNA è `{A,C,G,T|U,R,Y,W,S,M,K,H,B,V,D,N}` con `T` se DNA e `U` se RNA. Cioè è l'estensione dell'alfabeto dei quattro nucleoitidi con lettere che rappresentano ambiguità tra nucleotidi.

Precisamente:

    R 	A or G
    Y 	C or T|U
    S 	G or C
    W 	A or T|U
    K 	G or T|U
    M 	A or C
    B 	C or G or T|U
    D 	A or G or T|
    H 	A or C or T|U
    V 	A or C or G
    N 	any base

Costruire la sequenza `BBBB` e ottenere il suo complement.

In [None]:
Seq('BBBB').complement()

### Trascrizione di una sequenza di DNA

- Il metodo `transcribe()` restituisce il risultato della trascrizione della sequenza di DNA invocante, intesa come sostituzione di tutti i caratteri `T` con caratteri `U`.

Costruire la sequenza `ACGTGAGGACCCTTT` e ottenere la sua trascrizione.

In [None]:
Seq('ACGTGAGGACCCTTT').transcribe()

- Il metodo `back_transcribe()` restituisce il risultato della retrotrascrizione della sequenza di RNA invocante, intesa come sostituzione di tutti i caratteri `U` con caratteri `T`.

Costruire la sequenza `ACGUGAGGACCCUUU` e ottenere la sua retrotrascrizione.

In [None]:
Seq('ACGUGAGGACCCUUU').back_transcribe()

### Traduzione di una sequenza di DNA o di RNA

- Il metodo `translate()` restituisce il risultato della traduzione della sequenza di DNA o di RNA invocante secondo il codice genetico. La lunghezza della sequenza invocante deve essere un multiplo di tre.

Costruire la sequenza `ACGUGAGGACCCUUU` e ottenere la sua trascrizione.

In [None]:
Seq('ACGUGAGGACCCUUU').translate()

Costruire la sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG` e ottenere la sua traduzione.

In [None]:
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG').translate()

Specificando l'attributo `to_stop` uguale a `True`, la traduzione viene fermata al primo codone di stop incontrato.

Ottenere la traduzione della sequenza precedente fino al primo codone di stop che si incontra.

In [None]:
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG').translate(to_stop = True)

### Sequenze mutabili

Le sequenze mutabili sono oggetti di tipo `MutableSeq`.

Creare la sequenza mutabile `ACTTTGAAAG`.

In [None]:
my_seq = MutableSeq('ACTTTGAAAG')

Cambiare in una `T` la prima base.

In [None]:
my_seq[0] = 'T'
my_seq

### Qualche metodo degli oggetti di tipo `MutableSeq`

- `remove()` rimuove dalla sequenza invocante la prima occorrenza del carattere passato come argomento.

Costruire la sequenza `AAACCCTTTGGG` nella variabile `my_seq`.

In [None]:
my_seq = MutableSeq('AAACCCTTTGGG')

Rimuovere dalla sequenza `my_seq` la prima occorrenza di `C`.

In [None]:
my_seq.remove('C')

In [None]:
my_seq

- `reverse()` opera il reverse sulla sequenza invocante.

Invertire la sequenza `my_seq`.

In [None]:
my_seq.reverse()
my_seq

- `complement()` opera il complement sulla sequenza invocante.

Trasformare in complement la sequenza `my_seq`.

In [None]:
my_seq.complement()
my_seq

- `reverse_complement()` opera il reverse&complement sulla sequenza invocante.

Trasformare in reverse&complement la sequenza `my_seq`.

In [None]:
my_seq.reverse_complement()
my_seq

- `toseq()` restituisce una copia immutabile della sequenza invocante.

Ottenere dalla sequenza `my_seq` un oggetto immutabile di tipo `Seq`.

In [None]:
my_seq.toseq()

## L'oggetto di tipo `SeqRecord`

La classe `SeqRecord` appartiene al modulo `SeqRecord` e permette di rappresentare (e manipolare) sequenze annotate.

Importare il modulo `SeqRecord`.

In [None]:
from Bio import SeqRecord

Per vedere cosa contiene basta invocare la funzione `help()` passando come argomento il nome del modulo.

In [None]:
help(Bio.SeqRecord)

La classe `SeqRecord` rappresenta una sequenza annotata, cioè un oggetto di tipo `Seq` con l'aggiunta di informazioni.

In [None]:
from Bio.SeqRecord import SeqRecord

Per vedere cosa contiene basta invocare la funzione `help()` passando come argomento il nome della classe.

In [None]:
help(SeqRecord)

Un oggetto di tipo `SeqRecord` contiene i seguenti attributi:

- `seq`: oggetto di tipo `Seq` che rappresenta la sequenza biologica
- `id`: oggetto di tipo `str` che fornisce l'identificatore univoco (*Accession Number*) della sequenza
- `name`: oggetto di tipo `str` che fornisce il nome della sequenza (può anche essere l'*Accession Number* stesso)
- `description`: oggetto di tipo `str` che fornisce la descrizione della sequenza
- `annotations`: oggetto di tipo `dict` che fornisce le informazioni sulla sequenza. Le chiavi sono i nomi delle informazioni e i valori sono le informazioni associate
- `letter_annotations`: oggetto di tipo `dict` che annota la sequenza lettera per lettera. Le chiavi sono i nomi delle informazioni e i valori sono liste che forniscono le informazioni per ognuna delle lettere della sequenza
- `features`: oggetto di tipo `list` che contiene oggetti di tipo `SeqFeature` che forniscono le *features* annotate sulla sequenza
- `dbxrefs`: oggetto di tipo `list` che contiene oggetti di tipo `str` che forniscono le cross-references alle banche dati in cui è memorizzata la sequenza

La classe `SeqRecord` è il tipo di oggetto che viene manipolato dalle funzioni di input/output del modulo `SeqIO` di Biopython, che è il modulo per leggere/scrivere sequenze nei formati standard (`EMBL`,`FASTA`, `FASTQ`, etc.), .

### Costruzione di una sequenza annotata "da zero"

Di solito gli oggetti di tipo `SeqRecord` vengono ottenuti dalla lettura di un file in uno dei formati standard della Bioinformatica, ma una sequenza annotata può anche essere costruita da zero tramite il suo costruttore `SeqRecord()`, a cui può essere passato come argomento un oggetto di tipo `Seq`.

Costruire la sequenza annotata con sequenza primaria `AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA` nella variabile `annotated_sequence`.

In [None]:
annotated_sequence = SeqRecord(Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA'))

Stampare le sequenza.

In [None]:
print(annotated_sequence)

In [None]:
annotated_sequence.seq

In questo caso, solo l'attributo `seq` non è *unknown* e contiene la sequenza passata come argomento.

L'attributo `annotations` contiene un dizionario vuoto.

In [None]:
annotated_sequence.annotations

Assegnare all'attributo `annotations` il dizionario `{'type' : 'dna_molecule'}`.

In [None]:
annotated_sequence.annotations = {'type' : 'dna_molecule'}

L'attributo `letter_annotations` contiene un dizionario vuoto.

In [None]:
annotated_sequence.letter_annotations

L'attributo `features` contiene una lista vuota.

In [None]:
annotated_sequence.features

Associare a questo punto alla sequenza annotata l'identificatore univoco `AA00000` e il nome `AA00000`,

In [None]:
annotated_sequence.id = 'AA00000'
annotated_sequence.name = 'AA00000'

Aggiungere la descrizione `Questa e' una sequenza annotata di prova`.

In [None]:
annotated_sequence.description = "Questa e' una sequenza annotata di prova"

In [None]:
print(annotated_sequence)

Ottenere la sequenza primaria della sequenza annotata come oggetto di tipo `str`.

In [None]:
str(annotated_sequence)

Ottenere la prima base.

In [None]:
annotated_sequence[0]

Ottenere le prime dieci basi.

In [None]:
annotated_sequence[:10]

Ottenere la versione in minuscolo.

In [None]:
annotated_sequence.lower()

### Formattazione di una sequenza annotata

Il metodo `format()` degli oggetti di tipo `SeqRecord` restituisce la stringa ottenuta formattando la sequenza annotata invocante nel formato specificato dalla stringa passata come argomento.

Formattare in `FASTA` la sequenza annotata `annotated_sequence`.

In [None]:
annotated_sequence

In [None]:
print(annotated_sequence.format('fasta'))

## Il package `SeqIO`

`SeqIO` è il modulo per leggere/scrivere un file in uno dei formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.).

In [None]:
from Bio import SeqIO

Per vedere cosa contiene basta invocare la funzione `help()` passando come argomento il nome del modulo.

In [None]:
help(SeqIO)

### Funzioni principali

- `read()` legge un file composto da un solo *record* e restituisce un oggetto di tipo `SeqRecord`:

        read(file_name, format)

- `parse()` legge un file composto da più *record* e restituisce un generatore di oggetti di tipo `SeqRecord`:

        parse(file_name, format)
        
- `write()` scrive record di tipo `SeqRecord` in un file in un certo formato:

        write(records, file_name, format)

**ESERCIZIO1**: Leggere l'unico *record* del file `ENm006.fa`, che contiene una sequenza genomica di riferimento, e assegnarlo alla variabile `fasta_record`.

In [None]:
fasta_record = SeqIO.read('./ENm006.fa', 'fasta')

Produrre l'attributo `seq` dell'oggetto `SeqRecord` restituito.

In [None]:
fasta_record.seq

Ottenere la sequenza primaria come oggetto di tipo `str`.

In [None]:
str(fasta_record.seq)

Produrre l'attributo `id`.

In [None]:
fasta_record.id

Produrre l'attributo `name`.

In [None]:
fasta_record.name

Produrre l'attributo `description`.

In [None]:
fasta_record.description

Produrre l'attributo `annotations`.

In [None]:
fasta_record.annotations

Produrre l'attributo `letter_annotations`.

In [None]:
fasta_record.letter_annotations

Produrre l'attributo `features`.

In [None]:
fasta_record.features

Produrre l'attributo `dbxrefs`.

In [None]:
fasta_record.dbxrefs

Scrivere il record in un file in formato `embl` dopo essersi assicurati che l'alfabeto sia quello del DNA.

In [None]:
fasta_record.seq.alphabet = Bio.Alphabet.DNAAlphabet()
SeqIO.write(fasta_record, './prova.embl', 'embl')

**ESERCIZIO2**: Leggere i *record* del file `ests.fa`, contenente frammenti di trascritto (ESTs) relativi a un gene umano, e assegnarli al generatore `fasta_records_gen`.

In [None]:
fasta_records_gen = SeqIO.parse('./ests.fa', 'fasta')

I *record* (oggetti `SeqRecord`) possono essere estratti uno alla volta dal generatore tramite scansione con un ciclo `for`.

Stampare uno dopo l'altro i *record* separandoli con la stringa `//`.

In [None]:
for r in fasta_records_gen:
    print(r)
    print('//')

In alternativa, i *record* possono essere estratti in una lista (da processare in seguito) invocando la funzione `list()` e passando come argomento il generatore stesso.

**NB**: una volta che il generatore è stato *consumato*, esso risulta vuoto. Quindi prima di costruire la lista occorre invocare di nuovo il metodo `parse()` per ricostruirlo.

In [None]:
fasta_record_gen = SeqIO.parse('ests.fa', 'fasta')

Ottenere dal generatore la lista dei *record* e assegnarla alla variabile `fasta_record_list`.

In [None]:
fasta_record_list = list(fasta_record_gen)

In [None]:
fasta_record_list

Ottenere il numero dei *record* (numero degli ESTs) contenuti nel file `ests.fa`.

In [None]:
len(fasta_record_list)

Estrarre per il primo EST:

- la sequenza primaria (come oggetto di tipo `str`)

In [None]:
str(fasta_record_list[0].seq)

- l'identificatore univoco

In [None]:
fasta_record_list[0].id

- il nome

In [None]:
fasta_record_list[0].name

- la descrizione

In [None]:
fasta_record_list[0].description

Ottenere la formattazione `FASTA` del primo EST e stamparla.

In [None]:
print(fasta_record_list[0].format('fasta'))

**ESERCIZIO3**: leggere il file `input.fq`, che contiene quattro reads in formato `FASTQ`, e assegnarli alla variabile `fastq_records`.

In [None]:
fastq_records = SeqIO.parse('./input.fq', 'fastq')

Ottenere la lista dei *records* (come oggetto di tipo `list`) e assegnarla alla variabile `fastq_record_list`.

In [None]:
fastq_record_list = list(fastq_records)

Ottenere la sequenza primaria (come oggetto di tipo `str`) del primo *record* (read).

In [None]:
str(fastq_record_list[0].seq)

Ottenere l'identificatore del primo *record*.

In [None]:
fastq_record_list[0].id

Ottenere il dizionario delle annotazioni per lettera del primo *record*.

In [None]:
fastq_record_list[0].letter_annotations

Ottenere la formattazione in `FASTQ` del primo *record* e stamparla.

In [None]:
print(fastq_record_list[0].format('fastq'))

**ESERCIZIO4**: leggere l'unico record del file `M10051.txt`, che contiene una sequenza di mRNA in formato `EMBL`, e assegnarlo alla variabile `embl_record`.

In [None]:
embl_record = SeqIO.read('./M10051.txt', 'embl')

Ottenere la sequenza primaria del record (come oggetto di tipo `str`).

In [None]:
str(embl_record.seq)

Produrre tutti gli attributi del record.

In [None]:
embl_record.id

In [None]:
embl_record.name

In [None]:
embl_record.description

In [None]:
embl_record.annotations

In [None]:
embl_record.letter_annotations

In [None]:
embl_record.features

In [None]:
embl_record.dbxrefs

L'attributo `features` fornisce una lista di oggetti di tipo `SeqFeature` che rappresentano le *features* annotate sulla sequenza.

Un oggetto di tipo `SeqFeature` possiede i seguenti attributi:
- `type`: stringa che definisce il tipo di *feature* rappresentata
- `location`: oggetto di tipo `FeatureLocation` che fornisce la localizzazione della *feature* sulla sequenza

Un oggetto di tipo `FeatureLocation` possiede a sua volta i seguenti attributi:
- `start`: oggetto di tipo `ExactPosition` che fornisce lo start della localizzazione
- `end`: oggetto di tipo `ExactPosition` che fornisce l'end della localizzazione

La *feature* con `type` uguale a `CDS` rappresenta la coding sequence della sequenza. 

Accedere quindi al terzo oggetto della lista delle *features* (cioé la coding sequence della sequenza di mRNA) e recuperare lo start e l'end della coding sequence.

In [None]:
cds_start = int(embl_record.features[2].location.start)

In [None]:
cds_end = int(embl_record.features[2].location.end)

**NB**: la start position viene fornita 0-based mentre l'end position viene fornita 1-based.

Effettuare lo slicing della sequenza per ottenere la coding sequence.

In [None]:
cds_sequence = embl_record[cds_start:cds_end]

Formattare la coding sequence in formato `FASTA` e stamparla.

In [None]:
print(cds_sequence.format('fasta'))