# Biopython

Biopython è un open-source package che mette a disposizione i package che contengono i moduli per usare Python in applicazioni bioinformatiche.

Package principale di Biopython: `Bio`

Installare il package `Bio`.

In [None]:
!conda install -y -c conda-forge biopython

Importare il package `Bio`.

Per vedere cosa contiene basta usare la funzione `help()` e passare come argomento il nome del package.

## Cosa vedremo

- gli oggetti di tipo `Seq` e `MutableSeq` che rappresentano una sequenza biologica (DNA, RNA o proteina)
- l'oggetto di tipo `SeqRecord` che rappresenta una sequenza biologica annotata
- il package `Bio.SeqIO` che mette a disposizione l'interfaccia di input/output per una serie di formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.)

## Gli oggetti di tipo  `Seq` e `MutableSeq`

Le classi `Seq` e `MutableSeq` appartengono al modulo `Seq` (del package `Bio`) che è il modulo che definisce le classi per manipolare sequenze biologiche.

Importare il package `Seq`.

In [6]:
from Bio import Seq

Per vedere cosa contiene basta usare la funzione `help()` e passare come argomento il nome del package.

Importare le due classi `Seq` e `MutableSeq`.

Per vedere cosa contengono basta usare la funzione `help()` e passare come argomento il nome delle classi.

Gli oggetti di tipo `Seq` sono immutabili, mentre quelli di tipo `MutableSeq` sono mutabili.

### Costruzione di un oggetto di tipo `Seq`

Il costruttore `Seq()` prende come argomento la stringa di una sequenza primaria (oggetto `str`):
    
       Seq(primary_string)
     
e restituisce l'oggetto che rappresenta la sequenza biologica che ha `primary_string` come sequenza primaria.

**ESERCIZIO**: costruire l'oggetto sequenza `my_seq1` che ha sequenza primaria `GTGGATTGCCGGAAATTT`.

Si stampi con la funzione `print()` la sequenza primaria.

Per convertire l'oggetto di tipo `Seq` in un oggetto di tipo `str` basta invocare la funzione `str()` con `my_seq1` come argomento.

### Lunghezza di una sequenza

La funzione `len()` restituisce la lunghezza della sequenza passata come argomento.

**ESERCIZIO**: ottenere la lunghezza della sequenza `my_seq1`

### Qualche metodo degli oggetti di tipo `Seq`

- I metodi `lower()` e `upper()` restituiscono la versione in minuscolo e in maiuscolo della sequenza invocante.

**ESERCIZIO**: ottenere la versione in minuscolo della sequenza `my_seq1`.

- Il metodo `find()` restituisce la prima occorrenza di una data sottostringa nella sequenza invocante.

**ESERCIZIO**: produrre la prima occorrenza di `GATT` nella sequenza `my_seq1`.

- Il metodo `count()` restituisce il numero di occorrenze non sovrapposte di una data sottostringa nella sequenza invocante.

**ESERCIZIO**: creare la sequenza `AAAAAA` nella variablile `my_seq2` e contare il numero di occorrenze non sovrapposte di `AAA`.

**NB**: il metodo `count` degli oggetti `Seq` ha lo stesso comportamento del metodo `count` degli oggetti `str`.

- Il metodo `count_overlap()` restituisce il numero di occorrenze sovrapposte di una data sottostringa nella sequenza invocante.

**ESERCIZIO**: contare il numero di occorrenze sovrapposte di `AAA` nella sequenza `my_seq2`.

- Il metodo `tomutable()` restituisce una copia mutabile (oggetto di tipo `MutableSeq`) della sequenza invocante.

**ESERCIZIO**: creare nella variabile `my_m_seq` una sequenza mutabile a partire dalla sequenza immutabile che ha sequenza primaria `ACTTTGAAAG`.

### Accesso alla sequenza

L'espressione:

    my_seq[index]
    
restituisce il carattere alla posizione di indice `index` della sequenza `my_seq`. L'oggetto restituito è di tipo `str`.

**ESERCIZIO**: accedere al quarto carattere della sequenza `my_seq1` dopo averla stampata con la funzione `print()`.

L'espressione di *slicing*:

    my_seq[start:end:step]
    
restituisce i caratteri della sequenza `my_seq` a partire dalla posizione di indice `start` fino alla posizione immediatamente prima a quella di indice `end`, con un passo `step`. L'oggetto restituito è in questo caso di tipo `Seq`.

**ESERCIZIO**: accedere alla sottosequenza di `my_seq1` che va dal quinto al decimo carattere.

**ESERCIZIO**: ottenere tramite un'operazione di *slicing* il reverse di `my_seq1`.

### Verifica della presenza di una sottostringa in una sequenza

L'espressione:

    my_str in my_seq

restituisce `True` se la stringa `my_str` occorre nella sequenza `my_seq`

**ESERCIZIO**: verificare la presenza della stringa `CC` nella sequenza `my_seq1` dopo averla stampata con la funzione `print()`.

### Attraversamento di una sequenza

L'operatore `in` può essere utilizzato per attraversare i caratteri di una sequenza, nel seguente modo:

    for my_char in my_seq:
        do_something    

**ESERCIZIO**: attraversare la sequenza `my_seq1` e stampare ogni singolo carattere.

### Concatenazione di sequenze

L'operatore `+` permette di concatenare sequenze.

**ESERCIZIO**: concatenare due sequenze di DNA uguali a `ACGT`.

### Ripetizione di sequenze

L'operatore `*` permette di ripetere sequenze.

**ESERCIZIO**: ripetere due sequenze di DNA uguali a `ACGT`.

### Confronto tra sequenze

L'espressione:

    my_seq1 == my_seq2
    
restituisce `True` se la sequenza primaria di `my_seq1` è uguale a quella di `my_seq2`.

**ESERCIZIO**: confrontare due sequenze con sequenza primaria `ACGT`.

### Complement e Reverse&Complement di una sequenza di DNA o di RNA

- Il metodo `complement()` restituisce il complemento della sequenza invocante, e tiene conto dell'alfabeto ambiguo di DNA e di RNA (IUPAC CODE).

L'alfabeto ambiguo di DNA o di RNA è `{G,A,T|U,C,R,Y,W,S,M,K,H,B,V,D,N}` con `T` se DNA e `U` se RNA. Cioè è l'estensione dell'alfabeto dei quattro nucleoitidi con lettere che rappresentano ambiguità tra nucleotidi.
Precisamente:

    
    R 	A or G
    Y 	C or T|U
    S 	G or C
    W 	A or T|U
    K 	G or T|U
    M 	A or C
    B 	C or G or T|U
    D 	A or G or T|
    H 	A or C or T|U
    V 	A or C or G
    N 	any base

**ESERCIZIO**: costruire nella variabile `my_seq3` la sequenza `ACGTGAGGACCCTTT`, e ottenere il suo complement.

**ESERCIZIO**: costruire nella variabile `my_seq4` la sequenza `BBBB`, e ottenere il suo complement.

**NOTA BENE:** il complemento della sequenza `BBBB` è `VVVV` in quanto il carattere `B` nello IUPAC CODE codifica l'ambiguità tra `C`, `G` e `T|U`. Di conseguenza il suo complemento sarà l'ambiguità tra `G`, `C` e `A` codificata dal carattere `V`.

- Il metodo `reverse_complement()` restituisce il reverse&complement della sequenza invocante.

**ESERCIZIO**: costruire nella variabile `my_seq5` la sequenza `AAACCCTTTGGG`, e ottenere il suo reverse&complement.

### Trascrizione di una sequenza di DNA

- Il metodo `transcribe()` restituisce il risultato della trascrizione della sequenza di DNA invocante, intesa come sostituzione di tutti i caratteri `T` con caratteri `U`.

**ESERCIZIO**: costruire nella variabile `my_seq6` la sequenza `ACGTGAGGACCCTTT`, e ottenere la sua trascrizione.

- Il metodo `back_transcribe()` restituisce il risultato della retrotrascrizione della sequenza di RNA invocante, intesa come sostituzione di tutti i caratteri `U` con caratteri `T`.

**ESERCIZIO**: costruire nella variabile `my_seq7` la sequenza `ACGUGAGGACCCUUU`, e ottenere la sua retrotrascrizione.

### Traduzione di una sequenza di DNA o di RNA

- Il metodo `translate()` restituisce il risultato della traduzione della sequenza di DNA o di RNA invocante secondo il codice genetico. La lunghezza della sequenza invocante deve essere un multiplo di tre.

**ESERCIZIO**: ottenere la traduzione della sequenza `my_seq7` dopo averla stampata con la funzione `print()`. 

**NOTA BENE**: il simbolo `*` indica che il secondo codone è uno stop codon.

**ESERCIZIO**: costruire nella variabile `my_seq8` la sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG`, e ottenere la sua traduzione.

Passando al metodo `translate()` l'attributo `to_stop` uguale a `True` (di *default* il metodo assume che l'attributo `to_stop` sia `False`), la traduzione viene fermata al primo codone di stop incontrato.

**ESERCIZIO**: ottenere la traduzione di `my_seq8` fino al primo codone di stop.

Il metodo `translate()` usa di *default* il codice genetico standard.

Se si vogliono usare codici differenti allora deve essere specificato il valore dell'attributo `table` che può essere scelto tra uno degli indici interi definiti da NCBI (https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi) che identifica un codice genetico tra quelli disponibili. L'indice 1 (valore di *default*) è relativo al codice standard.

**ESERCIZIO**: ottenere la traduzione della sequenza `my_seq8` sulla base del codice genetico mitocondriale (`table=2`).

### Sequenze mutabili

Le sequenze mutabili sono oggetti di tipo `MutableSeq`.

**ESERCIZIO**: creare la sequenza mutabile `my_m_seq` con sequenza primaria `ACTTTGAAAG`, stamparla, cambiare il primo carattere in una `T` e stamparla di nuovo.

### Qualche metodo degli oggetti di tipo `MutableSeq`

- Il metodo `remove()` rimuove dalla sequenza invocante la prima occorrenza del carattere passato come argomento.

**ESERCIZIO**: rimuovere da `my_m_seq` la prima occorrenza di `C`.

- Il metodo `reverse()` opera il reverse sulla sequenza invocante.

**ESERCIZIO**: operare il reverse su `my_m_seq`.

- Il metodo `complement()` opera il complement sulla sequenza invocante.

**ESERCIZIO**: operare il complement su `my_m_seq`.

- Il metodo `reverse_complement()` opera il reverse&complement sulla sequenza invocante.

**ESERCIZIO**: operare il reverse&complement su `my_m_seq`.

- Il metodo `toseq()` restituisce una copia immutabile (oggetto di tipo `Seq`) della sequenza invocante.

**ESERCIZIO**: ottenere da `my_m_seq` un oggetto di tipo `Seq`.

## L'oggetto di tipo `SeqRecord`

La classe `SeqRecord` appartiene al modulo `SeqRecord` (del package `Bio`) ed è la classe che permette di rappresentare e manipolare sequenze annotate.

Importare il package `SeqRecord`.

Per vedere cosa contiene basta invocare la funzione `help()` passando come argomento il nome del package.

La classe `SeqRecord` rappresenta una sequenza annotata, cioè un oggetto di tipo `Seq` con l'aggiunta di informazioni.

Importare la classe `SeqRecord`.

Per vedere cosa contiene basta invocare la funzione `help()` passando come argomento il nome della classe.

Gli oggetti di tipo `SeqRecord` contengono i seguenti attributi:

- `seq`: oggetto di tipo `Seq` che rappresenta la sequenza biologica
- `id`: oggetto di tipo `str` che fornisce l'identificatore univoco (*Accession Number*)
- `name`: oggetto di tipo `str` che fornisce il nome della sequenza (può anche essere l'*Accession Number* stesso)
- `description`: oggetto di tipo `str` che fornisce la descrizione della sequenza
- `annotations`: oggetto di tipo `dict` che fornisce le informazioni sulla sequenza. Le chiavi sono i nomi delle informazioni e i valori sono le informazioni associate
- `letter_annotations`: oggetto di tipo `dict` che annota la sequenza lettera per lettera. Le chiavi sono i nomi delle informazioni e i valori sono liste che forniscono le informazioni per ognuna delle lettere della sequenza
- `features`: oggetto di tipo `list` che contiene oggetti di tipo `SeqFeature` che forniscono le *features* annotate sulla sequenza
- `dbxrefs`: oggetto di tipo `list` che contiene oggetti di tipo `str` che forniscono le cross-references alle banche dati in cui è memorizzata la sequenza

La classe `SeqRecord` è il tipo di oggetto che viene manipolato dalle funzioni di input/output contenute nel modulo `SeqIO` in relazione ai vari formati standard supportati (`EMBL`,`FASTA`, `FASTQ`, etc.), .

### Costruzione di una sequenza annotata *from scratch*

Di solito gli oggetti di tipo `SeqRecord` vengono ottenuti dalla lettura di un file in uno dei formati standard della Bioinformatica, ma una sequenza annotata può anche essere costruita da zero tramite il suo costruttore `SeqREcord()`, a cui può essere passato come argomento un oggetto di tipo `Seq`.

**ESERCIZIO**: costruire la sequenza annotata `annotated_sequence` con sequenza primaria `AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA`.

Si stampi l'oggetto usando la funzione `print()`

**NOTA BENE**: solo l'attributo `seq` non è *unknown* e contiene la sequenza (oggetto `Seq`) passata come argomento.

L'attributo `annotations` contiene un dizionario delle annotazioni vuoto.

L'attributo `letter_annotations` contiene un dizionario delle annotazioni per lettera vuoto.

L'attributo `features` contiene una lista delle features vuota.

Si associ a questo punto alla sequenza annotata l'identificatore univoco `AA00000` e il nome `AA00000`,

e la descrizione `Questa e' una sequenza annotata di prova`.

Si ottenga la sequenza primaria della sequenza annotata come oggetto di tipo `str`.

### Formattazione di una sequenza annotata

Il metodo `format()` degli oggetti di tipo `SeqRecord` restituisce la stringa ottenuta formattando la sequenza annotata invocante nel formato specificato dalla stringa passata come argomento.

**ESERCIZIO**: formattare in `FASTA` la sequenza annotata `annotated_sequence` dopo averla stampata con la funzione `print()`.

Stampare la sequenza formattata usando la funzione `print()`.

## Il package `SeqIO`

`SeqIO` è il package per leggere/scrivere un file in un uno dei formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.).

Importare il package `SeqIO`.

Per vedere cosa contiene basta invocare la funzione `help()` passando come argomento il nome del package.

- La funzione `read()` permette di leggere un file in un certo formato e composto da un solo *record* (ad esempio una sola sequenza nel caso di `FASTA`). Il nome del file viene passato come primo argomento e il formato viene passato come secondo argomento (oggetto di tipo `str`). Viene restituito un oggetto di tipo `SeqRecord`.

- La funzione `parse()` permette di leggere un file in un certo formato e composto da più *record* (ad esempio più sequenze nela caso di `FASTA`. Il nome del file viene passato come primo argomento e il formato viene passato come secondo argomento (oggetto di tipo `str`). La Viene restituito un generatore di oggetti di tipo `SeqRecord`.

**ESERCIZIO**: leggere nella variabile `fasta_record` l'unico *record* del file `ENm006.fa` che contiene una sequenza genomica di riferimento. Stamparlo con la funzione `print()`.

Stampare l'attributo `seq` dell'oggetto `fasta_record` che contiene il riferimento alla sequenza (oggetto di tipo `Seq`) contenuta nel *record*.

Per recuperare la sequenza primaria (come oggetto di tipo `str`) basta invocare la funzione `str()` passando l'attributo `seq` di `fasta_record` come argomento.

Gli attributi dell'oggetto di `fasta_record` sono:

    id

    name

    description

    annotations

    letter_annotations

    features

    dbxrefs

**ESERCIZIO**: leggere nella variabile `fasta_records` i *record* del file `ests.fa` contenente frammenti di trascritto (ESTs) relativi a un gene umano.

I *record* (oggetti `SeqRecord`) possono essere estratti uno alla volta dal generatore `fasta_records` mediante scansione con un ciclo `for`.

Stampare uno dopo l'altro i *record* in `fasta_records` separandoli con la stringa `//`.

In alternativa, i *record* possono essere estratti in una volta sola in una lista (da processare in seguito) invocando la funzione `list()` e passando come argomento il generatore stesso.

**NOTA BENE**: una volta che il generatore è stato *consumato*, esso risulta vuoto. Quindi prima di costruire la lista occorre invocare di nuovo il metodo `parse()` per ricostituirlo.

Costruire la lista `fasta_record_list` (oggetto di tipo `list`) dei *record* (oggetti di tipo `SeqRecord`) del generatore `fasta_records`.

Il numero dei *record* (numero degli ESTs) contenuti nel file `ests.fa` è:

A questo punto, estrarre per il primo EST:

- la sequenza primaria (come oggetto di tipo `str`)

- l'identificatore univoco (in un oggetto di tipo `str`)

- il nome (in un oggetto di tipo `str`)

- la descrizione (in un oggetto di tipo `str`)

Ottenere la formattazione `FASTA` del primo EST e stamparla con la funzione `print()`.

**ESERCIZIO**: leggere nella variabile `fastq_records` il file `input.fq` che contiene quattro reads in formato `FASTQ`.

Ottenere la lista `fastq_record_list` dei *records* (oggetto di tipo `list`).

La sequenza primaria (oggetto di tipo `str`) del primo *record* (read) è:

L'identificatore del primo *record* è:

Accedere al dizionario delle annotazioni per lettera del primo *record*.

Ottenere la formattazione in `FASTQ` del primo *record* e stamparla con la funzione `print()`.

Ottenere la formattazione in `FASTA` del primo *record* (accettando di perdere la stringa di qualità) e stamparla con la funzione `print()`.

**ESERCIZIO**: leggere nella variabile `embl_record` l'unico record del file `M10051.txt` che contiene una sequenza di mRNA in formato `EMBL`.

L'attributo `seq` dell'oggetto `embl_record` contiene il riferimento alla sequenza (oggetto di tipo `Seq`).

La sequenza primaria (oggetto di tipo `str`) del *record* è:

Gli attributi del *record* sono:

L'attributo `features` fornisce in questo caso una lista di oggetti di tipo `SeqFeature` che rappresentano le *features* del *record*.

Un oggetto di tipo `SeqFeature` possiede i seguenti attributi:
- `type`: stringa che definisce il tipo di *feature* rappresentata
- `location`: oggetto di tipo `FeatureLocation` che fornisce la localizzazione della *feature* sulla sequenza cui si fa riferimento

Un oggetto di tipo `FeatureLocation` possiede a sua volta i seguenti attributi:
- `start`: oggetto di tipo `ExactPosition` che fornisce lo start della localizzazione
- `end`: oggetto di tipo `ExactPosition` che fornisce l'end della localizzazione

La *feature* con attributo `type` uguale a `CDS` rappresenta la coding sequence della sequenza (terzo oggetto nella lista delle *features*). 

Accedere quindi al terzo oggetto della lista delle *features* (cioé la coding sequence della sequenza che è un mRNA), recuperare il suo start e il suo end come valori interi e produrre la sequenza della coding sequence in formato `FASTA`. Stampare lo start e l'end trovati

Lo start viene fornito 0-based mentre l'end viene fornito 1-based in maniera che siano già pronti per effettuare lo *slicing* della sequenza annotata `embl_record` (oggetto `SeqRecord`) e ottenere così la sequenza annotata (oggetto `SeqRecord`) della coding sequence.

A questo punto la coding sequence può essere formattata in `FASTA` e stampata.