# Biopython

Biopython è una libreria che mette a disposizione funzionalità in ambito bioinformatico, principalmente:

- manipolare sequenze
- leggere i formati standard (ad esempio `EMBL`, `FASTA`, `FASTQ`)
- accedere a banche dati.

Importare `Bio`.

In [None]:
import Bio

## Quali classi vedremo?

- `Seq` e `MutableSeq` per rappresentare una sequenza primaria (DNA, RNA o proteina)
- `SeqRecord`  per rappresentare una sequenza primaria con annotazione
- `SeqIO`,  interfaccia di input/output per formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.)

## Classi `Seq` e `MutableSeq`

`Seq` rappresenta una sequenza immutabile, mentre `MutableSeq` rappresenta una sequenza mutabile.

Importare le due classi `Seq` e `MutableSeq`, che appartengono al modulo `Seq` (del package `Bio`) che definisce le classi per manipolare sequenze primarie.

In [None]:
from Bio.Seq import Seq

In [None]:
from Bio.Seq import MutableSeq

## Costruzione di una sequenza primaria con `Seq`

    
       Seq(string)
     
---

**Esercizio**: costruire la sequenza primaria `GTGGATTGCCGGAAATTT`.

In [None]:
primary_seq1 = Seq('GTGGATTGCCGGAAATTT')

In [None]:
str(primary_seq1)

## Lunghezza di una sequenza primaria

    len(primary_seq)
    
---

**Esercizio**: ottenere la lunghezza della sequenza primaria

In [None]:
len(primary_seq1)

## Metodi degli oggetti  `Seq`

- `lower()` e `upper()` restituiscono la versione in minuscolo e in maiuscolo della sequenza invocante.

**Esercizio**: ottenere la versione in minuscolo.

In [None]:
primary_seq1.lower()

- `find()` restituisce la prima occorrenza di una sottostringa nella sequenza invocante.

**Esercizio**: produrre la prima occorrenza di `GATT`.

In [None]:
primary_seq1.find('GATT')

- `count()` restituisce il numero di occorrenze non sovrapposte di una data sottostringa nella sequenza invocante.

**Esercizio**: contare il numero di occorrenze non sovrapposte di `AAA` nella sequenza primaria `AAAAAAA`.

In [None]:
Seq('AAAAAAA').count('AAA')

- `count_overlap()` restituisce il numero di occorrenze sovrapposte di una data sottostringa nella sequenza invocante.

**Esercizio**: contare il numero di occorrenze sovrapposte di `AA` nella sequenza primaria `AAAAAAA`.

In [None]:
Seq('AAAAAAA').count_overlap('AAA')

## Accesso alla sequenza primaria


    primary_seq[index]
    
restituisce il carattere alla posizione `index` della sequenza `primary_seq`.

---

**Esercizio**: accedere al quarto carattere.

In [None]:
primary_seq1[3]


    primary_seq[start:end]
    
restituisce la sequenza primaria ottenuta effetuando lo *slicing*.

---

**Esercizio**: accedere alla sottosequenza che va dal quinto al decimo carattere.

In [None]:
primary_seq1[4:10]

**Esercizio**: ottenere il reverse.

In [None]:
primary_seq1[::-1]

## Verifica della presenza di una sottostringa in una sequenza


    my_str in primary_seq

restituisce `True` se la stringa `my_str` occorre nella sequenza `primary_seq`

---

**Esercizio**: verificare la presenza di `CC`.

In [None]:
'CC' in primary_seq1

## Attraversamento di una sequenza


    for c in primary_seq:
        do_something    

---

**Esercizio**: attraversare la sequenza e stampare ogni singolo carattere.

In [None]:
for c in primary_seq1:
    print(c)

## Concatenazione di sequenze

L'operatore `+` permette di concatenare sequenze.

---

**Esercizio**: concatenare `ACGT` con `GGGGG`.

In [None]:
Seq('ACGT') + Seq('GGGGG')

## Ripetizione di sequenze

L'operatore `*` permette di ripetere sequenze.

---

**Esercizio**: ripetere 50 volte la sequenza `ACGT`.

In [None]:
Seq('ACGT') * 50

## Complement e Reverse&Complement di una sequenza primaria
    
- Il metodo `complement()` restituisce il complemento della sequenza invocante.

---

**Esercizio**: ottenere il complemento della sequenza `ACGTGAGGACCCTTT`.

In [None]:
Seq('ACGTGAGGACCCTTT').complement()

- Il metodo `reverse_complement()` restituisce il reverse&complement della sequenza invocante.

**Esercizio**: ottenere il reverse&complement della sequenza `ACGTGAGGACCCTTT`.

In [None]:
Seq('ACGTGAGGACCCTTT').reverse_complement()

**NOTA BENE**`: complement()` e `reverse_complement()` tengono conto dell'alfabeto esteso di DNA e di RNA (IUPAC CODE). L'alfabeto esteso di DNA o di RNA, oltre alle quattro lettere `A`, `C`, `G`, `T|U` e aggiunge lettere che rappresentano ambiguità tra basi.

    R 	A or G
    Y 	C or T|U
    S 	G or C
    W 	A or T|U
    K 	G or T|U
    M 	A or C
    B 	C or G or T|U
    D 	A or G or T|U
    H 	A or C or T|U
    V 	A or C or G
    N 	any base
    
---

**Esercizio**: ottenere il complemento della sequenza primaria `BBBB`.

In [None]:
Seq('BBBB').reverse_complement()

## Trascrizione di una sequenza primaria di DNA

- Il metodo `transcribe()` restituisce il risultato della trascrizione della sequenza di DNA invocante, intesa come sostituzione di ogni carattere `T` con un carattere `U`.

---

**Esercizio**: ottenere la trascrizione della sequenza primaria `ACGTGAGGACCCTTT`.

In [None]:
Seq('ACGTGAGGACCCTTT').transcribe()

## Retrotrascrizione di una sequenza primaria di RNA

- Il metodo `back_transcribe()` restituisce il risultato della retrotrascrizione della sequenza di RNA invocante, intesa come sostituzione di ogni carattere `U` con un carattere `T`.

---

**Esercizio**: ottenere la retrotrascrizione della sequenza primaria `ACGUGAGGACCCUUU`.

In [None]:
Seq('ACGUGAGGACCCUUU').back_transcribe()

## Traduzione di una sequenza primaria

- Il metodo `translate()` restituisce il risultato della traduzione della sequenza di DNA o di RNA invocante secondo il codice genetico.

**NB:** la lunghezza della sequenza invocante deve essere un multiplo di tre.

---

**Esercizio**: ottenere la traduzione della sequenza `ACGUGAGGACCCUUU`. 

In [None]:
Seq('ACGUGAGGACCCUUU').translate()

**Esercizio**: ottenere la traduzione della sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG`.

In [None]:
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG').translate(to_stop = True)

## Sequenze mutabili di tipo `MutableSeq`

**Esercizio**: creare la sequenza mutabile `ACTTTGAAAG`.

In [None]:
MutableSeq('ACTTTGAAAG')

## Metodi degli oggetti di tipo `MutableSeq`

- `remove()` rimuove dalla sequenza invocante la prima occorrenza del carattere passato come argomento.

---

**Esercizio**: costruire la sequenza mutabile `AACAAAACCCTTTGGG` e rimuovere poi la prima occorrenza di `C`.

In [None]:
primary_seq2 = MutableSeq('AACAAAACCCTTTGGG')

In [None]:
primary_seq2

In [None]:
primary_seq2.remove('C')

In [None]:
primary_seq2

- `reverse()` effettua il reverse sulla sequenza invocante.

**Esercizio**: invertire la sequenza.

In [None]:
primary_seq2.reverse()

In [None]:
primary_seq2

- `complement(inplace = True)` effettua il complement della sequenza invocante.

**Esercizio**: eseguire il complemento.

In [None]:
primary_seq2.complement(inplace = True)

In [None]:
primary_seq2

- `reverse_complement(inplace = False|True)` effettua il reverse&complement della sequenza invocante.

**Esercizio**: eseguire il reverse&complement.

In [None]:
primary_seq2.reverse_complement(inplace = False|True)

In [None]:
primary_seq2

---

## Classe `SeqRecord` per rappresentare una sequenza annotata

La classe `SeqRecord` rappresenta una sequenza annotata = oggetto `Seq` + informazioni + annotazioni.

`SeqRecord` è il tipo di oggetto che viene manipolato dalle funzioni di input/output del modulo `SeqIO`.

---

Importare la classe `SeqRecord` che appartiene al modulo `SeqRecord` del package `Bio`.

In [None]:
from Bio.SeqRecord import SeqRecord

**Esercizio**: costruire "da zero" una sequenza annotata con sequenza primaria `AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA`.

In [None]:
annotated_seq = SeqRecord(Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA'))

In [None]:
annotated_seq

Attributo `seq` (sequenza primaria):

In [None]:
annotated_seq.seq

Attributo `id` (identificatore della sequenza):

In [None]:
annotated_seq.id

Attributo `name` (nome della sequenza):

In [None]:
annotated_seq.name

Attributo `description` (descrizione della sequenza):

In [None]:
annotated_seq.description

Attributo `annotations` (dizionario delle annotazioni):

In [None]:
annotated_seq.annotations

Attributo `letter_annotations` (dizionario delle annotazioni per lettera):

In [None]:
annotated_seq.letter_annotations

Attributo `features` (lista delle *feaatures*)

In [None]:
annotated_seq.features

Attributo `dbxrefs` (lista delle cross-references):

In [None]:
annotated_seq.dbxrefs

Convertire la sequenza annotata in una stringa.

In [None]:
print(str(annotated_seq))

Accedere alla prima base della sequenza.

In [None]:
annotated_seq[0]

Accedere alla prime dieci basi della sequenza con un'operazione di *slicing*.

In [None]:
annotated_seq[:10]

Ottenere la versione in minuscolo.

In [None]:
annotated_seq.lower()

## Formattare una sequenza annotata

Il metodo `format()` restituisce la stringa ottenuta formattando la sequenza annotata invocante nel formato specificato dalla stringa passata come argomento.

---

**Esercizio**: formattare in `FASTA` la sequenza annotata.

In [None]:
print(annotated_seq.format('fasta'))

---

## Il package `SeqIO`

`SeqIO` è il package per input/output in uno dei formati standard (ad esempio `EMBL`, `FASTA`, `FASTQ`).

In [None]:
from Bio import SeqIO

## Funzioni principali di `SeqIO`

- `read()` legge un file composto da un solo *record* e restituisce un oggetto `SeqRecord`:

        read(file_name, format)

- `parse()` legge un file composto da più *record* e restituisce un generatore di oggetti `SeqRecord`:

        parse(file_name, format)
        
- `write()` scrive oggetti `SeqRecord` in un file in un certo formato:

        write(records, file_name, format)

---

**Esercizio**: leggere l'unico *record* del file `ENm006.fa`.

In [None]:
fasta_record = SeqIO.read('./ENm006.fa', 'fasta')

In [None]:
fasta_record

Ottenere la sequenza primaria come stringa.

In [None]:
str(fasta_record.seq)

Ottenere l'identificatore.

In [None]:
fasta_record.id

Ottenere il nome.

In [None]:
fasta_record.name

Ottenere la descrizione.

In [None]:
fasta_record.description

Ottenere le annotazioni.

In [None]:
fasta_record.annotations

Ottenere le annotazioni per lettera.

In [None]:
fasta_record.letter_annotations

Ottenere le *features*.

In [None]:
fasta_record.features

Salvare il record in un file in formato `embl`.

In [None]:
fasta_record.annotations['molecule_type'] = 'DNA'

In [None]:
fasta_record.annotations

In [None]:
SeqIO.write(fasta_record, './prova.embl', 'embl')

---

**Esercizio**: leggere i *record* del file `ests.fa`, contenente frammenti di trascritto (Expressed Sequence Tags, ESTs).

In [None]:
fasta_record_gen = SeqIO.parse('./ests.fa', 'fasta')

Ottenere dal generatore la lista dei *record*.

In [None]:
fasta_record_list = list(fasta_record_gen)

Estrarre per il primo EST.

In [None]:
first_est = fasta_record_list[0]

Estrarre la sua sequenza primaria come stringa.

In [None]:
str(first_est.seq)

Estrarre l'identificatore.

In [None]:
first_est.id

Estrarre il nome.

In [None]:
first_est.name

Estrarre la descrizione

In [None]:
first_est.description

Formattare in `FASTA`.

In [None]:
print(first_est.format('fasta'))

---

**Esercizio**: leggere il file `SRR18961685-5000.fastq`.

In [None]:
fastq_record_gen = SeqIO.parse('./SRR18961685-5000.fastq', 'fastq')

Ottenere la lista dei *records* (oggetto di tipo `list`).

In [None]:
fastq_record_list = list(fastq_record_gen)

Ottenere il primo *read*.

In [None]:
first_read = fastq_record_list[0]

Ottenere la sequenza primaria come stringa.

In [None]:
str(first_read.seq)

Ottenere l'identificatore.

In [None]:
first_read.id

Ottenere il dizionario delle annotazioni per lettera.

In [None]:
first_read.letter_annotations

Ottenere la formattazione in `FASTA`.

In [None]:
print(first_read.format('fasta'))

---

**Esercizio**: leggere l'unico record del file `M10051.txt`, che contiene una sequenza di mRNA in formato `embl`.

In [None]:
embl_record = SeqIO.read('./M10051.txt', 'embl')

Ottenere la sequenza primaria.

In [None]:
str(embl_record.seq)

Ottenere tutti gli attributi.

In [None]:
embl_record.id

In [None]:
embl_record.name

In [None]:
embl_record.description

In [None]:
embl_record.annotations

In [None]:
embl_record.letter_annotations

In [None]:
embl_record.dbxrefs

In [None]:
embl_record.features

L'attributo `features` fornisce una lista di oggetti di tipo `SeqFeature` che rappresentano le *features* annotate sulla sequenza.

Un oggetto di tipo `SeqFeature` ha gli attributi:
- `type`: stringa che definisce il tipo di *feature* rappresentata
- `location`: oggetto di tipo `SimpleLocation` che fornisce la localizzazione della *feature* sulla sequenza

Un oggetto di tipo `SimpleLocation` possiede a sua volta i seguenti attributi:
- `start`: oggetto di tipo `ExactPosition` che fornisce lo start della localizzazione
- `end`: oggetto di tipo `ExactPosition` che fornisce l'end della localizzazione

La *feature* con `type` uguale a `CDS` rappresenta la coding sequence della sequenza. 

---

**Esercizio**: accedere al terzo oggetto della lista delle *features* (cioé la coding sequence della sequenza) e recuperare lo start e l'end della coding sequence.

In [None]:
cds_feature = embl_record.features[2]

Estrarre la coding sequence.

In [None]:
cds_sequence = embl_record[cds_feature.location.start : cds_feature.location.end]

Formattare la coding sequence in formato `FASTA`.

In [None]:
print(cds_sequence.format('fasta'))