# Libreria Biopython

Biopython è una libreria che mette a disposizione funzionalità in ambito bioinformatico, principalmente:

- manipolare sequenze
- leggere i formati standard (ad esempio `EMBL`, `FASTA`, `FASTQ`)
- accedere a banche dati.

Importare il package `Bio`.

## Quali classi vedremo?

- `Seq` e `MutableSeq`, classi per rappresentare una sequenza biologica (DNA, RNA o proteina)
- `SeqRecord`, classe per rappresentare una sequenza biologica annotata
- `SeqIO`,  interfaccia input/output per formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.)

## Oggetti `Seq` e `MutableSeq` per rappresentare sequenze primarie

Le classi `Seq` e `MutableSeq` appartengono al modulo `Seq` che definisce le classi per manipolare sequenze primarie.

L'oggetto `Seq` rappresenta una sequenza immutabile mentre `MutableSeq` rappresenta una sequenza primaria mutabile.

Importare il modulo `Seq`.

Importare le due classi `Seq` e `MutableSeq`.

### Costruzione di un oggetto `Seq`

Il costruttore:
    
       Seq(primary_string)
     
restituisce un oggetto `Seq` che rappresenta la sequenza primaria specificata dalla stringa `primary_string` passata come argomento.

**Esercizio**: costruire una sequenza `my_seq1` che ha sequenza primaria `GTGGATTGCCGGAAATTT`.

Convertire poi l'oggetto `Seq` in un oggetto di tipo `str`.

### Lunghezza di una sequenza

La funzione `len()` restituisce la lunghezza della sequenza passata come argomento.

**Esercizio**: ottenere la lunghezza della sequenza `my_seq1`

### Qualche metodo degli oggetti  `Seq`

- `lower()` e `upper()` restituiscono la versione in minuscolo e in maiuscolo della sequenza invocante.

**Esercizio**: ottenere la versione in minuscolo della sequenza `my_seq1`.

- `find()` restituisce la prima occorrenza di una sottostringa nella sequenza invocante.

**Esercizio**: produrre la prima occorrenza di `GATT` nella sequenza `my_seq1`.

- `count()` restituisce il numero di occorrenze non sovrapposte di una data sottostringa nella sequenza invocante.

**Esercizio**: contare il numero di occorrenze non sovrapposte di `AAA` nella sequenza `AAAAAAA`.

- `count_overlap()` restituisce il numero di occorrenze sovrapposte di una data sottostringa nella sequenza invocante.

**Esercizio**: contare il numero di occorrenze sovrapposte di `AA` nella sequenza `AAAAAAA`.

### Accesso alla sequenza

L'espressione:

    my_seq[my_index]
    
restituisce il carattere alla posizione di indice `my_index` della sequenza `my_seq`.

**Esercizio**: accedere al quarto carattere della sequenza `my_seq1`.

L'espressione:

    my_seq[start:end:step]
    
restituisce un oggetto `Seq` con sequenza primaria ottenuta dallo *slicing* di `my_seq`.

`step` è opzionale.

**Esercizio**: accedere alla sottosequenza di `my_seq1` che va dal quinto al decimo carattere.

**Esercizio**: ottenere tramite un'operazione di *slicing* il reverse di `my_seq1`.

### Verifica della presenza di una sottostringa in una sequenza

L'espressione:

    my_str in my_seq

restituisce `True` se la stringa `my_str` occorre nella sequenza `my_seq`

Verificare la presenza della stringa `CC` nella sequenza `my_seq1`.

### Attraversamento di una sequenza

L'operatore `in` può essere utilizzato per attraversare i caratteri di una sequenza:

    for my_char in my_seq:
        do_something    

**Esercizio**: attraversare la sequenza `my_seq1` e stampare ogni singolo carattere.

### Concatenazione di sequenze

L'operatore `+` permette di concatenare sequenze.

**Esercizio**: concatenare due sequenze uguali a `ACGT`.

### Ripetizione di sequenze

L'operatore `*` permette di ripetere sequenze.

**Esercizio**: ripetere due volte una sequenza di DNA uguale a `ACGT`.

### Confronto tra sequenze

L'espressione:

    my_seq1 == my_seq2
    
restituisce `True` se la sequenza primaria di `my_seq1` è uguale a quella di `my_seq2`.

**Esercizio**: confrontare due sequenze con sequenza primaria `ACGT`.

### Complement e Reverse&Complement di una sequenza
    
- Il metodo `complement()` restituisce il complemento della sequenza invocante.

**Esercizio**: ottenere il complemento della sequenza `ACGTGAGGACCCTTT`.

- Il metodo `reverse_complement()` restituisce il reverse&complement della sequenza invocante.

**Esercizio**: ottenere il reverse&complement della sequenza `ACGTGAGGACCCTTT`.

**NOTA BENE**`: complement()` e `reverse_complement()` tengono conto dell'alfabeto ambiguo di DNA e di RNA (IUPAC CODE).

L'alfabeto ambiguo di DNA o di RNA comprende le quattro lettere `A`, `C`, `G`, `T` e aggiunge lettere che rappresentano ambiguità tra basi.

Precisamente:

    R 	A or G
    Y 	C or T|U
    S 	G or C
    W 	A or T|U
    K 	G or T|U
    M 	A or C
    B 	C or G or T|U
    D 	A or G or T|U
    H 	A or C or T|U
    V 	A or C or G
    N 	any base

**Esercizio**: ottenere il complemento della sequenza primaria `BBBB`.

### Trascrizione di una sequenza di DNA

- Il metodo `transcribe()` restituisce il risultato della trascrizione della sequenza di DNA invocante, intesa come sostituzione di ogni carattere `T` con un carattere `U`.

**Esercizio**: ottenere la trascrizione della sequenza primaria `ACGTGAGGACCCTTT`.

- Il metodo `back_transcribe()` restituisce il risultato della retrotrascrizione della sequenza di RNA invocante, intesa come sostituzione di ogni carattere `U` con un carattere `T`.

**Esercizio**: ottenere la retrotrascrizione della sequenza primaria `ACGUGAGGACCCUUU`.

### Traduzione di una sequenza di DNA o di RNA

- Il metodo `translate()` restituisce il risultato della traduzione della sequenza di DNA o di RNA invocante secondo il codice genetico.

La lunghezza della sequenza invocante deve essere un multiplo di tre.

**Esercizio**: ottenere la traduzione della sequenza `ACGUGAGGACCCUUU`. 

**Esercizio**: ottenere la traduzione della sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG`.

**NOTA BENE**: specificando l'attributo `to_stop` uguale a `True`, la traduzione viene fermata al primo codone di stop incontrato.

**Esercizio**: ottenere la traduzione della sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG` fermando la traduzione al primo stop che si incontra.

### Sequenze mutabili

Le sequenze mutabili sono oggetti di tipo `MutableSeq`.

**Esercizio**: creare la sequenza mutabile `ACTTTGAAAG`.

Cambiare in una `T` la prima base.

### Qualche metodo degli oggetti di tipo `MutableSeq`

- `remove()` rimuove dalla sequenza invocante la prima occorrenza del carattere passato come argomento.

**Esercizio**: costruire la sequenza mutabile `AACAAAACCCTTTGGG`.

Rimuovere la prima occorrenza di `C`.

- `reverse()` opera il reverse sulla sequenza invocante.

**Esercizio**: invertire la sequenza.

- `complement(inplace = True)` opera il complement sulla sequenza invocante.

**Esercizio**: eseguire il complemento.

- `reverse_complement(inplace = True)` opera il reverse&complement sulla sequenza invocante.

**Esercizio**: eseguire il reverse&complement.

## L'oggetto `SeqRecord` per rappresentare una sequenza annotata

La classe `SeqRecord` appartiene al modulo `SeqRecord` e rappresenta una sequenza annotata, cioè un oggetto `Seq` con l'aggiunta di informazioni.

La classe `SeqRecord` è il tipo di oggetto che viene manipolato dalle funzioni di input/output del modulo `SeqIO`.

Importare il modulo `SeqRecord`.

Importare la classe `SeqRecord`.

Un oggetto di tipo `SeqRecord` contiene i seguenti attributi:

- `seq`: sequenza primaria (oggetto `Seq`)
- `id`: identificatore della sequenza (oggetto `str`)
- `name`: nome della sequenza (oggetto `str`)
- `description`: descrizione della sequenza (oggetto `str`)
- `annotations`: dizionario delle annotazioni (oggetto `dict`)
- `letter_annotations`: dizionario delle annotazioni per base (oggetto `dict`)
- `features`: lista delle *features* annotate sulla sequenza (oggetto `list`)
- `dbxrefs`: lista delle cross-references alle banche dati in cui è memorizzata la sequenza (oggetto `list`)

**Esercizio**: costruire "da zero" una sequenza annotata con sequenza primaria `AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA`.

Stampare le sequenza.

Accedere all'oggetto `Seq`.

Accedere alle annotazioni.

Accedere alle annotazioni per base.

Accedere alle *features*.

Aggiungere delle annotazioni.

Associare alla sequenza annotata l'identificatore univoco `AA00000` e il nome `AA00000`,

Aggiungere la descrizione `Questa e' una sequenza annotata di prova`.

Convertire la sequenza annotata in una stringa.

Accedere alla prima base della sequenza.

Accedere alla prime dieci basi della sequenza.

Ottenere la versione in minuscolo.

### Formattazione di una sequenza annotata

Il metodo `format()` degli oggetti `SeqRecord` restituisce la stringa ottenuta formattando la sequenza annotata invocante nel formato specificato dalla stringa passata come argomento.

**Esercizio**: formattare in `FASTA` la sequenza annotata creata prima.

## Il package `SeqIO`

`SeqIO` è il package per leggere/scrivere file in uno dei formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.).

### Funzioni principali

- `read()` legge un file composto da un solo *record* e restituisce un oggetto `SeqRecord`:

        read(file_name, format)

- `parse()` legge un file composto da più *record* e restituisce un generatore di oggetti `SeqRecord`:

        parse(file_name, format)
        
- `write()` scrive oggetti `SeqRecord` in un file in un certo formato:

        write(records, file_name, format)

**Esercizio**: leggere l'unico *record* del file `ENm006.fa`, che contiene una sequenza genomica di riferimento, e assegnarlo alla variabile `fasta_record`.

Ottenere la sequenza primaria.

Ottenere la sequenza primaria.

Ottenere l'identificatore.

Ottenere il nome.

Ottenere la descrizione.

Ottenere le annotazioni.

Ottenere le annotazioni per lettera.

Ottenere le *features*.

Scrivere il record in un file in formato `embl`.

**Esercizio**: leggere i *record* del file `ests.fa`, contenente frammenti di trascritto (ESTs) relativi a un gene umano.

Ottenere dal generatore la lista dei *record*.

Estrarre per il primo EST.

Estrarre la sequenza primaria (come oggetto di tipo `str`)

Estrarre l'identificatore univoco.

Estrarre il nome.

Estrarre la descrizione

Formattare in `FASTA`.

**Esercizio**: leggere il file `SRR18961685-5000.fastq`.

Ottenere la lista dei *records* (oggetto di tipo `list`).

Ottenere il primo *read*.

Ottenere la sequenza primaria.

Ottenere l'identificatore.

Ottenere il dizionario delle annotazioni per lettera.

Ottenere la formattazione in `FASTQ`.

**Esercizio**: leggere l'unico record del file `M10051.txt`, che contiene una sequenza di mRNA in formato `embl`.

Ottenere la sequenza primaria.

Ottenere tutti gli attributi.

L'attributo `features` fornisce una lista di oggetti di tipo `SeqFeature` che rappresentano le *features* annotate sulla sequenza.

Un oggetto di tipo `SeqFeature` possiede i seguenti attributi:
- `type`: stringa che definisce il tipo di *feature* rappresentata
- `location`: oggetto di tipo `SimpleLocation` che fornisce la localizzazione della *feature* sulla sequenza

Un oggetto di tipo `SimpleLocation` possiede a sua volta i seguenti attributi:
- `start`: oggetto di tipo `ExactPosition` che fornisce lo start della localizzazione
- `end`: oggetto di tipo `ExactPosition` che fornisce l'end della localizzazione

La *feature* con `type` uguale a `CDS` rappresenta la coding sequence della sequenza. 

**Esercizio**: accedere al terzo oggetto della lista delle *features* (cioé la coding sequence della sequenza) e recuperare lo start e l'end della coding sequence.

**NB**: la start position viene fornita 0-based mentre l'end position viene fornita 1-based.

Effettuare lo slicing della sequenza per ottenere la coding sequence.

Formattare la coding sequence in formato `FASTA`.