# Biopython

Biopython è un package di software libero che mette a disposizione tools per usare Python in applicazioni di Bioinformatica.

Package di Biopython: `Bio`

In [1]:
import Bio

In [2]:
help(Bio)

Help on package Bio:

NAME
    Bio - Collection of modules for dealing with biological data in Python.

DESCRIPTION
    The Biopython Project is an international association of developers
    of freely available Python tools for computational molecular biology.
    
    http://biopython.org

PACKAGE CONTENTS
    Affy (package)
    Align (package)
    AlignIO (package)
    Alphabet (package)
    Application (package)
    Blast (package)
    CAPS (package)
    Cluster (package)
    Compass (package)
    Crystal (package)
    Data (package)
    Emboss (package)
    Entrez (package)
    ExPASy (package)
    FSSP (package)
    File
    GenBank (package)
    Geo (package)
    Graphics (package)
    HMM (package)
    Index
    KDTree (package)
    KEGG (package)
    LogisticRegression
    MarkovModel
    MaxEntropy
    Medline (package)
    NMR (package)
    NaiveBayes
    Nexus (package)
    PDB (package)
    Pathway (package)
    Phylo (package)
    PopGen (package)
    Restriction (package

## Cosa vedremo

- le classi per definire un alfabeto
- la classe `Seq` per rappresentare una sequenza biologica (DNA, RNA o proteina)
- la classe `SeqRecord` per rappresentare una sequenza biologica annotata
- il package `SeqIO` di interfaccia input/output per formati standard (FASTA, FASTQ, etc.)

## Le classi per definire un alfabeto

`Alphabet` è il package di `Bio` che contiene le classi relative agli alfabeti generici.

In [3]:
import Bio.Alphabet

In [4]:
help(Bio.Alphabet)

Help on package Bio.Alphabet in Bio:

NAME
    Bio.Alphabet - Alphabets used in Seq objects etc to declare sequence type and letters (OBSOLETE).

DESCRIPTION
    This is used by sequences which contain a finite number of similar words.
    
    The design of Bio.Aphabet included a number of historic design choices
    which, with the benefit of hindsight, were regretable. While the details
    remain to be agreed, we intend to remove or replace Bio.Alphabet in 2020.
    Please avoid using this module explicitly in your code. See also:
    https://github.com/biopython/biopython/issues/2046

PACKAGE CONTENTS
    IUPAC
    Reduced

CLASSES
    builtins.object
        Alphabet
            SingleLetterAlphabet
                NucleotideAlphabet
                    DNAAlphabet
                    RNAAlphabet
                ProteinAlphabet
                SecondaryStructure
            ThreeLetterProtein
        AlphabetEncoder
            Gapped
            HasStopCodon
    
    class Alpha

La classe che rappresenta il generico alfabeto è `Alphabet`.

In [5]:
from Bio.Alphabet import Alphabet

In [6]:
help(Alphabet)

Help on class Alphabet in module Bio.Alphabet:

class Alphabet(builtins.object)
 |  Generic alphabet base class.
 |  
 |  This class is used as a base class for other types of alphabets.
 |  
 |  Attributes:
 |      - letters - list-like object containing the letters of the alphabet.
 |             Usually it is a string when letters are single characters.
 |      - size    - size of the alphabet's letters (e.g. 1 when letters are
 |             single characters).
 |  
 |  Methods defined here:
 |  
 |  __repr__(self)
 |      Represent the alphabet class as a string for debugging.
 |  
 |  contains(self, other)
 |      Test if the other alphabet is contained in this one (OBSOLETE?).
 |      
 |      Returns a boolean.  This relies on the Alphabet subclassing
 |      hierarchy only, and does not check the letters property.
 |      This isn't ideal, and doesn't seem to work as intended
 |      with the AlphabetEncoder classes.
 |  
 |  ---------------------------------------------------

`IUPAC` è il modulo contenuto nel modulo `Alphabet` che contiene le classi relative agli alfabeti standard per DNA, RNA e proteine, e fa riferimento alla nomenclatura stabilita dall'International Union of Pure and Applied Chemistry (IUPAC) - https://www.qmul.ac.uk/sbcs/iupac/.

In [7]:
import Bio.Alphabet.IUPAC

In [8]:
help(Bio.Alphabet.IUPAC)

Help on module Bio.Alphabet.IUPAC in Bio.Alphabet:

NAME
    Bio.Alphabet.IUPAC - Standard nucleotide and protein alphabets defined by IUPAC.

CLASSES
    Bio.Alphabet.DNAAlphabet(Bio.Alphabet.NucleotideAlphabet)
        ExtendedIUPACDNA
        IUPACAmbiguousDNA
            IUPACUnambiguousDNA
    Bio.Alphabet.ProteinAlphabet(Bio.Alphabet.SingleLetterAlphabet)
        ExtendedIUPACProtein
            IUPACProtein
    Bio.Alphabet.RNAAlphabet(Bio.Alphabet.NucleotideAlphabet)
        IUPACAmbiguousRNA
            IUPACUnambiguousRNA
    
    class ExtendedIUPACDNA(Bio.Alphabet.DNAAlphabet)
     |  Extended IUPAC DNA alphabet.
     |  
     |  In addition to the standard letter codes GATC, this includes:
     |  
     |  - ``B`` = 5-bromouridine
     |  - ``D`` = 5,6-dihydrouridine
     |  - ``S`` = thiouridine
     |  - ``W`` = wyosine
     |  
     |  Method resolution order:
     |      ExtendedIUPACDNA
     |      Bio.Alphabet.DNAAlphabet
     |      Bio.Alphabet.NucleotideAlphabet
 

Gli alfabeti non ambigui di DNA e di RNA sono quelli delle lettere maiuscole `{A,C,G,T}` e `{A,C,G,U}` rispettivamente.
Le relative classi Biopython sono `IUPACUnambiguousDNA` e `IUPACUnambiguousRNA`.

Gli alfabeti ambigui di DNA e di RNA sono quelli delle lettere maiuscole `{G,A,T,C,R,Y,W,S,M,K,H,B,V,D,N}` e `{G,A,U,C,R,Y,W,S,M,K,H,B,V,D,N}` rispettivamente. Cioè sono l'estensione degli alfabeti non ambigui con lettere che rappresentano ambiguità tra i nucleotidi.
Precisamente:

    R	A or G
    Y 	C or T|U
    S 	G or C
    W 	A or T|U
    K 	G or T|U
    M 	A or C
    B 	C or G or T|U
    D 	A or G or T|
    H 	A or C or T|U
    V 	A or C or G
    N 	any base

Le classi che rappresentano gli alfabeti ambigui di DNA e RNA sono `IUPACAmbiguousDNA` e `IUPACAmbiguousRNA`.

L'alfabeto delle proteine è l'alfabeto `{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}` dei 20 amminoacidi. La classe che lo rappresenta è `IUPACProtein`. La classe `ExtendedIUPACProtein` rappresenta l'alfabeto precedente con lettere che rappresentano ambiguità tra amminoacidi.

Il modulo `IUPAC` mette a disposizione i seguenti attributi che contengono le istanze degli alfabeti precedenti:
- `unambiguous_dna`
- `unambiguous_rna`
- `ambiguous_dna`
- `ambiguous_rna`
- `protein`

## La classe `Seq` per rappresentare una sequenza biologica (DNA, RNA o proteina)

`Seq` è il modulo che contiene le classi per manipolare sequenze biologiche.

In [9]:
import Bio.Seq

In [10]:
help(Bio.Seq)

Help on module Bio.Seq in Bio:

NAME
    Bio.Seq - Provide objects to represent biological sequences with alphabets.

DESCRIPTION
    See also the Seq_ wiki and the chapter in our tutorial:
     - `HTML Tutorial`_
     - `PDF Tutorial`_
    
    .. _Seq: http://biopython.org/wiki/Seq
    .. _`HTML Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.html
    .. _`PDF Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.pdf

CLASSES
    builtins.object
        MutableSeq
        Seq
            UnknownSeq
    
    class MutableSeq(builtins.object)
     |  MutableSeq(data, alphabet=Alphabet())
     |  
     |  An editable sequence object (with an alphabet).
     |  
     |  Unlike normal python strings and our basic sequence object (the Seq class)
     |  which are immutable, the MutableSeq lets you edit the sequence in place.
     |  However, this means you cannot use a MutableSeq object as a dictionary key.
     |  
     |  >>> from Bio.Seq import MutableSeq
     |  >>> f

La classe `Seq` rappresenta una sequenza biologica. Gli oggetti di tipo `Seq` sono immutabili.

In [11]:
from Bio.Seq import Seq

In [12]:
help(Seq)

Help on class Seq in module Bio.Seq:

class Seq(builtins.object)
 |  Seq(data, alphabet=Alphabet())
 |  
 |  Read-only sequence object (essentially a string with an alphabet).
 |  
 |  Like normal python strings, our basic sequence object is immutable.
 |  This prevents you from doing my_seq[5] = "A" for example, but does allow
 |  Seq objects to be used as dictionary keys.
 |  
 |  The Seq object provides a number of string like methods (such as count,
 |  find, split and strip), which are alphabet aware where appropriate.
 |  
 |  In addition to the string like sequence, the Seq object has an alphabet
 |  property. This is an instance of an Alphabet class from Bio.Alphabet,
 |  for example generic DNA, or IUPAC DNA. This describes the type of molecule
 |  (e.g. RNA, DNA, protein) and may also indicate the expected symbols
 |  (letters).
 |  
 |  The Seq object also provides some biological methods, such as complement,
 |  reverse_complement, transcribe, back_transcribe and translate 

### Costruzione di un oggetto di tipo `Seq`

Il costruttore `Seq()` permette di costruire una sequenza prendendo come argomento la sua sequenza primaria come oggetto di tipo `str` (stringa):
    
       Seq(primary_string)
     
restituisce l'oggetto che rappresenta la sequenza biologica con `primary_string` come sequenza primaria.

**Esercizio**: costruire la sequenza `my_seq1` con `GTGGATTGCCGGAAATTT` come sequenza primaria.

In [13]:
my_seq1 = Seq('GTGGATTGCCGGAAATTT')
my_seq1

Seq('GTGGATTGCCGGAAATTT')

Per ottenere la sequenza primaria come oggetto di tipo `str` basta passare `my_seq1` come argomento alla funzione `str()`.

In [14]:
str(my_seq1)

'GTGGATTGCCGGAAATTT'

L'attributo `alphabet` degli oggetti di tipo `Seq` contiene l'alfabeto di definizione della sequenza. Nel caso di `my_seq1` non è stato definito nessun alfabeto in fase di costruzione e il suo alfabeto è di *default* un istanza dell'alfabeto generico `Alphabet`.

In [15]:
my_seq1.alphabet

Alphabet()

Importare la classe `IUPACUnambiguousDNA`.

In [16]:
from Bio.Alphabet.IUPAC import IUPACUnambiguousDNA

**Esercizio**: costruire la sequenza `my_seq2` con la stessa sequenza primaria `GTGGATTGCCGGAAATTT` di `my_seq1`, ma con associato un alfabeto di tipo `IUPACUnambiguousDNA`.

Al costruttore `Seq()` deve essere passato un oggetto di tipo `IUPACUnambiguousDNA` come secondo argomento.

In [17]:
my_seq2 = Seq('GTGGATTGCCGGAAATTT', IUPACUnambiguousDNA())
my_seq2

Seq('GTGGATTGCCGGAAATTT', IUPACUnambiguousDNA())

I metodi `lower()` e `upper()` restituiscono (rispettivamente) la versione in minuscolo e in maiuscolo della sequenza invocante.

**Esercizio**: ottenere la versione in minuscolo della sequenza `my_seq2`.

In [18]:
my_seq2.lower()

Seq('gtggattgccggaaattt', DNAAlphabet())

### Lunghezza di una sequenza

La funzione `len()` restituisce la lunghezza della sequenza passata come argomento.

**Esercizio**: ottenere la lunghezza della sequenza `my_seq1`

In [19]:
len(my_seq1)

18

### Accesso alla sequenza

L'espressione:

    my_seq[index]
    
restituisce il carattere alla posizione di indice `index` della sequenza `my_seq`. L'oggetto restituito è di tipo `str`.

**Esercizio**: accedere al quinto carattere della sequenza `my_seq1`.

In [20]:
my_seq1[4]

'A'

L'espressione di *slicing*:

    my_seq[start:end:step]
    
restituisce i caratteri della sequenza `my_seq` a partire dalla posizione di indice `start` fino alla posizione immediatamente prima a quella di indice `end`, con un passo `step`. L'oggetto restituito è in questo caso di tipo `Seq`.

**Esercizio**: accedere alla sottosequenza di `my_seq1` che va dal quinto al decimo carattere.

In [21]:
my_seq1

Seq('GTGGATTGCCGGAAATTT')

In [22]:
my_seq1[4:10]

Seq('ATTGCC')

**Esercizio**: ottenere tramite un'operazione di *slicing* il reverse di `my_seq2`.

In [23]:
my_seq2

Seq('GTGGATTGCCGGAAATTT', IUPACUnambiguousDNA())

In [24]:
my_seq2[::-1]

Seq('TTTAAAGGCCGTTAGGTG', IUPACUnambiguousDNA())

### Conteggio delle occorrenze di sottostringhe

Il metodo `count()` restituisce il numero delle occorrenze della stringa passata come argomento nella sequenza invocante.

**Esercizio**: contare il numero di `A` nella sequenza `my_seq2`.

In [25]:
my_seq2.count('A')

4

**Esercizio**: contare il numero di sottostringhe `GG` nella sequenza `my_seq2`.

In [26]:
my_seq2.count('GG')

2

**Esercizio**: contare il numero di sottostringhe `AA` nella sequenza `my_seq2`.

In [27]:
my_seq2.count('AA')

1

**NOTA BENE**: il metodo `count()` effettua il conteggio delle stringhe non sovrapposte.

### Verifica della presenza di una sottostringa

L'espressione:

    my_str in my_seq

restituisce `True` se la stringa `my_str` occorre nella sequenza `my_seq`

**Esercizio**: verificare la presenza della stringa `CC` nella sequenza `my_seq2`.

In [28]:
'CC' in my_seq2

True

### Attraversamento di una sequenza

L'operatore `in` può essere utilizzato per attraversare i caratteri di una sequenza, nel seguente modo:

    for my_char in my_seq:
        do_something    

**Esercizio**: attraversare la sequenza `my_seq2` e stampare ogni singolo carattere.

In [29]:
for c in my_seq2:
    print(c)

G
T
G
G
A
T
T
G
C
C
G
G
A
A
A
T
T
T


### Concatenazione di sequenze

L'operatore `+` permette di concatenare sequenze con alfabeto compatibile.

**Esercizio**: concatenare due sequenze con alfabeto di tipo `IUPACUnambiguousDNA`.

In [30]:
Seq('ACGT', IUPACUnambiguousDNA()) + Seq('ACGT', IUPACUnambiguousDNA())

Seq('ACGTACGT', IUPACUnambiguousDNA())

Importare gli alfabeti di tipo `IUPACAmbiguousDNA`, `IUPACUnambiguousRNA` e `IUPACProtein`.

In [31]:
from Bio.Alphabet.IUPAC import IUPACAmbiguousDNA
from Bio.Alphabet.IUPAC import IUPACUnambiguousRNA
from Bio.Alphabet.IUPAC import IUPACProtein

**Esercizio**: concatenare una sequenza con alfabeto di tipo `IUPACUnambiguousDNA` e una sequenza con alfabeto di tipo `IUPACAmbiguousDNA`.

In [32]:
Seq('ACGT', IUPACUnambiguousDNA()) + Seq('ACGT', IUPACAmbiguousDNA())

Seq('ACGTACGT', IUPACAmbiguousDNA())

**Esercizio**: concatenare una sequenza con alfabeto di tipo `IUPACUnambiguousDNA` e una sequenza con alfabeto di tipo `IUPACProtein`.

In [33]:
Seq('ACGT', IUPACUnambiguousDNA()) + Seq('ACGT', IUPACProtein())

TypeError: Incompatible alphabets IUPACUnambiguousDNA() and IUPACProtein()

### Complement e Reverse&Complement di una sequenza di DNA o di RNA

Il metodo `complement()` restituisce il complement della sequenza invocante.

**Esercizio**: costruire la sequenza `ACGTGAGGACCCTTT` senza alcun alfabeto associato, e ottenere il suo complement.

In [37]:
Seq('ACGTGAGGACCCTTT').complement()

Seq('TGCACTCCTGGGAAA')

**Esercizio**: costruire la sequenza `ACGTGAGGACCCTTT` definita su alfabeto `IUPACProtein`, e ottenere il suo complement.

In [38]:
Seq('ACGTGAGGACCCTTT', IUPACProtein()).complement()

ValueError: Proteins do not have complements!

**Esercizio**: costruire la sequenza `MKFN` definita su alfabeto `IUPACUnambiguousDNA`, e ottenere il suo complement.

In [39]:
Seq('MKFN', IUPACUnambiguousDNA()).complement()

Seq('KMFN', IUPACUnambiguousDNA())

Il metodo `reverse_complement()` restituisce il reverse&complement della sequenza invocante.

**Esercizio**: costruire la sequenza `AAACCCTTTGGG` definita su alfabeto `IUPACUnambiguousDNA`, e ottenere il suo reverse&complement.

In [40]:
Seq('AAACCCTTTGGG', IUPACUnambiguousDNA()).reverse_complement()

Seq('CCCAAAGGGTTT', IUPACUnambiguousDNA())

### Trascrizione di una sequenza di DNA

Il metodo `transcribe()` restituisce il risultato della trascrizione (intesa come sostituzione di tutti i caratteri `T` con caratteri `U`) della sequenza di DNA invocante.

**Esercizio**: costruire la sequenza `ACGTGAGGACCCTTT` definita su alfabeto `IUPACUnambiguousDNA`, e ottenere la sua trascrizione.

In [41]:
Seq('ACGTGAGGACCCTTT', IUPACUnambiguousDNA()).transcribe()

Seq('ACGUGAGGACCCUUU', RNAAlphabet())

**Esercizio**: costruire la sequenza `ACGTGAGGACCCTTT` definita su alfabeto `IUPACUnambiguousRNA`, e ottenere la sua trascrizione.

In [42]:
Seq('ACGTGAGGACCCTTT', IUPACUnambiguousRNA()).transcribe()

ValueError: RNA cannot be transcribed!

**Esercizio**: costruire la sequenza `ACGUGAGGACCCUUU` definita su alfabeto `IUPACUnambiguousDNA`, eottenere la sua trascrizione.

In [43]:
Seq('ACGUGAGGACCCUUU', IUPACUnambiguousDNA()).transcribe()

Seq('ACGUGAGGACCCUUU', RNAAlphabet())

Il metodo `back_transcribe()` restituisce il risultato della retrotrascrizione (intesa come sostituzione di tutti i caratteri `U` con caratteri `T`) della sequenza di RNA invocante.

**Esercizio**: costruire la sequenza `ACGUGAGGACCCUUU` definita su alfabeto `IUPACUnambiguousRNA`, e ottenere la sua trascrizione.

In [44]:
Seq('ACGUGAGGACCCUUU', IUPACUnambiguousRNA()).back_transcribe()

Seq('ACGTGAGGACCCTTT', DNAAlphabet())

### Traduzione di una sequenza di DNA o di RNA

Il metodo `translate()` restituisce il risultato della traduzione della sequenza di DNA o di RNA invocante secondo un codice genetico. La lunghezza della sequenza invocante deve essere un multiplo di tre.

**Esercizio**: costruire la sequenza `ACGUGAGGACCCUUU` definita su alfabeto `IUPACUnambiguousRNA`, e ottenere la sua traduzione.

In [45]:
Seq('ACGUGAGGACCCUUU', IUPACUnambiguousRNA()).translate()

Seq('T*GPF', HasStopCodon(ExtendedIUPACProtein(), '*'))

**NOTA BENE**: il simbolo `*` rappresenta lo stop codon.

**Esercizio**: costruire la sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG` definita su alfabeto `IUPACUnambiguousDNA`, e ottenere la sua traduzione.

In [46]:
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG', IUPACUnambiguousDNA()).translate()

Seq('MAIVMGR*KGAR*', HasStopCodon(ExtendedIUPACProtein(), '*'))

Passando al metodo `translate()` l'attributo `to_stop` uguale a `True`, la traduzione viene fermata al primo codone di stop incontrato (di *default* il metodo assume che il suo valore sia `False`).

**Esercizio**: costruire la sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG` definita su alfabeto `IUPACUnambiguousDNA`, e ottenere la traduzione fino al primo codone di stop.

In [47]:
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG', IUPACUnambiguousDNA()).translate(to_stop = True)

Seq('MAIVMGR', ExtendedIUPACProtein())

Il metodo `translate()` usa di *default* il codice genetico standard. Se si vogliono usare codici differenti allora deve essere specificato un valore dell'attributo `table` pari a uno degli indici interi definiti da NCBI (https://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi). La tabella con indice 1 è la tabella di *default* relativa al codice standard.

**Esercizio**: costruire la sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG` definita su alfabeto `IUPACUnambiguousDNA`, e ottenere la traduzione secondo il codice dei vertebrati mitocondriali (`table=2`).

In [48]:
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG', IUPACUnambiguousDNA()).translate(table = 2)

Seq('MAIVMGRWKGAR*', HasStopCodon(ExtendedIUPACProtein(), '*'))

### Confronto tra sequenze

L'espressione:

    my_seq1 == my_seq2
    
restituisce `True` se la sequenza primaria di `my_seq1` è uguale a quella di `my_seq2`.

**Esercizio**: confrontare due sequenze con sequenza primaria `ACGT` e alfabeto `IUPACUnambiguousDNA`.

In [49]:
Seq('ACGT', IUPACUnambiguousDNA()) == Seq('ACGT', IUPACUnambiguousDNA())

True

**Esercizio**: confrontare due sequenze con sequenza primaria uguale `ACGT` ma definite sui due alfabeti diversi `IUPACUnambiguousDNA` e `IUPACProtein`.

In [50]:
Seq('ACGT', IUPACUnambiguousDNA()) == Seq('ACGT', IUPACProtein())



True

### Sequenze mutabili

La classe `MutableSeq` del modulo `Seq` permette di definire una sequenza mutabile.

In [51]:
from Bio.Seq import MutableSeq

In [52]:
help(MutableSeq)

Help on class MutableSeq in module Bio.Seq:

class MutableSeq(builtins.object)
 |  MutableSeq(data, alphabet=Alphabet())
 |  
 |  An editable sequence object (with an alphabet).
 |  
 |  Unlike normal python strings and our basic sequence object (the Seq class)
 |  which are immutable, the MutableSeq lets you edit the sequence in place.
 |  However, this means you cannot use a MutableSeq object as a dictionary key.
 |  
 |  >>> from Bio.Seq import MutableSeq
 |  >>> from Bio.Alphabet import generic_dna
 |  >>> my_seq = MutableSeq("ACTCGTCGTCG", generic_dna)
 |  >>> my_seq
 |  MutableSeq('ACTCGTCGTCG', DNAAlphabet())
 |  >>> my_seq[5]
 |  'T'
 |  >>> my_seq[5] = "A"
 |  >>> my_seq
 |  MutableSeq('ACTCGACGTCG', DNAAlphabet())
 |  >>> my_seq[5]
 |  'A'
 |  >>> my_seq[5:8] = "NNN"
 |  >>> my_seq
 |  MutableSeq('ACTCGNNNTCG', DNAAlphabet())
 |  >>> len(my_seq)
 |  11
 |  
 |  Note that the MutableSeq object does not support as many string-like
 |  or biological methods as the Seq object.
 |

**Esercizio**: creare la sequenza mutabile `mut_seq` con sequenza primaria `ACTTTGAAAG` e definita su alfabeto `IUPACUnambiguousDNA`.

In [53]:
mut_seq = MutableSeq('ACTTTGAAAG', IUPACUnambiguousDNA())
mut_seq

MutableSeq('ACTTTGAAAG', IUPACUnambiguousDNA())

Il metodo `tomutable()` degli oggetti di tipo `Seq` restituisce una copia mutabile (oggetto di tipo `MutableSeq`) della sequenza invocante.

**Esercizio**: creare la sequenza mutabile `mut_seq` a partire dalla sequenza immutabile `ACTTTGAAAG` definita su alfabeto `IUPACUnambiguousDNA`.

In [54]:
mut_seq = Seq('ACTTTGAAAG', IUPACUnambiguousDNA()).tomutable()
mut_seq

MutableSeq('ACTTTGAAAG', IUPACUnambiguousDNA())

**Esercizio**: cambiare il primo carattere di `mut_seq` in una `T`.

In [55]:
mut_seq[0] = 'T'
mut_seq

MutableSeq('TCTTTGAAAG', IUPACUnambiguousDNA())

Il metodo `remove()` rimuove dalla sequenza invocante la prima occorrenza del carattere passato come argomento.

**Esercizio**: rimuovere da `mut_seq` la prima occorrenza di `C`.

In [56]:
mut_seq.remove('C')
mut_seq

MutableSeq('TTTTGAAAG', IUPACUnambiguousDNA())

Il metodo `reverse()` opera il reverse sulla sequenza invocante.

**Esercizio**: operare il reverse su `mut_seq`.

In [57]:
mut_seq.reverse()
mut_seq

MutableSeq('GAAAGTTTT', IUPACUnambiguousDNA())

Il metodo `complement()` opera il complement sulla sequenza invocante.

**Esercizio**: operare il complement su `mut_seq`.

In [58]:
mut_seq.complement()
mut_seq

MutableSeq('CTTTCAAAA', IUPACUnambiguousDNA())

Il metodo `reverse_complement()` opera il reverse&complement sulla sequenza invocante.

**Esercizio**: operare il reverse&complement su `mut_seq`.

In [59]:
mut_seq.reverse_complement()
mut_seq

MutableSeq('TTTTGAAAG', IUPACUnambiguousDNA())

Il metodo `toseq()` degli oggetti di tipo `MutableSeq` restituisce una copia immutabile (oggetto di tipo `Seq`) della sequenza invocante.

**Esercizio**: ottenere da `mut_seq` un oggetto di tipo `Seq`.

In [60]:
mut_seq.toseq()

Seq('TTTTGAAAG', IUPACUnambiguousDNA())

## La classe `SeqRecord` per rappresentare una sequenza biologica annotata

`SeqRecord` è il modulo che contiene la classe per rappresentare sequenze annotate.

In [92]:
import Bio.SeqRecord

In [93]:
help(Bio.SeqRecord)

Help on module Bio.SeqRecord in Bio:

NAME
    Bio.SeqRecord - Represent a Sequence Record, a sequence with annotation.

CLASSES
    builtins.object
        SeqRecord
    
    class SeqRecord(builtins.object)
     |  SeqRecord(seq, id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=None, features=None, annotations=None, letter_annotations=None)
     |  
     |  A SeqRecord object holds a sequence and information about it.
     |  
     |  Main attributes:
     |   - id          - Identifier such as a locus tag (string)
     |   - seq         - The sequence itself (Seq object or similar)
     |  
     |  Additional attributes:
     |   - name        - Sequence name, e.g. gene name (string)
     |   - description - Additional text (string)
     |   - dbxrefs     - List of database cross references (list of strings)
     |   - features    - Any (sub)features defined (list of SeqFeature objects)
     |   - annotations - Further information about the whol

La classe `SeqRecord` del modulo `SeqRecord` rappresenta una sequenza annotata, cioè un oggetto di tipo `Seq` con l'aggiunta di informazioni.

In [94]:
from Bio.SeqRecord import SeqRecord

In [95]:
help(SeqRecord)

Help on class SeqRecord in module Bio.SeqRecord:

class SeqRecord(builtins.object)
 |  SeqRecord(seq, id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=None, features=None, annotations=None, letter_annotations=None)
 |  
 |  A SeqRecord object holds a sequence and information about it.
 |  
 |  Main attributes:
 |   - id          - Identifier such as a locus tag (string)
 |   - seq         - The sequence itself (Seq object or similar)
 |  
 |  Additional attributes:
 |   - name        - Sequence name, e.g. gene name (string)
 |   - description - Additional text (string)
 |   - dbxrefs     - List of database cross references (list of strings)
 |   - features    - Any (sub)features defined (list of SeqFeature objects)
 |   - annotations - Further information about the whole sequence (dictionary).
 |     Most entries are strings, or lists of strings.
 |   - letter_annotations - Per letter/symbol annotation (restricted
 |     dictionary). This holds Pyt

Gli oggetti di tipo `SeqRecord` contengono i seguenti attributi:

- `seq`: oggetto di tipo `Seq` che rappresenta la sequenza biologica definita su un certo alfabeto
- `id`: oggetto di tipo `str` che fornisce l'identificatore univoco (*Accession Number*)
- `name`: oggetto di tipo `str` che fornisce il nome della sequenza (può anche essere l'*Accession Number* stesso)
- `description`: oggetto di tipo `str` che fornisce la descrizione della sequenza
- `annotations`: oggetto di tipo `dict` che fornisce le informazioni sulla sequenza. Le chiavi sono i nomi delle informazioni e i valori sono le informazioni associate
- `letter_annotations`: oggetto di tipo `dict` che annota la sequenza lettera per lettera. Le chiavi sono i nomi delle informazioni e i valori sono liste che forniscono le informazioni per ognuna delle lettere della sequenza
- `features`: oggetto di tipo `list` che contiene oggetti di tipo `SeqFeature` che forniscono le *features* annotate sulla sequenza
- `dbxrefs`: oggetto di tipo `list` che contiene oggetti di tipo `str` che forniscono le cross-references alle banche dati in cui è memorizzata la sequenza

La classe `SeqRecord` è il tipo di oggetto che viene manipolato dalle funzioni di input/output, per vari formati standard (FASTA, FASTQ, etc.), contenute nel modulo `SeqIO`.

### Costruzione "da zero" di una sequenza annotata

Di solito gli oggetti di tipo `SeqRecord` vengono ottenuti dalla lettura di un file in uno dei formati standard della Bioinformatica, ma una sequenza annotata può anche essere costruita "zero" tramite il suo costruttore `SeqREcord()` a cui può essere passato come argomento un oggetto di tipo `Seq`.

**Esercizio**: costruire la sequenza annotata `annotated_sequence` con sequenza primaria `AGCCGTTTTAAAA` definita su alfabeto `IUPACUnambiguousDNA()`.

In [96]:
annotated_sequence = SeqRecord(Seq('AGCCGTTTTAAAA', IUPACUnambiguousDNA()))
annotated_sequence

SeqRecord(seq=Seq('AGCCGTTTTAAAA', IUPACUnambiguousDNA()), id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=[])

**NOTA BENE**: solo l'attributo `seq` dell'oggetto costruito non è *unknown* e contiene il riferimento all'oggetto di tipo `Seq` passato come argomento.

Il dizionario delle annotazioni è vuoto.

In [97]:
annotated_sequence.annotations

{}

Il dizionario delle annotazioni per lettera è vuoto.

In [98]:
annotated_sequence.letter_annotations

{}

La lista delle *features* è vuota.

In [99]:
annotated_sequence.features

[]

La lista delle *cross-references* alle banche dati è vuota.

In [100]:
annotated_sequence.dbxrefs

[]

Si associ a questo punto l'identificatore univoco `AA00000`,

In [101]:
annotated_sequence.id = 'AA00000'

la sua descrizione `Questa e' una sequenza annotata di prova`.

In [102]:
annotated_sequence.description = "Questa e' una sequenza annotata di prova"
annotated_sequence

SeqRecord(seq=Seq('AGCCGTTTTAAAA', IUPACUnambiguousDNA()), id='AA00000', name='<unknown name>', description="Questa e' una sequenza annotata di prova", dbxrefs=[])

### Formattazione di una sequenza annotata

Il metodo `format()` degli oggetti di tipo `SeqRecord` restituisce la stringa ottenuta formattando il *record* invocante nel formato specificato dalla stringa passata come argomento.

**Esercizio**: formattare in FASTA la sequenza annotata `annotated_sequence`.

In [103]:
annotated_sequence.format('fasta')

">AA00000 Questa e' una sequenza annotata di prova\nAGCCGTTTTAAAA\n"

In [104]:
print(annotated_sequence.format('fasta'))

>AA00000 Questa e' una sequenza annotata di prova
AGCCGTTTTAAAA



## Il package `SeqIO` di interfaccia input/output per formati standard (FASTA, FASTQ, etc.)

`SeqIO` è il package per leggere files in formato standard (FASTA, FASTQ, etc.).

In [108]:
from Bio import SeqIO

In [109]:
help(SeqIO)

Help on package Bio.SeqIO in Bio:

NAME
    Bio.SeqIO - Sequence input/output as SeqRecord objects.

DESCRIPTION
    Bio.SeqIO is also documented at SeqIO_ and by a whole chapter in our tutorial:
    
      - `HTML Tutorial`_
      - `PDF Tutorial`_
    
    .. _SeqIO: http://biopython.org/wiki/SeqIO
    .. _`HTML Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.html
    .. _`PDF Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.pdf
    
    Input
    -----
    The main function is Bio.SeqIO.parse(...) which takes an input file handle
    (or in recent versions of Biopython alternatively a filename as a string),
    and format string.  This returns an iterator giving SeqRecord objects:
    
    >>> from Bio import SeqIO
    >>> for record in SeqIO.parse("Fasta/f002", "fasta"):
    ...     print("%s %i" % (record.id, len(record)))
    gi|1348912|gb|G26680|G26680 633
    gi|1348917|gb|G26685|G26685 413
    gi|1592936|gb|G29385|G29385 471
    
    Note that the parse(

La funzione `read()` di `SeqIO` permette di leggere un file in un certo formato composto da un solo *record*. Il nome del file viene passato come primo argomento e il formato viene passato come secondo argomento (oggetto di tipo `str`). La funzione restituisce un oggetto di tipo `SeqRecord`.

La funzione `parse()` di `SeqIO` permette di leggere un file in un certo formato composto da più *record*. Il nome del file viene passato come primo argomento e il formato viene passato come secondo argomento (oggetto di tipo `str`). La funzione restituisce un generatore di oggetti di tipo `SeqRecord`.

### Lettura di un file in formato FASTA

**Esercizio**: leggere il file `ENm006.fa` che contiene una sequenza genomica di riferimento (cioé un solo *record*).

In [110]:
fasta_record = SeqIO.read("ENm006.fa", "fasta")
fasta_record

SeqRecord(seq=Seq('ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGT...ACC', SingleLetterAlphabet()), id='ENm006', name='ENm006', description='ENm006', dbxrefs=[])

L'attributo `seq` dell'oggetto `fasta_record` contiene il riferimento alla sequenza (oggetto di tipo `Seq`).

In [111]:
fasta_record.seq

Seq('ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGT...ACC', SingleLetterAlphabet())

Per recuperare la sequenza primaria (oggetto di tipo `str`) basta invocare la funzione `str()` passando la sequenza come argomento.

In [112]:
str(fasta_record.seq)

'ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGTGTGGTGGCACATGCCTGTAATCGCAGCTACTTGGGAGGCTGAGGCAGAAGAATCACTTGAATCTGGGAGGCAGAAGTTGCAGTGAGTTAAGATCATGCCACCGCACTCCAGCCTGGGCAACAGAGCAAGATTCTTTCTCAAAAAATAAAAATAAATAAAAACATTAAAAAAAATCAGCCACAGGACTTGGTCTTGGACCCAAGTTAGAGCTAGGCCATGCTTGCTTAAAGGAGTGGCTGTAATTTTAAACAAGGCTAGTGGGAAAGTTCCAGGCCATCTTAACATTGTAGGTTGCAGAATCTTAGCCAATGAGTCTTTCAGAGCTGGATTCATTAATCTGTTAATTAATTCATTAATTTTTTTATGCTACTGGATGACAGTAGGAATAAAATGACTTTTTCTGTCTGATTCAAATGCTCTGGTATTCCAAAAGGGAGATTCATATTTATTAAGAGAGTCTTTCCCGTTGTTTATACTTCCTGCCTAAGGATCAGCTTCTTTTTCTCTTTCTTCACAGCTGACAACAGATGCCCTAATTGTTTCACCTCAGGTTAGCACTATTGCAATTTGTCTAGCAAGACCTTATGTCCCCGCCAGATGAGAAATTGCAGTAAAGCCAAAGCATCAGTTTTGCATTGCTCTTCAGTTTCTGAGGCTACTAGTAGCAAGTCGTCTACATAGCAAATAATCATAGATCCCTCTGGTGGGAGAAATTCCTCTAAGTGTTTCTGTAAATGACTAGAGAAAATAATGGGAGCATTCAAAACCCTTGAGGAATTCTTTGCCATAAATATCAGACTTTCTCATAAGCAAAAGCAAACAAGAATTTAGATTCATCTGCTAGAGGAATGGAAAGACAGAAAATGCAGAAAATTGATCAATTACAGAGAAAAACTTTGCAGACAATGGTACCAAAGTCAGAAGAGTTGCTGGAGTAAACAGAAC

Gli attributi del *record* (oggetto di tipo `SeqRecord`) sono:

In [113]:
fasta_record.id

'ENm006'

In [114]:
fasta_record.name

'ENm006'

In [115]:
fasta_record.description

'ENm006'

In [116]:
fasta_record.annotations

{}

In [117]:
fasta_record.letter_annotations

{}

In [118]:
fasta_record.features

[]

In [119]:
fasta_record.dbxrefs

[]

**Esercizio**: leggere il file `ests.fa` contenente frammenti di trascritto (Expressed Sequence Tags, ESTs) relativi a un gene umano (cioé più di un *record*).

In [120]:
fasta_records = SeqIO.parse("ests.fa", "fasta")
fasta_records

<generator object parse at 0x10ddd3ed0>

La funzione `list()` permette di ottenere dal generatore la lista dei *records*.

In [121]:
fasta_record_list = list(fasta_records)
fasta_record_list

[SeqRecord(seq=Seq('AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCA...GCC', SingleLetterAlphabet()), id='gnl|UG|Hs#S1027289', name='gnl|UG|Hs#S1027289', description="gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458", dbxrefs=[]),
 SeqRecord(seq=Seq('TTTTTTTTTTTTGGGAATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTG...CAA', SingleLetterAlphabet()), id='gnl|UG|Hs#S1072854', name='gnl|UG|Hs#S1072854', description="gnl|UG|Hs#S1072854 oz13f05.x1 Soares_fetal_liver_spleen_1NFLS_S1 Homo sapiens cDNA clone IMAGE:1675233 3' similar to SW:RGC1_HUMAN P98171 RHO-GAP HEMATOPOIETIC PROTEIN C1 ;, mRNA sequence /clone=IMAGE:1675233 /clone_end=3' /gb=AI078474 /gi=3412882 /ug=Hs.701324 /len=461", dbxrefs=[]),
 SeqRecord(seq=Seq('TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTCGGGGAATCAACACGAGGTC...GGC', SingleLetterAlphabet()), id='gnl|UG|Hs#S1140573', name='gnl|UG|Hs#S1140573', description

Il numero degli ESTs contenuti nel file è:

In [122]:
len(fasta_record_list)

242

La sequenza primaria (oggetto di tipo `str`) del primo EST è:

In [123]:
str(fasta_record_list[0].seq)

'AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCAAGGGTACCCGCCACCCAGCAGCCACTGATCAGCCTTCCACAAAGCTGCAGAAGAGGGCTTTCCCCAGCATCCTTCCTCAGCTGCCTCCAAAAGGGGCCTGGGCAGGGCTGAGGGGCAGGCAGGATGTGGAGCGGGCATCCCTGTGTGCACGGCCCCATCCCACCTCTCTGCACAGGGTGAAGTGCAGGCACCCTGCACTTGCTGGACAGGGCTGGAGAGAAGCAAGGGGGCTGGGGAGAGTGGCCGGTCCAGCGGGTAACCGCCGGGGGANCGCATCTCCAGCAGCGGCACCTCAGTGTGGCTTGGGGGTCGTGTCTAGGCCCTGGGGGTGGGAAGCTGAGGGTGAGGCTGGGCCCCAGGCGGTNGAGAAGCCTTTGTTCCTCCCAGCGGCTGCTGGCGGGGCC'

L'id del primo EST è:

In [124]:
str(fasta_record_list[0].id)

'gnl|UG|Hs#S1027289'

Il nome del primo EST è:

In [125]:
str(fasta_record_list[0].name)

'gnl|UG|Hs#S1027289'

La descrizione del primo EST è:

In [126]:
str(fasta_record_list[0].description)

"gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458"

Il primo *record* in formato FASTA è:

In [127]:
fasta_record_list[0].format('fasta')

">gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458\nAATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCAAGGGTA\nCCCGCCACCCAGCAGCCACTGATCAGCCTTCCACAAAGCTGCAGAAGAGGGCTTTCCCCA\nGCATCCTTCCTCAGCTGCCTCCAAAAGGGGCCTGGGCAGGGCTGAGGGGCAGGCAGGATG\nTGGAGCGGGCATCCCTGTGTGCACGGCCCCATCCCACCTCTCTGCACAGGGTGAAGTGCA\nGGCACCCTGCACTTGCTGGACAGGGCTGGAGAGAAGCAAGGGGGCTGGGGAGAGTGGCCG\nGTCCAGCGGGTAACCGCCGGGGGANCGCATCTCCAGCAGCGGCACCTCAGTGTGGCTTGG\nGGGTCGTGTCTAGGCCCTGGGGGTGGGAAGCTGAGGGTGAGGCTGGGCCCCAGGCGGTNG\nAGAAGCCTTTGTTCCTCCCAGCGGCTGCTGGCGGGGCC\n"

In [128]:
print(fasta_record_list[0].format('fasta'))

>gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458
AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCAAGGGTA
CCCGCCACCCAGCAGCCACTGATCAGCCTTCCACAAAGCTGCAGAAGAGGGCTTTCCCCA
GCATCCTTCCTCAGCTGCCTCCAAAAGGGGCCTGGGCAGGGCTGAGGGGCAGGCAGGATG
TGGAGCGGGCATCCCTGTGTGCACGGCCCCATCCCACCTCTCTGCACAGGGTGAAGTGCA
GGCACCCTGCACTTGCTGGACAGGGCTGGAGAGAAGCAAGGGGGCTGGGGAGAGTGGCCG
GTCCAGCGGGTAACCGCCGGGGGANCGCATCTCCAGCAGCGGCACCTCAGTGTGGCTTGG
GGGTCGTGTCTAGGCCCTGGGGGTGGGAAGCTGAGGGTGAGGCTGGGCCCCAGGCGGTNG
AGAAGCCTTTGTTCCTCCCAGCGGCTGCTGGCGGGGCC



### Lettura di un file in formato FASTQ

**Esercizio**: leggere il file `input.fq` che contiene quattro reads NGS (cioé più di un *record*).

In [129]:
fastq_records = SeqIO.parse("input.fq", "fastq")
fastq_records

<generator object parse at 0x10de949a8>

La funzione `list()` permette di ottenere dal generatore la lista dei *records*.

In [130]:
fastq_record_list = list(fastq_records)
fastq_record_list

[SeqRecord(seq=Seq('TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC', SingleLetterAlphabet()), id='HWUSI-EAS522:8:5:662:692#0/1', name='HWUSI-EAS522:8:5:662:692#0/1', description='HWUSI-EAS522:8:5:662:692#0/1', dbxrefs=[]),
 SeqRecord(seq=Seq('TCTGCCAACTTCTTATGGAGGCCTGTATTCACAGGT', SingleLetterAlphabet()), id='HWUSI-EAS522:8:5:662:693#0/1', name='HWUSI-EAS522:8:5:662:693#0/1', description='HWUSI-EAS522:8:5:662:693#0/1', dbxrefs=[]),
 SeqRecord(seq=Seq('TCTGCCAGAGGCCTGTATTCACAGGTACTTCTTATG', SingleLetterAlphabet()), id='HWUSI-EAS522:8:5:662:694#0/1', name='HWUSI-EAS522:8:5:662:694#0/1', description='HWUSI-EAS522:8:5:662:694#0/1', dbxrefs=[]),
 SeqRecord(seq=Seq('TCGCCTGTATTCACAGGTTGCCAACTTCTTATGGAG', SingleLetterAlphabet()), id='HWUSI-EAS522:8:5:662:695#0/1', name='HWUSI-EAS522:8:5:662:695#0/1', description='HWUSI-EAS522:8:5:662:695#0/1', dbxrefs=[])]

La sequenza primaria (oggetto di tipo `str`) del primo read è:

In [131]:
str(fastq_record_list[0].seq)

'TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC'

L'id del primo read è:

In [132]:
fastq_record_list[0].id

'HWUSI-EAS522:8:5:662:692#0/1'

Il dizionario delle annotazioni per lettera contiene l'unica chiave `phred_quality` il cui valore è la lista dei Phred Values delle basi del read.

In [133]:
fastq_record_list[0].letter_annotations

{'phred_quality': [64,
  64,
  64,
  64,
  63,
  64,
  64,
  63,
  64,
  64,
  63,
  60,
  62,
  62,
  63,
  64,
  64,
  63,
  62,
  52,
  58,
  62,
  64,
  63,
  61,
  59,
  59,
  52,
  51,
  54,
  57,
  63,
  55,
  61,
  48,
  55]}

Il metodo `format()` consente di formattare il *record* del primo read in formato FASTQ.

In [134]:
fastq_record_list[0].format('fastq')

'@HWUSI-EAS522:8:5:662:692#0/1\nTATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC\n+\naaaa`aa`aa`]__`aa`_U[_a`^\\\\UTWZ`X^QX\n'

In [135]:
print(fastq_record_list[0].format('fastq'))

@HWUSI-EAS522:8:5:662:692#0/1
TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC
+
aaaa`aa`aa`]__`aa`_U[_a`^\\UTWZ`X^QX



Oppure in formato FASTA (eliminando quindi la stringa di qualità).

In [136]:
fastq_record_list[0].format('fasta')

'>HWUSI-EAS522:8:5:662:692#0/1\nTATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC\n'

In [137]:
print(fastq_record_list[0].format('fasta'))

>HWUSI-EAS522:8:5:662:692#0/1
TATGGAGGCCCAACTTCTTGTATTCACAGGTTCTGC



### Lettura di un file in formato EMBL

**Esercizio**: leggere il file `M10051.txt` che contiene una sequenza di mRNA in formato EMBL (cioé un solo *record*).

In [138]:
embl_record = SeqIO.read("M10051.txt", "embl")

L'attributo `seq` dell'oggetto `embl_record` contiene il riferimento alla sequenza (oggetto di tipo `Seq`).

In [139]:
embl_record.seq

Seq('GGGGGGCTGCGCGGCCGGGTCGGTGCGCACACGAGAAGGACGCGCGGCCCCCAG...AAA', IUPACAmbiguousDNA())

La sequenza primaria (oggetto di tipo `str`) dell'mRNA è:

In [140]:
str(embl_record.seq)

'GGGGGGCTGCGCGGCCGGGTCGGTGCGCACACGAGAAGGACGCGCGGCCCCCAGCGCTCTTGGGGGCCGCCTCGGAGCATGACCCCCGCGGGCCAGCGCCGCGCGCCTGATCCGAGGAGACCCCGCGCTCCCGCAGCCATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCGCTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATCCGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTGCAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAACTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAGGACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTGGTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACCCGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGGTCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAGGAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTCATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCGACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTGGGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTGGACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGTGTGAACTTCAGCTTCTGCCAG

Gli attributi del *record* (oggetto di tipo `SeqRecord`) sono:

In [141]:
embl_record.id

'M10051.1'

In [142]:
embl_record.name

'M10051'

In [143]:
embl_record.description

'Human insulin receptor mRNA, complete cds.'

In [144]:
embl_record.annotations

{'accessions': ['M10051'],
 'sequence_version': 1,
 'topology': 'linear',
 'molecule_type': 'mRNA',
 'data_file_division': 'HUM',
 'keywords': ['insulin receptor', 'tyrosine kinase'],
 'organism': 'Homo sapiens (human)',
 'taxonomy': ['Eukaryota',
  'Metazoa',
  'Chordata',
  'Craniata',
  'Vertebrata',
  'Euteleostomi',
  'Mammalia',
  'Eutheria',
  'Euarchontoglires',
  'Primates',
  'Haplorrhini',
  'Catarrhini',
  'Hominidae',
  'Homo'],
 'references': [Reference(title='The human insulin receptor cDNA: the structural basis for hormone-activated transmembrane signalling', ...)],
 'comment': "[1] suggests that the insulin receptor may be the cellular homolog\nof the v-ros transforming (oncogene) protein.  [1] notes\nsimilarities between the insulin receptor and several growth factor\nreceptors and oncogenes.  Insulin receptor is a heterodimer\nconsisting of 2 alpha and 2 beta subunits.  Beta-prime may be a\ncleavage product produced upon binding of insulin.  [1] suggests\nthat transl

In [145]:
embl_record.letter_annotations

{}

In [146]:
embl_record.dbxrefs

['MD5:e4e6ebf2e723a500c1dd62385c279351',
 'Ensembl-Gn:ENSG00000171105',
 'Ensembl-Tr:ENST00000302850',
 'Ensembl-Tr:ENST00000341500',
 'EuropePMC:PMC2739203',
 'EuropePMC:PMC3164640',
 'EuropePMC:PMC452597']

In [147]:
embl_record.features

[SeqFeature(FeatureLocation(ExactPosition(0), ExactPosition(4723), strand=1), type='source'),
 SeqFeature(FeatureLocation(ExactPosition(136), ExactPosition(219), strand=1), type='sig_peptide'),
 SeqFeature(FeatureLocation(ExactPosition(138), ExactPosition(4287), strand=1), type='CDS'),
 SeqFeature(FeatureLocation(ExactPosition(219), ExactPosition(2424), strand=1), type='mat_peptide'),
 SeqFeature(FeatureLocation(ExactPosition(2424), ExactPosition(4284), strand=1), type='mat_peptide'),
 SeqFeature(FeatureLocation(ExactPosition(2424), ExactPosition(2469), strand=1), type='mat_peptide')]

L'attributo `features` fornisce in questo caso la lista di oggetti di tipo `SeqFeature` che rappresentano le *features* della sequenza di mRNA.

Un oggetto di tipo `SeqFeature` possiede i seguenti attributi:
- `type`: stringa che definisce il tipo di *feature* rappresentata
- `location`: oggetto di tipo `FeatureLocation` che fornisce la localizzazione della *feature* sulla sequenza cui fa riferimento

Un oggetto di tipo `FeatureLocation` possiede a sua volta i seguenti attributi:
- `start`: oggetto di tipo `ExactPosition` che fornisce lo start della localizzazione
- `end`: oggetto di tipo `ExactPosition` che fornisce l'end della localizzazione

La *feature* con attributo `type` uguale alla stringa `CDS` rappresenta la coding sequence. 

**Esercizio**: accedere al terzo oggetto della lista `embl_record.features` (cioé la coding sequence dell'mRNA) 
e recuperare il suo start e il suo end sulla sequenza di mRNA come valori interi e produrre la sequenza della coding sequence in formato FASTA.

In [148]:
cds_start = int(embl_record.features[2].location.start)
cds_end = int(embl_record.features[2].location.end)

In [149]:
cds_start

138

In [150]:
cds_end

4287

**NOTA BENE**: lo start viene fornito 0-based mentre l'end viene fornito 1-based in maniera che siano già pronti per effettuare lo *slicing* della sequenza (annotata) di mRNA per ottenere la sequenza (annotata) della coding sequence.

In [151]:
cds_sequence = embl_record[cds_start:cds_end]
cds_sequence

SeqRecord(seq=Seq('ATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTG...TAA', IUPACAmbiguousDNA()), id='M10051.1', name='M10051', description='Human insulin receptor mRNA, complete cds.', dbxrefs=[])

A questo punto la coding sequence può essere formattata in FASTA.

In [152]:
cds_sequence.format('fasta')

'>M10051.1 Human insulin receptor mRNA, complete cds.\nATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCG\nCTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATC\nCGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTG\nCAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAA\nCTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAG\nGACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTG\nGTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACC\nCGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGG\nTCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAG\nGAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTC\nATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCG\nACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTG\nGGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTG\nGACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGT\nGTGAACTTCAGCTTCTGCCAGGACCTGCACCACAAATGCAAGAACTCGCGGAGGCAGGGC\nTGCCACCAATACGTC

In [153]:
print(cds_sequence.format('fasta'))

>M10051.1 Human insulin receptor mRNA, complete cds.
ATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCG
CTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATC
CGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTG
CAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAA
CTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAG
GACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTG
GTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACC
CGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGG
TCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAG
GAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTC
ATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCG
ACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTG
GGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTG
GACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGT
GTGAACTTCAGCTTCTGCCAGGACCTGCACCACAAATGCAAGAACTCGCGGAGGCAGGGC
TGCCACCAATACGTCATTCACAACAACAAGTG