# Libreria Biopython

Biopython è una libreria che mette a disposizione funzionalità in ambito bioinformatico, principalmente:

- manipolare sequenze
- leggere i formati standard (ad esempio `EMBL`, `FASTA`, `FASTQ`)
- accedere a banche dati.

Importare il package `Bio`.

In [1]:
import Bio

In [2]:
help(Bio)

Help on package Bio:

NAME
    Bio - Collection of modules for dealing with biological data in Python.

DESCRIPTION
    The Biopython Project is an international association of developers
    of freely available Python tools for computational molecular biology.
    
    https://biopython.org

PACKAGE CONTENTS
    Affy (package)
    Align (package)
    AlignIO (package)
    Alphabet (package)
    Application (package)
    Blast (package)
    CAPS (package)
    Cluster (package)
    Compass (package)
    Data (package)
    Emboss (package)
    Entrez (package)
    ExPASy (package)
    File
    GenBank (package)
    Geo (package)
    Graphics (package)
    HMM (package)
    KEGG (package)
    LogisticRegression
    MarkovModel
    MaxEntropy
    Medline (package)
    NMR (package)
    NaiveBayes
    Nexus (package)
    PDB (package)
    Pathway (package)
    Phylo (package)
    PopGen (package)
    Restriction (package)
    SCOP (package)
    SVDSuperimposer (package)
    SearchIO (packag

## Quali classi vedremo?

- `Seq` e `MutableSeq`, classi per rappresentare una sequenza primaria (DNA, RNA o proteina)
- `SeqRecord`, classe per rappresentare una sequenza primaria annotata
- `SeqIO`,  interfaccia input/output per formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.)

## Oggetti `Seq` e `MutableSeq` per rappresentare sequenze primarie

Le classi `Seq` e `MutableSeq` appartengono al modulo `Seq` che definisce le classi per manipolare sequenze primarie.

L'oggetto `Seq` rappresenta una sequenza immutabile mentre `MutableSeq` rappresenta una sequenza primaria mutabile.

Importare il modulo `Seq`.

In [3]:
from Bio import Seq

In [4]:
help(Seq)

Help on module Bio.Seq in Bio:

NAME
    Bio.Seq - Provide objects to represent biological sequences.

DESCRIPTION
    See also the Seq_ wiki and the chapter in our tutorial:
     - `HTML Tutorial`_
     - `PDF Tutorial`_
    
    .. _Seq: http://biopython.org/wiki/Seq
    .. _`HTML Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.html
    .. _`PDF Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.pdf

CLASSES
    _SeqAbstractBaseClass(abc.ABC)
        MutableSeq
        Seq
            UnknownSeq
    abc.ABC(builtins.object)
        SequenceDataAbstractBaseClass
    builtins.ValueError(builtins.Exception)
        UndefinedSequenceError
    
    class MutableSeq(_SeqAbstractBaseClass)
     |  MutableSeq(data)
     |  
     |  An editable sequence object.
     |  
     |  Unlike normal python strings and our basic sequence object (the Seq class)
     |  which are immutable, the MutableSeq lets you edit the sequence in place.
     |  However, this means you cannot us

Importare le due classi `Seq` e `MutableSeq`.

In [5]:
from Bio.Seq import Seq
from Bio.Seq import MutableSeq

### Costruzione di un oggetto `Seq`

Il costruttore:
    
       Seq(primary_string)
     
restituisce un oggetto `Seq` che rappresenta la sequenza primaria specificata dalla stringa `primary_string` passata come argomento.

**Esercizio**: costruire una sequenza `my_seq1` che ha sequenza primaria `GTGGATTGCCGGAAATTT`.

In [6]:
my_seq1 = Seq('GTGGATTGCCGGAAATTT')

In [7]:
my_seq1

Seq('GTGGATTGCCGGAAATTT')

Convertire poi l'oggetto `Seq` in un oggetto di tipo `str`.

In [8]:
str(my_seq1)

'GTGGATTGCCGGAAATTT'

### Lunghezza di una sequenza

La funzione `len()` restituisce la lunghezza della sequenza passata come argomento.

**Esercizio**: ottenere la lunghezza della sequenza `my_seq1`

In [9]:
len(my_seq1)

18

### Qualche metodo degli oggetti  `Seq`

- `lower()` e `upper()` restituiscono la versione in minuscolo e in maiuscolo della sequenza invocante.

**Esercizio**: ottenere la versione in minuscolo della sequenza `my_seq1`.

In [10]:
my_seq1.lower()

Seq('gtggattgccggaaattt')

- `find()` restituisce la prima occorrenza di una sottostringa nella sequenza invocante.

**Esercizio**: produrre la prima occorrenza di `GATT` nella sequenza `my_seq1`.

In [11]:
my_seq1.find('GATT')

3

- `count()` restituisce il numero di occorrenze non sovrapposte di una data sottostringa nella sequenza invocante.

**Esercizio**: contare il numero di occorrenze non sovrapposte di `AAA` nella sequenza `AAAAAAA`.

In [12]:
Seq('AAAAAAA').count('AAA')

2

- `count_overlap()` restituisce il numero di occorrenze sovrapposte di una data sottostringa nella sequenza invocante.

**Esercizio**: contare il numero di occorrenze sovrapposte di `AA` nella sequenza `AAAAAAA`.

In [13]:
Seq('AAAAAAA').count_overlap('AAA')

5

### Accesso alla sequenza

L'espressione:

    my_seq[my_index]
    
restituisce il carattere alla posizione di indice `my_index` della sequenza `my_seq`.

**Esercizio**: accedere al quarto carattere della sequenza `my_seq1`.

In [14]:
my_seq1

Seq('GTGGATTGCCGGAAATTT')

In [15]:
my_seq1[3]

'G'

L'espressione:

    my_seq[start:end:step]
    
restituisce un oggetto `Seq` con sequenza primaria ottenuta dallo *slicing* di `my_seq`.

`step` è opzionale.

**Esercizio**: accedere alla sottosequenza di `my_seq1` che va dal quinto al decimo carattere.

In [16]:
my_seq1

Seq('GTGGATTGCCGGAAATTT')

In [17]:
my_seq1[4:10]

Seq('ATTGCC')

**Esercizio**: ottenere tramite un'operazione di *slicing* il reverse di `my_seq1`.

In [18]:
my_seq1[::-1]

Seq('TTTAAAGGCCGTTAGGTG')

### Verifica della presenza di una sottostringa in una sequenza

L'espressione:

    my_str in my_seq

restituisce `True` se la stringa `my_str` occorre nella sequenza `my_seq`

Verificare la presenza della stringa `CC` nella sequenza `my_seq1`.

In [19]:
my_seq1

Seq('GTGGATTGCCGGAAATTT')

In [20]:
'CC' in my_seq1

True

### Attraversamento di una sequenza

L'operatore `in` può essere utilizzato per attraversare i caratteri di una sequenza:

    for my_char in my_seq:
        do_something    

**Esercizio**: attraversare la sequenza `my_seq1` e stampare ogni singolo carattere.

In [24]:
for c in my_seq1:
    print(type(c))

<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>
<class 'str'>


### Concatenazione di sequenze

L'operatore `+` permette di concatenare sequenze.

**Esercizio**: concatenare due sequenze uguali a `ACGT`.

In [25]:
Seq('ACGT') + Seq('ACGT')

Seq('ACGTACGT')

### Ripetizione di sequenze

L'operatore `*` permette di ripetere sequenze.

**Esercizio**: ripetere due volte una sequenza di DNA uguale a `ACGT`.

In [26]:
Seq('ACGT') * 2

Seq('ACGTACGT')

### Confronto tra sequenze

L'espressione:

    my_seq1 == my_seq2
    
restituisce `True` se la sequenza primaria di `my_seq1` è uguale a quella di `my_seq2`.

**Esercizio**: confrontare due sequenze con sequenza primaria `ACGT`.

In [27]:
Seq('ACGT') == Seq('ACGT')

True

### Complement e Reverse&Complement di una sequenza
    
- Il metodo `complement()` restituisce il complemento della sequenza invocante.

**Esercizio**: ottenere il complemento della sequenza `ACGTGAGGACCCTTT`.

In [28]:
Seq('ACGTGAGGACCCTTT').complement()

Seq('TGCACTCCTGGGAAA')

- Il metodo `reverse_complement()` restituisce il reverse&complement della sequenza invocante.

**Esercizio**: ottenere il reverse&complement della sequenza `ACGTGAGGACCCTTT`.

In [29]:
Seq('ACGTGAGGACCCTTT').reverse_complement()

Seq('AAAGGGTCCTCACGT')

**NOTA BENE**`: complement()` e `reverse_complement()` tengono conto dell'alfabeto ambiguo di DNA e di RNA (IUPAC CODE).

L'alfabeto ambiguo di DNA o di RNA comprende le quattro lettere `A`, `C`, `G`, `T` e aggiunge lettere che rappresentano ambiguità tra basi.

Precisamente:

    R 	A or G
    Y 	C or T|U
    S 	G or C
    W 	A or T|U
    K 	G or T|U
    M 	A or C
    B 	C or G or T|U
    D 	A or G or T|U
    H 	A or C or T|U
    V 	A or C or G
    N 	any base

**Esercizio**: ottenere il complemento della sequenza primaria `BBBB`.

In [30]:
Seq('BBBB').complement()

Seq('VVVV')

### Trascrizione di una sequenza di DNA

- Il metodo `transcribe()` restituisce il risultato della trascrizione della sequenza di DNA invocante, intesa come sostituzione di ogni carattere `T` con un carattere `U`.

**Esercizio**: ottenere la trascrizione della sequenza primaria `ACGTGAGGACCCTTT`.

In [32]:
Seq('ACGTGAGGACCCTTT').transcribe()

Seq('ACGUGAGGACCCUUU')

- Il metodo `back_transcribe()` restituisce il risultato della retrotrascrizione della sequenza di RNA invocante, intesa come sostituzione di ogni carattere `U` con un carattere `T`.

**Esercizio**: ottenere la retrotrascrizione della sequenza primaria `ACGUGAGGACCCUUU`.

In [33]:
Seq('ACGUGAGGACCCUUU').back_transcribe()

Seq('ACGTGAGGACCCTTT')

### Traduzione di una sequenza di DNA o di RNA

- Il metodo `translate()` restituisce il risultato della traduzione della sequenza di DNA o di RNA invocante secondo il codice genetico.

La lunghezza della sequenza invocante deve essere un multiplo di tre.

**Esercizio**: ottenere la traduzione della sequenza `ACGUGAGGACCCUUU`. 

In [34]:
Seq('ACGUGAGGACCCUUU').translate()

Seq('T*GPF')

**Esercizio**: ottenere la traduzione della sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG`.

In [35]:
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG').translate()

Seq('MAIVMGR*KGAR*')

**NOTA BENE**: specificando l'attributo `to_stop` uguale a `True`, la traduzione viene fermata al primo codone di stop incontrato.

**Esercizio**: ottenere la traduzione della sequenza `ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG` fermando la traduzione al primo stop che si incontra.

In [36]:
Seq('ATGGCCATTGTAATGGGCCGCTGAAAGGGTGCCCGATAG').translate(to_stop=True)

Seq('MAIVMGR')

### Sequenze mutabili

Le sequenze mutabili sono oggetti di tipo `MutableSeq`.

**Esercizio**: creare la sequenza mutabile `ACTTTGAAAG`.

In [38]:
my_seq = MutableSeq('ACTTTGAAAG')

Cambiare in una `T` la prima base.

In [39]:
my_seq[0] = 'T'

In [40]:
my_seq

MutableSeq('TCTTTGAAAG')

### Qualche metodo degli oggetti di tipo `MutableSeq`

- `remove()` rimuove dalla sequenza invocante la prima occorrenza del carattere passato come argomento.

**Esercizio**: costruire la sequenza mutabile `AACAAAACCCTTTGGG`.

In [41]:
my_seq = MutableSeq('AACAAAACCCTTTGGG')

Rimuovere la prima occorrenza di `C`.

In [42]:
my_seq.remove('C')

In [43]:
my_seq

MutableSeq('AAAAAACCCTTTGGG')

- `reverse()` opera il reverse sulla sequenza invocante.

**Esercizio**: invertire la sequenza.

In [44]:
my_seq.reverse()

In [45]:
my_seq

MutableSeq('GGGTTTCCCAAAAAA')

- `complement(inplace = True)` opera il complement sulla sequenza invocante.

**Esercizio**: eseguire il complemento.

In [46]:
my_seq.complement(inplace = True)

MutableSeq('CCCAAAGGGTTTTTT')

In [47]:
my_seq

MutableSeq('CCCAAAGGGTTTTTT')

- `reverse_complement(inplace = True)` opera il reverse&complement sulla sequenza invocante.

**Esercizio**: eseguire il reverse&complement.

In [48]:
my_seq.reverse_complement(inplace = True)

MutableSeq('AAAAAACCCTTTGGG')

In [49]:
my_seq

MutableSeq('AAAAAACCCTTTGGG')

## L'oggetto `SeqRecord` per rappresentare una sequenza annotata

La classe `SeqRecord` appartiene al modulo `SeqRecord` e rappresenta una sequenza annotata, cioè un oggetto `Seq` con l'aggiunta di informazioni.

La classe `SeqRecord` è il tipo di oggetto che viene manipolato dalle funzioni di input/output del modulo `SeqIO`.

Importare il modulo `SeqRecord`.

In [50]:
from Bio import SeqRecord

In [51]:
help(SeqRecord)

Help on module Bio.SeqRecord in Bio:

NAME
    Bio.SeqRecord - Represent a Sequence Record, a sequence with annotation.

CLASSES
    builtins.object
        SeqRecord
    
    class SeqRecord(builtins.object)
     |  SeqRecord(seq, id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=None, features=None, annotations=None, letter_annotations=None)
     |  
     |  A SeqRecord object holds a sequence and information about it.
     |  
     |  Main attributes:
     |   - id          - Identifier such as a locus tag (string)
     |   - seq         - The sequence itself (Seq object or similar)
     |  
     |  Additional attributes:
     |   - name        - Sequence name, e.g. gene name (string)
     |   - description - Additional text (string)
     |   - dbxrefs     - List of database cross references (list of strings)
     |   - features    - Any (sub)features defined (list of SeqFeature objects)
     |   - annotations - Further information about the whol

Importare la classe `SeqRecord`.

In [52]:
from Bio.SeqRecord import SeqRecord

Un oggetto di tipo `SeqRecord` contiene i seguenti attributi:

- `seq`: sequenza primaria (oggetto `Seq`)
- `id`: identificatore della sequenza (oggetto `str`)
- `name`: nome della sequenza (oggetto `str`)
- `description`: descrizione della sequenza (oggetto `str`)
- `annotations`: dizionario delle annotazioni (oggetto `dict`)
- `letter_annotations`: dizionario delle annotazioni per base (oggetto `dict`)
- `features`: lista delle *features* annotate sulla sequenza (oggetto `list`)
- `dbxrefs`: lista delle cross-references alle banche dati in cui è memorizzata la sequenza (oggetto `list`)

**Esercizio**: costruire "da zero" una sequenza annotata con sequenza primaria `AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA`.

In [54]:
annotated_sequence = SeqRecord(Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAA'))

In [55]:
annotated_sequence

SeqRecord(seq=Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA'), id='<unknown id>', name='<unknown name>', description='<unknown description>', dbxrefs=[])

Stampare le sequenza.

In [56]:
print(annotated_sequence)

ID: <unknown id>
Name: <unknown name>
Description: <unknown description>
Number of features: 0
Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA')


Accedere all'oggetto `Seq`.

In [57]:
annotated_sequence.seq

Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA')

Accedere alle annotazioni.

In [58]:
annotated_sequence.annotations

{}

Accedere alle annotazioni per base.

In [59]:
annotated_sequence.letter_annotations

{}

Accedere alle *features*.

In [60]:
annotated_sequence.features

[]

Aggiungere delle annotazioni.

In [61]:
annotated_sequence.annotations['molecule_type'] = 'dna'

Associare alla sequenza annotata l'identificatore univoco `AA00000` e il nome `AA00000`,

In [62]:
annotated_sequence.id = 'AA00000'
annotated_sequence.name = 'AA00000'

Aggiungere la descrizione `Questa e' una sequenza annotata di prova`.

In [63]:
annotated_sequence.description = "Questa e' una sequenza annotata di prova"

In [64]:
print(annotated_sequence)

ID: AA00000
Name: AA00000
Description: Questa e' una sequenza annotata di prova
Number of features: 0
/molecule_type=dna
Seq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA')


Convertire la sequenza annotata in una stringa.

In [65]:
str(annotated_sequence)

"ID: AA00000\nName: AA00000\nDescription: Questa e' una sequenza annotata di prova\nNumber of features: 0\n/molecule_type=dna\nSeq('AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAG...AAA')"

Accedere alla prima base della sequenza.

In [66]:
annotated_sequence[0]

'A'

Accedere alla prime dieci basi della sequenza.

In [67]:
annotated_sequence[:10]

SeqRecord(seq=Seq('AGCCGTTTTA'), id='AA00000', name='AA00000', description="Questa e' una sequenza annotata di prova", dbxrefs=[])

Ottenere la versione in minuscolo.

In [68]:
annotated_sequence.lower()

SeqRecord(seq=Seq('agccgttttaaaaagccgttttaaaaagccgttttaaaaagccgttttaaaaag...aaa'), id='AA00000', name='AA00000', description="Questa e' una sequenza annotata di prova", dbxrefs=[])

### Formattazione di una sequenza annotata

Il metodo `format()` degli oggetti `SeqRecord` restituisce la stringa ottenuta formattando la sequenza annotata invocante nel formato specificato dalla stringa passata come argomento.

**Esercizio**: formattare in `FASTA` la sequenza annotata creata prima.

In [70]:
print(annotated_sequence.format('fasta'))

>AA00000 Questa e' una sequenza annotata di prova
AGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTTTAAAAAGCCGTTT
TAAAA



## Il package `SeqIO`

`SeqIO` è il package per leggere/scrivere file in uno dei formati standard (`EMBL`, `FASTA`, `FASTQ`, etc.).

In [71]:
from Bio import SeqIO

In [72]:
help(SeqIO)

Help on package Bio.SeqIO in Bio:

NAME
    Bio.SeqIO - Sequence input/output as SeqRecord objects.

DESCRIPTION
    Bio.SeqIO is also documented at SeqIO_ and by a whole chapter in our tutorial:
    
      - `HTML Tutorial`_
      - `PDF Tutorial`_
    
    .. _SeqIO: http://biopython.org/wiki/SeqIO
    .. _`HTML Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.html
    .. _`PDF Tutorial`: http://biopython.org/DIST/docs/tutorial/Tutorial.pdf
    
    Input
    -----
    The main function is Bio.SeqIO.parse(...) which takes an input file handle
    (or in recent versions of Biopython alternatively a filename as a string),
    and format string.  This returns an iterator giving SeqRecord objects:
    
    >>> from Bio import SeqIO
    >>> for record in SeqIO.parse("Fasta/f002", "fasta"):
    ...     print("%s %i" % (record.id, len(record)))
    gi|1348912|gb|G26680|G26680 633
    gi|1348917|gb|G26685|G26685 413
    gi|1592936|gb|G29385|G29385 471
    
    Note that the parse(

### Funzioni principali

- `read()` legge un file composto da un solo *record* e restituisce un oggetto `SeqRecord`:

        read(file_name, format)

- `parse()` legge un file composto da più *record* e restituisce un generatore di oggetti `SeqRecord`:

        parse(file_name, format)
        
- `write()` scrive oggetti `SeqRecord` in un file in un certo formato:

        write(records, file_name, format)

**Esercizio**: leggere l'unico *record* del file `ENm006.fa`, che contiene una sequenza genomica di riferimento, e assegnarlo alla variabile `fasta_record`.

In [74]:
fasta_record = SeqIO.read('./ENm006.fa', 'fasta')

Ottenere la sequenza primaria.

In [76]:
str(fasta_record.seq)

'ACATGGCAAAATCCCATCTCTACAAAAAATACAAAAAAATAAAACTAGCCAGGTGTGGTGGCACATGCCTGTAATCGCAGCTACTTGGGAGGCTGAGGCAGAAGAATCACTTGAATCTGGGAGGCAGAAGTTGCAGTGAGTTAAGATCATGCCACCGCACTCCAGCCTGGGCAACAGAGCAAGATTCTTTCTCAAAAAATAAAAATAAATAAAAACATTAAAAAAAATCAGCCACAGGACTTGGTCTTGGACCCAAGTTAGAGCTAGGCCATGCTTGCTTAAAGGAGTGGCTGTAATTTTAAACAAGGCTAGTGGGAAAGTTCCAGGCCATCTTAACATTGTAGGTTGCAGAATCTTAGCCAATGAGTCTTTCAGAGCTGGATTCATTAATCTGTTAATTAATTCATTAATTTTTTTATGCTACTGGATGACAGTAGGAATAAAATGACTTTTTCTGTCTGATTCAAATGCTCTGGTATTCCAAAAGGGAGATTCATATTTATTAAGAGAGTCTTTCCCGTTGTTTATACTTCCTGCCTAAGGATCAGCTTCTTTTTCTCTTTCTTCACAGCTGACAACAGATGCCCTAATTGTTTCACCTCAGGTTAGCACTATTGCAATTTGTCTAGCAAGACCTTATGTCCCCGCCAGATGAGAAATTGCAGTAAAGCCAAAGCATCAGTTTTGCATTGCTCTTCAGTTTCTGAGGCTACTAGTAGCAAGTCGTCTACATAGCAAATAATCATAGATCCCTCTGGTGGGAGAAATTCCTCTAAGTGTTTCTGTAAATGACTAGAGAAAATAATGGGAGCATTCAAAACCCTTGAGGAATTCTTTGCCATAAATATCAGACTTTCTCATAAGCAAAAGCAAACAAGAATTTAGATTCATCTGCTAGAGGAATGGAAAGACAGAAAATGCAGAAAATTGATCAATTACAGAGAAAAACTTTGCAGACAATGGTACCAAAGTCAGAAGAGTTGCTGGAGTAAACAGAAC

Ottenere l'identificatore.

In [77]:
fasta_record.id

'ENm006'

Ottenere il nome.

In [78]:
fasta_record.name

'ENm006'

Ottenere la descrizione.

In [79]:
fasta_record.description

'ENm006'

Ottenere le annotazioni.

In [80]:
fasta_record.annotations

{}

Ottenere le annotazioni per lettera.

In [81]:
fasta_record.letter_annotations

{}

Ottenere le *features*.

In [82]:
fasta_record.features

[]

Scrivere il record in un file in formato `embl`.

In [84]:
fasta_record.annotations['molecule_type'] = 'DNA'

In [85]:
SeqIO.write(fasta_record, './prova.embl', 'embl')

1

**Esercizio**: leggere i *record* del file `ests.fa`, contenente frammenti di trascritto (ESTs) relativi a un gene umano.

In [87]:
fasta_record_gen = SeqIO.parse('./ests.fa', 'fasta')

Ottenere dal generatore la lista dei *record*.

In [88]:
fasta_record_list = list(fasta_record_gen)

In [89]:
fasta_record_list

[SeqRecord(seq=Seq('AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCA...GCC'), id='gnl|UG|Hs#S1027289', name='gnl|UG|Hs#S1027289', description="gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458", dbxrefs=[]),
 SeqRecord(seq=Seq('TTTTTTTTTTTTGGGAATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTG...CAA'), id='gnl|UG|Hs#S1072854', name='gnl|UG|Hs#S1072854', description="gnl|UG|Hs#S1072854 oz13f05.x1 Soares_fetal_liver_spleen_1NFLS_S1 Homo sapiens cDNA clone IMAGE:1675233 3' similar to SW:RGC1_HUMAN P98171 RHO-GAP HEMATOPOIETIC PROTEIN C1 ;, mRNA sequence /clone=IMAGE:1675233 /clone_end=3' /gb=AI078474 /gi=3412882 /ug=Hs.701324 /len=461", dbxrefs=[]),
 SeqRecord(seq=Seq('TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTCGGGGAATCAACACGAGGTC...GGC'), id='gnl|UG|Hs#S1140573', name='gnl|UG|Hs#S1140573', description="gnl|UG|Hs#S1140573 qx09d10.x1 NCI_CGAP_Lym12 Homo sapiens cDNA clone I

Estrarre per il primo EST.

In [90]:
first_est = fasta_record_list[0]

Estrarre la sequenza primaria (come oggetto di tipo `str`)

In [91]:
str(first_est.seq)

'AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCAAGGGTACCCGCCACCCAGCAGCCACTGATCAGCCTTCCACAAAGCTGCAGAAGAGGGCTTTCCCCAGCATCCTTCCTCAGCTGCCTCCAAAAGGGGCCTGGGCAGGGCTGAGGGGCAGGCAGGATGTGGAGCGGGCATCCCTGTGTGCACGGCCCCATCCCACCTCTCTGCACAGGGTGAAGTGCAGGCACCCTGCACTTGCTGGACAGGGCTGGAGAGAAGCAAGGGGGCTGGGGAGAGTGGCCGGTCCAGCGGGTAACCGCCGGGGGANCGCATCTCCAGCAGCGGCACCTCAGTGTGGCTTGGGGGTCGTGTCTAGGCCCTGGGGGTGGGAAGCTGAGGGTGAGGCTGGGCCCCAGGCGGTNGAGAAGCCTTTGTTCCTCCCAGCGGCTGCTGGCGGGGCC'

Estrarre l'identificatore univoco.

In [92]:
first_est.id

'gnl|UG|Hs#S1027289'

Estrarre il nome.

In [93]:
first_est.name

'gnl|UG|Hs#S1027289'

Estrarre la descrizione

In [94]:
first_est.description

"gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458"

Formattare in `FASTA`.

In [98]:
print(first_est.format('fasta'))

>gnl|UG|Hs#S1027289 os53f09.s1 NCI_CGAP_Br2 Homo sapiens cDNA clone IMAGE:1609097 3', mRNA sequence /clone=IMAGE:1609097 /clone_end=3' /gb=AI000530 /gi=3191084 /ug=Hs.701324 /len=458
AATCAACACGAGGTCTTTATGAATCGCCACCCAGCCCTGCCAGGCATCTGAGCAAGGGTA
CCCGCCACCCAGCAGCCACTGATCAGCCTTCCACAAAGCTGCAGAAGAGGGCTTTCCCCA
GCATCCTTCCTCAGCTGCCTCCAAAAGGGGCCTGGGCAGGGCTGAGGGGCAGGCAGGATG
TGGAGCGGGCATCCCTGTGTGCACGGCCCCATCCCACCTCTCTGCACAGGGTGAAGTGCA
GGCACCCTGCACTTGCTGGACAGGGCTGGAGAGAAGCAAGGGGGCTGGGGAGAGTGGCCG
GTCCAGCGGGTAACCGCCGGGGGANCGCATCTCCAGCAGCGGCACCTCAGTGTGGCTTGG
GGGTCGTGTCTAGGCCCTGGGGGTGGGAAGCTGAGGGTGAGGCTGGGCCCCAGGCGGTNG
AGAAGCCTTTGTTCCTCCCAGCGGCTGCTGGCGGGGCC



**Esercizio**: leggere il file `SRR18961685-5000.fastq`.

In [101]:
fastq_record_gen = SeqIO.parse('./SRR18961685-5000.fastq', 'fastq')

Ottenere la lista dei *records* (oggetto di tipo `list`).

In [102]:
fastq_record_list = list(fastq_record_gen)

Ottenere il primo *read*.

In [103]:
first_read = fastq_record_list[0]

Ottenere la sequenza primaria.

In [104]:
str(first_read.seq)

'TTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGTTTAGGGTTAGGGTTACGGATAGGGTAACGTGTAGCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCATAACCCTAACCCAA'

Ottenere l'identificatore.

In [105]:
first_read.id

'SRR18961685.1'

Ottenere il dizionario delle annotazioni per lettera.

In [106]:
first_read.letter_annotations

{'phred_quality': [31,
  32,
  30,
  32,
  34,
  35,
  33,
  36,
  34,
  36,
  36,
  36,
  34,
  36,
  34,
  36,
  36,
  36,
  34,
  36,
  34,
  36,
  36,
  29,
  31,
  31,
  34,
  36,
  36,
  36,
  34,
  36,
  34,
  30,
  36,
  36,
  34,
  30,
  34,
  36,
  36,
  14,
  14,
  36,
  34,
  15,
  36,
  36,
  14,
  14,
  25,
  15,
  36,
  13,
  14,
  14,
  34,
  12,
  31,
  28,
  10,
  35,
  25,
  15,
  13,
  13,
  34,
  8,
  35,
  12,
  30,
  14,
  14,
  14,
  25,
  16,
  31,
  31,
  31,
  29,
  32,
  33,
  34,
  34,
  35,
  33,
  34,
  35,
  35,
  35,
  36,
  34,
  35,
  35,
  35,
  35,
  35,
  34,
  35,
  35,
  35,
  35,
  36,
  34,
  35,
  35,
  35,
  35,
  36,
  34,
  35,
  35,
  35,
  35,
  36,
  34,
  35,
  27,
  35,
  11,
  35,
  34,
  35,
  35,
  10,
  35,
  36,
  34,
  11,
  26,
  35,
  11,
  21,
  34,
  35,
  27,
  11,
  9,
  13,
  34,
  11,
  12,
  25,
  11,
  33,
  34,
  11,
  12,
  31,
  12,
  11,
  31]}

Ottenere la formattazione in `FASTA`.

In [108]:
print(first_read.format('fasta'))

>SRR18961685.1 1 length=152
TTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGTTTAGGGTTAGGGTTACGG
ATAGGGTAACGTGTAGCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCC
TAACCCTAACCCTAACCATAACCCTAACCCAA



**Esercizio**: leggere l'unico record del file `M10051.txt`, che contiene una sequenza di mRNA in formato `embl`.

In [109]:
embl_record = SeqIO.read('./M10051.txt', 'embl')

Ottenere la sequenza primaria.

In [111]:
str(embl_record.seq)

'GGGGGGCTGCGCGGCCGGGTCGGTGCGCACACGAGAAGGACGCGCGGCCCCCAGCGCTCTTGGGGGCCGCCTCGGAGCATGACCCCCGCGGGCCAGCGCCGCGCGCCTGATCCGAGGAGACCCCGCGCTCCCGCAGCCATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCGCTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATCCGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTGCAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAACTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAGGACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTGGTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACCCGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGGTCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAGGAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTCATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCGACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTGGGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTGGACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGTGTGAACTTCAGCTTCTGCCAG

Ottenere tutti gli attributi.

In [112]:
embl_record.id

'M10051.1'

In [113]:
embl_record.name

'M10051'

In [114]:
embl_record.description

'Human insulin receptor mRNA, complete cds.'

In [115]:
embl_record.annotations

{'accessions': ['M10051'],
 'sequence_version': 1,
 'topology': 'linear',
 'molecule_type': 'mRNA',
 'data_file_division': 'HUM',
 'keywords': ['insulin receptor', 'tyrosine kinase'],
 'organism': 'Homo sapiens (human)',
 'taxonomy': ['Eukaryota',
  'Metazoa',
  'Chordata',
  'Craniata',
  'Vertebrata',
  'Euteleostomi',
  'Mammalia',
  'Eutheria',
  'Euarchontoglires',
  'Primates',
  'Haplorrhini',
  'Catarrhini',
  'Hominidae',
  'Homo'],
 'references': [Reference(title='The human insulin receptor cDNA: the structural basis for hormone-activated transmembrane signalling', ...)],
 'comment': "[1] suggests that the insulin receptor may be the cellular homolog\nof the v-ros transforming (oncogene) protein.  [1] notes\nsimilarities between the insulin receptor and several growth factor\nreceptors and oncogenes.  Insulin receptor is a heterodimer\nconsisting of 2 alpha and 2 beta subunits.  Beta-prime may be a\ncleavage product produced upon binding of insulin.  [1] suggests\nthat transl

In [116]:
embl_record.letter_annotations

{}

In [117]:
embl_record.dbxrefs

['MD5:e4e6ebf2e723a500c1dd62385c279351',
 'Ensembl-Gn:ENSG00000171105',
 'Ensembl-Tr:ENST00000302850',
 'Ensembl-Tr:ENST00000341500',
 'EuropePMC:PMC2739203',
 'EuropePMC:PMC3164640',
 'EuropePMC:PMC452597']

In [118]:
embl_record.features

[SeqFeature(SimpleLocation(ExactPosition(0), ExactPosition(4723), strand=1), type='source', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(136), ExactPosition(219), strand=1), type='sig_peptide', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(138), ExactPosition(4287), strand=1), type='CDS', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(219), ExactPosition(2424), strand=1), type='mat_peptide', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(2424), ExactPosition(4284), strand=1), type='mat_peptide', qualifiers=...),
 SeqFeature(SimpleLocation(ExactPosition(2424), ExactPosition(2469), strand=1), type='mat_peptide', qualifiers=...)]

L'attributo `features` fornisce una lista di oggetti di tipo `SeqFeature` che rappresentano le *features* annotate sulla sequenza.

Un oggetto di tipo `SeqFeature` possiede i seguenti attributi:
- `type`: stringa che definisce il tipo di *feature* rappresentata
- `location`: oggetto di tipo `SimpleLocation` che fornisce la localizzazione della *feature* sulla sequenza

Un oggetto di tipo `SimpleLocation` possiede a sua volta i seguenti attributi:
- `start`: oggetto di tipo `ExactPosition` che fornisce lo start della localizzazione
- `end`: oggetto di tipo `ExactPosition` che fornisce l'end della localizzazione

La *feature* con `type` uguale a `CDS` rappresenta la coding sequence della sequenza. 

**Esercizio**: accedere al terzo oggetto della lista delle *features* (cioé la coding sequence della sequenza) e recuperare lo start e l'end della coding sequence.

In [123]:
cds_start = int(embl_record.features[2].location.start)

In [124]:
cds_start

138

In [125]:
cds_end = int(embl_record.features[2].location.end)

In [126]:
cds_end

4287

**NB**: la start position viene fornita 0-based mentre l'end position viene fornita 1-based.

Effettuare lo slicing della sequenza per ottenere la coding sequence.

In [128]:
cds_sequence = embl_record[cds_start:cds_end]

In [129]:
cds_sequence

SeqRecord(seq=Seq('ATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTG...TAA'), id='M10051.1', name='M10051', description='Human insulin receptor mRNA, complete cds.', dbxrefs=[])

Formattare la coding sequence in formato `FASTA`.

In [131]:
print(cds_sequence.format('fasta'))

>M10051.1 Human insulin receptor mRNA, complete cds.
ATGGGCACCGGGGGCCGGCGGGGGGCGGCGGCCGCGCCGCTGCTGGTGGCGGTGGCCGCG
CTGCTACTGGGCGCCGCGGGCCACCTGTACCCCGGAGAGGTGTGTCCCGGCATGGATATC
CGGAACAACCTCACTAGGTTGCATGAGCTGGAGAATTGCTCTGTCATCGAAGGACACTTG
CAGATACTCTTGATGTTCAAAACGAGGCCCGAAGATTTCCGAGACCTCAGTTTCCCCAAA
CTCATCATGATCACTGATTACTTGCTGCTCTTCCGGGTCTATGGGCTCGAGAGCCTGAAG
GACCTGTTCCCCAACCTCACGGTCATCCGGGGATCACGACTGTTCTTTAACTACGCGCTG
GTCATCTTCGAGATGGTTCACCTCAAGGAACTCGGCCTCTACAACCTGATGAACATCACC
CGGGGTTCTGTCCGCATCGAGAAGAACAATGAGCTCTGTTACTTGGCCACTATCGACTGG
TCCCGTATCCTGGATTCCGTGGAGGATAATCACATCGTGTTGAACAAAGATGACAACGAG
GAGTGTGGAGACATCTGTCCGGGTACCGCGAAGGGCAAGACCAACTGCCCCGCCACCGTC
ATCAACGGGCAGTTTGTCGAACGATGTTGGACTCATAGTCACTGCCAGAAAGTTTGCCCG
ACCATCTGTAAGTCACACGGCTGCACCGCCGAAGGCCTCTGTTGCCACAGCGAGTGCCTG
GGCAACTGTTCTCAGCCCGACGACCCCACCAAGTGCGTGGCCTGCCGCAACTTCTACCTG
GACGGCAGGTGTGTGGAGACCTGCCCGCCCCCGTACTACCACTTCCAGGACTGGCGCTGT
GTGAACTTCAGCTTCTGCCAGGACCTGCACCACAAATGCAAGAACTCGCGGAGGCAGGGC
TGCCACCAATACGTCATTCACAACAACAAGTG