# Biopython - Parsing, Seq, MutableSeq, UnknownSeq

http://biopython.org/DIST/docs/tutorial/Tutorial.html

In [1]:
from Bio.Seq import Seq

----------------
## - Esempi di utilizzo della classe Seq -

In [2]:
my_seq = Seq("CATGTAGACTAG") 
# Seq è una classe simile a str, ma con funzioni specifiche per l'ambito bio:

In [3]:
print(f"Our seq \"{my_seq}\" is {len(my_seq)} bases long")

Our seq "CATGTAGACTAG" is 12 bases long


In [4]:
print(f"its reverse complement is \"{my_seq.reverse_complement()}\"")

its reverse complement is "CTAGTCTACATG"


In [5]:
print(f"its protein translation is \"{my_seq.translate()}\"")

its protein translation is "HVD*"


## - Fine esempio -

---------------

# Inizio tutorial

### Link al tutorial:
http://biopython.org/DIST/docs/tutorial/Tutorial.html

# # Parsing FASTA/GBK

In [6]:
from Bio import SeqIO 

#  per poter gestire le sequenze in input/output

#### Abbiamo due file nella cartella corrente, un FASTA ed un GBK, entrambi con più risultati che sarebbe utile "scremare" in diversi output.
#### Per questa ragione si utilizzano i parser, particolari algoritmi che sgruppano i dati, in modo da ottenere singoli elementi (seq_record) che contengono:
#### - id della sequenza (seq_record.id) 
#### - la sequenza stessa (seq_record.seq) 
####   ed altre proprietà.

In [7]:
for seq_record in SeqIO.parse('ls_orchid.fasta', 'fasta'):
    print(seq_record.id)
    print(repr(seq_record.seq))  # repr() sembra comprimere le sequenze printate, altrimenti multi-riga
    print(f"Sequence length is: {len(seq_record)}")
    
    print() # per lo spazio
    
# in questo modo riusciamo ad agire su ogni elemento "seq_record" del file FASTA dato come 
# input al parser, iterando su esso.

gi|2765658|emb|Z78533.1|CIZ78533
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
Sequence length is: 740

gi|2765657|emb|Z78532.1|CCZ78532
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC')
Sequence length is: 753

gi|2765656|emb|Z78531.1|CFZ78531
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA')
Sequence length is: 748

gi|2765655|emb|Z78530.1|CMZ78530
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAAACAACAT...CAT')
Sequence length is: 744

gi|2765654|emb|Z78529.1|CLZ78529
Seq('ACGGCGAGCTGCCGAAGGACATTGTTGAGACAGCAGAATATACGATTGAGTGAA...AAA')
Sequence length is: 733

gi|2765652|emb|Z78527.1|CYZ78527
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...CCC')
Sequence length is: 718

gi|2765651|emb|Z78526.1|CGZ78526
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...TGT')
Sequence length is: 730

gi|2765650|emb|Z78525.1|CAZ78525
Seq('TGTTGAGATAGCAGAATATACATCGAGTGAATCCGGAGGACCTGTGGTTATTCG...GCA')
Sequence length i

In [8]:
for seq_record in SeqIO.parse('ls_orchid.gbk', 'genbank'):
    print(seq_record.id)
    print(repr(seq_record.seq))  # repr() sembra comprimere le sequenze printate, altrimenti multi-riga
    print(f"Seq length is: {len(seq_record)}")
    
    print()
    
# in questo modo riusciamo ad agire su ogni elemento "seq_record" del file GBK dato come 
# input al parser, iterando su esso.

Z78533.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGATGAGACCGTGG...CGC')
Seq length is: 740

Z78532.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAACAG...GGC')
Seq length is: 753

Z78531.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGCAG...TAA')
Seq length is: 748

Z78530.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAAACAACAT...CAT')
Seq length is: 744

Z78529.1
Seq('ACGGCGAGCTGCCGAAGGACATTGTTGAGACAGCAGAATATACGATTGAGTGAA...AAA')
Seq length is: 733

Z78527.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...CCC')
Seq length is: 718

Z78526.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGACAGTAG...TGT')
Seq length is: 730

Z78525.1
Seq('TGTTGAGATAGCAGAATATACATCGAGTGAATCCGGAGGACCTGTGGTTATTCG...GCA')
Seq length is: 704

Z78524.1
Seq('CGTAACAAGGTTTCCGTAGGTGAACCTGCGGAAGGATCATTGTTGAGATAGTAG...AGC')
Seq length is: 740

Z78523.1
Seq('CGTAACCAGGTTTCCGTAGGTGAACCTGCGGCAGGATCATTGTTGAGACAGCAG...AAG')
Seq length is: 709

Z78522.1
Seq('CGTAACAAGGTTTCCG

--------------------
# # Seq
### Come gestire le sequenze in Biopython

In [9]:
seq = Seq("GATAC")      # senza differenza, Seq può gestire sia sequenze amminoacidiche che nucelotiche,
seq_pr = Seq("EVRNAK")  # in fondo per 'lui' sono solo caratteri ¢-¢

### Per molti casi si può trattare l'oggetto Seq come una str:

In [10]:
for index, letter in enumerate(seq):
    print(f"{index} {letter}")
    
# enumerate() restituisce una lista degli elementi della stringa (quindi ogni singola lettera),
# accoppiati con un indice che parte da 0.
# Del tipo:  (0, seq[0]), (1, seq[1]), (2, seq[2]), ...
# Per questo motivo possiamo iterare con un for e farne stampare sia l'indice (index) che l'oggetto (letter)

0 G
1 A
2 T
3 A
4 C


In [11]:
print(seq)
print(len(seq)) # si può usare len()

GATAC
5


In [12]:
print(seq[0]) # si può accedere ai singoli elementi come per le stringhe, sempre partendo dallo 0!
print(seq[-1])

G
C


### Slicing:

In [13]:
new_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATCGC")

In [14]:
new_seq[1:11]  # siccome python inizia a contare da 0, se prendiamo 1:11, avremo 10 caratteri, non dall'1 all'11 
               # (che sarebbero 11 caratteri); con lo slicing si ha che il primo termine [1:] è inclusivo, mentre
               # il secondo [:11] viene escluso.

Seq('ATCGATGGGC')

In [15]:
print(new_seq[0:10])

GATCGATGGG


In [16]:
# possiamo ottenere l'inverso della sequenza attraverso slicing:
new_seq[::-1]

Seq('CGCTAAAAGCTAGGATATATCCGGGTAGCTAG')

In [17]:
# se dovesse servirci il contenuto di Seq in formato str, il gioco è semplice:
str(new_seq)

'GATCGATGGGCCTATATAGGATCGAAAATCGC'

### Concatenare o 'sommare' sequenze:

In [18]:
list_of_seqs = [Seq("ACGT"), Seq("AACC"), Seq("GGTT")]
concatenated = ("")

In [19]:
for s in list_of_seqs:                 # ogni elemento Seq di list_of_seqs viene sommato a quello precedente 
    concatenated += s                  # nella variabile 'concatenated'

In [20]:
concatenated

Seq('ACGTAACCGGTT')

### Anche .join() è valido per gli elementi Seq:

In [21]:
contigs = [Seq("ATG"), Seq("ATCCCG"), Seq("TTGCA")]
spacer = Seq("N"*10)

In [22]:
spacer.join(contigs)

Seq('ATGNNNNNNNNNNATCCCGNNNNNNNNNNTTGCA')

### Anche .upper() e .lower() sono metodi applicabili a Seq:

In [23]:
new_seq.lower()

Seq('gatcgatgggcctatataggatcgaaaatcgc')

In [24]:
new_seq.upper()

Seq('GATCGATGGGCCTATATAGGATCGAAAATCGC')

----------
## # Complemento e Complemento inverso:

In [25]:
n_seq = Seq('GATCGATGGGCCTATATAGGATCGAAAATCGC')

#### Complemento ↓

In [26]:
n_seq.complement()

Seq('CTAGCTACCCGGATATATCCTAGCTTTTAGCG')

In [27]:
n_seq[::-1]       # metodo alternativo con slicing

Seq('CGCTAAAAGCTAGGATATATCCGGGTAGCTAG')

#### Complemento inverso ↓

In [28]:
n_seq.reverse_complement()

Seq('GCGATTTTCGATCCTATATAGGCCCATCGATC')

------------------
## # Trascrizione
### Si distinguono due casi, in base allo strand a nostra disposizione:

In [29]:
cod_seq = Seq("GATTTTCGATCCTATATAGGCCCATCGATC")  # quella che codifica il gene trascritto
templ_seq = Seq("GATCGATGGGCCTATATAGGATCGAAAATC")# il reverse complement del di sopra, che permette la trascrizione

In [30]:
# nel caso in cui avessimo il coding strand l'unica modifica a livello informativo è il passaggio delle T → U

cod_seq.transcribe()     # DNA → RNA

Seq('GAUUUUCGAUCCUAUAUAGGCCCAUCGAUC')

In [31]:
# nel caso in cui avessimo il template strand serve replicare ciò che avviene in natura, 
# ovvero una trascrizione del complementare inverso del filamento templato

templ_seq.reverse_complement().transcribe()

Seq('GAUUUUCGAUCCUAUAUAGGCCCAUCGAUC')

### Retro-trascrizione

In [32]:
rna_seq = cod_seq.transcribe()

In [33]:
rna_seq.back_transcribe()   # RNA → DNA

Seq('GATTTTCGATCCTATATAGGCCCATCGATC')

-----------------
## # Traduzione

In [34]:
mRNA = Seq("AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG")
codingDNA = Seq("AUGGCCAUUGUAAUGGGCCGCUGAAAGGGUGCCCGAUAG").back_transcribe() # pigrizia portami via

In [35]:
mRNA.translate()            # RNA → AA 

Seq('MAIVMGR*KGAR*')

In [36]:
codingDNA.translate()       # DNA → AA

Seq('MAIVMGR*KGAR*')

#### .translate() utilizza come default la tabella di conversione dei codoni dell'uomo;
#### tale impostazione potrebbe causare problemi, come nella cella sopra, nella quale abbiamo un codone di stop anche interno.
#### La sequenza sopra è mitocondriale: se proviamo ad impostare la tabella per i mitocondri vedremo sparire lo stop codon interno.

In [37]:
mRNA.translate(table="Vertebrate Mitochondrial")

# in alternativa, nei file GBK, è segnato il numero della tabella; sarebbe quindi sufficiente mettere (table=#)

Seq('MAIVMGRWKGAR*')

#### Se volessimo invece tradurre la nostra sequenza fino al primo codone di stop, come avviene in natura, esiste il parametro booleano to_stop:

In [38]:
mRNA.translate(to_stop=True)

Seq('MAIVMGR')

In [39]:
mRNA.translate(table="Vertebrate Mitochondrial", to_stop=True)

Seq('MAIVMGRWKGAR')

In [40]:
mRNA.translate(table=2, stop_symbol="@") # se voglio tenere il codone di stop posso modificare come viene mostrato

Seq('MAIVMGRWKGAR@')

#### Per l'uomo se avessimo un'intera CDS (senza introni e con un solo codone di stop ed uno di inizio) ci basterebbe usare .translate()
#### In altri casi però, come per i batteri, anche avendo la CDS possiamo andare in contro a problemi:                                            
#### alcuni batteri ad esempio convalidano come codone d'inizio GTG; solitamente GTG codifica per la valina, ma se presente come codone d'inizio batterico codifica metionina. 


In [41]:
bact_gene = Seq("GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCCATGGCAGCACAGGCTGCGGAAATTACGTTAGTCCCGTCAGTAAAATTACAGATAGGCGATCGTGATAATCGTGGCTATTACTGGGATGGAGGTCACTGGCGCGACCACGGCTGGTGGAAACAACATTATGAATGGCGAGGCAATCGCTGGCACCTACACGGACCGCCGCCACCGCCGCGCCACCATAAGAAAGCTCCTCATGATCATCACGGCGGTCATGGTCCAGGCAAACATCACCGCTAA")

In [42]:
bact_gene.translate(table="Bacterial")

# vediamo infatti che il primo amminoacido è una valina, ma sappiamo che dovrebbe essere una metionina. 

Seq('VKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HR*')

In [43]:
bact_gene.translate(table="Bacterial", cds=True)  # cds=True necessario se trattiamo una cds!!!

# Ora il primo codone viene tradotto in modo corretto perché abbiamo indicato che si tratta di una CDS completa.
# Se non lo indichiamo noi infatti, il programma non può sapere se una stringa di caratteri sia o meno una CDS, 
# anche se è stato usato Seq per 'registrarla'.

Seq('MKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HHR')

In [44]:
# con cds=True inoltre, se la sequenza non fosse una valida candidata ad essere una CDS verrebbe alzato un errore.

### Tabelle di conversione

In [45]:
from Bio.Data import CodonTable

In [46]:
standard_table = CodonTable.unambiguous_dna_by_name["Standard"]              # necessario salvarle per 
mito_table = CodonTable.unambiguous_dna_by_name["Vertebrate Mitochondrial"]  # consultarle.

In [47]:
print(standard_table)

Table 1 Standard, SGC0

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I   | ACT T   | AAT N   | AGT S   | T
A | ATC I   | ACC T   | AAC N   | AGC S   | C
A | ATA I   | ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V   | GCG A   | GAG E   | GGG G   | G
--+---------

In [48]:
print(mito_table)

Table 2 Vertebrate Mitochondrial, SGC1

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA W   | A
T | TTG L   | TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L   | CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I(s)| ACT T   | AAT N   | AGT S   | T
A | ATC I(s)| ACC T   | AAC N   | AGC S   | C
A | ATA M(s)| ACA T   | AAA K   | AGA Stop| A
A | ATG M(s)| ACG T   | AAG K   | AGG Stop| G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V(s)| GCG A   | GAG E   | GGG G   

In [49]:
standard_table.stop_codons               # metodi utili per scoprire quali sono i codoni di stop/start.

['TAA', 'TAG', 'TGA']

In [50]:
mito_table.stop_codons                   # metodi utili per scoprire quali sono i codoni di stop/start.

['TAA', 'TAG', 'AGA', 'AGG']

In [51]:
standard_table.start_codons              # metodi utili per scoprire quali sono i codoni di stop/start.

['TTG', 'CTG', 'ATG']

In [52]:
mito_table.start_codons                  # metodi utili per scoprire quali sono i codoni di stop/start.

['ATT', 'ATC', 'ATA', 'ATG', 'GTG']

------------------------------
## # MutableSeq
### Gli oggetti 'Seq' sono di sola lettura, così come le stringhe in python; 
### se volessi modificare la sequenza per davvero, in memoria, dovremmo utilizzare una 'MutableSeq()'

In [53]:
this_seq = Seq("GCCATTGTAATGGGCCGCTGAAAGGGTGCCCGA")

In [54]:
#this_seq[5] = "G"

#      ↓

#TypeError                         Traceback (most recent call last)
#<ipython-input-85-26660d124212> in <module>
#----> 1 this_seq[5] = "G"
#      2 
#      3 
#      4 
#      5 # File "<ipython-input-83-1b97e53be12c>", line 1
#
# TypeError: 'Seq' object does not support item assignment

#### 1) Se abbiamo già una sequenza oggetto Seq, possiamo convertirla a MutableSeq:

In [55]:
mutSeq = this_seq.tomutable()      # .tomutable() converte

In [56]:
mutSeq                             # finora sarebbe sempre comparsa Seq('...')!!!

MutableSeq('GCCATTGTAATGGGCCGCTGAAAGGGTGCCCGA')

#### 2) Altrimenti, se volessi inizializzarla nel mentre, è possibile farlo come per Seq:

In [57]:
from Bio.Seq import MutableSeq   # va però importato l'oggetto MutableSeq!!!

mutable_seq = MutableSeq("GCCATTGTAATGGGCCGCTGAAAGGGTGCCCGA")

#### Ora però la sequenza è modificabile:

In [58]:
mutable_seq

MutableSeq('GCCATTGTAATGGGCCGCTGAAAGGGTGCCCGA')

In [59]:
mutable_seq[0] = 'A'
mutable_seq

MutableSeq('ACCATTGTAATGGGCCGCTGAAAGGGTGCCCGA')

In [60]:
mutable_seq      # il cambiamento permane, non è solo un cambiamento in lettura come prima

MutableSeq('ACCATTGTAATGGGCCGCTGAAAGGGTGCCCGA')

In [61]:
mutable_seq.remove("T")

In [62]:
mutable_seq      # anche qui, il cambiamento rimane.

MutableSeq('ACCATGTAATGGGCCGCTGAAAGGGTGCCCGA')

#### L'oggetto MutableSeq può anch'esso essere invertito a Seq:

In [63]:
type(mutable_seq)

Bio.Seq.MutableSeq

In [64]:
read_seq = mutable_seq.toseq()

In [65]:
type(read_seq)

Bio.Seq.Seq

-----------------
## # UnknownSeq 
### La memoria è importante ed è importante non sprecarla! Per questo motivo UnknownSeq è stato costruito per evitare di inizializzare stringe con millemila "N" per regioni ignote di cromosomi o geni.
### Con questo oggetto è solo necessario passare la lunghezza della 'stringa' ed il tipo di carattere che la comporrà.

In [66]:
from Bio.Seq import UnknownSeq             # serve importarlo, come per Seq e MutableSeq!!!

In [69]:
nknwn = UnknownSeq(300, character='N')     # serve solo la lunghezza ed il tipo di carattere.

In [70]:
nknwn                                      # non stampa tutte le N, ma le considera come 300 N in fila in stringa.

UnknownSeq(300, character='N')

In [71]:
print(nknwn)

NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN


In [72]:
len(nknwn)

300