## Resolução da ficha BioPython - módulo Seq

Carregamento do package e dos módulos necessários

In [1]:
from Bio import Seq
from Bio import SeqIO

Leitura da sequência do ficheiro no formato FASTA (note-se que previamente esta sequência foi gravada do NCBI, correspondendo ao gene yaaX da Escherichia coli).

In [2]:
record = SeqIO.read("NC_000913.fasta", "fasta")

In [3]:
seq = record.seq
seq

Seq('CTCCGGATATCGACCCATAACGGGCAATGATAAAAGGAGTAACCTGTGAAAAAG...TGC')

1. Calcule o comprimento da sequência.

In [4]:
tam = len(seq)
tam

385

2. Calcule o conteúdo "GC" da sequência (i.e. qual a proproção de nucleótidos "G" ou "C")

In [5]:
gc = seq.count("G") + seq.count("C")
percgc = gc / tam * 100.0
print(percgc, " %")

52.98701298701298  %


3. Obtenha a sequência complementar inversa

In [6]:
ci = seq.reverse_complement()
print("O complemento inverso é: ", ci)

O complemento inverso é:  GCATCAGGCGCTGAATGCCGGATTGTTACCCGGCATTTGTCATTTAGCGGTGATGTTTGCCTGGACCATGACCGCCGTGATGATCATGAGGAGCTTTCTTATGGTGGCGCGGCGGTGGCGGCGGTCCGTGTAGGTGCCAGCGATTGCCTCGCCATTCATAATGTTGTTTCCACCAGCCGTGGTCGCGCCAGTGACCTCCATCCCAGTAATAGCCACGATTATCACGATCGCCTATCTGTAATTTTACTGACGGGACTAACGTAATTTCCGCAGCCTGTGCTGCCATGGGAGCGACCAGAACCAGGGAAAGTGCGAGTACGATAGATTGCATCTTTTTCACAGGTTACTCCTTTTATCATTGCCCGTTATGGGTCGATATCCGGAG


4. Obtenha e imprima a sequência correspondente à transcrição da sequência original.

In [7]:
str(seq).replace("T","U")  ## forma mais dificil ..

'CUCCGGAUAUCGACCCAUAACGGGCAAUGAUAAAAGGAGUAACCUGUGAAAAAGAUGCAAUCUAUCGUACUCGCACUUUCCCUGGUUCUGGUCGCUCCCAUGGCAGCACAGGCUGCGGAAAUUACGUUAGUCCCGUCAGUAAAAUUACAGAUAGGCGAUCGUGAUAAUCGUGGCUAUUACUGGGAUGGAGGUCACUGGCGCGACCACGGCUGGUGGAAACAACAUUAUGAAUGGCGAGGCAAUCGCUGGCACCUACACGGACCGCCGCCACCGCCGCGCCACCAUAAGAAAGCUCCUCAUGAUCAUCACGGCGGUCAUGGUCCAGGCAAACAUCACCGCUAAAUGACAAAUGCCGGGUAACAAUCCGGCAUUCAGCGCCUGAUGC'

In [8]:
seq.transcribe()

Seq('CUCCGGAUAUCGACCCAUAACGGGCAAUGAUAAAAGGAGUAACCUGUGAAAAAG...UGC')

5. Esta sequência representa o gene tendo a zona codificante, mas também alguns pb’s da região regulatória anterior e da região que se segue. Neste caso, o codão start é o “GTG”. Descubra a posição onde se inicia a zona codificante, sabendo que ela corresponde à primeira posição onde ocorre o “GTG” na sequência.

In [9]:
seq.find("GTG")

45

6.a) O codão stop é o “TAA” e está presente nas posições 339 a 341. Verifique esta informação.

In [10]:
seq[339:342]

Seq('TAA')

6.b) Crie uma nova sequência apenas com a zona codificante. 

In [11]:
cds = seq[45:342]
cds

Seq('GTGAAAAAGATGCAATCTATCGTACTCGCACTTTCCCTGGTTCTGGTCGCTCCC...TAA')

6.c) Verifique que a zona codificante tem um comprimento que é múltiplo de 3. Calcule o número de aminoácidos que terá a proteína resultante.

In [12]:
len(cds) % 3 == 0

True

In [13]:
int(len(cds)/3)-1 # remover o stop

98

7.a) Sabendo que se trata de uma bactéria, selecione qual a tabela de tradução mais adequada. Note que as tabelas de tradução estão organizadas num dicionário CodonTable.unambiguous_dna_by_name, onde a chave é a sua designação. Explore o seu conteúdo.

In [14]:
from Bio.Data import CodonTable
list(CodonTable.unambiguous_dna_by_name.keys())

['Standard',
 'SGC0',
 'Vertebrate Mitochondrial',
 'SGC1',
 'Yeast Mitochondrial',
 'SGC2',
 'Mold Mitochondrial',
 'Protozoan Mitochondrial',
 'Coelenterate Mitochondrial',
 'Mycoplasma',
 'Spiroplasma',
 'SGC3',
 'Invertebrate Mitochondrial',
 'SGC4',
 'Ciliate Nuclear',
 'Dasycladacean Nuclear',
 'Hexamita Nuclear',
 'SGC5',
 'Echinoderm Mitochondrial',
 'Flatworm Mitochondrial',
 'SGC8',
 'Euplotid Nuclear',
 'SGC9',
 'Bacterial',
 'Archaeal',
 'Plant Plastid',
 'Alternative Yeast Nuclear',
 'Ascidian Mitochondrial',
 'Alternative Flatworm Mitochondrial',
 'Blepharisma Macronuclear',
 'Chlorophycean Mitochondrial',
 'Trematode Mitochondrial',
 'Scenedesmus obliquus Mitochondrial',
 'Thraustochytrium Mitochondrial',
 'Pterobranchia Mitochondrial',
 'Candidate Division SR1',
 'Gracilibacteria',
 'Pachysolen tannophilus Nuclear',
 'Karyorelict Nuclear',
 'Condylostoma Nuclear',
 'Mesodinium Nuclear',
 'Peritrich Nuclear',
 'Blastocrithidia Nuclear',
 'Balanophoraceae Plastid',
 'Ceph

In [15]:
bact_table = CodonTable.unambiguous_dna_by_name["Bacterial"]
print(bact_table)

Table 11 Bacterial, Archaeal, Plant Plastid

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I(s)| ACT T   | AAT N   | AGT S   | T
A | ATC I(s)| ACC T   | AAC N   | AGC S   | C
A | ATA I(s)| ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V(s)| GCG A   | GAG E   | GGG

7.b) Verifique que nesta tabela o "GTG" faz parte dos codões start.

In [16]:
bact_table.start_codons

['TTG', 'CTG', 'ATT', 'ATC', 'ATA', 'ATG', 'GTG']

7.c) Verifique quais os codões stop.

In [17]:
bact_table.stop_codons

['TAA', 'TAG', 'TGA']

8.a) Usando a tabela selecionada, faça a tradução das sequência. 

In [18]:
cds.translate(table = "Bacterial")

Seq('VKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HR*')

8.b) Verifique que o aminoácido inicial não é o start. Use a opção cds = True para conseguir o resultado correto (esta opção indica que o GTG é codão start e neste caso, em vez da Valina, traduz para Metionina).

In [19]:
prot = cds.translate(table = "Bacterial", cds = True)
prot

Seq('MKKMQSIVLALSLVLVAPMAAQAAEITLVPSVKLQIGDRDNRGYYWDGGHWRDH...HHR')

8.c) Confirme o nº de aminoácidos da proteína.

In [20]:
len(prot)

98

8.d) Verifique que a sequência de aminoácidos não contém stops.

In [21]:
prot.find("*")

-1

9.a) Conte o número de ocorrências dos aminoácidos representados pelas letras K e L.

In [22]:
prot.count("K")

7

In [23]:
prot.count("L")

7

9.b) Quantas vezes ocorre na sequência o aparecimento de duas Alaninas consecutivas.

In [24]:
prot.count("AA")

2

9.c) Calcule o número de ocorrências de cada aminoácido. Qual o aminoácido mais comum na sequência?

In [25]:
d = {}
for aa in prot:
    if aa in d: d[aa] += 1
    else: d[aa] = 1
d

{'M': 3,
 'K': 7,
 'Q': 4,
 'S': 3,
 'I': 3,
 'V': 5,
 'L': 7,
 'A': 7,
 'P': 9,
 'E': 2,
 'T': 1,
 'G': 11,
 'D': 5,
 'R': 7,
 'N': 2,
 'Y': 3,
 'W': 6,
 'H': 13}

In [26]:
list(d.keys()) [list(d.values()).index(max(d.values()))]

'H'