<div style="text-align: center">
    <h1>Operações de Processamento de Sequências</h1>
    <h2>Genoma de <i>Staphylococcus phage 88</i></h2>
</div>

Instalação do "*package*" necessário, Biopython:

In [1]:
# !pip install biopython

"*Import*" de módulos do Biopython, permitindo utilizar funcionalidades específicas da biblioteca:

In [2]:
from Bio import SeqIO
from Bio.Data import CodonTable
from bioinformatica import transformar_seq, analise_seq, analise_orfs_e_prots

Abaixo são apresentadas as tabelas de tradução disponíveis no Biopython, permitindo identificar e escolher a mais adequada ao organismo em estudo.

In [3]:
# print(CodonTable.unambiguous_dna_by_name.keys())

Foi selecionada a **tabela de tradução bacteriana** do Biopython. 
Esta mostrou-se a mais indicada para o estudo do fago, uma vez que o bacteriófagos dependem da maquinaria de tradução da bactéria hospedeira para a síntese das suas proteínas, pelo que normalmente utilizam o mesmo código genético que esta. Assim, na tradução de sequências de um fago, selecciona-se a tabela de tradução bacteriana, a qual reflecte o código genético típico das bactérias. Estudos recentes indicam que, excepcionalmente, alguns bacteriófagos podem apresentar variações neste código, embora tais casos não constituam a norma.

In [4]:
bacterial_table = CodonTable.unambiguous_dna_by_name["Bacterial"]

info = {
    "Tabela de tradução": bacterial_table,
    "Codões de iniciação": bacterial_table.start_codons,
    "Codões de término": bacterial_table.stop_codons
}

for title, content in info.items():
    print(f"\n{title}:")
    print(content)


Tabela de tradução:
Table 11 Bacterial, Archaeal, Plant Plastid

  |  T      |  C      |  A      |  G      |
--+---------+---------+---------+---------+--
T | TTT F   | TCT S   | TAT Y   | TGT C   | T
T | TTC F   | TCC S   | TAC Y   | TGC C   | C
T | TTA L   | TCA S   | TAA Stop| TGA Stop| A
T | TTG L(s)| TCG S   | TAG Stop| TGG W   | G
--+---------+---------+---------+---------+--
C | CTT L   | CCT P   | CAT H   | CGT R   | T
C | CTC L   | CCC P   | CAC H   | CGC R   | C
C | CTA L   | CCA P   | CAA Q   | CGA R   | A
C | CTG L(s)| CCG P   | CAG Q   | CGG R   | G
--+---------+---------+---------+---------+--
A | ATT I(s)| ACT T   | AAT N   | AGT S   | T
A | ATC I(s)| ACC T   | AAC N   | AGC S   | C
A | ATA I(s)| ACA T   | AAA K   | AGA R   | A
A | ATG M(s)| ACG T   | AAG K   | AGG R   | G
--+---------+---------+---------+---------+--
G | GTT V   | GCT A   | GAT D   | GGT G   | T
G | GTC V   | GCC A   | GAC D   | GGC G   | C
G | GTA V   | GCA A   | GAA E   | GGA G   | A
G | GTG V(s)| GC

Leitura da sequência do ficheiro FASTA que contém o genoma completo do __*Staphylococcus phage 88*__

In [5]:
record = SeqIO.read("Sp88_sequence.fna", "fasta")
seq = record.seq

Utilização das funções criadas no ficheiro `bioinformatica.py` para a análise e manipulação da sequência presente no ficheiro FASTA.

In [6]:
transformar_seq(seq, tabela_trad="Bacterial")


Sequência:
GTGGGTAGTTTAATTCTTGCAATTTGAGTCATAACTATTTTCCTCCTTTCACATTTATTGAACGTAGCTCCTGCACAAGATGTAGGGGCATTTTTGTATTTAAATAACTAGAGTAATTAACACAAAGTGGGTGATACATGAAATGAGCGAACTGAATAAACGCCAAAGAACATTCGTTGAGGCTTATGCGATACCTGGAACAGAGTGCTATGGTAATGCTACTAAATCAGCTATTAAAGCTGGATATAAAGAAAGTAGAGCAGAAGTGACGGGGTGTGAGTTAGTAAGAAATAGTAAGATACAGGAATACATTAAAGGGGTCGAGCAAAAGCTTTTTGATGAGCAAATAATGAGTGGTAAAGAAGTTTTGTATCGACTAACAAGAACTGCAAGAGGCGAAACAGTCGAAATTGAACCGGTAGTGACAAAGCAAGGAACTTACAAGATCAATCCCACAACAGGCAAACATAACCTAGTCTATGATGAAGATGTAGAATTGATTGAGAAACCACCGAAGATAAGCGACCAGAACAAAGCCCTTGAATTGCTAGGCAAGCATCACAAGTTATTCACTGATGTACAAGATATGAATGTCAACGGAGTTGTTACGTTTAATGACGATATCAATTAACTTATCTGACTTGCTACCTAAACACTTCCACCCATTGTGGAAAGTAACAAAAGACAAAGAAGTACTTAATGTCGTTGCAAAGGGCGGACGTGGCTCAGGTAAGTCATCAGATATATCAATCATTATTACACAACTTATTATGCGTTATCCGATGAATGCGGTTGTTATACGTAAGACAGATAACACATTAGCTACATCAGTGTTTGAACAAATCAAGTGGGCAATTGAAGAGCAAAAGGTGTCACACTTATTCAAAGTTAAAGTGTCGCCAATGGAAATAACTTATATACCTAGAGGGAACCGTATTATCTTTAGAGGGGCACAGAACCCTGAACGATTGAAGTCGTTAAAAGATAG

In [7]:
analise_seq(seq)

Comprimento da sequência: 25251 nucleótidos
Composição nucleotídica: Counter({'A': 9133, 'T': 6762, 'G': 5321, 'C': 4035})
GC% = 37.05
Codões de início encontrados em: 0 12 21 30 36 57 93 126 171 204 225 243 273 306 495 543 567 636 699 705 720 741 777 786 792 810 834 855 915 960 984 1005 1044 1077 1104 1122 1155 1164 1182 1185 1200 1203 1218 1254 1260 1287 1299 1320 1323 1326 1338 1341 1374 1398 1407 1410 1416 1422 1425 1437 1449 1452 1455 1467 1491 1497 1515 1521 1527 1557 1569 1572 1575 1578 1596 1635 1647 1650 1653 1680 1683 1686 1698 1704 1728 1755 1776 1797 1806 1842 1845 1908 1974 1986 1989 1992 1995 2010 2022 2034 2046 2079 2091 2097 2100 2112 2136 2166 2190 2208 2226 2229 2238 2250 2253 2265 2274 2286 2319 2346 2355 2379 2382 2418 2457 2460 2466 2475 2478 2508 2511 2514 2517 2520 2526 2541 2550 2556 2592 2595 2634 2637 2646 2658 2679 2688 2700 2715 2745 2760 2772 2775 2778 2787 2790 2808 2841 2859 2871 2880 2883 2895 2898 2919 2943 2955 2979 2988 3024 3030 3045 3054 3090 3093 3

A pesquisa pelo motivo **GAATTC** (sítio de reconhecimento da enzima de restrição EcoRI) visa identificar potenciais vulnerabilidades do genoma viral face aos sistemas de restrição-modificação da bactéria hospedeira. A presença deste motivo em genes funcionais constitui um indicador importante da pressão evolutiva exercida pelo hospedeiro e possui relevância prática para futuras estratégias de clonagem e manipulação genética do fago com fins terapêuticos.

In [8]:
analise_orfs_e_prots(seq, tamanho_min=300, tabela_trad="Bacterial", motivo="GAATTC")

ORFs encontrados (início, fim, tamanho_aa): [(3243, 4221, 326), (4908, 5760, 284), (6102, 6417, 105), (7581, 8142, 187), (8550, 9060, 170), (18597, 18990, 131), (23619, 25089, 490), (103, 628, 175), (4321, 4915, 198), (5776, 6103, 109), (6397, 6745, 116), (8161, 8698, 179), (12019, 12982, 321), (16789, 18613, 608), (19192, 19507, 105), (22765, 23170, 135), (590, 1877, 429), (1880, 3302, 474), (6722, 7145, 141), (7157, 7595, 146), (9053, 12032, 993), (12992, 14879, 629), (14882, 16790, 636), (19637, 21518, 627), (21533, 22769, 412), (23162, 23663, 167)]

Proteína ORF1 (Completa): MTEVLTVPNNKKDLTIKNQNDIDEYIDSLISKAEKPIEQLFANRLKEIKQIIADMFEKYQSDNVYVTWTEFNKYNRLNKELTRIGTMLTDDYRQVAKMIQKSQEDAYIEKFLMSLYLYETASQTSMQFDVPSKEVITSAIEQPIEFIRLVPTLQKHRDEVLKKIRLHITQGIMSGEGYSKIAKAIRDDIGMSKAQSLRVARTEAGRAMSQAGLDSALVAQKNGLQMYKYWQATKDTRTRDTHRHLDGAKKRIDEPFKSSGCIGQAPKLFVGVNSAKENINCRCKLMYYIDENDLPSTTRVRKDDGTTEVIPQMTYREWEKYKRKRK
Proteína ORF1 (Até Stop): MTEVLTVPNNKKDLTIKNQNDIDEYIDSLISKAEKPIEQLFANRLKEIKQIIADMFEKYQS