<div style="text-align: center">
    <h1>Operações de Processamento de Sequências</h1>
    <h2>Genes selecionados de <i>Staphylococcus phage 88</i></h2>
</div>

Instalação do "*package*" necessário, Biopython:

In [1]:
# !pip install biopython

"*Import*" de módulos do Biopython, permitindo utilizar funcionalidades específicas da biblioteca:

In [2]:
from Bio import SeqIO
from Bio.Data import CodonTable
from bioinformatica import transformar_seq, analise_seq, analise_orfs_e_prots 

Foi selecionada a **tabela de tradução bacteriana** do Biopython, tal como foi explicado no ficheiro **análise_genoma.ipynb**. 

In [8]:
bacterial_table = CodonTable.unambiguous_dna_by_name["Bacterial"]

Leitura das sequência dos ficheiros FASTA que contêm os genes selecionados do __*Staphylococcus phage 88*__.

- "5133735.fna": **"Endolisina"**
- "5133736.fna": **"Holina"**
- "5133742.fna": **"Tail Fiber Protein"**


In [4]:
fasta_files = ["5133735.fna", "5133736.fna", "5133742.fna"]

Utilização das funções criadas no ficheiro `bioinformatica.py` para a análise e manipulação das sequências presentes nos ficheiros FASTA.

In [5]:
for ficheiro in fasta_files:

    for registro in SeqIO.parse(ficheiro, "fasta"):
        print(f"\nID da Sequência: {registro.id}")
        transformar_seq(registro.seq, tabela_trad="Bacterial")


ID da Sequência: NC_007063.1:23647-25092

Sequência:
ATGCAAGCAAAATTAACTAAAAAAGAGTTTATAGAGTGGTTGAAAACTTCTGAGGGAAAACAATTCAATGTGGACTTATGGTATGGATTTCAATGCTTTGATTATGCCAATGCTGGTTGGAAAGTTTTGTTTGGATTACTTCTGAAAGGTTTAGGTGCAAAAGATATACCATTTGCAAACAATTTCGATGGACTAGCTACTGTATACCAAAATACACCGGACTTTTTGGCACAACCCGGCGACATGGTTGTATTCGGTAGCAATTACGGTGCAGGATACGGACACGTAGCATGGGTAATTGAAGCAACTTTAGATTATATCATTGTATATGAGCAGAATTGGCTAGGCGGTGGCTGGACTGACAGAATCGAACAACCCGGCTGGGGTTGGGAAAAAGTTACAAGACGACAACATGCTTACGATTTCCCTATGTGGTTTATCCGTCCTAACTTCAAAAGCGAAACAGCTCCACGATCAATACAATCTCCTACGCAAGCATCTAAAAAGGAAACAGCTAAGCCACAACCTAAAGCGGTAGAACTTAAAATTATCAAAGATGTGGTTAAAGGTTATGACCTTCCTAAACGTGGTGGTAATCCTAAGGGTATAGTTATTCATAACGACGCAGGAAGCAAAGGGGCAACAGCAGAAGCGTATCGAAACGGATTAGTTAACGCACCTTCATCAAGATTAGAAGCGGGTATTGCGCATAGTTATGTATCAGGTAACACAGTGTGGCAAGCTTTAGATGAATCGCAAGTAGGTTGGCATACTGCTAACCAATTAGGCAATAAATATTATTACGGTATTGAAGTGTGTCAATCAATGGGAGCGGATAATGCGACGTTTTTAAAAAATGAACAGGCGACTTTCCAAGAATGCGCTAGATTGTTGAAAAAATGGGGATTACCAGCAAACAGAAATACAATCAGATTACACAACGAAT

In [6]:
for ficheiro in fasta_files:

    for registro in SeqIO.parse(ficheiro, "fasta"):
        print(f"\nID da Sequência: {registro.id}")
        analise_seq(registro.seq)


ID da Sequência: NC_007063.1:23647-25092
Comprimento da sequência: 1446 nucleótidos
Composição nucleotídica: Counter({'A': 488, 'T': 378, 'G': 323, 'C': 257})
GC% = 40.11
Codões de início encontrados em: 0 30 39 69 126 141 165 225 243 297 318 321 366 429 438 477 546 549 558 606 612 702 732 807 813 825 888 891 927 981 1017 1056 1065 1071 1077 1089 1188 1227 1242 1311 1314 1371 1377 1413 1437
Codões de término encontrados em: 1443

ID da Sequência: NC_007063.1:23229-23666
Comprimento da sequência: 438 nucleótidos
Composição nucleotídica: Counter({'A': 157, 'T': 112, 'G': 85, 'C': 84})
GC% = 38.58
Codões de início encontrados em: 0 6 18 63 66 75 138 141 150 171 180 219 387 429
Codões de término encontrados em: 435

ID da Sequência: NC_007063.1:18616-18993
Comprimento da sequência: 378 nucleótidos
Composição nucleotídica: Counter({'A': 151, 'T': 89, 'G': 78, 'C': 60})
GC% = 36.51
Codões de início encontrados em: 0 6 33 90 96 150 243 255 261 267 276 282 285 291 297 315 330 339
Codões de té

In [7]:
for ficheiro in fasta_files:

    for registro in SeqIO.parse(ficheiro, "fasta"):
        print(f"\nID da Sequência: {registro.id}")
        analise_orfs_e_prots(registro.seq, tamanho_min=90, motivo="GAATTC")


ID da Sequência: NC_007063.1:23647-25092
ORFs encontrados (início, fim, tamanho_aa): [(0, 1443, 481), (43, 142, 33), (196, 286, 30), (346, 535, 63), (895, 1003, 36), (1006, 1234, 76), (101, 257, 52), (887, 995, 36)]

Proteína ORF1 (Completa): MQAKLTKKEFIEWLKTSEGKQFNVDLWYGFQCFDYANAGWKVLFGLLLKGLGAKDIPFANNFDGLATVYQNTPDFLAQPGDMVVFGSNYGAGYGHVAWVIEATLDYIIVYEQNWLGGGWTDRIEQPGWGWEKVTRRQHAYDFPMWFIRPNFKSETAPRSIQSPTQASKKETAKPQPKAVELKIIKDVVKGYDLPKRGGNPKGIVIHNDAGSKGATAEAYRNGLVNAPSSRLEAGIAHSYVSGNTVWQALDESQVGWHTANQLGNKYYYGIEVCQSMGADNATFLKNEQATFQECARLLKKWGLPANRNTIRLHNEFTSTSCPHRSSVLHTGFDPVTRGLLPEDKQLQLKDYFIKQIRVYMDGKIPVATVSNESSASSNTVKPVASAWKRNKYGTYYMEESARFTNGNQPITVRKIGPFLSCPVAYQFQPGGYCDYTEVMLQDGHVWVGYTWEGQRYYLPIRTWNGSAPPNQILGDLWGEIS
Proteína ORF1 (Até Stop): MQAKLTKKEFIEWLKTSEGKQFNVDLWYGFQCFDYANAGWKVLFGLLLKGLGAKDIPFANNFDGLATVYQNTPDFLAQPGDMVVFGSNYGAGYGHVAWVIEATLDYIIVYEQNWLGGGWTDRIEQPGWGWEKVTRRQHAYDFPMWFIRPNFKSETAPRSIQSPTQASKKETAKPQPKAVELKIIKDVVKGYDLPKRGGNPKGIVIHNDAGSKGATAEAYRNGLVNAPSSRLEAGIAHSYVSGNTVWQA