<div style="text-align: center">
    <h1>BioBLAST</h1>
    <h2>BLAST dos genes <i>Staphylococcus phage 88</i></h2>
</div>

In [1]:
from bioinformatica import genbank_features, analisar_blast_xml
from Bio import SeqIO
from Bio.Blast import NCBIWWW

**Extração de Metadados e Sequências**

O processo começa com a utilização da função `genbank_features` para aceder ao registo do genoma completo no NCBI. O código foca-se em três genes específicos identificados pelos seus locus_tags:
- **ST88ORF041**: Proteína da fibra da cauda (tail fiber protein).
- **ST88ORF033**: Holina (holin).
- **ST88ORF006**: Endolisina (endolysin).

O resultado é uma tabela (DataFrame) que organiza informações como o tipo de característica (gene/CDS), as coordenadas genómicas (início e fim) e a sequência de tradução em aminoácidos.
Foi criada uma condição denominada `print_features` de modo a evitar a extensão exagerada do ficheiro. Com "*False*" a função executa o processamento em segundo plano e ocorre apenas uma saída única (uma tabela), com "*True*" a função passa a ser informativa durante a execução imprimindo um relatório detalhado antes da impressão da tabela.

In [2]:
genbank_features(
    email = "pg58816@uminho.pt", 
    accession = "NC_007063", 
    locus_tags = ["ST88ORF033", "ST88ORF006", "ST88ORF041"], 
    print_features = False)

Unnamed: 0,feature_type,start,end,locus_tag,db_xref,codon_start,transl_table,product,protein_id,translation
0,gene,18615,18993,ST88ORF041,GeneID:5133742,,,,,
1,CDS,18615,18993,ST88ORF041,GeneID:5133742,1.0,11.0,tail fiber protein,YP_240692.1,MKITVNDKNEVIGFVNTGGLRNSLDVDDNNVPIKFKEEFEPRKFVF...
2,gene,23228,23666,ST88ORF033,GeneID:5133736,,,,,
3,CDS,23228,23666,ST88ORF033,GeneID:5133736,1.0,11.0,holin,YP_240698.1,MDINWKLRFKNKAVLTGLVGALLLFIKQVTDLFGLDLSTQLNQASA...
4,gene,23646,25092,ST88ORF006,GeneID:5133735,,,,,
5,CDS,23646,25092,ST88ORF006,GeneID:5133735,1.0,11.0,endolysin,YP_240699.1,MQAKLTKKEFIEWLKTSEGKQFNVDLWYGFQCFDYANAGWKVLFGL...


**Execução do BLASTn**

Para cada um dos genes, realiza-se a pesquisa de similaridade utilizando o algoritmo BLASTn na base de dados "nt". O processo é dividido em duas abordagens para cada gene.

- Inicialmente procedemos a um **BLAST geral**, no entanto, nesta primeira pesquisa, observa-se uma elevada prevalência de hits em cromossomas de diferentes estirpes de *"Staphylococcus aureus"*, indicando que estes genes de fago estão frequentemente integrados em genomas bacterianos (profagos);

- Deste modo, e de forma a obter resultados mais diversificados ou focados noutros organismos que não a bactéria hospedeira principal, procedemos a um **BLAST com filtro de taxonomia**. É aplicada uma restrição de busca (entrez_query = "NOT txid1280[Taxonomy ID]") que exclui resultados pertencentes à espécie __*"Staphylococcus aureus"*__ (Taxon ID 1280).


**Resultados**

Através da função `analisar_blast_xml`, os resultados guardados são processados para extrair parâmetros de qualidade:

- **E-value**: Todos os hits selecionados apresentam um valor de $0.0$, indicando uma significância estatística extrema;

- **Identidade**: O número de nucleótidos coincidentes entre a query e o hit;

- **Hits Relevantes**: Após filtrar a espécie principal, o código identifica outros fagos relacionados, como o __*"Staphylococcus phage 7206"*__, __*"Staphylococcus phage Sushi"*__ e __*"Staphylococcus phage phiMR11"*__ (o que comprova a eficácia da aplicação do filtro de taxonomia).

<div style="text-align: center">
    <h2>Lisina</i></h2>
</div>

In [3]:
#record = SeqIO.read("5133735.fna", "fasta")
#sequence = str(record.seq)

#with NCBIWWW.qblast("blastn", "nt", sequence) as result_handle:
#    with open("my_blast_5133735.xml", "w") as out:
#        out.write(result_handle.read())

In [4]:
#analisar_blast_xml(
#    file = "my_blast_5133735.xml", 
#    eval_thresh = 1e-100, 
#    max_hits = 25, 
#    print_seq = False)

In [5]:
record = SeqIO.read("5133735.fna", "fasta")
sequence = str(record.seq)

with NCBIWWW.qblast("blastn", "nt", sequence, entrez_query = "NOT txid1280[Taxonomy ID]") as result_handle:
    with open("my_new_blast_5133735.xml", "w") as out:
        out.write(result_handle.read())

In [6]:
analisar_blast_xml(
    file = "my_new_blast_5133735.xml", 
    eval_thresh = 1e-100, 
    max_hits = 25, 
    print_seq = False)

Consulta: No definition line
Número de alinhamentos: 50

Hit: Staphylococcus phage 7206, complete genome
Accession: PP098624
Comprimento: 44049
Alinhamento 1
E-value: 0.0
Score: 2892.0
Identidade: 1446

Hit: Staphylococcus phage 88, complete genome >gi|62086036|gb|AY954966.1| Staphylococcus phage 88, complete genome
Accession: NC_007063
Comprimento: 43231
Alinhamento 1
E-value: 0.0
Score: 2892.0
Identidade: 1446

Hit: Staphylococcus phage Sushi, complete genome
Accession: ON571632
Comprimento: 43755
Alinhamento 1
E-value: 0.0
Score: 2892.0
Identidade: 1446

Hit: Staphylococcus aureus subsp. aureus Mu50 DNA, complete genome
Accession: BA000017
Comprimento: 2878529
Alinhamento 1
E-value: 0.0
Score: 2887.0
Identidade: 1445

Hit: Staphylococcus phage DSP07, complete genome
Accession: MZ041098
Comprimento: 42483
Alinhamento 1
E-value: 0.0
Score: 2887.0
Identidade: 1445

Hit: Staphylococcus aureus subsp. aureus Mu3 DNA, complete genome
Accession: AP009324
Comprimento: 2880168
Alinhamento 1
E

<div style="text-align: center">
    <h2>Holina</i></h2>
</div>

In [7]:
#record = SeqIO.read("5133736.fna", "fasta")
#sequence = str(record.seq)

#with NCBIWWW.qblast("blastn", "nt", sequence) as result_handle:
#    with open("my_blast_5133736.xml", "w") as out:
#        out.write(result_handle.read())

In [8]:
#analisar_blast_xml(
#    file = "my_blast_5133736.xml", 
#    eval_thresh = 1e-100, 
#    max_hits = 5, 
#    print_seq = False)

In [9]:
record = SeqIO.read("5133736.fna", "fasta")
sequence = str(record.seq)

with NCBIWWW.qblast("blastn", "nt", sequence, entrez_query = "NOT txid1280[Taxonomy ID]") as result_handle:
    with open("my_new_blast_5133736.xml", "w") as out:
        out.write(result_handle.read())

In [10]:
analisar_blast_xml(
    file = "my_new_blast_5133736.xml", 
    eval_thresh = 1e-100, 
    max_hits = 25, 
    print_seq = False)

Consulta: No definition line
Número de alinhamentos: 50

Hit: Staphylococcus sp. FSL W8-0056 chromosome, complete genome
Accession: CP150142
Comprimento: 2818391
Alinhamento 1
E-value: 0.0
Score: 876.0
Identidade: 438

Hit: Staphylococcus phage ASZ22RN, complete genome
Accession: ON513432
Comprimento: 43579
Alinhamento 1
E-value: 0.0
Score: 876.0
Identidade: 438

Hit: Staphylococcus aureus subsp. aureus Tager 104 chromosome, complete genome
Accession: CP012409
Comprimento: 2820837
Alinhamento 1
E-value: 0.0
Score: 876.0
Identidade: 438

Hit: Staphylococcus phage 7206, complete genome
Accession: PP098624
Comprimento: 44049
Alinhamento 1
E-value: 0.0
Score: 876.0
Identidade: 438

Hit: Staphylococcus phage 88, complete genome >gi|62086036|gb|AY954966.1| Staphylococcus phage 88, complete genome
Accession: NC_007063
Comprimento: 43231
Alinhamento 1
E-value: 0.0
Score: 876.0
Identidade: 438

Hit: Staphylococcus phage Henu2 isolate PhiV_005, complete genome
Accession: OP594307
Comprimento: 43

<div style="text-align: center">
    <h2>Fibra Caudal</i></h2>
</div>

In [11]:
#record = SeqIO.read("5133742.fna", "fasta")
#sequence = str(record.seq)

#with NCBIWWW.qblast("blastn", "nt", sequence) as result_handle:
#    with open("my_blast_5133742.xml", "w") as out:
#        out.write(result_handle.read())

In [12]:
#analisar_blast_xml(
#    file = "my_blast_5133742.xml", 
#    eval_thresh = 1e-100, 
#    max_hits = 5, 
#    print_seq = False)

In [13]:
record = SeqIO.read("5133742.fna", "fasta")
sequence = str(record.seq)

with NCBIWWW.qblast("blastn", "nt", sequence, entrez_query = "NOT txid1280[Taxonomy ID]") as result_handle:
    with open("my_new_blast_5133742.xml", "w") as out:
        out.write(result_handle.read())

In [14]:
analisar_blast_xml(
    file = "my_new_blast_5133742.xml", 
    eval_thresh = 1e-100, 
    max_hits = 25, 
    print_seq = False)

Consulta: No definition line
Número de alinhamentos: 50

Hit: Staphylococcus phage 7206, complete genome
Accession: PP098624
Comprimento: 44049
Alinhamento 1
E-value: 0.0
Score: 756.0
Identidade: 378

Hit: Staphylococcus phage 88, complete genome >gi|62086036|gb|AY954966.1| Staphylococcus phage 88, complete genome
Accession: NC_007063
Comprimento: 43231
Alinhamento 1
E-value: 0.0
Score: 756.0
Identidade: 378

Hit: Staphylococcus phage phiJB, complete genome >gi|919049047|gb|KT344895.1| Staphylococcus phage phiJB, complete genome
Accession: NC_028669
Comprimento: 43012
Alinhamento 1
E-value: 0.0
Score: 756.0
Identidade: 378

Hit: Staphylococcus phage 92, complete genome >gi|62086037|gb|AY954967.1| Staphylococcus phage 92, complete genome
Accession: NC_007064
Comprimento: 42431
Alinhamento 1
E-value: 0.0
Score: 756.0
Identidade: 378

Hit: Staphylococcus phage Sushi, complete genome
Accession: ON571632
Comprimento: 43755
Alinhamento 1
E-value: 0.0
Score: 756.0
Identidade: 378

Hit: Staphy