
# Gustavo Lelli Guirao - NUSP: 11918182

## BLAST com Biopython

Extraído de https://github.com/lanadominkovic/12-days-of-biopython e adaptado da aula de BioPython do professor Ricardo Cerri.

BLAST significa Basic Local Alignment Search Tool. Uma busca BLAST permite que um pesquisador compare uma proteína ou sequência de nucleotídeos (chamada de query) com uma biblioteca ou banco de dados de sequências.

O Biopython fornece o módulo Bio.Blast para acessar o BLAST do NCBI. Você pode executar o BLAST em conexão local ou por conexão com a Internet.

#### Executando consultas na versão online do BLAST

Usamos a função qblast() no módulo Bio.Blast.NCBIWWW para chamar a versão online do BLAST. Ela tem três argumentos não opcionais:

- O primeiro argumento é o programa blast a ser usado para a busca. Atualmente, o qblast só funciona com blastn, blastp, blastx, tblast e tblastx

- O segundo argumento especifica os bancos de dados para pesquisa

- O terceiro argumento é uma string contendo sua sequência (query). Pode ser a sequência em si, a sequência no formato fasta ou um identificador único do NCBI

In [52]:
# Instalando o Biopython
!pip install biopython



In [53]:
# Importando a biblioteca
from Bio.Blast import NCBIWWW

## Tarefa 1: Suspeita de infecção viral

Um menino de 6 anos com tosse leve não produtiva, coriza, dor de garganta e dor de cabeça por 1 semana, de repente desenvolveu febre e erupção cutânea no rosto e tronco. Viagem internacional recente visitando a família na Nigéria. Uma amostra de swab nasofaríngeo foi obtida e enviada para sequenciamento de nucleoproteína viral RT-PCR.

Resultado do PCR:

>Suspeita de infecção viral
TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA

Use o BLAST e o Biopython para identificar o provável patógeno causador da infecção.

In [54]:
# Nossa sequência
query = "TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA"
# Programa
prog = "blastn"
# Banco de dados
db = "nt"

# Monta a busca
result_handle = NCBIWWW.qblast(prog, db, query)

#### Analisando a resposta

In [55]:
# O BLAST gera uma saída no formato XML e precisamos analisá-la!
from Bio.Blast import NCBIXML
blast_records = NCBIXML.parse(result_handle)

In [56]:
# Passa para uma lista
blast_records = list(blast_records)

In [57]:
# Interando em blast_records e usando o conceito de e-value
# O e-value do BLAST é o número de acertos esperados de qualidade semelhante (pontuação) que podem ser encontrados por acaso

E_VALUE_THRESH = 10**(-20) # e-value de proteínas homólogas
count = 0
for record in blast_records:
  for alignment in record.alignments:
    for hsp in alignment.hsps:
      if hsp.expect < E_VALUE_THRESH:
        count += 1
        print("****Alignment****")
        print("sequence:", alignment.title)
        print("length:", alignment.length)
        print("score:",hsp.score)
        print("e-value:", hsp.expect)
        print(hsp.query[0:100] + "...")
        print(hsp.match[0:100] + "...")
        print(hsp.sbjct[0:100] + "...")
        print()

print(f"There are {count} similar sequences in Blast output")

****Alignment****
sequence: gi|610723311|gb|KJ638891.1| Measles virus genotype B3 strain MVs/California.USA/8.14/3[B3] nucleoprotein (N) gene, partial cds >gi|610723319|gb|KJ638895.1| Measles virus genotype B3 strain MVs/California.USA/10.14/[B3] nucleoprotein (N) gene, partial cds >gi|627755747|gb|KJ731837.1| Measles virus genotype B3 strain MVs/California.USA/10.14/4[B3] nucleoprotein (N) gene, partial cds >gi|1068061529|gb|KX833219.1| Measles virus genotype B3 strain MVs/California.USA/10.14/7[B3] nucleoprotein (N) gene, partial cds
length: 450
score: 150.0
e-value: 2.39231e-28
TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA...
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||...
TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA...

****Alignment****
sequence: gi|162946449|gb|EU293552.1| Measles virus isolate D-VII, complete genome
length: 15894
score: 150.0
e-value: 2.39231e-28
TGGCATCCGAACTCGGTATCACTGC

## <b>RESPOSTA:</b>

As maiores correspondências foram com o <i>Measles Virus</i>, também conhecido como sarampo, em que o e-value mais baixo foi de 2.39231<sup>-28</sup>. E, dado que em maio de 2024 houve um [surto de Sarampo na Nigéria](https://www.cnnbrasil\.com.br/internacional/surto-de-sarampo-deixa-ao-menos-42-mortos-na-nigeria/#:~:text=Ao%20menos%2042%20pessoas%20morreram%2C%20em%20pouco%20mais,pelo%20comiss%C3%A1rio%20de%20sa%C3%BAde%20local%20nesta%20sexta-feira%20%283%29) (matéria da CNN), o mais lógico a se concluir é que o menino está de fato com sarampo.

## Tarefa 2: Suspeita de infecção fúngica

Homem de 50 anos, apresentando falta de ar, febre baixa e incapacidade de ficar de pé sem assistência - histórico de diabetes mellitus e insuficiência renal com tratamento recente de hemodiálise em uma unidade de saúde na Índia (visitando a família). Um local de tratamento arteriovenoso parecia infectado. Uma amostra de sangue foi coletada e enviada ao laboratório para um teste de diagnóstico rápido de PCR fúngico.

Resultado do PCR:
>Suspeita de infecção fúngica
CAGCGAAATGCGATACGTAGTATGACTTGCAGACGTGAATCATCGAATCTTTGAACGCACATTGCGCCTTGGGGTATTCCCCAAGGCATGCCTGTT

Use o BLAST e o Biopython para identificar o provável patógeno causador da infecção.

In [58]:
# Nossa sequência
query = "CAGCGAAATGCGATACGTAGTATGACTTGCAGACGTGAATCATCGAATCTTTGAACGCACATTGCGCCTTGGGGTATTCCCCAAGGCATGCCTGTT"
# Programa
prog = "blastn"
# Banco de dados
db = "nt"

# Monta a busca
result_handle = NCBIWWW.qblast(prog, db, query)

In [59]:
# O BLAST gera uma saída no formato XML e precisamos analisá-la!
from Bio.Blast import NCBIXML
blast_records = NCBIXML.parse(result_handle)

In [60]:
# Passa para uma lista
blast_records = list(blast_records)

In [61]:
# Interando em blast_records e usando o conceito de e-value
# O e-value do BLAST é o número de acertos esperados de qualidade semelhante (pontuação) que podem ser encontrados por acaso

E_VALUE_THRESH = 10**(-20) # e-value de proteínas homólogas
count = 0
for record in blast_records:
  for alignment in record.alignments:
    for hsp in alignment.hsps:
      if hsp.expect < E_VALUE_THRESH:
        count += 1
        print("****Alignment****")
        print("sequence:", alignment.title)
        print("length:", alignment.length)
        print("score:",hsp.score)
        print("e-value:", hsp.expect)
        print(hsp.query[0:100] + "...")
        print(hsp.match[0:100] + "...")
        print(hsp.sbjct[0:100] + "...")
        print()

print(f"There are {count} similar sequences in Blast output")

****Alignment****
sequence: gi|2754812781|gb|PP994477.1| Candidozyma auris isolate ICP_CAU_ITS small subunit ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and large subunit ribosomal RNA gene, partial sequence
length: 405
score: 192.0
e-value: 1.43984e-39
CAGCGAAATGCGATACGTAGTATGACTTGCAGACGTGAATCATCGAATCTTTGAACGCACATTGCGCCTTGGGGTATTCCCCAAGGCATGCCTGTT...
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||...
CAGCGAAATGCGATACGTAGTATGACTTGCAGACGTGAATCATCGAATCTTTGAACGCACATTGCGCCTTGGGGTATTCCCCAAGGCATGCCTGTT...

****Alignment****
sequence: gi|2409849026|gb|OP984815.1| [Candida] auris isolate RN180001039 small subunit ribosomal RNA gene, partial sequence; internal transcribed spacer 1, 5.8S ribosomal RNA gene, and internal transcribed spacer 2, complete sequence; and large subunit ribosomal RNA gene, partial sequence
length: 396
score: 192.0
e-valu

## <b>RESPOSTA:</b>

As maiores correspondências foram com o fungo <i>Candidozyma auris</i>, uma espécie descoberta recentemente, em que o e-value mais baixo foi de 1.4384<sup>-39</sup>. E, dado que cerca de [17,5% dos casos de candidemia da Índia são causados por esse fungo](https://repositorio.ul.pt/bitstream/10451/44504/1/Candida_auris.pdf) (<b>Candida auris: Emergência Recente de um Fungo
Patogénico Multirresistente, página 2</b>), o mais lógico a se concluir é que o homem está de fato com esse fungo.