# Alec Campos Aoki
# 15436800

### Tarefa 1: Suspeita de infecção viral
Um menino de 6 anos com tosse leve não produtiva, coriza, dor de garganta e dor de cabeça por 1 semana, de repente desenvolveu febre e erupção cutânea no rosto e tronco. Viagem internacional recente visitando a família na Nigéria. Uma amostra de swab nasofaríngeo foi obtida e enviada para sequenciamento de nucleoproteína viral RT-PCR.

Resultado do PCR:
```
>Suspeita de infecção viral
TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA
````

Use o BLAST e o Biopython para identificar o provável patógeno causador da infecção.

In [1]:
# Instalando Biopython
%pip install biopython

Defaulting to user installation because normal site-packages is not writeable
Collecting biopython
  Downloading biopython-1.85-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (3.2 MB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m4.7 MB/s[0m eta [36m0:00:00[0mm eta [36m0:00:01[0m[36m0:00:01[0m
Installing collected packages: biopython
Successfully installed biopython-1.85
Note: you may need to restart the kernel to use updated packages.


De https://biopython.org/docs/1.75/api/Bio.Blast.NCBIWWW.html: 

### Bio.Blast.NCBIWWW module

Code to invoke the NCBI BLAST server over the internet.

This module provides code to work with the WWW version of BLAST provided by the NCBI

BLAST search using NCBI’s QBLAST server or a cloud service provider.

Vamos buscar a sequência encontrada em um banco de dados do NCBIWWW. Utilizaremos a família de algoritmos BLASTn pois queremos alinhar 2 DNAs.

In [4]:
# Interface com o NCBIWWW
from Bio.Blast import NCBIWWW, NCBIXML

# Sequência
sequencia = "TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA"

# Busca (programa, base de dados, sequencia)
resultadoXML = NCBIWWW.qblast("blastn", "nt", sequencia) # Retorna um XML

# Analisando e passando pra uma lista
resultado = list(NCBIXML.parse(resultadoXML))

In [6]:
# Definindo um e-value e fazendo a busca para sequências menores que ele
E_VALUE = 0.00000000001
quant = 0
for registro in resultado:
    for alinhamento in registro.alignments:
        for hsp in alinhamento.hsps:
            if hsp.expect < E_VALUE:
                print(" ----- Alinhamento -----")
                print(alinhamento.title)
                print(alinhamento.length)
                print("HSP: ", hsp.score)
                print("E-value: ", hsp.expect)
                print(hsp.query[0:100] + "...")
                print(hsp.match[0:100] + "...")
                print(hsp.sbjct[0:100] + "...")
                print()

                quant += 1

 ----- Alinhamento -----
gi|88909500|gb|DQ390227.1| Measles virus strain MVi/Illinois.USA/01.03 genotype D3 nucleoprotein gene, partial cds
456
HSP:  150.0
E-value:  2.83757e-28
TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA...
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||...
TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA...

 ----- Alinhamento -----
gi|162946422|gb|EU293549.1| Measles virus isolate D-CEF, complete genome
15894
HSP:  150.0
E-value:  2.83757e-28
TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA...
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||...
TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATTGCAATGCATACTACTGAGGACA...

 ----- Alinhamento -----
gi|255957512|dbj|AB481088.1| Measles virus genomic RNA, complete genome, strain: T11Ve-23
15894
HSP:  150.0
E-value:  2.83757e-28
TGGCATCCGAACTCGGTATCACTGCCGAGGATGCAAGGCTTGTTTCAGAGATT

Logo, o provável patógeno é a **malária**.

### Tarefa 2: Suspeita de infecção fúngica

Homem de 50 anos, apresentando falta de ar, febre baixa e incapacidade de ficar de pé sem assistência - histórico de diabetes mellitus e insuficiência renal com tratamento recente de hemodiálise em uma unidade de saúde na Índia (visitando a família). Um local de tratamento arteriovenoso parecia infectado. Uma amostra de sangue foi coletada e enviada ao laboratório para um teste de diagnóstico rápido de PCR fúngico.

Resultado do PCR:
```
>Suspeita de infecção fúngica
CAGCGAAATGCGATACGTAGTATGACTTGCAGACGTGAATCATCGAATCTTTGAACGCACATTGCGCCTTGGGGTATTCCCCAAGGCATGCCTGTT 
```

Use o BLAST e o Biopython para identificar o provável patógeno causador da infecção.



In [8]:
# Sequência
sequencia = "CAGCGAAATGCGATACGTAGTATGACTTGCAGACGTGAATCATCGAATCTTTGAACGCACATTGCGCCTTGGGGTATTCCCCAAGGCATGCCTGTT "

# Busca (programa, base de dados, sequencia)
resultadoXML = NCBIWWW.qblast("blastn", "nt", sequencia) # Retorna um XML

# Analisando e passando pra uma lista
resultado = list(NCBIXML.parse(resultadoXML))

In [9]:
# Definindo um e-value e fazendo a busca para sequências menores que ele
E_VALUE = 0.00000000001
quant = 0
for registro in resultado:
    for alinhamento in registro.alignments:
        for hsp in alinhamento.hsps:
            if hsp.expect < E_VALUE:
                print(" ----- Alinhamento -----")
                print(alinhamento.title)
                print(alinhamento.length)
                print("HSP: ", hsp.score)
                print("E-value: ", hsp.expect)
                print(hsp.query[0:100] + "...")
                print(hsp.match[0:100] + "...")
                print(hsp.sbjct[0:100] + "...")
                print()

                quant += 1

 ----- Alinhamento -----
gi|2452721281|gb|OQ600730.1| [Candida] auris strain 2853 internal transcribed spacer 1, partial sequence; 5.8S ribosomal RNA gene and internal transcribed spacer 2, complete sequence; and large subunit ribosomal RNA gene, partial sequence >gi|2452721282|gb|OQ600731.1| [Candida] auris strain 2854 internal transcribed spacer 1, partial sequence; 5.8S ribosomal RNA gene and internal transcribed spacer 2, complete sequence; and large subunit ribosomal RNA gene, partial sequence >gi|2452721283|gb|OQ600732.1| [Candida] auris strain 2855 internal transcribed spacer 1, partial sequence; 5.8S ribosomal RNA gene and internal transcribed spacer 2, complete sequence; and large subunit ribosomal RNA gene, partial sequence
344
HSP:  192.0
E-value:  1.70784e-39
CAGCGAAATGCGATACGTAGTATGACTTGCAGACGTGAATCATCGAATCTTTGAACGCACATTGCGCCTTGGGGTATTCCCCAAGGCATGCCTGTT...
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||...
CAGCGAAATGCGATACGT

Logo, a provável patologia é a **candidíase**.