# Implementação de módulos BioPython para a realização de BLAST remoto

Para realizar a **análise de homologias da proteína com recurso ao algoritmo BLAST** foi desenvolvida uma aplicação com recurso ao módulo BLAST do *package* BioPython.

Esta função, à semelhança das outras funções desenvolvidas pelo nosso grupo oferece uma forma fácil e flexível de executar uma análise por BLAST NCBI remotamente e guardar os resultados, se pretendido. 

Neste caso a função, por defeito, recebe um ficheiro com uma sequência de aminoácidos em formato FASTA e executa um *Protein BLAST* remoto contra a base de dados `nr` (non-redundant), recorrendo à [API do BLAST NCBI](https://ncbi.github.io/blast-cloud/dev/api.html) implementada pelo BioPython. 

A função permite todavia permite realizar diferentes tipos de BLAST contra diferentes tipos de bases de dados. Por exemplo, podemos selecionar:

Diferentes tipos de BLAST:

* blastn, 
* blastp, 
* blastx, 
* tblastn, ou
* tblastx

Diferentes bases de dados:

* swiss
* nt
* refseq_rna	
* refseq_protein	
* swissprot
* pdbaa	
* pdbnt

## Função **blast_remoto** aplicada



In [None]:
blast_remoto('HLA-DQA1.fasta', save ='y')

Ao invocar a função supra, é realizado o BLAST que compara a sequência providenciada no ficheiro FASTA, obtida através da aplicação da função **pesquisa_ncbi** feita à base de dados `protein`.

Este ficheiro pode ser processado abaixo com a função **resultado_blast** que permite fazer uma análise dos resultados com diferentes graus de detalhes.

## A função **resultado_blast**

Esta função permite, com diferentes níveis de detalhe, analisar os resultados obtidos ao realizar o BLAST utilizando a função supraindicada. Esta função consome o ficheiro em formato XML gerado pela função **blast_remoto** e processa a informação nele contida devolvendo um conjunto de indicadores sobre a análise BLAST realizada, nomeadamente os parâmetros da análise (base de dados, matriz de substituição, *gap penalties* e número de hits obtidos). 

Esta função serve de passo preparatório para análise dos resultados e a pesquisa de homologias por BLAST a realizar pelas funções seguintes.

Demonstra-se abaixo a invocação desta função:


In [None]:
blast = resultado_blast('blast.xml')

Operação concluída.

PARAMETROS:
Database -  swissprot
Matrix -  BLOSUM62
Gap penalties -  (11, 1)
Número de Hits:  50


Ao analisar o *output* da função podemos verificar que esta análise BLAST foi realizada contra a base de dados `swissprot` utilizando a matriz de substituição `BLOSUM62` tendo sido encontrados 50 sequências candidatas a serem homólogas à sequência em estudo.

## Funções **alinhamentos** e **primeiro_alinhamento**

Este conjunto de funções itera sobre o conjunto de resultados obtidos na aplicação da função **resultados_blast**. Por defeito esta função devolve os `5` primeiros hits obtidos, no entando é possível visualizar um maior número de hits através do parâmetro `num_alinhamentos`. 

Demonstramos abaixo a aplicação desta função para 3 alinhamentos:

In [None]:
alinhamentos(blast, 10)

Alinhamento 1:
Sequence:  sp|P01909.1| RecName: Full=HLA class II histocompatibility antigen, DQ alpha 1 chain; AltName: Full=DC-1 alpha chain; AltName: Full=DC-alpha; AltName: Full=HLA-DCA; AltName: Full=MHC class II DQA1; Flags: Precursor [Homo sapiens]
Accession:  P01909
Definition:  RecName: Full=HLA class II histocompatibility antigen, DQ alpha 1 chain; AltName: Full=DC-1 alpha chain; AltName: Full=DC-alpha; AltName: Full=HLA-DCA; AltName: Full=MHC class II DQA1; Flags: Precursor [Homo sapiens]
E-Value:  1.14403e-164


Alinhamento 2:
Sequence:  sp|P01906.2| RecName: Full=HLA class II histocompatibility antigen, DQ alpha 2 chain; AltName: Full=DX alpha chain; AltName: Full=HLA class II histocompatibility antigen, DQ(6) alpha chain; AltName: Full=HLA-DQA1; AltName: Full=MHC class II DQA2; Flags: Precursor [Homo sapiens]
Accession:  P01906
Definition:  RecName: Full=HLA class II histocompatibility antigen, DQ alpha 2 chain; AltName: Full=DX alpha chain; AltName: Full=HLA class II his

Ao analisar os resultados obtidos pela aplicação do BLAST contra a base de dados da SwissProt, é possível que identificar uma série de possíveis sequências homólogas tanto em *Homo sapiens*, como é o caso do alinhamento número 2 - que identifica o gene HLA-DQA2, como noutras espécies, nomeadamente o gene SLA *Sus scrofa* (javali), RT1 *Rattus norvegicus* (ratazana) e H-2 *Mus musculus* (murganho). 

O primeiro alinhamento obtido é o gene alinhado consigo próprio. Embora este resultado faça sentido do ponte de vista do alinhamento, não é muito útil e é representativo de uma dos pontos fracos da utilização de uma base de dados única (SwissProt neste caso) em vez de uma base mais alargada como é o caso da `nr`.

De forma a aprofundar e comparar estes resultados, foi também realizado um BLAST com recurso à base de dados `nr`, online, para a comparação de resultados.

In [None]:
alinhamentos(blast_nr, 10)

Alinhamento 1:
Sequence:  ref|XP_054185776.1| HLA class II histocompatibility antigen, DQ alpha 1 chain isoform X2 [Homo sapiens] >ref|XP_054185777.1| HLA class II histocompatibility antigen, DQ alpha 1 chain isoform X2 [Homo sapiens] >ref|XP_054187030.1| HLA class II histocompatibility antigen, DQ alpha 1 chain isoform X2 [Homo sapiens] >ref|XP_054187031.1| HLA class II histocompatibility antigen, DQ alpha 1 chain isoform X2 [Homo sapiens] >sp|P01909.1| RecName: Full=HLA class II histocompatibility antigen, DQ alpha 1 chain; AltName: Full=DC-1 alpha chain; AltName: Full=DC-alpha; AltName: Full=HLA-DCA; AltName: Full=MHC class II DQA1; Flags: Precursor [Homo sapiens] >gb|ABM82461.1| major histocompatibility complex, class II, DQ alpha 1 [synthetic construct] >emb|SJX31386.1| unnamed protein product, partial [Human ORFeome Gateway entry vector] >gb|AAB91990.1| MHC class II DC-alpha [Homo sapiens] >gb|AAH08585.1| HLA-DQA1 protein [Homo sapiens] >gb|AAU87989.1| MHC class II antigen [Homo 

Ao analisar os resultados acima obtidos, podemos ver que há uma diferença notória nos resultados obtidos em função da base de dados selecionada. Nos resultados acima reparamos que existe uma quantidade considerável de proteínas homólogas (E-value = 0), todas do complexo principal de histocompatibilidade (MHC). É de notar que o primeiro resultado trata-se de uma isoforma do gene HLA-DQA1. Em termos de abrangência taxonómica, detaca-se a identificação de sequências homólogas para a espécie *Pan troglodytes* (Chimpanzé). 

Em jeito de conclusão, identificam-se sequências homólogas para o gene HLA-DQA1 com o Chimpanzé e possivelmente com o Javali, Murganho e Ratazana, o que poderá ter implicação para estudos experimentais sobre resposta imunitária e a criação de modelos.

Estes resultados servem de base para uma análise mais aprofundanda recorrendo à versão *web* do BLAST e ao alinhamento múltiplo e criação de árvores filogenéticas.

Para análise mais aprofundada sobre domínios conservados e abrangência conservada foi realizado o alinhamento múltiplo e construída a árvore filogenética para a identificação de regiões conservadas e abrangência taxonómica. 

Para os resultados obtidos contra a base de dados `swissprot`, utilizando como parâmetro de seleção o valor de E-Value superior a $2\times10^{-10}$.

As regiões conservadas identificáveis ao observar os resultados do alinhamento múltiplo encontram-se abaixo:

|Pos<sub>i</sub> | Pos<sub>f</sub>|Espécies|
|-|-|-|
|90|156|(*Homo sapiens, Sus scrofa, Rattus norvegicus, Mus musculus, Macaca mulatta, Oryctolagus cuniculus*)|
|159|209|(*Homo sapiens, Sus scrofa, Rattus norvegicus, Mus musculus, Macaca mulatta, Oryctolagus cuniculus*)|

Embora também existam resultados que apontem para a semelhança na espécie *Equus caballus*, não iremos considerar como homóloga pois não há semelhança suficiente.

Abaixo demonstramos a comparação entre as diferentes proteínas para as diferentes espécies.

![](https://ruisousa.me/temp/homologs/hladqa1/swsalign.svg)

No caso dos resultados da base de dados `nr` consideramos toda a sequência como homóloga. 

![](https://ruisousa.me/temp/homologs/hladqa1/nralign.svg)

Para terminar, apresentamos as árvores filogenéticas com base na seleção de alinhamentos efetuada, para o BLAST contra a base de dados `swissprot` e `nr` respetivamente.
A primeira incide sobretudo na diferença entre espécies com maior variedade/grupo taxonómico diferente, salientando a existência dos domínios conservados ao passo que a segunda permite perceber a existência destas sequências homólogas em diferentes espécies da família dos primatas.

### Árvore filogenética para os resultados BLAST com a base de dados `swissprot`


![](https://ruisousa.me/temp/homologs/hladqa1/sws-tree.png)


### Árvore filogenética para os resultados BLAST com a base de dados `nr`


![](https://ruisousa.me/temp/homologs/hladqa1/nr-tree.png)

